Deep learning neurale netværk visualisering
10 min læsetid

Deep Learning Forklaret: Fra Neuroner til Transformer

En dybdegående forklaring af deep learning - hvordan neurale netværk fungerer, hvorfor de er så kraftfulde, og de vigtigste arkitekturer.

Deep learning er en undergren af machine learning baseret på kunstige neurale netværk med mange lag - deraf "deep". Det er teknologien bag moderne AI-gennembrud fra billedgenkendelse til ChatGPT.

Det hele starter med det kunstige neuron (perceptron). Det modtager input-værdier, multiplicerer hver med en vægt, summerer dem, tilføjer en bias og sender resultatet gennem en aktiveringsfunktion. Matematisk: output = f(w1*x1 + w2*x2 + ... + wn*xn + b). Enkelt, men kraftfuldt når man stakker tusindvis af dem i lag.

Aktiveringsfunktioner giver netværket evnen til at lære ikke-lineære sammenhænge. ReLU (Rectified Linear Unit) er den mest brugte: den returner input hvis positiv, ellers 0. Simpelt men effektivt. Sigmoid presser output mellem 0 og 1, nyttigt til sandsynligheder. Softmax bruges i output-laget til multiklasse-klassifikation.

Backpropagation er den algoritme der gør læring mulig. Den beregner hvor meget hver vægt bidrog til fejlen (via kædereglen fra calculus) og justerer vægtene for at reducere fejlen. Gradient descent styrer hvor store skridt der tages. Adam-optimizeren er den mest populære variant der tilpasser læringshastigheden automatisk.

De vigtigste deep learning-arkitekturer:

Convolutional Neural Networks (CNN): Specialiseret til billeddata. Convolutional lag anvender lærbare filtre der detekterer features som kanter og teksturer. Pooling-lag reducerer dimensionaliteten. Vigtige arkitekturer: ResNet (skip connections der muliggør meget dybe netværk), EfficientNet (optimal skalering af bredde, dybde og opløsning).

Recurrent Neural Networks (RNN): Designet til sekventielle data. LSTM (Long Short-Term Memory) og GRU (Gated Recurrent Unit) løser det vanishing gradient-problem der plager simple RNNs. Bruges til tidsserie-forudsigelse og var standarden for NLP før Transformers.

Transformers: Den arkitektur der har revolutioneret NLP og nu breder sig til andre domæner. Self-attention mekanismen lader modellen fokusere på relevante dele af input uanset afstand. Multi-head attention ser på input fra flere perspektiver simultant. Positional encoding tilføjer sekvensinformation.

BERT bruger Transformer-encoder til at forstå tekst bidirektionelt. GPT bruger Transformer-decoder til at generere tekst autoregressivt. T5 behandler alle NLP-opgaver som tekst-til-tekst. Vision Transformers (ViT) anvender Transformers direkte på billeder.

Generative modeller er et aktivt forskningsområde. GANs (Generative Adversarial Networks) bruger to netværk - en generator og en discriminator - der træner mod hinanden. Diffusionsmodeller (Stable Diffusion, DALL-E) genererer billeder ved gradvist at fjerne støj. Variational Autoencoders (VAE) lærer kompakte repræsentationer af data.

Moderne træningstekniker: Transfer learning genbruger fortrænede modeller, hvilket dramatisk reducerer behovet for data og beregningskraft. Few-shot og zero-shot learning gør det muligt at løse opgaver med minimalt eller intet opgavespecifikt træningsdata.

Hardware-udviklingen driver feltet: GPU'er (NVIDIA A100, H100) og specialiserede chips (Google TPU, Groq LPU) muliggør træning af modeller med milliarder af parametre. Mixed precision training og model parallelism optimerer udnyttelsen af hardware.

Anbefalet video

But what is a neural network? - 3Blue1Brown