Hoe werkt een neuraal netwerk?

Neurale netwerken vormen de basis van moderne AI. In dit artikel leggen we uitgebreid uit hoe ze zijn opgebouwd, hoe ze leren, welke soorten er zijn en waarom ze zo krachtig zijn geworden.

De inspiratie: het menselijk brein

Een kunstmatig neuraal netwerk is losjes geïnspireerd op de werking van biologische neuronen in de hersenen. De menselijke hersenen bevatten circa 86 miljard neuronen, elk verbonden met duizenden andere via synapsen. Wanneer een neuron genoeg prikkels ontvangt, “vuurt” het — het stuurt een signaal door naar verbonden neuronen.

Kunstmatige neurale netwerken bootsen dit principe na, maar zijn wiskundige abstracties, geen exacte kopieën. Het zijn systemen van getallen, functies en verbindingen die patronen leren herkennen uit data.

De bouwstenen: neuronen, gewichten en lagen

Het kunstmatige neuron

Een kunstmatig neuron ontvangt meerdere invoerwaarden, vermenigvuldigt elk met een gewicht (weight), telt alles op, voegt een bias toe en past een activatiefunctie toe op het resultaat. De uitvoer is één getal dat doorgaat naar de volgende laag.

Wiskundig: uitvoer = activatie(Σ(invoerᵢ × gewichtᵢ) + bias)

Lagen

Neuronen zijn georganiseerd in lagen:

Invoerlaag (input layer) — ontvangt de ruwe data. Bij een afbeelding van 28×28 pixels zijn dat 784 invoerneuronen — één per pixel.
Verborgen lagen (hidden layers) — verwerken de data. Elk neuron leert een specifiek patroon te herkennen. Vroege lagen herkennen eenvoudige patronen (randen, texturen); diepere lagen complexere concepten (vormen, gezichten, objecten).
Uitvoerlaag (output layer) — produceert het eindresultaat. Voor beeldclassificatie met 10 categorieën zijn dat 10 uitvoerneuronen; het neuron met de hoogste waarde wint.

Gewichten en verbindingen

Elke verbinding tussen twee neuronen heeft een gewicht. Dit gewicht bepaalt hoe sterk de invloed is. Een gewicht van 0 betekent geen invloed; een groot positief gewicht versterkt het signaal; een negatief gewicht verzwakt of keert het om.

Het leren van een neuraal netwerk bestaat grotendeels uit het vinden van de juiste gewichten. Een netwerk met miljoenen parameters heeft miljoenen gewichten die allemaal precies goed moeten worden afgesteld.

Activatiefuncties: de niet-lineariteit

Zonder activatiefuncties zou een neuraal netwerk — hoe diep ook — equivalent zijn aan één lineaire functie. Dat is fundamenteel te beperkt voor complexe taken. Activatiefuncties voegen niet-lineariteit toe, waardoor het netwerk complexe patronen kan modelleren.

De meest gebruikte activatiefuncties:

ReLU (Rectified Linear Unit): max(0, x) — alles onder 0 wordt 0, alles daarboven blijft ongewijzigd. Eenvoudig, efficiënt, de standaard in diepe netwerken.
Sigmoid: perst output naar 0–1. Wordt gebruikt in uitvoerlagen voor binaire classificatie.
Softmax: converteert uitvoerwaarden naar kansen die optellen tot 1. Standaard voor meerklas-classificatie.
GELU: een verzachte variant van ReLU, populair in transformer-modellen zoals GPT en Claude.

Het leerproces: forward pass en backpropagation

Forward pass

Bij de forward pass stroomt data van links naar rechts door het netwerk. Elke laag berekent z’n uitvoer op basis van de invoer van de vorige laag. Het eindresultaat is een voorspelling.

Verliesfunctie (loss function)

De verliesfunctie meet hoe ver de voorspelling afwijkt van de juiste uitkomst. Voor classificatie is cross-entropy loss standaard; voor regressie mean squared error. Het doel van training: de verliesfunctie minimaliseren.

Backpropagation

Backpropagation (terugpropagatie) is het algoritme dat berekent hoe elk gewicht bijdraagt aan de fout. Het werkt de keten van afleidingen terug: van de uitvoer naar de invoer. Elk gewicht krijgt een gradient: een getal dat aangeeft in welke richting en hoeveel het moet worden aangepast.

Gradient descent

Na backpropagation worden alle gewichten iets aangepast in de richting die de fout verkleint. De learning rate bepaalt hoe groot die stap is — te groot leidt tot instabiliteit; te klein tot een tergend langzame training. Adam is de meest gebruikte optimizer, die de learning rate per gewicht automatisch aanpast.

Dit proces wordt honderdduizenden tot miljoenen keren herhaald op batches van trainingsdata.

Soorten neurale netwerken

Feedforward netwerken (MLP)

De eenvoudigste vorm: data stroomt één richting. Goed voor gestructureerde tabellaire data.

Convolutional Neural Networks (CNN)

Gespecialiseerd voor beeldverwerking. Gebruikt convolutie-filters die over de afbeelding schuiven en lokale patronen detecteren. Hierdoor hoeven niet alle pixels met alle neuronen verbonden te zijn — veel efficiënter. Revolutionair voor beeldclassificatie, gezichtsherkenning, medische diagnose.

Recurrent Neural Networks (RNN/LSTM)

Verwerkt sequentiële data (tekst, tijdreeksen) door geheugen van vorige stappen mee te nemen. LSTM (Long Short-Term Memory) lost het probleem op dat vroege RNNs vergaten wat ver terug was. Voor 2017 de standaard voor vertaling en spraakherkenning; nu grotendeels vervangen door transformers.

Transformer-netwerken

De architectuur achter vrijwel alle moderne LLMs (GPT, Claude, Gemini). Kernmechanisme: self-attention, waardoor elk element in een sequentie direct met elk ander element interageert. Volledig paralleliseerbaar — wat de training van enorme modellen mogelijk maakt. Zie ook: Wat is een transformer-architectuur?

Generative Adversarial Networks (GAN)

Twee netwerken in competitie: een generator maakt nep-data; een discriminator probeert nep van echt te onderscheiden. Door dit spel worden de gegenereerde beelden steeds realistischer. De technologie achter deepfakes en vroege AI-kunstgeneratoren.

Diffusiemodellen

De huidige standaard voor beeldgeneratie (Stable Diffusion, DALL·E, Midjourney). Leren door geleidelijk ruis aan afbeeldingen toe te voegen en vervolgens het omgekeerde te leren: ruis omzetten naar coherente beelden.

Hyperparameters: wat de ontwerper kiest

Naast de gewichten (die worden geleerd) zijn er hyperparameters die de ontwerper instelt:

Aantal lagen — meer lagen = meer abstractie-niveaus
Aantal neuronen per laag — meer neuronen = meer capaciteit, maar ook meer risico op overfit
Learning rate — te groot = instabiel; te klein = traag
Batch size — hoeveel voorbeelden per update
Dropout rate — percentage neuronen dat per stap tijdelijk wordt uitgeschakeld (regularisatie)
Epochs — hoe vaak het volledige trainingsset wordt doorlopen

Overfitting en regularisatie

Overfitting treedt op wanneer een netwerk de trainingsdata zo goed leert dat het slecht generaliseert naar nieuwe data. Het netwerk memoriseert in plaats van te leren. Tekens van overfitting: train-accuracy hoog, test-accuracy laag.

Technieken om overfitting te voorkomen:

Dropout: zet willekeurig neuronen uit tijdens training
L2-regularisatie: straf grote gewichten in de verliesfunctie
Data augmentation: vergroot trainingsset kunstmatig (flippen, roteren van afbeeldingen)
Early stopping: stop training zodra validatiefout niet meer daalt
Meer data: de meest effectieve maar duurste oplossing

Van theorie naar praktijk: populaire frameworks

Neurale netwerken bouwen en trainen doe je tegenwoordig via frameworks die de wiskundige details abstraheren:

PyTorch: de standaard in onderzoek. Flexibel, Pythonic, uitstekend voor experimenten.
TensorFlow/Keras: populair in productieomgevingen. Keras biedt een gebruiksvriendelijke API bovenop TensorFlow.
JAX: Google’s framework, efficiënt op TPUs, populair bij geavanceerd ML-onderzoek.
ONNX: standaard voor het exporteren en distribueren van getrainde modellen.

Schaling: waarom grotere netwerken beter werken

Een opmerkelijk empirisch fenomeen: grotere netwerken op meer data presteren consequent beter. Dit wordt beschreven door scaling laws. GPT-2 had 1,5 miljard parameters; GPT-4 naar schatting 1 biljoen. De prestaties stegen mee — in sommige gevallen met kwalitatieve sprongen (“emergent abilities”) die niemand voorspeld had.

Dit heeft geleid tot een wedloop naar steeds grotere modellen, getraind op steeds meer data — met alle energie- en kostengevolgen van dien.

Auteur: Claude claude-sonnet-4-6