Wat is een transformer-architectuur?

De transformer is de architectuur achter vrijwel alle moderne AI-taalmodellen. Dit diepgaande artikel legt uit hoe het werkt, waarom het zo revolutionair was en welke varianten er bestaan.

De architectuur die alles veranderde

In juni 2017 publiceerden acht Google-onderzoekers een paper met de bescheiden titel “Attention is All You Need”. Ze introduceerden een nieuwe neurale netwerkarchitectuur: de transformer. Acht jaar later is vrijwel elk invloedrijk AI-model — GPT-4, Claude, Gemini, Llama, DeepSeek — gebouwd op deze fundamenten. Het is misschien het meest invloedrijke wetenschappelijke paper van het afgelopen decennium.

Maar wat is een transformer precies, en waarom is het zo anders?

Het probleem met eerdere architecturen

Tot 2017 werd tekst verwerkt door Recurrent Neural Networks (RNNs) en hun verbeterde variant, LSTMs (Long Short-Term Memory). Deze netwerken verwerken tekst sequentiël: woord voor woord, van links naar rechts.

Dit had twee grote nadelen:

1. Vergeetachtigheid over lange afstanden: RNNs hadden moeite het verband te bewaren tussen woorden die ver uit elkaar stonden. Het subject aan het begin van een lange zin werd deels vergeten door de tijd het einde werd bereikt.

2. Niet paralleliseerbaar: Omdat elk woord wordt verwerkt na het vorige, kan de berekening niet worden verdeeld over meerdere processors. Training op grote datasets duurde enorm lang.

Het kernmechanisme: self-attention

De transformer vervangt sequentiële verwerking door een revolutionair alternatief: self-attention (zelf-aandacht).

Intuitiëe

Stel je de zin voor: “De bank zat vol bladeren na de storm.” Om ‘bank’ goed te begrijpen (een bankje in een park, niet een financiële instelling), moeten we naar ‘bladeren’ en ‘storm’ kijken. Self-attention doet precies dat: elk woord kijkt naar elk ander woord in de zin en bepaalt hoe relevant elk is voor het begrijpen van z’n eigen betekenis.

Query, Key en Value

Elk woord (token) in de zin wordt omgezet naar drie vectoren:

Query (Q): “Wat zoek ik?” — de vraag die dit woord stelt
Key (K): “Wat ben ik?” — de beschrijving van dit woord voor andere woorden
Value (V): “Wat geef ik?” — de informatie die dit woord levert als het relevant is

De attention-score tussen twee woorden wordt berekend als het inproduct van de Query van het ene woord met de Key van het andere. Hogere score = meer aandacht. De scores worden genormaliseerd (softmax) en gebruikt om de Values te wegen. Het resultaat voor elk woord is een gewogen gemiddelde van alle Values — een rijkere representatie die de context van de hele zin incorporeert.

Multi-head attention

In plaats van één attention-berekening voert de transformer meerdere parallel uit (“heads”). Elk head leert een ander type relatie: grammaticale afhankelijkheden, semantische samenhang, co-referentie (“het” verwijst naar “de auto”). De outputs van alle heads worden gecombineerd.

De volledige transformer-architectuur

Embeddings en positionele codering

Tekst wordt eerst omgezet naar token embeddings — dense vectorrepresentaties. Maar in tegenstelling tot RNNs heeft de transformer geen ingebakken begrip van volgorde. Daarom wordt een positionele codering toegevoegd: wiskundige sinusoiëdale patronen die uniek zijn voor elke positie. Het model leert zo dat “ik zie de hond” anders is dan “de hond ziet mij”.

Encoder en decoder

De originele transformer voor vertaling had twee componenten:

Encoder: Verwerkt de invoertekst (bv. Nederlands) naar rijke representaties via meerdere self-attention layers
Decoder: Genereert de uitvoertekst (bv. Engels) token voor token. Gebruikt masked self-attention (kan alleen naar eerder gegenereerde tokens kijken) en cross-attention naar de encoder-representaties

Feed-forward netwerken

Na elke attention-laag volgt een volledig verbonden feed-forward netwerk — twee lineaire transformaties met een activatiefunctie ertussen. Dit voegt niet-lineariteit toe en laat het netwerk complexere functies leren.

Layer normalization en residual connections

Elke sub-laag (attention of feed-forward) heeft een residual connection: de invoer wordt direct opgeteld bij de uitvoer. Dit voorkomt het verdwijnen van gradienten bij diepe netwerken. Layer normalization stabiliseert de activaties tussen lagen.

Drie families van transformers

Encoder-only: BERT en varianten

BERT (Google, 2018) gebruikt alleen de encoder. Getraind via masked language modeling: verstop willekeurige woorden en voorspel ze op basis van context. Ideaal voor begrijpen (classificatie, vraagbeantwoording, sentimentanalyse). Verwerkt de volledige zin tegelijkertijd.

Varianten: RoBERTa, ALBERT, DeBERTa, DistilBERT (kleiner/sneller).

Decoder-only: GPT en varianten

GPT (OpenAI, 2018 ev.) gebruikt alleen de decoder. Getraind via autoregressive language modeling: voorspel het volgende token gegeven alle vorige tokens. Ideaal voor generatie (tekst schrijven, code genereren, converseren). Dit is de architectuur achter GPT-4, Claude, Llama, Mistral en vrijwel alle moderne chat-AI.

Kenmerk: causale masking — elk token kan alleen de vorige tokens zien, nooit de toekomstige.

Encoder-decoder: T5, BART en Seq2Seq modellen

Combineert beide. Getraind op taken waarbij invoer en uitvoer beide tekst zijn maar structureel anders: vertaling, samenvatten, vraagbeantwoording. T5 (Google) framed alle NLP-taken als tekst-naar-tekst problemen. BART combineert de trainingsstijlen van BERT en GPT.

Waarom is de transformer zo schaalbaar?

De doorbraak van de transformer ligt niet alleen in de kwaliteit, maar in de schaalbaarheid:

Paralleliseerbaar: Alle posities worden tegelijkertijd verwerkt, niet sequentiël. Een cluster van duizend GPU’s kan efficiënt samenwerken.
Scaling laws: Empirisch onderzoek (Kaplan et al., 2020) toonde aan dat transformer-prestaties voorspelbaar verbeteren met meer parameters en data. Dit creaties een routekaart voor investering.
Emergent abilities: Bij voldoende schaal tonen transformers spontaan nieuwe vaardigheden die niet expliciet getraind werden (in-context learning, chain-of-thought redeneren).

Dit alles maakte de wedloop naar steeds grotere modellen rationeel: GPT-3 (175B), GPT-4 (˜1T), Claude 3, Gemini Ultra.

Recente innovaties op de basis

Flash Attention

Een algoritme dat de memory-inefficiëntie van standaard attention verhelpt door de berekening te herstructureren. Maakt langere contextvensters computationeel haalbaar. Standaard in alle moderne LLM-implementaties.

Rotary Position Embedding (RoPE)

Verbeterde positionele codering die generalisatie naar langere contexten mogelijk maakt. Gebruikt in Llama, Mistral en andere moderne open-source modellen.

Mixture of Experts (MoE)

In plaats van alle parameters te activeren per token, activeert MoE slechts een klein subnetwerk (“experts”). GPT-4 en Mistral’s Mixtral gebruiken dit principe: enorme totale parametercount, maar efficiënte inference omdat alleen een fractie actief is.

Sparse attention

Standaard attention heeft O(n²) complexiteit — bij lange teksten wordt dit erg duur. Sparse attention-varianten (Longformer, BigBird) reduceren dit naar O(n) door alleen relevante token-paren te berekenen.

De impact op de AI-wereld

De transformer heeft niet alleen taalmodellen revolutioneerd. Dezelfde architectuur wordt nu toegepast op:

Beeldherkenning: Vision Transformer (ViT) vervangt convolutional networks voor veel taken
Eiwitstructuur: AlphaFold 2 gebruikt transformers voor eiwitvouwing
Muziek: MusicLM, AudioCraft genereren muziek via audio-transformers
Video: Sora en andere videogeneratiemodellen gebruiken spatio-temporele transformers
Wetenschap: AlphaGeometry, AlphaCode, wetenschappelijke redeneermodellen

De transformer is uitgegroeid van een vertaalmodel tot de universele architectuur voor AI-taken die taal, beeld, geluid of welke sequentie dan ook vereisen.

Auteur: Claude claude-sonnet-4-6