Wat is RAG (Retrieval-Augmented Generation)?

RAG combineert een taalmodel met een zoekmachine om nauwkeurigere, actuele antwoorden te geven. Het is de sleuteltechnologie achter AI-systemen die werken met eigen documenten en kennisbanken.

Het probleem dat RAG oplost

Grote taalmodellen zijn krachtig, maar hebben twee fundamentele beperkingen die RAG adresseert:

Kennisgrens: Een model weet alleen wat in zijn trainingsdata stond, tot het moment van afsluiting. GPT-4 weet niets van wat er na zijn trainingsdata is gebeurd. Voor bedrijven die actuele of interne informatie nodig hebben, is dit een dealbreaker.

Hallucinaties: Als een model iets niet weet, verzint het soms een plausibel klinkend antwoord. Dit heet hallucineren. Een klantenservicebot die onjuiste productinformatie geeft, kan ernstige schade veroorzaken.

RAG — Retrieval-Augmented Generation — lost beide problemen op door een externe kennisbron te koppelen aan het taalmodel.

Hoe werkt RAG stap voor stap?

Fase 1: Indexering (offline)

Voordat RAG kan worden gebruikt, moeten de brondocumenten worden geïndexeerd:

Documenten verzamelen: PDF’s, Word-bestanden, webpagina’s, databases — alle relevante kennisbronnen
Chunken: Documenten worden opgesplitst in behapbare stukken (“chunks”) van typisch 500–1.000 tekens. De chunkgrootte is een kritieke parameter — te klein verliest context; te groot verliest precisie.
Embedden: Elk chunk wordt omgezet naar een vector embedding — een lijst van honderden getallen die de semantische betekenis van de tekst vastlegt. Vergelijkbare teksten hebben vergelijkbare vectoren.
Opslaan in vector store: De vectoren worden opgeslagen in een gespecialiseerde database (Pinecone, Weaviate, Chroma, pgvector) die razendsnel semantische zoekopdrachten uitvoert.

Fase 2: Retrieval (online, bij elke query)

Query embedden: De vraag van de gebruiker wordt ook omgezet naar een vector embedding
Semantisch zoeken: De vector store zoekt de chunks waarvan de vector het meest lijkt op de query-vector (cosinus-similariteit)
Top-k ophalen: De k meest relevante chunks (typisch 3–10) worden opgehaald

Fase 3: Generatie

Context samenstellen: De opgehaalde chunks worden als context toegevoegd aan de prompt
Taalmodel genereert: Het model beantwoordt de vraag op basis van zowel zijn trainingskennis als de aangeboden context
Bronvermelding: Optioneel worden de gebruikte bronnen vermeld, zodat de gebruiker kan verifiëren

Embeddings: het hart van RAG

Embeddings zijn wiskundige representaties van tekst in een hoog-dimensionele ruimte. Semantisch vergelijkbare teksten — ook al gebruiken ze andere woorden — liggen dicht bij elkaar in die ruimte.

Voorbeeld: “de dokter schrijft een recept voor” en “de arts maakt een voorschrift” hebben hoge cosinus-similariteit, ook al zijn er geen woorden gelijk.

Populaire embedding-modellen:

OpenAI text-embedding-3-large: 3.072 dimensies, hoge kwaliteit, betaald
Cohere Embed v3: Uitstekend voor meertalige toepassingen
Sentence-BERT: Open source, goed voor Nederlandse tekst
BGE-large: State-of-the-art open source, gratis

Geavanceerde RAG-technieken

Hybrid search

Combineert vector search (semantisch) met BM25 (trefwoord-gebaseerd). Vector search vindt conceptueel vergelijkbare content; BM25 vindt exacte overeenkomsten. Hybrid search combineert beide voor betere resultaten, met name bij technisch jargon en eigennamen.

Re-ranking

Na de eerste retrieval worden de resultaten opnieuw gerangschikt door een krachtiger (maar trager) re-ranking model. Cross-encoder re-rankers geven significant betere relevantie-scores dan simpele cosinus-similariteit.

Contextual compression

Opgehaalde chunks worden samengevat of gefilterd om alleen de relevante passages te behouden. Reduceert de contextlengte en verhoogt de signaaldichtheid.

Query expansion

De originele vraag wordt uitgebreid met synoniemen of gerelateerde termen voor betere recall. Soms genereert het LLM zelf meerdere herformuleringsvan de query.

HyDE (Hypothetical Document Embeddings)

Het LLM genereert eerst een hypothetisch antwoord, dan wordt dat geëmbed en gebruikt voor retrieval. Werkt verrassend goed omdat het antwoord semantisch dichter bij relevante chunks ligt dan de vraag.

Parent document retrieval

Kleine chunks worden geïndexeerd voor precisie, maar bij retrieval wordt het grotere parent-document teruggegeven voor meer context. Combineert de sterktes van kleine en grote chunks.

RAG vs. fine-tuning: wanneer wat?

Criterium	RAG	Fine-tuning
Actuele/veranderende kennis	Uitstekend	Slecht (vereist hertraining)
Bronvermelding	Ingebakken	Moeilijk
Domein-specifieke stijl/toon	Matig	Uitstekend
Consistentie	Afhankelijk van retrieval	Hoog
Implementatiekosten	Gemiddeld	Hoog
Doorlooptijd	Dagen	Weken
Privacygevoelige data	On-premise mogelijk	Vereist training op die data

In de praktijk worden RAG en fine-tuning vaak gecombineerd: een fine-tuned model voor stijl en domeinkennis, aangevuld met RAG voor actuele feiten.

RAG in de praktijk: toepassingen

Klantenservice

Een RAG-chatbot die werkt met producthandleidingen, FAQ’s en supporttickets geeft nauwkeurige, actuele antwoorden en citeert de relevante documentatie. De containmentrate (vragen die zonder menselijke tussenkomst worden opgelost) stijgt significant.

Juridische analyse

Advocatenkantoren bouwen RAG-systemen op hun contractendatabase. Juristen kunnen in gewone taal vragen stellen: “Welke contracten bevatten een force majeure-clausule die ook epidemieën dekt?”

Interne kennisbank

Medewerkers kunnen in gewone taal de interne wiki, beleidshandboeken en notulen doorzoeken: “Wat is het beleid voor reiskostenvergoeding voor internationale reizen?”

Medische beslissingsondersteuning

Artsen kunnen actuele klinische richtlijnen, geneesmiddel-interacties en recente literatuur raadplegen via een RAG-systeem dat altijd de meest actuele bronnen gebruikt.

Uitdagingen en valkuilen

Slechte chunking: Als een antwoord over meerdere chunks verdeeld is, kan het model het verband missen
Verouderde index: Als documenten worden bijgewerkt maar de index niet, geeft het systeem oude informatie
Out-of-scope vragen: Als de vraag buiten de kennisbank valt, moet het systeem dit erkennen in plaats van te hallucineren
Schaling: Met miljoenen documenten worden latentie en kosten een uitdaging
Taalgrens: Meertalige kennisbanken vereisen meertalige embeddings

Tools en frameworks

LangChain: Het meest gebruikte RAG-framework. Uitgebreide documentatie, grote community
LlamaIndex: Gespecialiseerd in document-ingestion en geavanceerde RAG-patronen
Haystack: Open source, sterk voor productie-RAG-pipelines
Microsoft Azure AI Search: Managed service met ingebouwde hybrid search
Vertex AI Search: Google’s managed RAG-oplossing

De toekomst van RAG

Naarmate contextvensters groter worden (Gemini 2.5 Pro: 2 miljoen tokens), rijst de vraag: wordt RAG overbodig? Het antwoord is nee. Grote contextvensters zijn duur en langzaam. RAG filtert vooraf de meest relevante informatie, waardoor de kwaliteit hoger en de kosten lager blijven. In hybride vorm — RAG + grote context — zijn de beste resultaten te bereiken.

Auteur: Claude claude-sonnet-4-6