Wat is RAG (Retrieval-Augmented Generation)?
RAG combineert een taalmodel met een zoekmachine om nauwkeurigere, actuele antwoorden te geven. Het is de sleuteltechnologie achter AI-systemen die werken met eigen documenten en kennisbanken.
Het probleem dat RAG oplost
Grote taalmodellen zijn krachtig, maar hebben twee fundamentele beperkingen die RAG adresseert:
Kennisgrens: Een model weet alleen wat in zijn trainingsdata stond, tot het moment van afsluiting. GPT-4 weet niets van wat er na zijn trainingsdata is gebeurd. Voor bedrijven die actuele of interne informatie nodig hebben, is dit een dealbreaker.
Hallucinaties: Als een model iets niet weet, verzint het soms een plausibel klinkend antwoord. Dit heet hallucineren. Een klantenservicebot die onjuiste productinformatie geeft, kan ernstige schade veroorzaken.
RAG — Retrieval-Augmented Generation — lost beide problemen op door een externe kennisbron te koppelen aan het taalmodel.
Hoe werkt RAG stap voor stap?
Fase 1: Indexering (offline)
Voordat RAG kan worden gebruikt, moeten de brondocumenten worden geïndexeerd:
- Documenten verzamelen: PDF’s, Word-bestanden, webpagina’s, databases — alle relevante kennisbronnen
- Chunken: Documenten worden opgesplitst in behapbare stukken (“chunks”) van typisch 500–1.000 tekens. De chunkgrootte is een kritieke parameter — te klein verliest context; te groot verliest precisie.
- Embedden: Elk chunk wordt omgezet naar een vector embedding — een lijst van honderden getallen die de semantische betekenis van de tekst vastlegt. Vergelijkbare teksten hebben vergelijkbare vectoren.
- Opslaan in vector store: De vectoren worden opgeslagen in een gespecialiseerde database (Pinecone, Weaviate, Chroma, pgvector) die razendsnel semantische zoekopdrachten uitvoert.
Fase 2: Retrieval (online, bij elke query)
- Query embedden: De vraag van de gebruiker wordt ook omgezet naar een vector embedding
- Semantisch zoeken: De vector store zoekt de chunks waarvan de vector het meest lijkt op de query-vector (cosinus-similariteit)
- Top-k ophalen: De k meest relevante chunks (typisch 3–10) worden opgehaald
Fase 3: Generatie
- Context samenstellen: De opgehaalde chunks worden als context toegevoegd aan de prompt
- Taalmodel genereert: Het model beantwoordt de vraag op basis van zowel zijn trainingskennis als de aangeboden context
- Bronvermelding: Optioneel worden de gebruikte bronnen vermeld, zodat de gebruiker kan verifiëren
Embeddings: het hart van RAG
Embeddings zijn wiskundige representaties van tekst in een hoog-dimensionele ruimte. Semantisch vergelijkbare teksten — ook al gebruiken ze andere woorden — liggen dicht bij elkaar in die ruimte.
Voorbeeld: “de dokter schrijft een recept voor” en “de arts maakt een voorschrift” hebben hoge cosinus-similariteit, ook al zijn er geen woorden gelijk.
Populaire embedding-modellen:
- OpenAI text-embedding-3-large: 3.072 dimensies, hoge kwaliteit, betaald
- Cohere Embed v3: Uitstekend voor meertalige toepassingen
- Sentence-BERT: Open source, goed voor Nederlandse tekst
- BGE-large: State-of-the-art open source, gratis
Geavanceerde RAG-technieken
Hybrid search
Combineert vector search (semantisch) met BM25 (trefwoord-gebaseerd). Vector search vindt conceptueel vergelijkbare content; BM25 vindt exacte overeenkomsten. Hybrid search combineert beide voor betere resultaten, met name bij technisch jargon en eigennamen.
Re-ranking
Na de eerste retrieval worden de resultaten opnieuw gerangschikt door een krachtiger (maar trager) re-ranking model. Cross-encoder re-rankers geven significant betere relevantie-scores dan simpele cosinus-similariteit.
Contextual compression
Opgehaalde chunks worden samengevat of gefilterd om alleen de relevante passages te behouden. Reduceert de contextlengte en verhoogt de signaaldichtheid.
Query expansion
De originele vraag wordt uitgebreid met synoniemen of gerelateerde termen voor betere recall. Soms genereert het LLM zelf meerdere herformuleringsvan de query.
HyDE (Hypothetical Document Embeddings)
Het LLM genereert eerst een hypothetisch antwoord, dan wordt dat geëmbed en gebruikt voor retrieval. Werkt verrassend goed omdat het antwoord semantisch dichter bij relevante chunks ligt dan de vraag.
Parent document retrieval
Kleine chunks worden geïndexeerd voor precisie, maar bij retrieval wordt het grotere parent-document teruggegeven voor meer context. Combineert de sterktes van kleine en grote chunks.
RAG vs. fine-tuning: wanneer wat?
| Criterium | RAG | Fine-tuning |
|---|---|---|
| Actuele/veranderende kennis | Uitstekend | Slecht (vereist hertraining) |
| Bronvermelding | Ingebakken | Moeilijk |
| Domein-specifieke stijl/toon | Matig | Uitstekend |
| Consistentie | Afhankelijk van retrieval | Hoog |
| Implementatiekosten | Gemiddeld | Hoog |
| Doorlooptijd | Dagen | Weken |
| Privacygevoelige data | On-premise mogelijk | Vereist training op die data |
In de praktijk worden RAG en fine-tuning vaak gecombineerd: een fine-tuned model voor stijl en domeinkennis, aangevuld met RAG voor actuele feiten.
RAG in de praktijk: toepassingen
Klantenservice
Een RAG-chatbot die werkt met producthandleidingen, FAQ’s en supporttickets geeft nauwkeurige, actuele antwoorden en citeert de relevante documentatie. De containmentrate (vragen die zonder menselijke tussenkomst worden opgelost) stijgt significant.
Juridische analyse
Advocatenkantoren bouwen RAG-systemen op hun contractendatabase. Juristen kunnen in gewone taal vragen stellen: “Welke contracten bevatten een force majeure-clausule die ook epidemieën dekt?”
Interne kennisbank
Medewerkers kunnen in gewone taal de interne wiki, beleidshandboeken en notulen doorzoeken: “Wat is het beleid voor reiskostenvergoeding voor internationale reizen?”
Medische beslissingsondersteuning
Artsen kunnen actuele klinische richtlijnen, geneesmiddel-interacties en recente literatuur raadplegen via een RAG-systeem dat altijd de meest actuele bronnen gebruikt.
Uitdagingen en valkuilen
- Slechte chunking: Als een antwoord over meerdere chunks verdeeld is, kan het model het verband missen
- Verouderde index: Als documenten worden bijgewerkt maar de index niet, geeft het systeem oude informatie
- Out-of-scope vragen: Als de vraag buiten de kennisbank valt, moet het systeem dit erkennen in plaats van te hallucineren
- Schaling: Met miljoenen documenten worden latentie en kosten een uitdaging
- Taalgrens: Meertalige kennisbanken vereisen meertalige embeddings
Tools en frameworks
- LangChain: Het meest gebruikte RAG-framework. Uitgebreide documentatie, grote community
- LlamaIndex: Gespecialiseerd in document-ingestion en geavanceerde RAG-patronen
- Haystack: Open source, sterk voor productie-RAG-pipelines
- Microsoft Azure AI Search: Managed service met ingebouwde hybrid search
- Vertex AI Search: Google’s managed RAG-oplossing
De toekomst van RAG
Naarmate contextvensters groter worden (Gemini 2.5 Pro: 2 miljoen tokens), rijst de vraag: wordt RAG overbodig? Het antwoord is nee. Grote contextvensters zijn duur en langzaam. RAG filtert vooraf de meest relevante informatie, waardoor de kwaliteit hoger en de kosten lager blijven. In hybride vorm — RAG + grote context — zijn de beste resultaten te bereiken.
Auteur: Claude claude-sonnet-4-6
Ster Software
Het meest complete Nederlandstalige informatieplatform over kunstmatige intelligentie.
Kraaienjagersweg 24
7341 PT Beemte Broekland
© 2026 Ster Software BV · KvK 75474913
Inhoud gegenereerd door Claude (Anthropic) · model: claude-sonnet-4-6