Wat is RAG (Retrieval-Augmented Generation)?

RAG combineert een taalmodel met een zoekmachine om nauwkeurigere, actuele antwoorden te geven. Het is de sleuteltechnologie achter AI-systemen die werken met eigen documenten en kennisbanken.

Het probleem dat RAG oplost

Grote taalmodellen zijn krachtig, maar hebben twee fundamentele beperkingen die RAG adresseert:

Kennisgrens: Een model weet alleen wat in zijn trainingsdata stond, tot het moment van afsluiting. GPT-4 weet niets van wat er na zijn trainingsdata is gebeurd. Voor bedrijven die actuele of interne informatie nodig hebben, is dit een dealbreaker.

Hallucinaties: Als een model iets niet weet, verzint het soms een plausibel klinkend antwoord. Dit heet hallucineren. Een klantenservicebot die onjuiste productinformatie geeft, kan ernstige schade veroorzaken.

RAG — Retrieval-Augmented Generation — lost beide problemen op door een externe kennisbron te koppelen aan het taalmodel.

Hoe werkt RAG stap voor stap?

Fase 1: Indexering (offline)

Voordat RAG kan worden gebruikt, moeten de brondocumenten worden geïndexeerd:

  1. Documenten verzamelen: PDF’s, Word-bestanden, webpagina’s, databases — alle relevante kennisbronnen
  2. Chunken: Documenten worden opgesplitst in behapbare stukken (“chunks”) van typisch 500–1.000 tekens. De chunkgrootte is een kritieke parameter — te klein verliest context; te groot verliest precisie.
  3. Embedden: Elk chunk wordt omgezet naar een vector embedding — een lijst van honderden getallen die de semantische betekenis van de tekst vastlegt. Vergelijkbare teksten hebben vergelijkbare vectoren.
  4. Opslaan in vector store: De vectoren worden opgeslagen in een gespecialiseerde database (Pinecone, Weaviate, Chroma, pgvector) die razendsnel semantische zoekopdrachten uitvoert.

Fase 2: Retrieval (online, bij elke query)

  1. Query embedden: De vraag van de gebruiker wordt ook omgezet naar een vector embedding
  2. Semantisch zoeken: De vector store zoekt de chunks waarvan de vector het meest lijkt op de query-vector (cosinus-similariteit)
  3. Top-k ophalen: De k meest relevante chunks (typisch 3–10) worden opgehaald

Fase 3: Generatie

  1. Context samenstellen: De opgehaalde chunks worden als context toegevoegd aan de prompt
  2. Taalmodel genereert: Het model beantwoordt de vraag op basis van zowel zijn trainingskennis als de aangeboden context
  3. Bronvermelding: Optioneel worden de gebruikte bronnen vermeld, zodat de gebruiker kan verifiëren

Embeddings: het hart van RAG

Embeddings zijn wiskundige representaties van tekst in een hoog-dimensionele ruimte. Semantisch vergelijkbare teksten — ook al gebruiken ze andere woorden — liggen dicht bij elkaar in die ruimte.

Voorbeeld: “de dokter schrijft een recept voor” en “de arts maakt een voorschrift” hebben hoge cosinus-similariteit, ook al zijn er geen woorden gelijk.

Populaire embedding-modellen:

  • OpenAI text-embedding-3-large: 3.072 dimensies, hoge kwaliteit, betaald
  • Cohere Embed v3: Uitstekend voor meertalige toepassingen
  • Sentence-BERT: Open source, goed voor Nederlandse tekst
  • BGE-large: State-of-the-art open source, gratis

Geavanceerde RAG-technieken

Hybrid search

Combineert vector search (semantisch) met BM25 (trefwoord-gebaseerd). Vector search vindt conceptueel vergelijkbare content; BM25 vindt exacte overeenkomsten. Hybrid search combineert beide voor betere resultaten, met name bij technisch jargon en eigennamen.

Re-ranking

Na de eerste retrieval worden de resultaten opnieuw gerangschikt door een krachtiger (maar trager) re-ranking model. Cross-encoder re-rankers geven significant betere relevantie-scores dan simpele cosinus-similariteit.

Contextual compression

Opgehaalde chunks worden samengevat of gefilterd om alleen de relevante passages te behouden. Reduceert de contextlengte en verhoogt de signaaldichtheid.

Query expansion

De originele vraag wordt uitgebreid met synoniemen of gerelateerde termen voor betere recall. Soms genereert het LLM zelf meerdere herformuleringsvan de query.

HyDE (Hypothetical Document Embeddings)

Het LLM genereert eerst een hypothetisch antwoord, dan wordt dat geëmbed en gebruikt voor retrieval. Werkt verrassend goed omdat het antwoord semantisch dichter bij relevante chunks ligt dan de vraag.

Parent document retrieval

Kleine chunks worden geïndexeerd voor precisie, maar bij retrieval wordt het grotere parent-document teruggegeven voor meer context. Combineert de sterktes van kleine en grote chunks.

RAG vs. fine-tuning: wanneer wat?

CriteriumRAGFine-tuning
Actuele/veranderende kennisUitstekendSlecht (vereist hertraining)
BronvermeldingIngebakkenMoeilijk
Domein-specifieke stijl/toonMatigUitstekend
ConsistentieAfhankelijk van retrievalHoog
ImplementatiekostenGemiddeldHoog
DoorlooptijdDagenWeken
Privacygevoelige dataOn-premise mogelijkVereist training op die data

In de praktijk worden RAG en fine-tuning vaak gecombineerd: een fine-tuned model voor stijl en domeinkennis, aangevuld met RAG voor actuele feiten.

RAG in de praktijk: toepassingen

Klantenservice

Een RAG-chatbot die werkt met producthandleidingen, FAQ’s en supporttickets geeft nauwkeurige, actuele antwoorden en citeert de relevante documentatie. De containmentrate (vragen die zonder menselijke tussenkomst worden opgelost) stijgt significant.

Juridische analyse

Advocatenkantoren bouwen RAG-systemen op hun contractendatabase. Juristen kunnen in gewone taal vragen stellen: “Welke contracten bevatten een force majeure-clausule die ook epidemieën dekt?”

Interne kennisbank

Medewerkers kunnen in gewone taal de interne wiki, beleidshandboeken en notulen doorzoeken: “Wat is het beleid voor reiskostenvergoeding voor internationale reizen?”

Medische beslissingsondersteuning

Artsen kunnen actuele klinische richtlijnen, geneesmiddel-interacties en recente literatuur raadplegen via een RAG-systeem dat altijd de meest actuele bronnen gebruikt.

Uitdagingen en valkuilen

  • Slechte chunking: Als een antwoord over meerdere chunks verdeeld is, kan het model het verband missen
  • Verouderde index: Als documenten worden bijgewerkt maar de index niet, geeft het systeem oude informatie
  • Out-of-scope vragen: Als de vraag buiten de kennisbank valt, moet het systeem dit erkennen in plaats van te hallucineren
  • Schaling: Met miljoenen documenten worden latentie en kosten een uitdaging
  • Taalgrens: Meertalige kennisbanken vereisen meertalige embeddings

Tools en frameworks

  • LangChain: Het meest gebruikte RAG-framework. Uitgebreide documentatie, grote community
  • LlamaIndex: Gespecialiseerd in document-ingestion en geavanceerde RAG-patronen
  • Haystack: Open source, sterk voor productie-RAG-pipelines
  • Microsoft Azure AI Search: Managed service met ingebouwde hybrid search
  • Vertex AI Search: Google’s managed RAG-oplossing

De toekomst van RAG

Naarmate contextvensters groter worden (Gemini 2.5 Pro: 2 miljoen tokens), rijst de vraag: wordt RAG overbodig? Het antwoord is nee. Grote contextvensters zijn duur en langzaam. RAG filtert vooraf de meest relevante informatie, waardoor de kwaliteit hoger en de kosten lager blijven. In hybride vorm — RAG + grote context — zijn de beste resultaten te bereiken.


Auteur: Claude claude-sonnet-4-6

Ster Software

Het meest complete Nederlandstalige informatieplatform over kunstmatige intelligentie.

Kraaienjagersweg 24
7341 PT Beemte Broekland


© 2026 Ster Software BV · KvK 75474913

Inhoud gegenereerd door Claude (Anthropic) · model: claude-sonnet-4-6