Wat is fine-tuning?

Fine-tuning past een bestaand AI-model aan voor een specifieke taak of domein. Het is goedkoper dan training van nul af en levert betere resultaten dan generieke prompts. Dit artikel legt de technieken, toepassingen en valkuilen uit.

Van generalist naar specialist

Een groot taalmodel als GPT-4 of Llama is getraind op miljarden teksten van het internet en heeft daardoor brede algemene kennis. Maar voor veel zakelijke toepassingen wil je geen generalist — je wilt een specialist. Een juridisch AI-systeem dat precies weet hoe Nederlandse contracten opgesteld worden. Een medisch model dat de terminologie van jouw specialisme begrijpt. Een klantenservice-AI die klinkt als jouw merk.

Fine-tuning is het proces waarbij een voorgetraind model verder wordt getraind op een kleinere, domein-specifieke dataset. Het model behoudt zijn brede kennis maar leert nieuwe vaardigheden, specifieke termen, gewenste stijlen en taakoverschrijdende patronen die in zijn originele training niet of nauwelijks aanwezig waren.

Fine-tuning vs. andere aanpakîn

Prompting (Zero-shot en Few-shot)

De eenvoudigste aanpak: stuur instructies en voorbeelden mee in de prompt. Geen training nodig, direct bruikbaar. Beperkingen: hogere kosten (meer tokens per request), minder consistentie, beperkt door de contextlengte.

RAG (Retrieval-Augmented Generation)

Koppel een kennisbank aan het model voor actuele of domein-specifieke kennis. Ideaal voor snel veranderende informatie. Minder geschikt voor het aanpassen van schrijfstijl, toon of gedrag.

Fine-tuning

Past het model zelf aan. Leert nieuwe patronen, stijlen en gedrag. Hogere aanvankelijke investering (data en training), maar lagere inferentiekosten (kortere prompts) en consistenter gedrag.

Training from scratch

Train een nieuw model op eigen data. Maximale controle maar astronomische kosten (miljoenen euro’s). Alleen voor bedrijven met unieke data en grote budgetten.

Typen fine-tuning

Supervised Fine-Tuning (SFT)

Het meest gebruikte type. Je geeft het model gelabelde input-output-paren:

Input: “Stel een antwoord op op een klacht over een vertraagde bestelling”
Output: “Geachte [naam], wij bieden onze oprechte excuses aan voor de vertraging van uw bestelling...”

Het model leert om vergelijkbare inputs te matchen met vergelijkbare outputs. Effectief voor stijl, toon, format en domein-specifieke kennis.

RLHF (Reinforcement Learning from Human Feedback)

Mensen beoordelen paren modelantwoorden. Op basis hiervan wordt een reward model getraind dat menselijke voorkeuren voorspelt. Het basismodel wordt vervolgens geoptimaliseerd via PPO. Dit is de techniek achter ChatGPT en Claude. Kostbaar en complex, maar levert de meest “menselijke” en veilige modellen op.

DPO (Direct Preference Optimization)

Een recenter, efficiënter alternatief voor RLHF. Omzeilt het reward model en optimaliseert direct op basis van menselijke voorkeuren. Minder computerintensief dan RLHF met vergelijkbare resultaten. Snel populair geworden in de open-source gemeenschap.

LoRA (Low-Rank Adaptation)

Een parameter-efficiënte methode voor fine-tuning. In plaats van alle modelgewichten bij te werken (miljarden parameters), worden kleine matrices toegevoegd die de gewichtsupdates approximeren. Resultaat: 100–1.000x minder te trainen parameters, dramatisch lagere compute-vereisten, maar vergelijkbare kwaliteit.

LoRA maakt fine-tuning mogelijk op consumer GPU’s (RTX 3090/4090) in plaats van servers vol A100’s. Dit heeft fine-tuning gedemocratiseerd.

QLoRA (Quantized LoRA)

Combineert kwantisatie (het model comprimeren naar 4-bit precisie) met LoRA. Maakt fine-tuning van grote modellen (70B parameters) mogelijk op één consumer GPU. Beschikbaar via het HuggingFace “bitsandbytes”-pakket.

Het fine-tuning process stap voor stap

Stap 1: Definieer de taak en het gewenste gedrag

Wat wil je precies bereiken? Schriftelijk definiëren van de gewenste input-output-paren of beoordelingscriteria is cruciaal. Vage doelen leiden tot vage resultaten.

Stap 2: Data verzamelen en voorbereiden

Kwaliteit gaat voor kwantiteit. 500 kwalitatieve voorbeelden geven betere resultaten dan 5.000 slechte. Aanbevolen hoeveelheden voor SFT:

Stijl-aanpassing: 100–1.000 voorbeelden
Domein-specifieke kennis: 1.000–10.000 voorbeelden
Complex gedrag: 10.000+ voorbeelden

Data moet representatief zijn voor de daadwerkelijke gebruiksgevallen en grenscases bevatten.

Stap 3: Basismodel kiezen

Kies het kleinste model dat je taak aankan:

Eenvoudige classificatie/extractie: 7B-13B parameters
Complexe redenering: 70B+ parameters
Realtime toepassingen: kleinere modellen vanwege latentievereisten

Stap 4: Training

Kies het juiste framework (Axolotl, LLaMA-Factory, Unsloth voor open-source; OpenAI Fine-tuning API voor closed-source) en configureer hyperparameters:

Learning rate: typisch 1e-5 tot 5e-4
Epochs: 1–3 (overtraining is een reeel risico)
Batch size: afhankelijk van beschikbaar GPU-geheugen

Stap 5: Evalueren

Altijd evalueren op een apart validatieset die niet in training is gebruikt. Combineer automatische metrieken (BLEU, ROUGE voor tekst) met menselijke evaluatie. Monitor op overfit.

Stap 6: Itereren

Fine-tuning is zelden eenmalig. Verzamel feedback uit productie, identificeer zwakke punten, verrijkt de dataset met probleemgevallen en train opnieuw.

Wanneer heeft fine-tuning meerwaarde?

Consistente stijl/toon: Je wilt dat het model altijd op een bepaalde manier schrijft, ongeacht de instructie
Proprietary kennis: Interne terminologie, procedures, productnamen die niet in publieke trainingsdata zitten
Hoog volume: Bij miljoenen queries per dag verlagen kortere prompts de kosten significant
Latentie: Kortere prompts = snellere responses
Privacy: Fine-tuning op eigen infrastructuur vermijdt dataverzending naar externe API’s

Wanneer is fine-tuning overbodig?

Als goede prompts het gewenste resultaat al geven
Als de kennis snel verandert (gebruik dan RAG)
Als de dataset te klein is (< 50-100 kwalitatieve voorbeelden)
Als het een eenmalige of laagvolume taak is

Commerciële fine-tuning diensten

OpenAI Fine-tuning API: GPT-4o-mini en GPT-3.5-turbo fine-tunen via een eenvoudige API. Hoge kwaliteit, geen GPU’s nodig
Anthropic (Claude API): Model fine-tuning beschikbaar voor enterprise klanten
Google Vertex AI: Gemini modellen fine-tunen in Google Cloud
AWS Bedrock: Multiple modellen fine-tunen via AWS

Ethische overwegingen

Fine-tuning roept ook ethische vragen op:

Als het model wordt gefinetuned op data van een specifieke groep, worden de biases van die groep versterkt
Fine-tuning kan veiligheidsfilters verzwakken of verwijderen (“jailbreak fine-tuning”)
Transparantie naar gebruikers over of en hoe een model gefinetuned is

Auteur: Claude claude-sonnet-4-6