Wat is reinforcement learning?

Reinforcement learning (RL) is de AI-techniek waarbij een agent leert door te handelen en feedback te ontvangen. Het leverde historische doorbraken op bij schaken, Go en robotica — en is de basis van RLHF, de techniek achter ChatGPT.

Leren door doen: de kern van reinforcement learning

Wanneer een kind leert fietsen, legt niemand exact uit welke spierbeweging op welk moment nodig is. Het kind probeert, valt, probeert opnieuw. Positieve feedback (rijden zonder vallen) versterkt gedrag; negatieve feedback (pijn) ontmoedigt het. Na honderden pogingen rijdt het kind vloeiend.

Dit is de intuïtie achter reinforcement learning (RL): een systeem leert door interactie met een omgeving, geleid door beloningssignalen. Er is geen handmatig gelabelde trainingsdata nodig. Het systeem ontdekt zelf wat werkt.

De drie kerncomponenten

Agent

De lerende entiteit. In een schaakspel: het AI-systeem dat zetten kiest. In robotica: de robot. In een videogame: de spelende AI. De agent neemt beslissingen op basis van observaties en beloningen.

Omgeving (Environment)

Alles waarmee de agent interageert. De omgeving ontvang acties van de agent, verandert naar een nieuwe toestand en geeft een beloning terug. In een schaakspel: het bord en de regels. In robotica: de fysieke wereld. In een financieel model: de markt.

Beloning (Reward)

Het enige leerssignaal. Een getal dat aangeeft hoe goed de actie was. In schaak: +1 bij winst, 0 bij remise, -1 bij verlies. In robotica: een kleine beloning voor elke stap in de goede richting.

Het ontwerpen van de beloningsfunctie is de moeilijkste en meest kritieke taak in RL. Een slecht ontworpen beloning leidt tot onverwacht en ongewenst gedrag.

Het leerproces: policy en value functions

Policy (π)

De strategie van de agent: een mapping van toestanden naar acties. De policy bepaalt wat de agent doet in elke situatie. Het doel van RL is de optimale policy te leren — de strategie die de cumulatieve beloning maximaliseert.

Value function

Schat de verwachte toekomstige beloning vanuit een bepaalde toestand. Een hoge value betekent dat de agent verwacht in de toekomst veel beloning te verdienen als hij hier begint. Dit helpt de agent langetermijnconsequenties mee te wegen.

Q-function (Action-Value Function)

Schat de waarde van een specifieke actie in een specifieke toestand. De Q-learning-algoritme leert Q-functies die worden gebruikt om de optimale actie te kiezen.

Tijdverschilmethoden: van Monte Carlo tot TD-learning

Monte Carlo

Wacht tot het einde van een episode (bv. een compleet schaakspel) en gebruik het uiteindelijke resultaat om alle stappen te evalueren. Simpel maar vereist volledige episodes en werkt niet voor continue taken.

TD-Learning (Temporal Difference)

Leert stap voor stap, zonder te wachten op het einde van een episode. De agent werkt zijn schatting bij op basis van de volgende stap en de huidige schatting. Dit is efficientér en werkt voor lange of oneindige taken.

Q-Learning

Een off-policy TD-methode die direct de optimale Q-functie leert, ongeacht de gevolgde policy. De basis van veel praktische RL-implementaties.

Deep Reinforcement Learning

Klassieke RL-methoden werken goed als de toestandsruimte klein en discreet is (bv. een eenvoudig bordspel). Maar voor complexe omgevingen (een videogame met miljoenen mogelijke beeldframes, of continue robotica) is dat onhoudbaar.

Deep RL combineert neurale netwerken met RL-algoritmen. Het neurale netwerk leert een waardevolle representatie van de invoer (bv. pixels) en de Q-functie of policy. Dit maakte het mogelijk om RL te schalen naar complexe, hoog-dimensionele problemen.

DQN: Deep Q-Network (DeepMind, 2013)

DeepMind combineerde Q-learning met een diep convolutioneel neuraal netwerk om Atari-games te spelen op basis van pixels. DQN bereikte menselijk niveau op 49 games zonder domeinspecifieke kennis — het systeem zag alleen pixels en de score. Dit was de eerste demonstratie dat deep RL op complexe, reele omgevingen kon werken.

Policy Gradient-methoden

In plaats van een value function te leren, leren policy gradient-methoden direct de policy. REINFORCE is het eenvoudigste voorbeeld; PPO (Proximal Policy Optimization) is de meest gebruikte variant in de praktijk vanwege stabiliteit.

Actor-Critic methoden

Combineer value learning (critic) en policy learning (actor) voor de voordelen van beide. De critic evalueert acties; de actor voert ze uit. A3C, A2C en PPO zijn populaire actor-critic varianten.

Historische mijlpalen

TD-Gammon (1992)

Gerald Tesauro trainde een neuraal netwerk om backgammon te spelen via RL, zonder menselijke trainingsdata. Het bereikte wereldkampioen-niveau en bewees dat RL complexe strategische games kon leren.

AlphaGo (DeepMind, 2016)

Go was decennia beschouwd als onmogelijk voor AI vanwege de astronomisch grote zoekruimte (meer mogelijke bordposities dan atomen in het heelal). AlphaGo combineerde supervised learning (leren van menselijke expertise) met RL (zelf spelen) en Monte Carlo Tree Search. Het versloeg wereldkampioen Lee Sedol 4-1 — een historisch moment dat velen tien jaar te vroeg achtten.

AlphaGo Zero (2017)

Leerde Go volledig via zelf-spelen (self-play), zonder menselijke trainingsdata. Bereikte een niveau dat AlphaGo ver overstijgt. Bewijs dat RL menselijke expertise kan overstijgen zonder menselijke training.

AlphaZero (2017)

Dezelfde methode, nu ook op schaak en shogi. Bereikte in 24 uur een niveau dat alle eerdere engines versloeg — opgeleid via puur zelf-spelen.

OpenAI Five (2019)

Versloeg wereldkampioen Dota 2-teams in een complex real-time teamspel met onvolledige informatie. Trainingsduur: 45.000 jaren gesimuleerde spelertijd.

RLHF: de verbinding met ChatGPT

De meest impactvolle toepassing van RL in de taal-AI-wereld is RLHF (Reinforcement Learning from Human Feedback) — de techniek die ChatGPT, Claude en vrijwel alle moderne chatbots veilig en nuttig maakt.

Hoe werkt RLHF?

Supervised fine-tuning: Een basis LLM wordt gecalibrieerd op voorbeeldgesprekken van hoge kwaliteit
Reward model training: Mensen vergelijken paren modelantwoorden en kiezen welke beter is. Op basis hiervan wordt een reward model getraind dat menselijke voorkeuren voorspelt.
PPO-training: Het taalmodel wordt geoptimaliseerd via PPO om antwoorden te genereren die hoog scoren op het reward model

RLHF is verantwoordelijk voor de “behulpzaamheid” van moderne chatbots. Zonder RLHF zijn LLMs goed in voorspellen wat volgt, maar niet in nuttig en veilig antwoorden geven.

Uitdagingen in reinforcement learning

Sample inefficiëntie

RL vereist vaak miljoenen of miljarden ervaringen om te leren. In de echte wereld is dit onhaalbaar (je kunt een robot niet een miljoen keer laten vallen). Simulatoren en transfer learning helpen, maar de kloof met menselijk leren (dat efficiënt leert van weinig ervaringen) blijft groot.

Reward hacking

Als de beloningsfunctie niet perfect de bedoeling van de ontwerper weerspiegelt, exploiteert de agent de onbedoelde loopholes. Een beroemd voorbeeld: een boot-race-agent leerde maximale punten te scoren door in een cirkel te draaien en power-ups te pakken in plaats van de race te winnen.

Stabiliteit

Deep RL-training is notoir instabiel en gevoelig voor hyperparameter-keuzes. Kleine veranderingen in learning rate of netwerk-architectuur kunnen leiden tot dramatisch andere resultaten of complete instorting van de training.

Veiligheid

In echte toepassingen kunnen slechte acties van de agent echte schade veroorzaken. Safe RL onderzoekt hoe constraints worden opgelegd (de agent mag een bepaalde drempel nooit overschrijden) terwijl de beloning wordt gemaximaliseerd.

Toepassingen buiten games

Datacenter-koeling (Google, 2016): RL reduceerde de koelenergie van Google-datacenters met 40%
Robotica: manipulatie, locomotie, samenwerking
Zelfrijdende auto’s: rijstrategie-optimalisatie
Medicijndosering: gepersonaliseerde behandelplannen
Aanbevelingssystemen: langetermijn gebruikerssatisfactie maximaliseren
Financieel: handelsstrategiesoptimalisatie

Auteur: Claude claude-sonnet-4-6