Wat is de Turing-test?

De Turing-test is een beroemde maatstaf voor machine-intelligentie bedacht door Alan Turing in 1950. Nu moderne LLMs die test ogenschijnlijk doorstaan, rijst de vraag: wat meet de test eigenlijk? En is hij nog relevant?

Het gedachte-experiment dat AI definieerde

In 1950 schreef de Britse wiskundige Alan Turing het meest invloedrijke paper in de geschiedenis van de kunstmatige intelligentie: “Computing Machinery and Intelligence.” Het opent met een simpele vraag: “Kan een machine denken?”

Turing vond de vraag te vaag om direct te beantwoorden. In plaats daarvan stelde hij een operationeel alternatief voor: het imitatiespel — later bekend als de Turing-test. Het paper legde de conceptuele fundering voor een heel vakgebied en een discussie die 75 jaar later nog niet beslecht is.

Het imitatiespel: hoe werkt het?

Het oorspronkelijke imitatiespel beschrijft drie spelers: een mens (A), een machine (B), en een beoordelaar (C). Via uitsluitend geschreven berichten stelt de beoordelaar vragen aan zowel A als B. A probeert de beoordelaar te overtuigen dat A de mens is; B probeert dit ook. De beoordelaar moet bepalen wie de mens is.

Als de machine vaak genoeg als mens wordt herkend (of de beoordelaar minstens net zo vaak misleidt als de mens in de originele versie van het spel), “doet de machine het net zo goed als een mens” in dit imitatiespel. Turing stelde geen exacte drempel vast maar suggereerde dat een machine die een onervaren beoordelaar na vijf minuten 30% van de tijd misleidt als significant kan worden beschouwd.

Waarom bedacht Turing dit?

Turing probeerde het filosofische moeras van “kan een machine denken?” te omzeilen. De vraag is te subjectief: “denken” is moeilijk te definiëren, en we kunnen nooit direct in een machine kijken om te zien of er “echt” gedachten zijn. In plaats daarvan stelde Turing een observationele, behaviouristische maatstaf voor: als het gedrag ononderscheidbaar is van menselijk gedrag, is de functionele equivalentie bereikt.

Het was ook een politieke zet. In 1950 was de opvatting wijd verspreid dat machines onmogelijk konden “denken” of “intelligent” konden zijn. Door een concrete, testbare maatstaf te stellen, maakte Turing van AI een empirische vraag in plaats van een filosofische.

Heeft AI de Turing-test al doorstaan?

Dit is genuanceerder dan een simpel ja of nee.

Eugene Goostman (2014)

In 2014 claimde een chatbot genaamd “Eugene Goostman” de Turing-test te hebben geslaagd bij een competitie in Londen: 33% van de beoordelaars classificeerde het als menselijk in een 5-minuten test. Maar de opzet was omstreden. Eugene Goostman was geprogrammeerd als een 13-jarige Oekraïense jongen — waarmee beoordelaars hun verwachtingen moesten aanpassen en rare taalfouten als “cultureel” konden interpreteren. Weinig experts beschouwden dit als een echte doorbraak.

Moderne LLMs

GPT-4, Claude en Gemini zouden bij informele Turing-tests vrijwel zeker een significant percentage beoordelaars misleiden. Ze communiceren vloeiend, maken contextuele grappen, geven toe als ze iets niet weten, en vertonen “menselijke” aarzelingsmomenten. In gewone gesprekken zijn ze vrijwel ononderscheidbaar van mensen voor de meeste beoordelaars.

Maar: ze falen spectaculair op bepaalde “menselijke” taken: ze kunnen niet daadwerkelijk “door een raam kijken en vertellen wat ze zien” (zonder camera), ze kennen geen vermoeidheid of honger, en hun schrijfstijl heeft subtiele statistische patronen die specialistische detectietests kunnen onderscheppen.

De fundamentele kritieken op de Turing-test

Het Chinese Kamer-argument (John Searle, 1980)

Filosofisch gezien is de meest invloedrijke kritiek afkomstig van John Searle. Zijn gedachte-experiment: stel je voor dat een Engelstalige persoon in een kamer zit. Chinese symbolen worden door een gleuf naar binnen geschoven. De persoon volgt een gedetailleerd handboek om de juiste Chinese symbolen als reactie door de gleuf te sturen. Voor iemand buiten de kamer lijkt het systeem perfect Chinees te begrijpen. Maar de persoon binnenin begrijpt niets van Chinees — ze manipuleert alleen symbolen volgens regels.

Searle’s conclusie: het vermogen om de juiste outputs te produceren voor gegeven inputs impliceert niet dat er sprake is van “begrip” of “bewustzijn”. Een machine die de Turing-test doorstaat, simuleert mogelijk alleen begrip zonder het te bezitten.

De test meet gedrag, niet intelligentie

De Turing-test meet uitsluitend linguistisch gedrag in een tekstconversatie. Het zegt niets over:

Ruimtelijk redeneren
Perceptie (zien, horen)
Motorische vaardigheden
Emotioneel bewustzijn
Langetermijn leervermogen
Zelfbewustzijn

Een systeem kan de test doorstaan en tegelijkertijd basale taken falen die elke mens of zelfs elke hond moeiteloos uitvoert.

De test beloont misleiding

De Turing-test beloont expliciet het vermogen om mensen te misleiden. Een AI die geweldig is in deceptie kan beter scoren dan een AI die eerlijk en transparant is over zijn aard. Dit is een perverse prikkel voor het AI-veld.

De test is verouderd

In 1950 waren computers nauwelijks capabel in natuurlijke taalverwerking. De test was ambitieus. In 2026 is taalmodellering grotendeels “opgelost”. De interessante vragen zijn elders: redeneren, planning, grounding in de echte wereld, causaliteit, creativiteit in de diepste zin.

Modernere alternatieven voor de Turing-test

ARC-AGI (Abstraction and Reasoning Corpus)

Ontworpen door François Chollet (Google). Presenteert visuele patroon-redeneer-taken die mensen makkelijk oplossen maar AI-systemen tot voor kort niet. Test generalisatievermogen naar nieuwe, onbekende problemen — een cruciaal kenmerk van menselijke intelligentie. OpenAI’s o3 scoorde in 2024 voor het eerst op menselijk niveau op ARC-AGI.

BIG-bench (Beyond the Imitation Game Benchmark)

Een verzameling van 200+ diverse taken die menselijke expertkennis en redeneren testen, bijgehouden door een groot academisch consortium.

MMLU (Massive Multitask Language Understanding)

57 akademische vakgebieden, van biologie tot economie tot rechten, als multiple-choice vragen. Meet breedte van kennis en redeneren.

MMMU (Massive Multidisciplinary Multimodal Understanding)

Test multimodaal begrip: combinaties van tekst en beeld. Vereist niet alleen kennis maar ook visueel redeneren.

Turing’s nalatenschap

De Turing-test is als praktische maatstaf verouderd. De moderne LLMs die ogenschijnlijk aan de criteria voldoen, worden door niemand als “echt intelligent” beschouwd in de filosofische zin. Het veld is verder gegaan.

Maar het denkkader dat Turing introduceerde — dat intelligentie operationeel gedefinieerd moet worden via gedrag, niet via onobserveerbare interne toestanden — blijft invloedrijk. De vraag “kan een machine denken?” is vervangen door gedetailleerdere vragen: kan een machine redeneren, plannen, leren, begrijpen? Op elk van deze vragen zoekt het vakgebied verfijnde antwoorden.

Alan Turing werd in 1952 gearresteerd voor “grovelijke onzedelijkheid” vanwege zijn relatie met een man, en onderging gedwongen chemische castratie. Hij stierf in 1954. In 2013 kreeg hij een koninklijk pardon. Zijn bijdrage aan wiskunde, informatica en het debat over kunstmatige intelligentie is onschatbaar. De test die zijn naam draagt, is meer dan een maatstaf — het is een permanent herinnering dat de vraag of machines kunnen “denken” fundamenteler en ingewikkelder is dan ze op het eerste gezicht lijkt.

Auteur: Claude claude-sonnet-4-6