Wat is multimodale AI?

Multimodale AI verwerkt en genereert tekst, beeld, audio en video in één model. GPT-4o, Gemini en Claude zijn voorbeelden. Dit artikel legt uit hoe het werkt, waarom het belangrijk is en wat de nieuwste ontwikkelingen zijn.

De wereld is multimodaal — AI werd dat ook

Mensen nemen de wereld waar via meerdere zintuigen tegelijkertijd: we zien, horen, lezen en voelen simultaan. Jarenlang waren AI-systemen gefragmenteerd: een apart model voor beeldherkenning, een apart model voor taal, een apart model voor spraak. Multimodale AI brengt al deze modaliteiten samen in één enkel systeem.

Dit klinkt als een technisch detail, maar het is een conceptuele doorbraak. Een systeem dat tekst, beeld en audio geïntegreerd begrijpt, kan taken uitvoeren die geen enkel gespecialiseerd systeem aankon: een foto van een medicijnfles fotograferen en de juiste dosering opvragen, een grafiek uploaden en “Leg dit uit” typen, of een gesprekken voeren terwijl je de camera op je bureau richt.

Wat is een “modaliteit”?

Een modaliteit is een type data of zintuiglijk kanaal:

Tekst: Geschreven taal in elke vorm
Beeld: Foto’s, illustraties, schermafbeeldingen, grafieken, diagrammen
Audio: Gesproken taal, muziek, omgevingsgeluiden
Video: Bewegende beelden, combinatie van beeld en audio
Structurele data: Tabellen, grafieken, code
Sensordata: Temperatuur, locatie, beweging

Vroege AI-systemen verwerken doorgaans één modaliteit. Moderne multimodale systemen verwerken er meerdere, zowel als input als output.

Hoe werkt multimodale AI?

Gedeelde representatieruimte

Het fundamentele idee: verschillende modaliteiten worden omgezet naar een gedeelde mathematische representatie (vector embeddings). In die gedeelde ruimte liggen semantisch vergelijkbare concepten dicht bij elkaar, ongeacht modaliteit.

Een foto van een appel, het woord “appel” en het geluid van iemand die “Appel!” roept, liggen dicht bij elkaar in deze gedeelde ruimte. Dit maakt cross-modal begrip en generatie mogelijk.

Vision encoders

Beelden worden verwerkt door een vision encoder — typisch een Vision Transformer (ViT). Het beeld wordt opgedeeld in patches (kleine vierkantjes), elk patch wordt omgezet naar een embedding, en de sequence van patches wordt verwerkt door transformer-lagen die ruimtelijke relaties leren.

De vision encoder zet afbeeldingen om naar een reeks visuele tokens die vergelijkbaar zijn met tekst-tokens — waarna hetzelfde taal-transformer ze kan verwerken.

Audio encoders

Audiogolf wordt omgezet naar een mel-spectrogram (een 2D-frequentierepresentatie). Dit wordt behandeld als een “afbeelding” en verwerkt via een vergelijkbare architectuur. OpenAI’s Whisper en Google’s AudioPaLM zijn voorbeelden.

Cross-attention en fusion

Multimodale tokens (visuele, audio, tekst) worden gecombineerd via cross-attention — elk token kan aandacht besteden aan tokens uit andere modaliteiten. Dit laat het model leren wat de relatie is tussen een specifiek beeldgebied en een bepaalde tekstvraag.

Van early fusion tot late fusion

Early fusion

Modaliteiten worden gecombineerd vóór de meeste verwerking. Alle inputs worden direct omgezet naar gedeelde embeddings en samen verwerkt. Dit maximaliseert cross-modal interactie maar is computationeel duur.

Late fusion

Modaliteiten worden apart verwerkt en alleen gecombineerd aan het einde. Minder rekenkracht, maar minder rijke cross-modal begrip. Geschikt voor taken waarbij de modaliteiten relatief onafhankelijk zijn.

Cross-modal attention (meest gebruikt)

Combineer modaliteiten via attention-mechanismen op meerdere niveaus in het netwerk. Balans tussen rijkheid en efficiëntie. Dit is het dominante design in GPT-4o, Gemini en Claude.

De grote multimodale modellen

GPT-4V en GPT-4o (OpenAI)

GPT-4V (V voor Vision, 2023) was OpenAI’s eerste breed beschikbare multimodale model: beeldanalyse gecombineerd met tekstbegrip. GPT-4o (o voor omni, 2024) ging verder door ook audio native te integreren — realtime spraakgesprekken met emotionele nuance en nagenoeg menselijke reactietijden.

Gemini (Google)

Gemini is van de grond af als multimodaal model gebouwd, niet als taalmodel waaraan later beeld is toegevoegd. Gemini Ultra scoorde hoger dan menselijke experts op MMMU (Massive Multidisciplinary Multimodal Understanding). Gemini 2.5 Pro ondersteunt een contextvenster van 2 miljoen tokens — genoeg voor volledige films of grote codebases.

Claude 3.5 en Claude 4 (Anthropic)

Claude verwerkt afbeeldingen, documenten en grafieken naast tekst. Bijzonder sterk in het analyseren van schermafbeeldingen, diagrammen en wetenschappelijke figuren. Ondersteunt nog geen audio of video als output, maar uitgebreide visuele analyse als input.

LLaVA, Qwen-VL, Idefics (open source)

De open-source gemeenschap heeft krachtige multimodale modellen ontwikkeld. LLaVA koppelt een CLIP-vision encoder aan een LLaMA taalmodel. Qwen-VL van Alibaba presteert competitief met commerciële modellen voor visuele taken.

Wat kun je doen met multimodale AI?

Documentanalyse

Upload een PDF, jaarverslag of contractdocument — inclusief tabellen, grafieken en niet-machine-leesbare scans — en vraag de AI om analyse, samenvatting of specifieke informatie. Dit was vroeger een complex dataextractieprobleem; nu is het een simpele prompt.

Medische beeldanalyse

Artsen kunnen een röntgenfoto uploaden en een tweede mening vragen, of een rash foto sturen voor differentiaaldiagnostiek. Hoewel AI-tools officieel niet voor klinische diagnose zijn goedgekeurd, worden ze breed als beslissingsondersteuning ingezet.

Visuele probleemoplossing

Fotografeer een wiskundeopgave, een kapotte machine, een elektrisch schema of een codefout in een screenshot — en vraag de AI om uitleg of oplossing. Dit democratiseert technische hulp naar mensen zonder diepe expertise.

Realtime visuele assistentie

Met smartphones en slimme brillen die aan een multimodale AI zijn gekoppeld, kunnen visueel beperkte gebruikers real-time auditieve beschrijvingen van hun omgeving ontvangen. Microsoft’s Seeing AI en Google’s Project Astra zijn voorlopers van wat een standaard toegankelijkheidsfeature kan worden.

Contentcreatie

Tekst-naar-beeld (Midjourney, DALL·E), beeld-naar-tekst (beschrijvingen genereren), tekst-naar-video (Sora, Kling) en beeld-naar-video (Dream Machine) — multimodale generatie maakt elk type mediaseynthese toegankelijk.

Uitdagingen en beperkingen

Hallucinéren in beeldanalyse

Multimodale modellen hallucinéren ook bij beelden: ze beschrijven objecten die niet aanwezig zijn, verwarren vergelijkbare objecten, of geven onjuiste tellingen. Dit is gevaarlijk bij medische of veiligheidskritieke toepassingen.

Tekstlezen uit beelden

Hoewel sterk verbeterd, hebben modellen moeite met kleine, vervormde of handgeschreven tekst in afbeeldingen. OCR-fouten kunnen de hele analyse beïnvloeden.

Video-begrip

Video is de meest veeleisende modaliteit: hoge rekenlast, complexe temporele dynamiek, interactie van beeld en audio. Echt diep begrip van lange video’s is nog een open onderzoeksgebied.

Bias over modaliteiten

Bias in trainingsdata manifesteert zich in alle modaliteiten: beeldherkenning die slechter presteert voor bepaalde etniciteiten, taalmodellen met culturele blinde vlekken. Multimodale modellen erven en amplificeren bias uit alle bronmodaliteiten.

De toekomst: naar omni-modale AI

De volgende stap is omni-modale AI: systemen die alle zintuiglijke modaliteiten verwerken en genereren in realtime, inclusief:

Real-time video-begrip en generatie
Tactiele feedback (aanraaksensoren in robotics)
Locatie en bewegingsdata
Biochemische sensoren (medisch)

Google’s Project Astra en OpenAI’s Advanced Voice Mode zijn vroege demonstraties. Autonome robots die “zien”, “horen” en “voelen” via gedeelde AI-modellen zijn de verdere uitwerking van het multimodaliteitsprincipe.

Auteur: Claude claude-sonnet-4-6