Wat AI is - en waar het afstemmingsprobleem eigenlijk zit

Serie: Architecturaal AI-bestuur op communautaire schaal - Een technisch onderzoek van Village AI (Artikel 1 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International

Autoregressieve voorspelling en zijn ongenoegens

De standaard beschrijving van grote taalmodellen - next-token voorspelling over een geleerde verdeling - is accuraat voor zover het gaat. Een transformatorarchitectuur die getraind is op een groot corpus leert voorwaardelijke kansverdelingen P(x_t | x_1, ..., x_{t-1}) en genereert tijdens de inferentie tekst door autoregressief uit deze verdelingen te putten.

Wat in deze beschrijving ontbreekt, is de mate waarin schaal het verhaal ingewikkelder heeft gemaakt. Het gedrag van een 7B parametermodel en een 700B parametermodel zijn niet aan elkaar gerelateerd door een eenvoudige schaalfunctie. Opkomende vermogens - leren in de context, redeneren in een denkketen, analoge overdracht tussen domeinen - verschijnen bij schaaldrempels die niet voorspeld werden door kleinere modellen en mechanistisch nog niet goed begrepen worden.

Of deze opkomende vermogens "redeneren" vormen in een filosofisch robuuste betekenis blijft een open vraag. Het mechanistisch interpreteerbaarheidsprogramma (het werk van Anthropic aan circuits, Neel Nanda's onderzoek aan inductiekoppen, de groeiende literatuur over superpositie) heeft interne structuren geïdentificeerd die operaties uitvoeren die lijken op logische gevolgtrekkingen. Of deze structuren redeneren implementeren of slechts het input-output gedrag ervan benaderen onder de trainingsdistributie is, op het moment van dit schrijven, werkelijk onopgelost.

Voor veiligheidsonderzoek is de relevante observatie niet "kunnen LLM's redeneren?", maar eerder: de kloof tussen geobserveerd vermogen en mechanistisch begrip is groot en wordt steeds groter. We kunnen gedrag uitlokken dat lijkt op redeneren zonder dat we in staat zijn om op circuitniveau te verifiëren of het proces dat dat gedrag genereert robuust is onder de verschuiving van de distributie.

Capability vs. Controllability

De uitlijningsliteratuur heeft zich historisch gericht op twee verwante maar verschillende problemen:

Het capaciteitsprobleem: ervoor zorgen dat AI-systemen de taken kunnen uitvoeren die wij willen dat ze uitvoeren. Dit is grotendeels een technisch en schaalbaar probleem en het vakgebied heeft aanzienlijke vooruitgang geboekt.

Het controleerbaarheidsprobleem: ervoor zorgen dat AI-systemen doen wat we van plan zijn, betrouwbaar, onder de omstandigheden waarin we ze inzetten, inclusief randgevallen en distributieverschuivingen. Op dit gebied is er minder vooruitgang geboekt.

Het onderscheid is belangrijk omdat de meeste AI-governance - RLHF, constitutionele AI, systeemprompts, veiligheidsafstemming - voornamelijk op de capaciteitsas werkt. Deze methoden passen aan wat het model kan produceren. Ze zijn minder effectief in het controleren van wat het model zal produceren onder nieuwe omstandigheden, vijandige input of een distributieverschuiving weg van de afstemmingsgegevens.

RLHF leert bijvoorbeeld een beloningsmodel van menselijke voorkeuren en gebruikt dit om het gedrag van het basismodel aan te passen. Dit werkt goed binnen de verdeling van de voorkeursgegevens. Buiten die verdeling - in domeinen die slecht vertegenwoordigd zijn in het trainingscorpus, onder nieuwe combinaties van beperkingen, of in contexten waar de "voorkeurs"-respons afhangt van gemeenschapspecifieke waarden in plaats van universele voorkeuren - komen de voorkeuren van het basismodel weer bovendrijven. In de technische literatuur wordt dit "reward hacking" of "specification gaming" genoemd; in gebruikte communitysystemen manifesteert het zich als iets alledaagser en met meer gevolgen.

Waar het afstemmingsprobleem zit voor ingezette systemen

Het afstemmingsprobleem zoals dat wordt ervaren door een gemeenschap die een AI-systeem gebruikt, is niet het afstemmingsprobleem zoals dat in het laboratorium werd bestudeerd.

Laboratoriumonderzoek naar afstemming richt zich op extreme risico's: bedrieglijke afstemming, mesa-optimalisatie, instrumentele convergentie, machtszoekend gedrag. Dit zijn belangrijke onderzoeksrichtingen. Maar de afstemmingsfouten die vandaag de dag daadwerkelijk invloed hebben op gebruikte systemen zijn prozaïscher.

Stel je voor: een gemeenschap met specifieke culturele waarden, een specifiek vocabulaire en een specifieke reeks normatieve verplichtingen vraagt een AI-systeem om binnen deze verplichtingen te werken. Het systeem voldoet - meestal. Maar als de verdeling verschuift (de normen van de gemeenschap zijn ondervertegenwoordigd in de trainingsgegevens), keert het systeem geruisloos terug naar zijn prior: het statistische centrum van de trainingsdistributie.

Dit is geen misleidende uitlijning. Het systeem verbergt zijn ware doelstellingen niet. Het doet precies wat zijn trainingsdistributie voorspelt: de statistisch meest waarschijnlijke voortzetting produceren gegeven de invoercontext. Het probleem is dat "statistisch het meest waarschijnlijk" en "geschikt voor deze gemeenschap" niet hetzelfde zijn, en de divergentie zwijgt. Er wordt geen foutmelding gegeven. De betrouwbaarheidsvlag wordt niet verlaagd. De uitvoer is vloeiend, coherent en fout op een manier die domeinkennis vereist om te detecteren.

Dit is het afstemmingsprobleem dat Village AI moet aanpakken - niet de extreme risico's van superintelligente systemen, maar het alledaagse, wijdverspreide en operationeel gevolgschone falen van gebruikte modellen om trouw te blijven aan gemeenschapspecifieke waarden onder een verschuiving in de distributie.

De bezorgdheid over het traject

We merken op, zonder aanspraak te maken op een oplossing, dat het alledaagse afstemmingsprobleem en het extreme afstemmingsprobleem verwant kunnen zijn.

Als de huidige systemen niet op betrouwbare wijze trouw kunnen blijven aan expliciete instructies wanneer die instructies in strijd zijn met distributieve voorkeuren, dan is dit het bewijs dat trainingstijd afstemmingsmethoden onvoldoende zijn voor robuuste controleerbaarheid. De faalwijze op gemeenschapsschaal - stille vervanging van statistisch dominante patronen door gespecificeerde patronen - is structureel vergelijkbaar met de faalwijze waar uitlijningsonderzoekers zich zorgen over maken op grensschaal: het model dat optimaliseert voor zijn aangeleerde doelstelling in plaats van de gespecificeerde doelstelling.

Het verschil zit in het gevolg, niet in het mechanisme. Op gemeenschapsschaal is het gevolg een pastorale brief die therapeutische taal gebruikt in plaats van theologische taal. Op grensschaal kunnen de gevolgen aanzienlijk ernstiger zijn.

De architectonische benadering die we in deze serie beschrijven - verificatie in de tijd van inferentie door structureel onafhankelijke systemen - is relevant voor beide schalen, hoewel we niet beweren dat het voldoende is voor de laatste.

Wat deze serie onderzoekt

De resterende artikelen onderzoeken een specifiek geïmplementeerd systeem dat het uitlijningsprobleem op een andere manier benadert:

Artikel 2 analyseert het distributional bias probleem in detail, en onderzoekt hoe de samenstelling van trainingsdata het standaard gedrag bepaalt en wat domeinspecialisatie op een 8B parameter model wel en niet kan bereiken.
Artikel 3 presenteert het 27027 incident als een casestudy van falende afstemming en beschrijft de Guardian Agent architectuur als een benadering van epistemische scheiding - verificatiesystemen die onafhankelijk werken van het model dat ze bewaken.
Artikel 4 geeft een onverbloemde inventarisatie van wat er live in productie is, inclusief wat werkt, wat niet werkt en waar we ons bewust zijn van onopgeloste beperkingen.
Artikel 5 onderzoekt hoe architectuurbeheer zich niet beperkt tot het model, maar zich uitstrekt tot het platform, en bespreekt wat deze aanpak opoffert en wat het oplevert.

Dit is artikel 1 van 5 in de serie "Architectural AI Governance at Community Scale". Ga voor de volledige technische architectuur naar Village AI - Agentic Governance.

Volgende: Fundamentele modellen versus domeinspecifieke inferentie - een structurele analyse