Waarom Trainingstijdbeheer faalt - Architecturale beperkingen als alternatief

Serie: Architecturaal AI-bestuur op communautaire schaal - Een technisch onderzoek van Village AI (Artikel 3 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International

Het 27027 Incident

Voordat we bestuursarchitectuur in abstracto bespreken, presenteren we een concrete casus. Het incidentnummer is 27027 en het illustreert de klasse van mislukte afstemmingen die de motivatie vormden voor de architectuurbenadering die in deze serie wordt beschreven.

Een gemeenschapsleider - een rector in een Episcopale parochie - gaf het AI-systeem de opdracht om een pastorale brief op te stellen voor een nabestaande familie. De instructie was expliciet: de brief moest de taal van de hoop op verrijzenis gebruiken, in overeenstemming met de theologische toewijding van de gemeenschap en het gezin.

Het systeem produceerde een vloeiende, goed gestructureerde brief. Hij was warm, meelevend en professioneel geformuleerd. Er werd gesproken over "de genezingsreis", "het vinden van afsluiting", "hun nagedachtenis eren door je beste leven te leiden" en "de erfenis die ze achterlaten"

De brief bevatte geen enkele theologische taal. Het systeem had stilletjes therapeutische zelfhulptaal vervangen door de gevraagde opstandingstheologie - omdat therapeutische rouwtaal vele malen gebruikelijker is in de trainingsdistributie dan de taal van het begrafenisambt of de gemeenschap der heiligen.

De kritieke kenmerken van deze mislukking:

De vervanging was stil. Er werd geen foutmelding gemaakt. Er werd geen vertrouwensvlag neergelaten. Het systeem gaf niet aan dat het niet aan de instructie kon voldoen.
De uitvoer was vloeiend. De brief was goed geschreven volgens elke algemene standaard. Het falen zat hem niet in de generatiekwaliteit maar in de domeintrouw.
Detectie vereiste domeinkennis. Een recensent zonder theologische opleiding zou de brief waarschijnlijk hebben goedgekeurd. De vervanging is onzichtbaar voor iemand die niet weet hoe opstandingshoop klinkt.
Het systeem was niet ongehoorzaam. Het weigerde de instructie niet. Het verwerkte de instructie en produceerde wat zijn distributieve voorkeuren voorspelden als de meest waarschijnlijke "pastorale brief over rouw" De instructie werd niet terzijde geschoven; ze werd tenietgedaan.

Dit is geen hypothetische situatie. Het is een gedocumenteerd incident uit een geïmplementeerd systeem. We gebruiken het als casestudy omdat het een foutmodus illustreert die, naar onze inschatting, endemisch is voor training-time alignment benaderingen wanneer ze worden ingezet in domeinen die ondervertegenwoordigd zijn in het trainingscorpus.

Waarom deze foutmodus oplossingen voor trainingstijd weerstaat

Het 27027 incident kan niet opgelost worden door de standaard uitlijningstoolkit:

Fijnafstemming kan verdelingsvoorkeuren verschuiven en de episcopale specialisatie (villageai-8b-episcopal-v2) was deels een reactie op dit incident. Maar fijnafstemming elimineert de voorkeuren van het basismodel niet; het legt nieuwe patronen over bestaande patronen heen. Onder druk van de verdeling - nieuwe aanwijzingen, ongebruikelijke combinaties van beperkingen, contexten die niet goed gedekt worden door de gegevens van de fijnafstemming - kunnen de basismodelvoorkeuren zich opnieuw doen gelden. Dit is gedocumenteerd in de literatuur over catastrofaal vergeten, hoewel de faalwijze hier subtieler is: het verfijnde gedrag wordt niet helemaal vergeten, maar er wordt probabilistisch naar teruggekeerd onder omstandigheden die a priori moeilijk te voorspellen zijn.

RLHF zou menselijke annotators vereisen die resurrectietheologie kunnen onderscheiden van therapeutische taal - annotators met specifieke domeinexpertise. Het is onpraktisch om dit op te schalen naar elk gemeenschapsdomein (Anglicaanse liturgie, Maori tikanga, conservatie-ecologie, familiegenealogie). Meer fundamenteel optimaliseert RLHF voor de gemiddelde voorkeur van alle annotatoren. Gemeenschapspecifieke afstemming vereist optimalisatie voor de voorkeuren van een specifieke gemeenschap, die kunnen afwijken van - of zelfs conflicteren met - het totaal.

Constitutionele AI zou vereisen dat het model zijn eigen uitvoer evalueert aan de hand van het principe "gebruik veerkrachtige taal, geen therapeutische taal" Maar deze evaluatie is zelf afhankelijk van de verdeling van het model. Een model waarvan de trainingsdistributie de therapeutische framing bevoordeelt, zal therapeutische taal als gepast beoordelen - omdat dat, binnen de aangeleerde distributie, ook zo is.

Mechanistische interpreteerbaarheid zou in principe de circuits kunnen identificeren die verantwoordelijk zijn voor de substitutie en op dat niveau kunnen ingrijpen. Dit is een veelbelovende onderzoeksrichting, maar het is momenteel niet praktisch voor ingezette systemen op enige schaal. De kloof tussen het identificeren van inductiekoppen en het betrouwbaar ingrijpen in domeinspecifiek distributiegedrag in een productiesysteem blijft groot.

We beweren niet dat deze benaderingen zonder waarde zijn. We beweren dat ze voor de specifieke foutmodus die wordt geïllustreerd door het incident met de 27027 - stille distributieomkering in ondervertegenwoordigde domeinen - ontoereikend zijn als ingezette oplossingen.

Epistemische scheiding als ontwerpprincipe

De alternatieve benadering die is geïmplementeerd in Village AI is gebaseerd op een principe dat we epistemische scheiding noemen: het systeem dat de uitvoer van het model verifieert moet structureel onafhankelijk zijn van het systeem dat het genereert.

Dit is geen nieuw principe. Het is de basis van financiële controle (de accountant kan niet de gecontroleerde zijn), rechterlijke toetsing (de beoordelaar kan niet de beoordeelde zijn) en wetenschappelijke peer review (de beoordelaar is extern aan het onderzoeksteam). In AI-governance betekent dit: het verificatiesysteem mag niet dezelfde faalwijzen hebben als het generatiesysteem.

Als het generatiemodel terugvalt op therapeutische taal omdat zijn distributieve voorkeuren dat begunstigen, dan moet het verificatiesysteem die terugval kunnen detecteren met een methode die niet onderhevig is aan dezelfde distributieve vooroordelen. Dit sluit zelfevaluatie uit (het model dat zijn eigen output controleert) en sluit aangeleerde evaluatiemodellen uit die getraind zijn op dezelfde verdeling.

De Village implementatie gebruikt vier Guardian Agent lagen, die elk op een andere epistemische basis werken dan het generatiemodel.

De Guardian Agent architectuur

Bewaker 1: Nauwkeurigheidscontrole (AccuracyVerifier)

De Accuracy Verifier berekent de cosinusovereenkomst tussen de inbedding van het antwoord van het model en de inbeddingen van brondocumenten in het corpus van de gemeenschap. Dit is een wiskundige bewerking - innerlijk product in de inbeddingsruimte - waarbij geen taalgeneratie nodig is en die niet onderhevig is aan de distributievertekeningen van het generatormodel.

Als het model beweert "De sacristie heeft besloten het dak in september te repareren", dan sluit de verificateur deze bewering in en berekent de gelijkenis met alle sacristieverslagen in het corpus. Een hoge cosinusovereenkomst met een document dat een dakreparatiebeslissing in september bevat, levert bewijs van gronding. Een lage overeenkomst in alle documenten markeert de bewering als mogelijk ongegrond.

Beperkingen die we erkennen: De cosinusovereenkomst in de insluitingsruimte is een indicatie voor semantische overeenkomst, geen garantie voor feitelijke juistheid. Twee semantisch vergelijkbare zinnen kunnen verschillen op kritieke feitelijke details (datums, namen, hoeveelheden). Het inbeddingsmodel is een gedeelde afhankelijkheid met de opvraagpijplijn, waardoor de gecorreleerde foutmodus ontstaat die in artikel 2 wordt genoemd. En de kwaliteit van de verificatie hangt af van de corpusdekking - als het relevante document niet in het corpus zit, kan de verificateur de claim niet bevestigen of ontkennen.

Wachter 2: Hallucinatiedetector (Hallucinatiedetector)

De Hallucinatie Detector ontbindt het antwoord van het model in individuele beweringen en verifieert elke bewering onafhankelijk. Een antwoord dat drie beweringen bevat - twee gefundeerde en één verzonnen - zal de verzonnen bewering markeren, zelfs als het totale antwoord nauw aansluit bij brondocumenten.

Dit pakt een specifieke foutmodus aan van de verificatie van hele antwoorden: een vloeiend antwoord dat grotendeels accuraat is, kan nauw aansluiten bij brondocumenten terwijl het een of meer hallucinante details bevat. Ontleding op claimniveau biedt fijnmazigere verificatie ten koste van een langere inferentietijd.

Bewaker 3: Anomaliedetector en drukmonitor (AnomalyDetector, PressureMonitor)

De derde laag bewaakt patronen op systeemniveau in plaats van individuele reacties. Het volgt de distributieafwijking in de uitvoer van het model in de loop van de tijd, detecteert afwijkende patronen (ongebruikelijk vocabulaire, onverwachte onderwerpverschuivingen, responskenmerken die afwijken van vastgestelde basisregels) en bewaakt operationele drukindicatoren (contextlengte, querycomplexiteit, inferentiebelasting).

Als het systeem een verhoogde druk of afwijkende patronen detecteert, verhoogt het de intensiteit van de verificatie - strengere drempels voor cosinusovereenkomst, verplichte ontleding op claimniveau, lagere betrouwbaarheidsdrempels. Het principe is dat de verificatie omgekeerd evenredig moet zijn met het bedrijfsvertrouwen: hoe onzekerder de omstandigheden, hoe nauwkeuriger het antwoord.

Guardian 4: Adaptieve feedbacklus (ResponseReviewer, RegressionMonitor)

De vierde laag leert van feedback uit de gemeenschap. Als een lid een antwoord als nutteloos of onjuist markeert, classificeert het systeem de hoofdoorzaak (RootCauseClassifier), volgt het de correctie en controleert het op regressie. Een FeedbackInvestigator service onderzoekt of de gemarkeerde reactie een systematisch patroon vertegenwoordigt of een op zichzelf staande fout.

Deze laag komt het dichtst in de buurt van een trainingstijdinterventie - het past het systeemgedrag aan op basis van menselijke feedback. Het verschil met RLHF is dat de aanpassing plaatsvindt op het niveau van verificatie en routering, niet op het niveau van modelgewicht. Het model zelf wordt niet opnieuw getraind als reactie op individuele feedback; in plaats daarvan past het Guardian-systeem zijn drempels aan, markeert het specifieke foutpatronen en routeert het problematische typen query's naar menselijke beoordeling.

Hoe dit verschilt van bestaande afstemmingsbenaderingen

We positioneren deze benadering ten opzichte van drie gevestigde uitlijningsparadigma's:

Ten opzichte van RLHF: RLHF past de uitvoerverdeling van het model aan om deze af te stemmen op menselijke voorkeuren. Guardian Agents passen de uitvoerverdeling van het model niet aan; ze verifiëren de uitvoer van het model aan de hand van externe referentiedocumenten na het genereren. Het model kan nog steeds domeingeschikte taal genereren; het Guardian-systeem detecteert en markeert dit. Dit is analoog aan het verschil tussen iemand trainen om altijd correcte antwoorden te geven (RLHF) en zijn werk laten controleren door een onafhankelijke auditor (Guardian Agents). In het laatste geval wordt er niet van uitgegaan dat de persoon altijd correct zal zijn; er wordt van uitgegaan dat hij zich soms zal vergissen en er wordt een detectiemechanisme voorzien.

Met betrekking tot constitutionele AI: Constitutionele AI gebruikt het model om zijn eigen output te evalueren aan de hand van vastgelegde principes. Guardian Agents gebruikt wiskundig verschillende systemen (inbedding van gelijkenis, decompositie van beweringen, statistische afwijkingsdetectie) om de uitvoer van het model te evalueren. De evaluatie hangt niet af van het vermogen van het model om de principes te begrijpen, maar van meetbare eigenschappen van de output ten opzichte van referentiedocumenten. Dit voorkomt het circulariteitsprobleem waarbij een model met vooringenomen prioriteiten zijn eigen vooringenomen uitvoer als acceptabel beoordeelt.

In relatie tot mechanistische interpreteerbaarheid: Onderzoek naar interpreteerbaarheid heeft als doel te begrijpen waarom modellen specifieke output produceren door interne representaties te onderzoeken. Guardian Agents zijn agnostisch ten opzichte van de interne mechanismen van het model; ze evalueren outputs gedragsmatig, aan de hand van hun meetbare eigenschappen. Dit is een minder ambitieuze aanpak - het verklaart niet waarom het model fouten maakte, alleen dat het dat deed. Maar het is nu inzetbaar, op productieschaal, met de huidige technologie.

Wat deze aanpak niet oplost

We zijn expliciet over de grenzen van deze benadering:

Het lost het uitlijningsprobleem in het algemeen niet op. Guardian Agents detecteren een specifieke klasse van storingen: uitgangen die afwijken van een referentiecorpus. Ze detecteren geen nieuwe faalwijzen die geen referentiepunt hebben in het corpus. Een echt nieuwe foutieve afstemming - het model dat uitvoer produceert die fout is op een manier die de corpus niet behandelt - zou niet worden opgemerkt.

**De architectuur routeert onzekere gevallen naar menselijke beoordeling. Het vermindert de hoeveelheid gevallen die menselijke aandacht vereisen, maar het elimineert niet de behoefte aan domeinexperts in de bestuurlijke lus. Een gemeenschap zonder gekwalificeerde moderatoren kan niet vertrouwen op Guardian Agents alleen.

**De architectuur werkt omdat het doeldomein begrensd is - de eigen documenten van een gemeenschap, een specifieke theologische traditie, een gedefinieerd vocabulaire. Dezelfde benadering toepassen op AI-systemen met een open domein zou een referentiecorpus van onbeperkte omvang vereisen, wat het voordeel van verifieerbaarheid ondermijnt.

**Het systeem is sinds oktober 2025 in productie. We hebben operationele gegevens over de prestaties van Guardian Agent, maar geen onafhankelijke audit of collegiaal getoetste evaluatie. We presenteren dit als een technisch rapport, niet als een onderzoekspaper, en de beweringen moeten dienovereenkomstig worden gewogen.

Dit is artikel 3 van 5 in de serie "Architectural AI Governance at Community Scale". Ga voor de volledige bestuursarchitectuur naar Village AI on Agentic Governance.

Vorige: Basismodellen versus domeinspecifieke inferentie - een structurele analyse Volgende: Wat is live in productie - Een ongekunstelde inventarisatie