Waarom AI-governance op basis van beleid onvoldoende is - Het structurele alternatief
Serie: Community-Scale AI Governance - Een onderzoeksperspectief op het dorpsplatform (Artikel 3 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International
Het stille substitutieprobleem
Beschouw een scenario dat een bestuurlijke foutmodus illustreert die verschilt van een feitelijke fout.
Een onderzoeker vraagt een AI-systeem om een samenvatting te maken van de bestuursprincipes van een gemeenschapsorganisatie, waarbij hij specificeert dat de samenvatting de gemeenschapsethos van de organisatie moet weerspiegelen - gedeelde besluitvorming, wederzijdse verplichting, subsidiariteit. Het systeem produceert een goed gestructureerde samenvatting. Ze is vloeiend, coherent en leest gezaghebbend. Het herformuleert ook systematisch communitaire principes in individualistische termen: "gedeelde besluitvorming" wordt "raadpleging van belanghebbenden", "wederzijdse verplichting" wordt "betrokkenheid van leden" en "subsidiariteit" wordt "gedelegeerde autoriteit"
De vervanging is niet willekeurig. Het weerspiegelt de statistische dominantie van corporate governance-taal in de trainingsgegevens van het model. Het model heeft de instructie niet geweigerd. Het heeft geen conflict gesignaleerd. Het heeft stilletjes het ene waardenkader vervangen door een ander - een kader dat statistisch waarschijnlijker is gezien de trainingsdistributie.
Dit is wat je zou kunnen omschrijven als value-level distributional drift: de output van de AI wijkt systematisch af van het bedoelde waardenkader, niet omdat het systeem defect is, maar omdat de trainingsdistributie en de doelverdeling niet op elkaar zijn afgestemd. De afwijking is subtiel - het vocabulaire komt dicht genoeg in de buurt om door een toevallige inspectie te komen - en stil - het systeem geeft geen indicatie dat er vervanging heeft plaatsgevonden.
Deze foutmodus verschilt kwalitatief van feitelijke fouten. Feitelijke fouten kunnen worden opgespoord door verificatie aan de hand van brondocumenten. Waardedrift werkt op het niveau van kadrering, nadruk en impliciete aannames - dimensies die moeilijk te vangen zijn in een verificatieregel en moeilijk te detecteren zijn door een niet-deskundige lezer.
De grenzen van beleidsgebaseerd bestuur
De overheersende benadering van AI-governance in organisatorische contexten is gebaseerd op beleid: beleid voor aanvaardbaar gebruik, ethische richtlijnen, kaders voor verantwoorde AI, servicevoorwaarden. Deze instrumenten hebben een structurele beperking die goed begrepen wordt in de bestuurstheorie, maar onvoldoende erkend wordt in de praktijk van AI-governance.
Beleidsgebaseerd bestuur vertrouwt erop dat de bestuurde entiteit het beleid naleeft. Voor menselijke agenten heeft dit model beperkingen, maar het is gedeeltelijk effectief - mensen kunnen beleid lezen, interpreteren en ervoor kiezen om zich eraan te houden, en de sociale en juridische gevolgen van niet-naleving zorgen voor handhavingsmechanismen.
Voor AI-systemen is het model fundamenteel ongeschikt. Een LLM leest en interpreteert een beleidsdocument niet zoals een menselijke werknemer dat zou doen. Wanneer een systeemprompt het model instrueert om "gemeenschapswaarden te respecteren" of "een gemeenschapsgerichte toon aan te houden", verwerkt het model deze instructies als extra context die zijn outputdistributie beïnvloedt - maar niet bepaalt. Onder omstandigheden waarin de instructie in strijd is met sterke patronen in de basistrainingsdistributie, heeft de trainingsdistributie de neiging om te domineren.
Fine-tuning pakt dit gedeeltelijk aan door de verdeling van het model aan te passen ten gunste van de gewenste output. Fijnafstemming werkt echter bovenop de basisverdeling in plaats van deze te vervangen. De technische literatuur documenteert meerdere faalwijzen:
- **Catastrofaal vergeten: verfijnd gedrag degradeert na verloop van tijd of onder nieuwe inputcondities.
- Distributieverschuiving: inputs die afwijken van de fijnafstemmingsdistributie leiden tot terugkeer naar basismodelgedrag.
- Promptinjectie: Tegenstrijdige inputs kunnen fijnafgestemde beperkingen omzeilen, een probleem dat zich verzet tegen robuuste oplossingen.
De beleidsgebaseerde aanpak is niet zonder waarde. Het stelt normen, communiceert verwachtingen en biedt een referentiepunt voor verantwoording. Maar het is onvoldoende als enig bestuursmechanisme voor systemen die het beleid dat ze geacht worden te volgen niet begrijpen of zich er niet aan committeren.
Theoretische grondslagen: Wittgenstein, Berlijn en polycentrisch bestuur
Het Tractatus raamwerk is gebaseerd op drie intellectuele tradities die, hoewel verschillend, samenkomen op een gemeenschappelijk inzicht: sommige bestuursproblemen kunnen niet worden gereduceerd tot regels.
**Het werk van Ludwig Wittgenstein over de grenzen van taal en formalisering is direct relevant. Zijn observatie - dat sommige proposities precies geformuleerd kunnen worden terwijl andere niet precies geformuleerd kunnen worden - komt overeen met een praktisch onderscheid in AI bestuur. Sommige beslissingen van een gemeenschap kunnen geformaliseerd worden: "Hoe laat is de volgende vergadering?" heeft een duidelijk antwoord dat terug te vinden is in documenten. Andere zijn dat niet: "Hoe benaderen we een gevoelige kwestie met een lid dat al lang lid is?" omvat contextuele beoordeling, relationele kennis en waardeafwegingen die niet systematisch behandeld kunnen worden.
Het Tractatus raamwerk operationaliseert dit onderscheid als een grens handhavingsmechanisme: vragen die binnen het formaliseerbare domein vallen worden afgehandeld door de AI; vragen die het niet-formaliseerbare domein overschrijden worden doorgestuurd naar menselijke besluitvormers. De grens wordt architecturaal afgedwongen, niet door beleid.
**Het argument van Isaiah Berlin dat menselijke waarden onherleidbaar meervoudig zijn - dat sommige goederen echt onverenigbaar zijn en niet tegelijkertijd geoptimaliseerd kunnen worden - heeft implicaties voor AI-systemen die proberen "optimale" antwoorden te genereren. In een gemeenschapscontext hebben spanningen tussen individuele privacy en collectieve transparantie, tussen traditie en aanpassing, tussen efficiëntie en participatie geen optimale oplossing. Ze vereisen voortdurende onderhandeling door de mensen die de gevolgen dragen.
Een AI-systeem dat zulke spanningen oplost door standaard de trainingsdistributie te volgen, bestuurt niet - het legt een bepaalde resolutie op zonder autoriteit. Het Tractatus raamwerk pakt dit aan door beslissingspunten met een hoge waarde te identificeren en een menselijke beoordeling te vereisen in plaats van een oplossing door een AI.
Ostrom en polycentrisch bestuur. Het werk van Elinor Ostrom over het bestuur van gemeenschappelijke hulpbronnen biedt een kader om te begrijpen hoe kleinschalige gemeenschappen gedeelde hulpbronnen effectief kunnen besturen zonder gecentraliseerd gezag. Verschillende ontwerpprincipes van Ostrom - duidelijk gedefinieerde grenzen, collectieve-keuzeregelingen, toezicht, graduele sancties, conflictoplossingsmechanismen - zijn rechtstreeks toepasbaar op AI-governance op gemeenschapsschaal.
Het Tractatus raamwerk hanteert expliciet een polycentrisch model: bestuursbevoegdheid is verdeeld over meerdere onafhankelijke mechanismen (de Guardian Agents beschreven in het vorige artikel), waarvan er geen eenzijdige autoriteit heeft en waarvan elk de andere controleert. Dit is structureel analoog aan Ostrom's observatie dat effectief commons bestuur meerdere, overlappende handhavingsmechanismen vereist in plaats van een enkele gecentraliseerde autoriteit.
Het Tractatus raamwerk: Architecturaal bestuur
Het Tractatus raamwerk stelt vier structurele bestuursmechanismen voor die onafhankelijk werken van het AI-systeem dat ze besturen:
**Een classificatielaag die binnenkomende vragen evalueert en vaststelt welke vragen waardeoordelen, ethische afwegingen of contextuele gevoeligheid bevatten die buiten het formaliseerbare domein vallen. Dergelijke vragen worden niet beantwoord door de AI - ze worden doorgestuurd naar aangewezen menselijke besluitvormers binnen de gemeenschap. De grens wordt bepaald door de specifieke configuratie van de gemeenschap, niet door de inschatting van het AI-model van zijn eigen competentie.
**Door de gemeenschap gedefinieerde instructies - "gebruik altijd deze terminologie", "genereer nooit inhoud over dit onderwerp", "routeer vragen over dit onderwerp naar de moderator" - worden opgeslagen in een apart systeem waartoe het AI-model geen toegang heeft en dat het niet kan wijzigen. De uitvoer van het model wordt na het genereren gecontroleerd aan de hand van deze opgeslagen instructies. Conflicten worden opgelost in het voordeel van de opgeslagen instructie, ongeacht de distributie van de uitvoer van het model.
**De verificatielaag Guardian Agent die in het vorige artikel is beschreven - semantische gronding, claimdecompositie, driftmonitoring en adaptieve feedback. Deze mechanismen zijn structureel onafhankelijk van het AI-model en gebruiken verschillende berekeningsmethoden (inbedding van gelijkenis, geen generatieve voorspelling) om uitkomsten te evalueren.
Contextdrukbewaking. Een meta-governancelaag die de werkomstandigheden waaronder de AI functioneert bewaakt - complexiteit van de query, nieuwheid ten opzichte van de trainingsdistributie, systeembelasting - en de verificatie-intensiteit dienovereenkomstig aanpast. Onder omstandigheden met hoge druk (nieuwe query's, randgevallen, complexe verzoeken die uit meerdere delen bestaan) worden de verificatiedrempels aangescherpt. Hiermee wordt ingespeeld op de observatie dat AI-systemen de meeste kans hebben om te falen onder omstandigheden waarin hun output de grootste gevolgen heeft.
Wat het raamwerk niet beweert
Het is belangrijk om expliciet aan te geven wat het Tractatus raamwerk niet beweert, omdat de verleiding om de bijdrage te overdrijven een erkende faalwijze is in governance-onderzoek.
Het raamwerk claimt niet het afstemmingsprobleem op te lossen. Het raamwerk regelt AI-uitvoer na de generatie. Het richt zich niet op de diepere vraag of de interne representaties van een AI-systeem kunnen worden afgestemd op menselijke waarden. Het raamwerk gaat uit van de aanname dat afstemming niet haalbaar is met de huidige technologie en dat extern bestuur daarom noodzakelijk is - maar deze aanname kan zelf fout zijn en een doorbraak in het afstemmingsonderzoek zou de benadering van het raamwerk minder relevant kunnen maken.
Het raamwerk beweert niet dat het distributievooroordelen elimineert. Het raamwerk verzacht de effecten van distributievooroordelen door middel van verificatie en handhaving van de grenzen. Het elimineert de vertekening niet uit het model. Onder omstandigheden waarin de verificatielagen falen (nieuwe domeinen, schaarse gemeenschapsbestanden, invoer van tegenstanders), zal verdelingsvooringenomenheid opnieuw de kop opsteken.
**Het raamwerk is ontworpen voor gebruik in gemeenschappen - organisaties met tientallen tot honderden leden, geauthenticeerde toegang en identificeerbare moderatoren. Of het ook geschikt is voor grotere organisaties, anonieme toegangscontexten of gemeenschappen zonder stabiele bestuursstructuren is nog niet getest.
**Het raamwerk is geïmplementeerd en operationeel, maar het aantal gebruikers is klein. Beweringen over de effectiviteit zijn gebaseerd op architectuuranalyses en beperkte operationele gegevens, niet op gecontroleerde studies of longitudinaal onderzoek. De auteurs beschouwen dit als een belangrijke beperking.
**Het raamwerk regelt AI-systemen van de huidige generatie in specifieke inzetcontexten. Het richt zich niet op speculatieve risico's die samenhangen met kunstmatige algemene intelligentie of superintelligentie, die fundamenteel andere bestuursbenaderingen vereisen.
Openstaande onderzoeksvragen
Het Tractatus raamwerk roept verschillende vragen op die volgens de auteurs open staan en het onderzoeken waard zijn:
Boundary calibration. Hoe moet de grens tussen formaliseerbare en niet-formaliseerbare queries worden bepaald? De huidige implementatie maakt gebruik van community-specifieke configuratie, maar de criteria voor het trekken van de grens zijn niet geformaliseerd. Is er een generaliseerbare methodologie voor het bepalen van de grens mogelijk?
Verificatie adequaatheid. Onder welke condities falen de Guardian Agent verificatiemechanismen? Wat is het vals-negatieve percentage voor detectie van waardeafwijkingen? Kunnen vijandige inputs de verificatielagen systematisch omzeilen?
Dynamiek van de feedbacklus. Convergeert het adaptieve feedbackmechanisme in de loop van de tijd naar de voorkeuren van de gemeenschap of introduceert het systematische vertekeningen? Onder welke omstandigheden degradeert het feedbacksignaal?
Algemeen toepasbaar in verschillende gemeenschappen. Levert de architectuur vergelijkbare bestuurlijke resultaten op in verschillende gemeenschapstypes (religieus, ecologisch, commercieel, educatief)? Welke gemeenschapskenmerken voorspellen succes of falen?
Schaalbaarheidsgrenzen. Bij welke gemeenschapsgrootte valt het polycentrische bestuursmodel af? Is er een drempel waarboven gecentraliseerd bestuur effectiever wordt?
Langdurige stabiliteit. Degraderen de governance-eigenschappen in de loop van de tijd als het inhoudscorpus van de gemeenschap evolueert en het model wordt bijgeschoold? Bestaat er een bestuursequivalent van modeldrift?
Deze vragen zijn niet retorisch. Ze definiëren een onderzoeksagenda die de auteurs nodig achten om de bijdrage van het raamwerk te evalueren. De waarde van het raamwerk als onderzoeksbijdrage hangt af van de bereidheid om het te onderwerpen aan empirisch onderzoek, en de auteurs nodigen dit onderzoek actief uit.
Dit is artikel 3 van 5 in de serie "Community-Scale AI Governance". Ga voor de volledige bestuursarchitectuur naar Village AI on Agentic Governance. De broncode van het Tractatus raamwerk is beschikbaar onder Apache 2.0 op agenticgovernance.digital.
Vorige: Platform-AI vs. Gemeenschapsbestuur-AI - Een structurele analyse Volgende: Een productiesysteem onder de loep - Wat wordt er vandaag gebruikt