Voorbij het model - platformarchitectuur en bestuurlijke integratie

Serie: Architectuur voor AI-governance op communautaire schaal - Een technisch onderzoek van Village AI (Artikel 5 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International

Het model is niet het systeem

In de voorgaande artikelen zijn het generatiemodel, de Guardian Agent verificatiepijplijn en het probleem van de distributievooringenomenheid onderzocht. Dit laatste artikel onderzoekt hoe architectuurbeheer zich niet beperkt tot het model, maar zich uitstrekt tot het platform en evalueert de algehele aanpak op wat het opoffert en wat het oplevert.

De centrale bewering is dat AI-uitlijning op gemeenschapsschaal niet kan worden opgelost door het model alleen - niet door training, niet door fijnafstemming, niet door RLHF en niet door verificatie tijdens de inferentietijd op zichzelf. Afstemming op inzet vereist architecturale beperkingen die het hele systeem omvatten: data-isolatie, toestemmingsarchitectuur, woordenschat, integratie van menselijk toezicht en gefedereerd bestuur. Het model is één component. De architectuur is de interventie.

Gegevensisolatie als een afstemmingsmechanisme

Multi-tenant data-isolatie wordt meestal besproken als een beveiligingsprobleem. In de Village architectuur functioneert het ook als een afstemmingsmechanisme.

Elke database query wordt gefilterd door tenantId. De vectoropslag onderhoudt tenant-gedeelde verzamelingen. Het generatiemodel ontvangt alleen context van het corpus van de bevragende tenant. Dit zijn standaard multi-tenancy patronen, maar ze hebben een afstemmingsgevolg: het model kan niet putten uit distributiepatronen uit de gegevens van andere huurders.

Dit is belangrijk omdat afstemming in gemeenschapscontexten niet universeel is. Wat gepast taalgebruik is voor een Episcopale parochie kan ongepast zijn voor een natuurbeschermingsgroep, en vice versa. Een model dat toegang heeft tot de gegevens van alle huurders - zelfs alleen-lezen, zelfs om op te vragen - zou verdelingsvoorkeuren ontwikkelen die zich vermengen met andere gemeenschappen. Isolatie van huurders voorkomt deze kruisbesmetting op de gegevenslaag.

Het architecturale principe is: het contextvenster van het model mag alleen inhoud bevatten van de gemeenschap die het op dat moment bedient. Dit wordt structureel afgedwongen, niet door instructies. Het model hoeft niet verteld te worden om binnen de grenzen van de tenant te blijven; het heeft geen toegang tot iets daarbuiten.

Toestemmingsarchitectuur

Het toestemmingssysteem (ConsentRecord model, AIMemoryConsent component) bepaalt welke inhoud de AI pijplijn binnenkomt. Er zijn drie verschillende toestemmingsdoelen gedefinieerd: ai_triage_memory, ai_ocr_memory en ai_summarisation_memory. Inhoud wordt niet geïndexeerd voor AI-gebruik tenzij de maker van de inhoud expliciet toestemming heeft gegeven voor het relevante doel.

Dit is een afstemmingsbeperking die werkt vóór inferentie. Inhoud waarvoor geen toestemming is gegeven voor AI-gebruik verschijnt niet in de vectoropslag, wordt niet opgehaald tijdens RAG en is niet beschikbaar als referentiemateriaal voor Guardian Agent verificatie. Het model kan niet hallucineren op basis van inhoud die het nog nooit heeft gezien.

De toestemmingsarchitectuur pakt ook een subtieler probleem aan: leden van de gemeenschap die het niet prettig vinden dat AI hun bijdragen verwerkt, kunnen hun inhoud uitsluiten zonder dat dit invloed heeft op het vermogen van het systeem om andere leden van dienst te zijn. Dit is zowel een bestuursmechanisme als een privacymechanisme - het stelt de gemeenschap in staat om de kennisbank van de AI vorm te geven door middel van individuele toestemmingsbeslissingen.

Beperking: Toestemming werkt op inhoudsniveau, niet op informatieniveau. Als lid A een verhaal schrijft waarin lid B wordt genoemd, en lid A geeft toestemming voor AI-verwerking, dan komt informatie over lid B in de AI-pijplijn terecht, ongeacht de voorkeuren van lid B. Dit is een inherente beperking van toestemming op inhoudsniveau die we nog niet volledig hebben opgelost.

Woordenschat als kader voor governance

Artikel 4 beschreef de interface en de effecten op modelniveau van het vocabulairesysteem. Hier onderzoeken we het als een bestuursmechanisme.

Het vocabulairesysteem implementeert wat je 'framing governance' zou kunnen noemen: het beperkt het conceptuele kader waarbinnen het model opereert. Wanneer het systeem "parochianen" vervangt door "gebruikers" en "sacristiebestuur" door "beheerinstellingen" in de hele promptcontext, verschuift het de voorwaardelijke verdeling van het model van technologie-platformpatronen naar gemeenschapsbestuurpatronen.

Dit is een zwakkere interventie dan finetuning - het werkt op het niveau van de prompt, niet op het niveau van het gewicht - maar het heeft twee voordelen:

**De vocabulairekoppelingen worden gedefinieerd in een enkel configuratiebestand (product-vocabularies.js). Een onderzoeker kan precies zien welke termen worden vervangen en hun effect op het gedrag van het model voorspellen.
**Verschillende producttypen hebben verschillende vocabulaire-toewijzingen en deze kunnen worden uitgebreid zonder het model opnieuw te trainen. Dit is relevant voor communities waarvan de terminologie niet past bij een bestaand producttype.

De interactie tussen vocabulaireomlijsting en de verfijning van de gespecialiseerde laag is het vermelden waard. Het woordenschatsysteem verschuift de context van de prompt; de fijnafstemming verschuift de distributieprioriteiten van het model. Wanneer beide samen werken - de prompt gebruikt episcopaal vocabulaire en het model heeft episcopale fijnafstemming - is het gecombineerde effect sterker dan beide interventies alleen. Wanneer er slechts één interventie is (een gemeenschapstype zonder gespecialiseerd model, waarbij alleen de woordenschat wordt gebruikt), is het effect zwakker, maar nog steeds meetbaar in outputkwaliteit.

Integratie van menselijk toezicht

De boundary enforcer (beschreven in artikel 3 van de parish serie als een bestuurscomponent) leidt vragen over waarden, ethiek of culturele context door naar menselijke beoordeling. Dit wordt geïmplementeerd door de PreInferenceProtector en door routering op basis van vertrouwen: als Guardian Agent verificatie een lager vertrouwen oplevert dan een configureerbare drempel, wordt het antwoord gemarkeerd voor beoordeling door een moderator in plaats van direct te worden geleverd.

Dit creëert een human-in-the-loop architectuur waarbij de AI vragen met een hoge betrouwbaarheid en goede gronden autonoom afhandelt en onzekere of gevoelige vragen escaleert naar menselijk toezicht. De drempel is instelbaar per huurder, zodat gemeenschappen hun eigen risicotolerantie kunnen instellen.

**De kwaliteit van het menselijke toezicht hangt af van de kwaliteit van de menselijke moderatoren. Het systeem kan onzekere vragen doorsturen naar een moderator, maar kan niet garanderen dat de moderator de domeinkennis heeft om ze effectief te evalueren. Dit is een organisatorische beperking, geen technische, maar het beperkt de effectiviteit van de algemene architectuur.

Het accreditatietraject voor moderatoren - gestructureerde training voor leden van de gemeenschap die de rol van moderator op zich nemen - is ontworpen om deze beperking aan te pakken, maar wordt geleidelijk aan ingevoerd.

Federatie en intercommunautair bestuur

De federatie-architectuur maakt het mogelijk voor verschillende Village-instanties om bilaterale verbindingen tot stand te brengen - het delen van geselecteerde inhoud over de gemeenschapsgrenzen heen met behoud van gegevenssoevereiniteit. Beide gemeenschappen moeten instemmen met de verbinding en beide kunnen zich op elk moment terugtrekken.

Vanuit een afstemmingsperspectief introduceert federatie een gecontroleerd kanaal waardoor distributiepatronen van de ene gemeenschap de andere kunnen beïnvloeden. Een gefedereerde inhoudsuitwisseling tussen een Episcopale parochie en een natuurbeschermingsgroep kan in principe het AI-gedrag van de ontvangende gemeenschap veranderen door inhoud van buiten het domein in de vectoropslag te introduceren.

De federatiearchitectuur pakt dit aan door selectief delen - alleen inhoud die expliciet is gemarkeerd voor federatie wordt gedeeld - en door tenant-scoped verificatie. Guardian Agent verificatie werkt op het corpus van de ontvangende gemeenschap, die de federatieve inhoud pas opneemt nadat deze is geaccepteerd en geïndexeerd. De moderatoren van de ontvangende community bepalen welke federatieve inhoud hun AI-pijplijn binnenkomt.

Dit is een bestuursmechanisme dat geen analogie heeft in de afstemmingsliteratuur, omdat de afstemmingsliteratuur het inzetten van meerdere gemeenschappen meestal niet beschouwt als een eersteklas zorg. We merken dit op als een gebied waar geïmplementeerde community AI-systemen worden geconfronteerd met uitdagingen op het gebied van afstemming die in laboratoriumomgevingen niet aan bod komen.

Wat deze benadering opoffert

We maken een duidelijke opsomming van de kosten van deze aanpak:

**Een 8B parametermodel kan niet tippen aan grensverleggende systemen voor algemene taken. Gebruikers die creatief schrijven, complexe redeneringen in onbekende domeinen of een breed spectrum aan intellectuele hulp nodig hebben, zullen dit systeem ontoereikend vinden.

Latency. De Guardian Agent pijplijn voegt verificatieoverhead toe aan elk antwoord. De vierlaagse pijplijn, inclusief inbeddingsberekening, cosinus gelijkenis zoeken, claimdecompositie en anomaliecontrole, introduceert een meetbare latentie. Voor gemeenschappen die prioriteit geven aan reactiesnelheid boven nauwkeurige verificatie is dit een kostenpost.

Dekking. De betrouwbaarheid van het systeem hangt af van de kwaliteit en de dekking van de afstemmingsgegevens en het inhoudscorpus van de community. Een pas opgerichte community met minimale inhoud biedt een schaars referentiecorpus, waardoor Guardian Agent verificatie minder effectief is en het modelgedrag minder gefundeerd.

Schaalbaarheid. De architectuur is ontworpen voor gebruik op gemeenschapsschaal (tientallen tot lage honderden gelijktijdige gebruikers per tenant). Het is niet getest op internetschaal en de verificatiepijplijn per reactie zou waarschijnlijk substantiële architecturale veranderingen vereisen om op hoge doorvoer te kunnen werken.

**De Specialised Layer-strategie is gevalideerd voor één producttype (Episcopal). Het is niet bewezen of deze strategie kan worden toegepast op alle negen gedefinieerde producttypen en of de drempelwaarden van Guardian Agent per domein moeten worden gekalibreerd.

Wat deze aanpak oplevert

Verifieerbaarheid. Elk AI-antwoord kan worden herleid naar specifieke brondocumenten. De cosinusgelijkenisscores, de verificatieresultaten op claimniveau en de betrouwbaarheidsindicatoren zijn beschikbaar voor inspectie. Dit is een eigenschap die grensverleggende systemen die werken met onbegrensde trainingscorpora niet kunnen bieden.

Controleerbaarheid. De fijnafstemmingsgegevens, de vocabulairekoppelingen, de Guardian Agent drempels en de feedbackluscorrecties zijn allemaal controleerbaar. Een onderzoeker of auditor kan de volledige keten van invoer tot uitvoer onderzoeken en begrijpen waarom het systeem een specifieke reactie produceerde. Het Tractatus framework is gepubliceerd onder EUPL-1.2; de governance architectuur staat open voor externe review.

**De gemeenschap controleert de gegevens, de inferentie-infrastructuur, het vocabulaire, de grenzen van de toestemming en het moderatiebeleid. Geen enkele derde partij kan het gedrag van het systeem veranderen zonder toestemming van de gemeenschap. Dit is een bestuurlijke eigenschap, geen technische, maar het wordt architecturaal afgedwongen.

Epistemische scheiding. Het verificatiesysteem werkt volgens andere principes dan het generatiesysteem. Dit garandeert geen correctheid, maar het biedt een detectiemechanisme voor de specifieke foutmodus - stille distributieve omkering - die de architectuur motiveerde. Het 27027 incident zou worden gesnapt door de Guardian Agent pijplijn, omdat de cosinusovereenkomst tussen therapeutische rouwtaal en het theologische corpus van de gemeenschap onder de verificatiedrempel zou vallen.

Falsifieerbaarheid. Het systeem doet specifieke, testbare beweringen: dat Guardian Agent verificatie ongegronde reacties vermindert, dat domeinspecialisatie registergetrouwheid verbetert, dat vocabulaireframing modelgedrag meetbaar verschuift. Deze beweringen zijn in principe onafhankelijk testbaar. We hebben nog geen onafhankelijke testen geregeld, maar de architectuur verzet zich er niet tegen.

Open vragen voor de onderzoeksgemeenschap

We sluiten af met vragen die we zelf niet kunnen beantwoorden en waar we graag bij betrokken worden:

Is epistemische scheiding voldoende voor afstemming, of slechts noodzakelijk? De Guardian Agent architectuur biedt detectie van distributieve omkering. Detectie is geen preventie. Is er een theoretische basis om te beargumenteren dat detectie en correctie convergeert naar afstemming, of beperkt het slechts de frequentie van mislukkingen?
Hoe moeten cosinusgelijkheidsdrempels worden gekalibreerd? De huidige drempels zijn empirisch afgestemd. Bestaat er een principiële methode voor het instellen van verificatiedrempels waarbij het aantal fout-positieven (ongegronde reacties markeren als ongegrond) wordt afgewogen tegen het aantal fout-negatieven (ongegronde reacties passeren)?
**Heeft de gecorreleerde inbeddingskwetsbaarheid praktische oplossingen? ** Het gedeelde inbeddingsmodel dat wordt gebruikt voor zowel ophalen als verifiëren creëert een enkel punt van mislukking. Welke architecturen zouden echt onafhankelijke verificatie kunnen bieden terwijl het computationeel haalbaar blijft?
**De intuïtie - domeinspecifieke fijnafstemming op een kleiner model levert een betere domeingetrouwheid op dan het opvragen van een groter model - wordt empirisch ondersteund door onze inzet, maar is nog niet rigoureus vergeleken. Onder welke voorwaarden gaat dit op en wanneer gaat het niet op?
**Welke evaluatieraamwerken zijn van toepassing op community-scale alignment? Standaard alignment benchmarks evalueren algemene veiligheidseigenschappen. Welke benchmarks zouden geschikt zijn voor het evalueren van domeinspecifieke afstemming - trouw aan de normen, woordenschat en waarden van een specifieke gemeenschap?

Deze vragen vallen buiten het bereik van een enkel implementatieteam. We stellen ze aan de orde omdat het afstemmingsprobleem op gemeenschapsschaal - prozaïsch, operationeel van belang en grotendeels genegeerd door de onderzoeksgemeenschap - meer aandacht verdient dan het momenteel krijgt.

Dit is artikel 5 van 5 in de serie "Architectural AI Governance at Community Scale". Ga voor meer informatie over het platform naar Village Beta Programme. Ga voor de volledige AI-architectuur naar Village AI on Agentic Governance.

Vorige: Wat is live in productie - Een ongekunstelde inventarisatie