Een productiesysteem onder de loep - Wat wordt er vandaag ingezet?

Serie: Community-Scale AI Governance - Een onderzoeksperspectief op het Village Platform (Artikel 4 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International

Reikwijdte en intentie

Dit artikel geeft een inventarisatie van wat er momenteel in het Village platform wordt gebruikt, wat er nog in ontwikkeling is en waar de kloof tussen architecturale intentie en operationele realiteit het grootst is. Het is geschreven met het begrip dat een onderzoekspubliek openhartigheid vereist over de volwassenheid van het systeem - wat werkt, wat nog niet werkt en wat nog niet getest is.

Het platform is sinds oktober 2025 in productie. Het bedient een klein aantal gemeenschappen. De uitrolbasis is onvoldoende om statistische uitspraken te doen over de effectiviteit en dit artikel doet dergelijke uitspraken dan ook niet.

Operationele capaciteiten

De volgende mogelijkheden zijn ingezet en operationeel op het moment van schrijven:

Inhoud-ondersteunde query beantwoording

Het AI-subsysteem beantwoordt vragen van leden door informatie op te halen en te synthetiseren uit het eigen documentcorpus van de gemeenschap - aankondigingen, gedeelde verhalen, verslagen van evenementen, organisatorische documenten. De antwoorden worden geverifieerd aan de hand van het corpus door de Guardian Agent laag voor levering.

Wat werkt: Voor zoekopdrachten die direct gekoppeld zijn aan gedocumenteerde inhoud ("Wanneer is de volgende vergadering?", "Wat is er besloten over het bouwfonds?"), produceert het systeem onderbouwde, verifieerbare antwoorden. De semantische grondlaag identificeert relevante brondocumenten correct in de meerderheid van de waargenomen gevallen.

Wat niet betrouwbaar werkt: Voor zoekopdrachten waarbij meerdere documenten moeten worden geïnterpreteerd, of waarbij onderwerpen aan bod komen die nauwelijks voorkomen in de bestanden van de gemeenschap, neemt de uitvoerkwaliteit af. Het systeem produceert plausibele maar verifieerbare antwoorden. Het systeem kan plausibele maar ongegronde antwoorden produceren, gemarkeerd met indicatoren van lage betrouwbaarheid waar niet alle gebruikers naar kijken.

Wat niet getest is: De prestaties van het systeem onder adversarial querying - opzettelijke pogingen om ongegronde of ongepaste resultaten te verkrijgen - zijn niet systematisch geëvalueerd. Informele tests suggereren dat de grensbewakingslaag veel vijandige patronen vangt, maar een formele beoordeling door een red-team is niet uitgevoerd.

Ondersteuning bij het opstellen

De AI helpt bij het opstellen van mededelingen van de gemeenschap - aankondigingen, bulletins, correspondentie. Concepten worden gegenereerd op basis van de bestaande inhoudspatronen van de gemeenschap en worden voor distributie door de moderator beoordeeld.

Beperking: De redactionele kwaliteit van het systeem wordt direct beperkt door het volume en de kwaliteit van de bestaande inhoud van de community. Voor gemeenschappen met weinig records hebben concepten de neiging om terug te vallen op de standaard distributiepatronen van het basismodel - precies de foutmodus die de architectuur wil voorkomen. De beperking (moderator review) is effectief, maar introduceert een menselijk knelpunt.

Document samenvatten

Lange documenten en verzamelingen aankondigingen kunnen worden samengevat. Deze mogelijkheid is eenvoudig en wordt goed ondersteund door de huidige LLM-technologie.

Ondersteuning voor meerdere talen

Het platform ondersteunt vijf talen: Engels, Duits, Frans, Nederlands en Te Reo Maori. Vertalingen worden uitgevoerd door een speciale vertaaldienst (DeepL), niet door de LLM. Deze architecturale beslissing - vertaling scheiden van generatie - voorkomt de bekende faalwijze van door LLM gegenereerde vertalingen die de betekenis veranderen terwijl de vloeiendheid behouden blijft.

Feedback triage

Feedback van leden wordt automatisch geclassificeerd, waar mogelijk onderzocht en doorgestuurd naar de juiste mensen. Het triage systeem gebruikt root-cause classificatie om patronen in feedback te identificeren en systemische problemen te escaleren.

Wat werkt: Routinematige feedback (functieverzoeken, navigatievragen, inhoudsvragen) wordt in de meeste gevallen correct geclassificeerd en afgehandeld.

**Wat niet betrouwbaar werkt: ** Feedback waarbij een genuanceerde interpersoonlijke context of gemeenschapspecifieke culturele referenties een rol spelen, wordt soms verkeerd geclassificeerd. De foutmarge van het systeem voor cultuurgevoelige feedback is niet formeel gemeten.

Het Woordenschat Systeem: Linguistic Framing als Bestuur

Het platform implementeert een woordenschatsysteem dat alle terminologie voor gebruikers aanpast aan het type gemeenschap. Een onderzoeksgroep ziet "onderzoeksgroep" en "medewerkers"; een natuurbeschermingsvereniging ziet "leden" en "natuurbeschermingsprojecten"; een parochie ziet "parochianen" en "sacristiebestuur"

Dit is geen cosmetische eigenschap. De woordenschat vormt het referentiekader van de AI voor het interpreteren van zoekopdrachten en het genereren van antwoorden. Als het systeem een query verwerkt in de context van een vocabulaire dat "medewerkers" gebruikt in plaats van "gebruikers", verschuift de antwoordverdeling naar een collaboratief en gemeenschappelijk kader.

Onderzoeksinteresse: Het vocabulairesysteem biedt een natuurlijk experiment in hoe linguïstische framing AI-uitvoerverdelingen beïnvloedt. Door systematische vergelijking van outputs tussen verschillende woordenschatconfiguraties - waarbij de zoekopdracht constant wordt gehouden terwijl de woordenschat varieert - kan de hypothese worden getest dat terminologische veranderingen op oppervlakteniveau doorwerken in substantiële verschillen in framing in de outputs. Dit experiment is nog niet uitgevoerd, maar is haalbaar met de bestaande infrastructuur.

Beperking: Het woordenschatsysteem werkt op het niveau van terminologie, niet op het niveau van conceptueel kader. Door "gebruikers" te veranderen in "medewerkers" verschuift het verdelingsvlak, maar dit verandert niets aan diepere structurele aannames die in het basismodel zijn ingebed. De diepte van de invloed van het woordenschatsysteem op de outputkwaliteit is een open vraag.

Guardian Agent Prestaties

De vier lagen op Guardian Agent zijn ingezet en operationeel. Hun prestatiekenmerken, voor zover op dit moment waarneembaar:

Semantic grounding (Guardian 1): Identificeert relevante brondocumenten correct voor eenvoudige zoekopdrachten. De prestaties nemen af bij multidocument-inferentie en bij query's die impliciete kennis vereisen die niet direct in brondocumenten staat.

Claimdecompositie (Guardian 2): Isoleert met succes individuele claims in gestructureerde antwoorden. Minder effectief voor antwoorden waarin beweringen zijn opgenomen in complexe syntactische structuren of waarin beweringen impliciet worden uitgedrukt door middel van framing in plaats van expliciete verklaringen.

Driftmonitoring (Guardian 3): Operationeel, maar de uitrolperiode is te kort om betekenisvolle longitudinale drift te detecteren. Het systeem heeft nulmetingen; of het geleidelijke distributieverschuivingen over maanden of jaren kan detecteren is niet getest.

Adaptieve feedback (Guardian 4): Integreert feedback van leden en moderatoren in verificatiedrempels. Het feedbackvolume van de huidige uitrolbasis is laag, wat het vermogen van het systeem om gemeenschapspecifieke patronen te leren beperkt. Dit is een opstartprobleem: het systeem verbetert met feedback, maar beginnende gemeenschappen geven onvoldoende feedback om het systeem aanzienlijk te verbeteren.

Wat er nog in ontwikkeling is

De volgende componenten zijn ontworpen maar nog niet volledig operationeel:

Model routing optimalisatie. Het systeem gebruikt twee model tiers - een sneller, kleiner model voor routinematige zoekopdrachten en een groter model voor complexe redeneertaken. De routeringslogica die bepaalt welke zoekopdrachten naar welk model gaan is functioneel, maar niet geoptimaliseerd. Sommige zoekopdrachten die baat zouden hebben bij een diepere verwerking worden momenteel afgehandeld door het snellere model, wat resulteert in antwoorden van lagere kwaliteit.

Individuele personalisatie. Het systeem werkt momenteel op gemeenschapsniveau - het kent de inhoud van de gemeenschap, maar modelleert niet de voorkeuren of interactiepatronen van individuele leden. Personalisatie op individueel niveau is gepland, maar roept extra bestuurlijke vragen op (toestemming, profilering, filter bubbles) die nog niet zijn opgelost.

Moderator training en accreditatie. De governance architectuur gaat uit van competente moderatoren die AI output kunnen beoordelen en corrigerende feedback kunnen geven. Er is een gestructureerd trainingsprogramma voor moderatoren ontworpen, maar dit wordt nog in een vroeg stadium toegepast. De kwaliteit van de governance is direct afhankelijk van de competentie van de moderator, die momenteel varieert.

Faalwijzen waargenomen in de praktijk

Transparantie over waargenomen fouten is een noodzakelijk onderdeel van elke geloofwaardige systeembeschrijving:

**Het systeem produceert af en toe antwoorden die gezaghebbend klinken, maar niet worden ondersteund door de gegevens van de gemeenschap. De Guardian Agent laag vangt veel van deze op, maar niet alle - vooral wanneer de ongegronde bewering semantisch vergelijkbaar is met de werkelijke inhoud.

Vocabulary bleed-through. Bij complexe zoekopdrachten kan het voorkomen dat de standaardwoordenschat van het basismodel de woordenschat van de gemeenschap overschrijft. Dit is het distributieafwijkingsprobleem dat beschreven is in artikel 1, gedeeltelijk verzacht maar niet geëlimineerd door het woordenschatsysteem.

**Gemeenschappen in vroege stadia van adoptie genereren onvoldoende feedback om de adaptieve leermechanismen effectief te laten werken. Dit creëert een koudstartprobleem waarbij het systeem het minst goed gekalibreerd is precies wanneer de gemeenschap het het meest nodig heeft om betrouwbaar te zijn.

Moderator vermoeidheid. De governance architectuur legt een aanzienlijke beoordelingslast op vrijwillige moderatoren. In gemeenschappen waar de moderatorrol onderbezet is, neemt de kwaliteit van de beoordelingen af, wat de effectiviteit van de menselijke bestuurslaag vermindert.

Wat betekent dit voor onderzoek?

Het Village platform is in zijn huidige staat een werkend prototype van AI-governance op gemeenschapsschaal. Het is geen volwassen, gevalideerd systeem. De architecturale principes zijn geïmplementeerd, maar het empirisch bewijs voor hun effectiviteit is voorlopig.

Voor onderzoekers betekent dit zowel een beperking als een kans. De beperking is dat beweringen over de effectiviteit van het bestuur van het raamwerk nog niet kunnen worden gestaafd met rigoureus bewijs. De kans is dat het platform een live onderzoeksomgeving biedt - een operationeel systeem met geïnstrumenteerde governancelagen, ingezet in meerdere communitytypes - waar hypotheses over AI-governance empirisch getest kunnen worden.

De auteurs verwelkomen samenwerking met onderzoekers die geïnteresseerd zijn in het evalueren van de beweringen van het raamwerk. De codebase is open-source, de governance logs zijn beschikbaar voor community moderators en de architectuur is ontworpen om het soort instrumentatie te ondersteunen dat empirisch governance onderzoek vereist.

Dit is artikel 4 van 5 in de serie "Community-Scale AI Governance". Ga voor de volledige technische architectuur naar Village AI on Agentic Governance.

Vorige: Waarom AI-governance op basis van beleid onvoldoende is - Het structurele alternatief Volgende: Het platform voorbij AI - Gemeenschapsinfrastructuur als onderzoekscontext