Wat AI is, wat het niet is en wat nog onzeker is

Serie: Community-Scale AI Governance - Een onderzoeksperspectief op het Village Platform (Artikel 1 van 5) Auteur: My Digital Sovereignty Ltd Datum: Maart 2026 Licentie: CC BY 4.0 International

Statistische voorspelling op schaal

Het kernmechanisme van hedendaagse grote taalmodellen (LLM's) is voorspelling van volgende tokens. Gegeven een reeks tokens genereert het model een waarschijnlijkheidsverdeling over mogelijke vervolgstappen, op basis van patronen die zijn geëxtraheerd uit een trainingscorpus van aanzienlijke omvang - meestal miljarden documenten verspreid over meerdere domeinen, talen en registers.

Dit mechanisme levert vaak bruikbare resultaten op: samenhangend proza, competente samenvattingen, plausibele antwoorden op feitelijke vragen en functionele code. Het praktische nut staat niet ter discussie.

Wat wel ter discussie staat - en wat belangrijk is voor het bestuur - is de aard van het proces dat deze outputs produceert en, bijgevolg, hoeveel vertrouwen erin kan worden gesteld.

De redeneervraag: Een open empirisch probleem

Vroege karakteriseringen van LLM's als "stochastische papegaaien" - systemen die statistische regelmatigheden reproduceren zonder enige vorm van begrip - bevatten iets belangrijks over de fundamenten van de technologie. Naarmate de schaal van het model toenam, zijn er echter gedragingen ontstaan die niet eenvoudig te karakteriseren zijn.

Grote modellen kunnen logische gevolgtrekkingen in meerdere stappen maken, analoog redeneren in verschillende domeinen en presteren op nieuwe problemen die structureel verschillen van de trainingsvoorbeelden. Sommige onderzoekers beschrijven dit als emergente capaciteiten - eigenschappen die op schaal ontstaan zonder dat ze expliciet ontwikkeld zijn. Anderen beweren dat schijnbaar redeneren een verfijnde vorm van patrooninterpolatie is die alleen maar op redeneren lijkt wanneer het geëvalueerd wordt door menselijke waarnemers die geneigd zijn om begrip toe te schrijven.

Het empirisch bewijs is op dit moment onvoldoende om deze vraag op te lossen. Verschillende observaties bemoeilijken elke zelfverzekerde positie:

Modellen lossen problemen op die samengestelde generalisatie vereisen, wat iets suggereert dat verder gaat dan eenvoudig ophalen.
Modellen vertonen ook tekortkomingen - het zelfverzekerd genereren van valse verklaringen, broosheid onder adversaire verstoring, gevoeligheid voor oppervlaktekenmerken van prompts - die niet consistent zijn met robuust redeneren.
De interne representaties van grote modellen worden niet goed begrepen. Mechanistisch interpreteerbaarheidsonderzoek heeft circuitachtige structuren geïdentificeerd die correleren met specifieke capaciteiten, maar het veld bevindt zich in een vroeg stadium.
De vraag of het onderscheid tussen "echt redeneren" en "redeneergedrag" empirisch zinvol is, of dat het gereduceerd wordt tot een filosofische verplichting, blijft onopgelost.

Voor governance doeleinden is de pragmatische implicatie de volgende: men kan er niet veilig van uitgaan dat een LLM correct redeneert, noch kan men de output ervan als onbetrouwbaar afdoen. Het systeem bevindt zich op een ongemakkelijke middenweg waar uitkomsten vaak nuttig zijn, soms fout, en niet betrouwbaar van elkaar te onderscheiden zijn zonder externe verificatie.

Nieuwheid en synthese

Een verwante vraag is of LLM's echt nieuwe outputs kunnen produceren. De sterke bewering - dat modellen alleen recombinaties van trainingsgegevens genereren - is in enge zin correct en in grote lijnen misleidend.

Neem een model dat teksten over polycentrische bestuurstheorie, organisatiegedrag en gemeenschapsinformatica als afzonderlijke werkstukken heeft geabsorbeerd. Wanneer het op de juiste manier wordt gevraagd, kan het verbanden leggen tussen deze domeinen die geen enkele individuele onderzoeker heeft gelegd, omdat geen enkele individuele onderzoeker dezelfde brede blootstelling heeft. De samenstellende ideeën zijn niet nieuw. De synthese kan echter wel nieuw zijn voor een bepaalde lezer - en kan echte structurele parallellen identificeren die onderzoek rechtvaardigen.

Dit is niet gelijk aan de nieuwheid van primair onderzoek. Het model heeft geen toegang tot empirische gegevens waarop het niet is getraind, geen capaciteit voor experimenteel ontwerp en geen mogelijkheid om te evalueren of de gesynthetiseerde verbanden standhouden onder nauwkeurig onderzoek. De synthese is een hypothesegenerator, geen hypothesevalidator. Maar het genereren van hypotheses heeft waarde, op voorwaarde dat het niet wordt verward met het bevestigen van hypotheses.

Voor onderzoekers die AI-systemen evalueren, is de implicatie dat LLM-resultaten nuttig kunnen zijn als startpunt voor literatuuronderzoek, domeinoverschrijdend onderzoek en identificatie van structurele analogieën - maar ze vereisen hetzelfde kritische onderzoek dat men zou toepassen op elke niet-geverifieerde bron.

Trainingsgegevens als wereldbeeld

Elke LLM erft de statistische verdeling van zijn trainingscorpus. Dit is geen corrigeerbare afwijking - het is een structurele eigenschap van de technologie.

Een model dat voornamelijk is getraind op Engelstalige, commercieel georiënteerde, westerse internetcontent zal resultaten produceren die de aannames, het kader en de prioriteiten van dat corpus weerspiegelen. Wanneer het model wordt gevraagd om onderwerpen te behandelen waar de trainingsgegevens schaars zijn - inheemse bestuurstradities, liturgische taal, orale cultuur, besluitvorming in kleine gemeenschappen - zal het model eerder terugvallen op statistisch dominante patronen dan de kloof te erkennen.

Dit heeft directe gevolgen voor het gebruik in een specifieke gemeenschapscontext. Een model dat gevraagd wordt om inhoud te genereren voor een onderzoeksgroep die gemeentelijk bestuur bestudeert, zal standaard de taal van het bedrijfsmanagement gebruiken - niet omdat het de alternatieven heeft geëvalueerd, maar omdat de taal van het bedrijfsmanagement overheerst in de trainingsgegevens. De substitutie is stil: het model geeft niet aan dat het buiten zijn competentiedomein opereert.

Dit fenomeen - dat in een bestuurlijke context distributional drift zou kunnen worden genoemd - is goed gedocumenteerd, maar niet goed opgelost. Technieken zoals fine-tuning, retrieval-augmented generation (RAG) en system prompting kunnen het effect verzachten maar niet elimineren. De resterende vertekening van het basismodel blijft bestaan, vooral bij nieuwe of complexe zoekopdrachten waarbij het signaal van de fijnafstemming zwakker is dan de basisverdeling.

Implicaties voor governance-onderzoek

De hierboven beschreven kenmerken - bruikbare maar onbetrouwbare output, stille distributievertekening, onzekere redeneercapaciteit - definiëren samen de bestuurlijke uitdaging.

Een AI-systeem dat er af en toe naast zit, is een kwaliteitsgarantieprobleem. Een AI-systeem dat er af en toe naast zit op een manier die stilzwijgend het ene waardenkader vervangt door een ander, is een bestuursprobleem. Het onderscheid is belangrijk omdat het eerste kan worden aangepakt door fouten te controleren, terwijl het tweede structurele mechanismen vereist die afwijkende waarden detecteren, niet alleen feitelijke fouten.

Dit is het probleem dat het Tractatus raamwerk wil aanpakken. Of dit lukt is een empirische vraag die in volgende artikelen wordt onderzocht. Wat we hier kunnen zeggen is dat het probleem reëel en goed gekarakteriseerd is en dat het niet adequaat wordt aangepakt door de beleidsgebaseerde benaderingen die momenteel het AI-governancediscours domineren.

Wat dit artikel niet beweert

Dit artikel beweert niet dat LLM's niet in staat zijn om te redeneren - het bewijs is onvoldoende voor die conclusie. Er wordt niet beweerd dat LLM's kunnen redeneren - het bewijs is al even ontoereikend. Er wordt niet beweerd dat distributionele bias onoplosbaar is - alleen dat de huidige beperkingstechnieken gedeeltelijk zijn. En er wordt niet beweerd dat AI-governance onmogelijk is - alleen dat de governance-uitdaging structureler is dan algemeen wordt erkend.

Het volgende artikel onderzoekt de specifieke structurele verschillen tussen commerciële AI-platforms en door de gemeenschap bestuurde AI-systemen, en analyseert de afwegingen die daarbij gemaakt moeten worden.

Dit is artikel 1 van 5 in de serie "Community-Scale AI Governance". Ga voor de volledige technische architectuur naar Village AI - Agentic Governance.

Volgende: Platform-AI vs. AI op gemeenschapsniveau - Een structurele analyse