Was KI ist, was sie nicht ist und was ungewiss bleibt

Reihe: Community-Scale AI Governance - Eine Forschungsperspektive auf die Village Platform (Artikel 1 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Statistische Vorhersage im großen Maßstab

Der Kernmechanismus moderner großer Sprachmodelle (LLMs) ist die Vorhersage des nächsten Tokens. Ausgehend von einer Token-Sequenz generiert das Modell eine Wahrscheinlichkeitsverteilung über mögliche Fortsetzungen, die durch Muster aus einem Trainingskorpus von beträchtlichem Umfang - typischerweise Milliarden von Dokumenten, die mehrere Domänen, Sprachen und Register umfassen - bestimmt werden.

Dieser Mechanismus führt zu Ergebnissen, die häufig nützlich sind: kohärente Prosa, kompetente Zusammenfassungen, plausible Antworten auf sachliche Fragen und funktionaler Code. Der praktische Nutzen ist unumstritten.

Strittig - und für die Verwaltung von Bedeutung - ist die Art des Prozesses, der diese Ergebnisse hervorbringt, und folglich, wie viel Vertrauen in sie gesetzt werden kann.

The Reasoning Question: Ein offenes empirisches Problem

Frühe Charakterisierungen von LLMs als "stochastische Papageien" - Systeme, die statistische Regelmäßigkeiten ohne jede Form von Verständnis reproduzieren - haben etwas Wichtiges über die Grundlagen der Technologie erfasst. Mit zunehmender Modellgröße haben sich jedoch Verhaltensweisen herausgebildet, die sich einer einfachen Charakterisierung widersetzen.

Große Modelle sind in der Lage, logische Schlussfolgerungen in mehreren Schritten zu ziehen, Analogieschlüsse über verschiedene Bereiche hinweg zu ziehen und neue Probleme zu lösen, die sich strukturell von den Trainingsbeispielen unterscheiden. Einige Forscher bezeichnen diese als emergente Fähigkeiten - Eigenschaften, die in großem Maßstab entstehen, ohne dass sie explizit konstruiert wurden. Andere argumentieren, dass scheinbares logisches Denken eine ausgefeilte Form der Musterinterpolation ist, die nur dann dem logischen Denken ähnelt, wenn sie von menschlichen Beobachtern bewertet wird, die dazu veranlagt sind, Verständnis zuzuordnen.

Die empirischen Beweise sind derzeit nicht ausreichend, um diese Frage zu klären. Mehrere Beobachtungen erschweren eine sichere Position:

Modelle lösen Probleme, die eine kompositorische Verallgemeinerung erfordern, was darauf hindeutet, dass es sich um etwas handelt, das über das einfache Abrufen hinausgeht.
Modelle weisen auch Fehler auf - selbstbewusstes Erzeugen falscher Aussagen, Brüchigkeit bei gegnerischen Störungen, Empfindlichkeit gegenüber Oberflächenmerkmalen von Aufforderungen -, die mit einer robusten Argumentation unvereinbar sind.
Die internen Repräsentationen von großen Modellen sind nicht gut verstanden. Die mechanistische Interpretierbarkeitsforschung hat schaltkreisähnliche Strukturen identifiziert, die mit bestimmten Fähigkeiten korrelieren, aber das Feld befindet sich noch in der Anfangsphase.
Die Frage, ob die Unterscheidung zwischen "echtem Schlussfolgern" und "schlussfolgerndem Verhalten" empirisch sinnvoll ist oder ob sie sich auf eine philosophische Verpflichtung reduziert, bleibt ungelöst.

Für die Zwecke der Verwaltung ergibt sich folgende pragmatische Konsequenz: Man kann weder sicher davon ausgehen, dass ein LLM korrekt argumentiert, noch kann man seine Ergebnisse als unzuverlässig abtun. Das System befindet sich in einem unbequemen Zwischenbereich, in dem die Ergebnisse oft nützlich, manchmal falsch und ohne externe Überprüfung nicht zuverlässig voneinander zu unterscheiden sind.

Neuartigkeit und Synthese

Eine verwandte Frage betrifft die Frage, ob LLMs wirklich neuartige Ergebnisse produzieren können. Die starke Behauptung, dass Modelle nur Rekombinationen von Trainingsdaten erzeugen, ist im engeren Sinne richtig und im weiteren Sinne irreführend.

Stellen Sie sich ein Modell vor, das Texte über polyzentrische Governance-Theorie, organisatorisches Verhalten und Gemeinschaftsinformatik als getrennte Arbeitsbereiche absorbiert hat. Wenn es entsprechend aufgefordert wird, kann es Verbindungen zwischen diesen Bereichen herstellen, die kein einzelner Forscher hergestellt hat, weil kein einzelner Forscher die gleiche Breite an Erfahrungen hat. Die Ideen, aus denen sie bestehen, sind nicht neu. Die Synthese kann jedoch für jeden Leser neu sein - und kann echte strukturelle Parallelen aufzeigen, die eine Untersuchung rechtfertigen.

Dies ist nicht gleichbedeutend mit der Neuartigkeit der Primärforschung. Das Modell hat keinen Zugang zu empirischen Daten, an denen es nicht geschult wurde, es kann keine Experimente planen und nicht beurteilen, ob die synthetisierten Zusammenhänge auch bei genauerer Betrachtung Bestand haben. Die Synthese ist ein Hypothesengenerator, kein Hypothesenvalidator. Die Hypothesenbildung hat jedoch einen Wert, vorausgesetzt, man verwechselt sie nicht mit der Bestätigung von Hypothesen.

Für Forscher, die KI-Systeme evaluieren, bedeutet dies, dass LLM-Ergebnisse als Ausgangspunkt für die Literaturrecherche, die bereichsübergreifende Erkundung und die Identifizierung struktureller Analogien nützlich sein können - sie bedürfen jedoch der gleichen kritischen Prüfung, die man auf jede ungeprüfte Quelle anwenden würde.

Trainingsdaten als Weltanschauung

Jedes LLM erbt die statistische Verteilung seines Trainingskorpus. Dies ist keine korrigierbare Verzerrung - es ist eine strukturelle Eigenschaft der Technologie.

Ein Modell, das vorwiegend auf englischsprachige, kommerziell orientierte, westliche Internetinhalte trainiert wurde, wird Ergebnisse produzieren, die die Annahmen, den Rahmen und die Prioritäten dieses Korpus widerspiegeln. Wenn es sich mit Themen befassen soll, für die es nur wenige Trainingsdaten gibt - indigene Regierungstraditionen, liturgische Sprache, mündliche Kultur, Entscheidungsfindung in kleinen Gemeinden -, wird das Modell statistisch dominante Muster verwenden, anstatt die Lücke zu erkennen.

Dies hat unmittelbare Auswirkungen auf den Einsatz in einem spezifischen Gemeinschaftskontext. Ein Modell, das Inhalte für eine Forschungsgruppe generieren soll, die sich mit kommunaler Verwaltung befasst, wird die Sprache der Unternehmensführung verwenden - nicht, weil es die Alternativen bewertet hat, sondern weil die Sprache der Unternehmensführung in seinen Trainingsdaten vorherrscht. Die Substitution erfolgt stillschweigend: Das Modell merkt nicht, dass es außerhalb seines Kompetenzbereichs arbeitet.

Dieses Phänomen - das man in einem Governance-Kontext als Verteilungsdrift bezeichnen könnte - ist gut dokumentiert, aber nicht gut gelöst. Techniken wie Feinabstimmung, RAG (retrieval-augmented generation) und Systemprompting können den Effekt abschwächen, aber nicht beseitigen. Die Restverzerrung des Basismodells bleibt bestehen, insbesondere bei neuartigen oder komplexen Abfragen, bei denen das Feinabstimmungssignal schwächer ist als die Basisverteilung.

Implikationen für die Governance-Forschung

Die oben beschriebenen Merkmale - nützliche, aber unzuverlässige Ergebnisse, stille Verteilungsverzerrung, unsichere Schlussfolgerungsfähigkeit - definieren gemeinsam die Herausforderung der Governance.

Ein KI-System, das sich gelegentlich irrt, stellt ein Qualitätssicherungsproblem dar. Ein KI-System, das sich gelegentlich in einer Weise irrt, die stillschweigend einen Wertrahmen durch einen anderen ersetzt, ist ein Governance-Problem. Die Unterscheidung ist wichtig, weil das erste Problem durch Fehlerprüfung gelöst werden kann, während das zweite Problem strukturelle Mechanismen erfordert, die eine Abweichung auf der Werteebene und nicht nur faktische Fehler erkennen.

Dies ist das Problem, das der Tractatus Rahmen angehen soll. Ob es gelingt, ist eine empirische Frage, die in späteren Artikeln untersucht wird. Was hier gesagt werden kann, ist, dass das Problem real ist, gut charakterisiert und von den politikbasierten Ansätzen, die derzeit den Diskurs über KI-Governance dominieren, nicht angemessen behandelt wird.

Was dieser Artikel nicht behauptet

Dieser Artikel behauptet nicht, dass LLMs unfähig sind zu argumentieren - die Beweise sind für eine solche Schlussfolgerung nicht ausreichend. Er behauptet nicht, dass LLMs logisch denken können - die Beweise sind ebenfalls unzureichend. Er behauptet nicht, dass Verteilungsfehler unlösbar sind - nur, dass die gegenwärtigen Abschwächungstechniken unvollständig sind. Und es wird nicht behauptet, dass KI-Governance unmöglich ist - nur, dass die Governance-Herausforderung struktureller ist, als gemeinhin anerkannt wird.

Der nächste Artikel untersucht die spezifischen strukturellen Unterschiede zwischen kommerziellen KI-Plattformen und gemeinschaftlich verwalteten KI-Systemen und analysiert die damit verbundenen Zielkonflikte.

Dies ist Artikel 1 von 5 in der Reihe "Community-Scale AI Governance". Die vollständige technische Architektur finden Sie unter Village AI - Agentic Governance.

Weiter: Plattform-KI vs. Community-Governed AI - Eine strukturelle Analyse