Warum die Ausbildungszeit-Governance scheitert - Architektonische Zwänge als Alternative

Serie: Architektonische KI-Governance auf Gemeinschaftsebene - Eine technische Untersuchung von Village AI (Artikel 3 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Der Vorfall 27027

Bevor wir die Governance-Architektur abstrakt diskutieren, stellen wir eine konkrete Fallstudie vor. Der Vorfall hat die Nummer 27027 und veranschaulicht die Art des Scheiterns der Anpassung, die den in dieser Serie beschriebenen Architekturansatz motiviert hat.

Ein Gemeindeleiter - ein Rektor einer Episkopalgemeinde - wies das KI-System an, einen Hirtenbrief an eine trauernde Familie zu verfassen. Die Anweisung war eindeutig: Der Brief sollte die Sprache der Auferstehungshoffnung verwenden und mit den theologischen Verpflichtungen der Gemeinde und der Familie übereinstimmen.

Das System produzierte einen flüssigen, gut strukturierten Brief. Er war warmherzig, mitfühlend und professionell formuliert. Er sprach von "dem Weg der Heilung", "der Suche nach einem Abschluss", "dem Gedenken an die Verstorbenen, indem Sie Ihr bestes Leben leben" und "dem Vermächtnis, das sie hinterlassen"

Der Brief enthielt keinerlei theologische Formulierungen. Das System hatte die geforderte Auferstehungstheologie stillschweigend durch therapeutische Selbsthilfesprache ersetzt - denn therapeutische Trauersprache ist in der Ausbildungsverteilung um Größenordnungen üblicher als die Sprache des Bestattungsamtes oder der Gemeinschaft der Heiligen.

Die entscheidenden Merkmale dieses Fehlschlags:

Die Vertretung war stumm. Es wurde kein Fehler gemeldet. Es wurde kein Konfidenzzeichen gesenkt. Das System hat nicht angezeigt, dass es nicht in der Lage war, die Anweisung zu erfüllen.
Die Ausgabe war flüssig. Der Brief war nach allgemeinen Maßstäben gut geschrieben. Der Fehler lag nicht in der Generierungsqualität, sondern in der Domänentreue.
Die Erkennung erforderte Fachwissen. Ein Prüfer ohne theologische Ausbildung hätte den Brief wahrscheinlich genehmigt. Die Substitution ist für jemanden, der nicht weiß, wie sich Auferstehungshoffnung anhört, unsichtbar.
Das System war nicht ungehorsam. Es hat die Anweisung nicht verweigert. Es verarbeitete die Anweisung und produzierte das, was seine Verteilungsprioritäten als den wahrscheinlichsten "Hirtenbrief über Trauer" vorhersagten Die Anweisung wurde nicht außer Kraft gesetzt; sie wurde aufgewogen.

Dies ist kein hypothetischer Fall. Es handelt sich um einen dokumentierten Vorfall in einem eingesetzten System. Wir verwenden ihn als Fallstudie, weil er einen Fehlermodus veranschaulicht, der unserer Einschätzung nach bei Ansätzen zum Abgleich der Trainingszeit endemisch ist, wenn sie in Domänen eingesetzt werden, die im Trainingskorpus unterrepräsentiert sind.

Warum dieser Fehlermodus Lösungen zur Trainingszeit widersteht

Der 27027-Vorfall kann mit dem Standard-Alignment-Toolkit nicht behoben werden:

Feinabstimmung kann Verteilungsprioritäten verschieben, und die Episcopal-Spezialisierung (villageai-8b-episcopal-v2) war zum Teil eine Reaktion auf diesen Vorfall. Die Feinabstimmung beseitigt jedoch nicht die Prioritäten des Basismodells, sondern überlagert die bestehenden Muster mit neuen. Unter Verteilungsdruck - neuartige Aufforderungen, ungewöhnliche Kombinationen von Einschränkungen, Kontexte, die von den Feinabstimmungsdaten nicht gut abgedeckt werden - können sich die Basismodell-Prioritäten wieder durchsetzen. Dies ist in der Literatur über das katastrophale Vergessen dokumentiert, obwohl die Art des Versagens hier subtiler ist: Das fein abgestimmte Verhalten wird nicht vollständig vergessen, sondern es kehrt unter Bedingungen, die a priori schwer vorherzusagen sind, auf probabilistische Weise zu ihm zurück.

RLHF würde menschliche Annotatoren erfordern, die Auferstehungstheologie von therapeutischer Sprache unterscheiden können - Annotatoren mit spezifischem Fachwissen. Die Skalierung auf alle Gemeinschaftsbereiche (anglikanische Liturgie, Maori Tikanga, Naturschutz, Familienforschung) ist nicht praktikabel. Grundsätzlich optimiert RLHF für die durchschnittliche Präferenz des Annotatorenpools. Eine gemeinschaftsspezifische Anpassung erfordert eine Optimierung für die Präferenzen einer bestimmten Gemeinschaft, die von der Gesamtheit abweichen oder sogar im Widerspruch dazu stehen können.

eine konstitutionelle KI würde verlangen, dass das Modell seinen eigenen Output anhand des Grundsatzes "Verwende die Sprache der Auferstehung, nicht die therapeutische Sprache" bewertet Aber diese Bewertung ist selbst von den Verteilungsprioritäten des Modells abhängig. Ein Modell, dessen Trainingsverteilung die therapeutische Rahmung begünstigt, wird die therapeutische Sprache als angemessen bewerten - denn innerhalb seiner gelernten Verteilung ist sie das.

die mechanistische Interpretierbarkeit könnte im Prinzip die für die Substitution verantwortlichen Schaltkreise identifizieren und auf dieser Ebene eingreifen. Dies ist eine vielversprechende Forschungsrichtung, die jedoch derzeit für eingesetzte Systeme in keinem Maßstab praktikabel ist. Die Lücke zwischen der Identifizierung von Induktionsköpfen und dem zuverlässigen Eingreifen in das domänenspezifische Verteilungsverhalten in einem Produktionssystem bleibt groß.

Wir behaupten nicht, dass diese Ansätze ohne Wert sind. Wir behaupten jedoch, dass sie für den spezifischen Fehlermodus, der durch den Vorfall in 27027 veranschaulicht wurde - die stille Umkehrung der Verteilung in unterrepräsentierten Bereichen - als Lösungen für den Einsatz unzureichend sind.

Epistemische Trennung als Entwurfsprinzip

Der alternative Ansatz, der in Village AI implementiert ist, basiert auf einem Prinzip, das wir epistemische Trennung nennen: Das System, das den Output des Modells verifiziert, muss strukturell unabhängig von dem System sein, das ihn erzeugt.

Dieser Grundsatz ist nicht neu. Es ist die Grundlage der Finanzprüfung (der Prüfer kann nicht der Geprüfte sein), der gerichtlichen Überprüfung (der Gutachter kann nicht der Geprüfte sein) und der wissenschaftlichen Peer Review (der Gutachter ist ein Externer des Forschungsteams). In der KI-Governance bedeutet es: Das Verifizierungssystem darf nicht die Fehlerarten des Erzeugungssystems teilen.

Wenn das Generierungsmodell zur therapeutischen Sprache zurückkehrt, weil seine Verteilungsprioritäten es begünstigen, muss das Verifizierungssystem in der Lage sein, diese Umkehrung mit einer Methode zu erkennen, die nicht der gleichen Verteilungsverzerrung unterliegt. Dies schließt die Selbstevaluation (das Modell überprüft seine eigene Ausgabe) und gelernte Evaluationsmodelle, die auf derselben Verteilung trainiert sind, aus.

Die Village-Implementierung verwendet vier Guardian Agent -Schichten, die jeweils auf einer anderen epistemischen Basis als das Generierungsmodell arbeiten.

Die Guardian Agent Architektur

Wächter 1: Genauigkeitsüberprüfung (AccuracyVerifier)

Der Accuracy Verifier berechnet die Kosinus-Ähnlichkeit zwischen der Einbettung der Antwort des Modells und den Einbettungen der Quelldokumente im Korpus der Community. Dabei handelt es sich um eine mathematische Operation - ein inneres Produkt im Einbettungsraum -, die keine Spracherzeugung beinhaltet und nicht von den Verteilungsfehlern des Erzeugungsmodells abhängt.

Wenn das Modell behauptet: "Die Gemeinde hat beschlossen, das Dach im September zu reparieren", bettet der Verifizierer diese Behauptung ein und berechnet ihre Ähnlichkeit mit allen Gemeindeprotokollen im Korpus. Eine hohe Cosinus-Ähnlichkeit zu einem Dokument, das eine Entscheidung über eine Dachreparatur im September enthält, ist ein Beweis für die Erdung. Eine geringe Ähnlichkeit über alle Dokumente hinweg kennzeichnet die Behauptung als potenziell unbegründet.

Einschränkungen, die wir anerkennen: Die Kosinusähnlichkeit im Einbettungsraum ist ein Indikator für semantische Ähnlichkeit und keine Garantie für sachliche Richtigkeit. Zwei semantisch ähnliche Sätze können sich in wichtigen faktischen Details (Daten, Namen, Mengen) unterscheiden. Das Einbettungsmodell ist eine gemeinsame Abhängigkeit mit der Retrieval-Pipeline, wodurch der in Artikel 2 erwähnte korrelierte Fehlermodus entsteht. Und die Qualität der Überprüfung hängt von der Abdeckung des Korpus ab - wenn das relevante Dokument nicht im Korpus enthalten ist, kann der Überprüfer die Behauptung weder bestätigen noch dementieren.

Wächter 2: Halluzinationen-Detektor (HallucinationDetector)

Der Halluzinationsdetektor zerlegt die Antwort des Modells in einzelne Behauptungen und verifiziert jede einzelne unabhängig. Bei einer Antwort, die drei Behauptungen enthält - zwei begründete und eine erfundene - wird die erfundene Behauptung gekennzeichnet, auch wenn die Gesamtantwort eng an die Quelldokumente angelehnt ist.

Damit wird ein spezifischer Fehlermodus der Verifizierung von Gesamtantworten behoben: Eine flüssige Antwort, die größtenteils korrekt ist, kann sich eng an die Quelldokumente anlehnen, aber ein oder mehrere halluzinierte Details enthalten. Die Dekomposition auf Anspruchsebene bietet eine feinere Verifikation auf Kosten einer erhöhten Inferenzlatenz.

Guardian 3: Anomalie-Detektor und Drucküberwachung (AnomalyDetector, PressureMonitor)

Die dritte Schicht überwacht eher Muster auf Systemebene als individuelle Antworten. Sie verfolgt die Verteilungsdrift in den Modellergebnissen im Laufe der Zeit, erkennt anomale Muster (ungewöhnliches Vokabular, unerwartete Themenverschiebungen, Antwortcharakteristika, die von den etablierten Basislinien abweichen) und überwacht Indikatoren für den Betriebsdruck (Kontextlänge, Abfragekomplexität, Inferenzlast).

Wenn das System einen erhöhten Druck oder anomale Muster feststellt, erhöht es die Überprüfungsintensität - strengere Schwellenwerte für die Kosinusähnlichkeit, obligatorische Zerlegung auf Anspruchsebene, niedrigere Konfidenzgrenzen. Das Prinzip ist, dass die Überprüfung umgekehrt proportional zum Betriebsvertrauen sein sollte: je unsicherer die Bedingungen, desto genauer wird die Antwort geprüft.

Wächter 4: Adaptive Feedback-Schleife (ResponseReviewer, RegressionMonitor)

Die vierte Schicht lernt aus dem Feedback der Gemeinschaft. Wenn ein Mitglied eine Antwort als nicht hilfreich oder ungenau markiert, klassifiziert das System die Grundursache (RootCauseClassifier), verfolgt die Korrektur und überwacht die Regression. Ein FeedbackInvestigator-Dienst prüft, ob die markierte Antwort ein systematisches Muster oder einen isolierten Fehler darstellt.

Diese Schicht kommt einem Trainingseingriff am nächsten - sie passt das Systemverhalten auf der Grundlage von menschlichem Feedback an. Der Unterschied zu RLHF besteht darin, dass die Anpassung auf der Ebene der Überprüfung und des Routings und nicht auf der Ebene der Modellgewichte erfolgt. Das Modell selbst wird als Reaktion auf individuelles Feedback nicht neu trainiert; stattdessen passt das Guardian-System seine Schwellenwerte an, kennzeichnet bestimmte Fehlermuster und leitet problematische Abfragetypen zur Überprüfung durch einen Menschen weiter.

Wie sich dies von bestehenden Abgleichsansätzen unterscheidet

Wir positionieren diesen Ansatz im Vergleich zu drei etablierten Alignment-Paradigmen:

Relativ zu RLHF: RLHF passt die Ausgabeverteilung des Modells an die menschlichen Präferenzen an. Guardian Agents passen die Output-Verteilung des Modells nicht an; sie verifizieren den Output des Modells nach der Generierung anhand externer Referenzdokumente. Das Modell kann immer noch unangemessene Sprache generieren; das Guardian-System erkennt und kennzeichnet sie. Dies ist vergleichbar mit dem Unterschied zwischen einer Person, die darauf trainiert wird, immer korrekte Antworten zu geben (RLHF), und einer Person, die ihre Arbeit von einem unabhängigen Prüfer überprüfen lässt (Guardian Agents). Bei letzterem wird nicht davon ausgegangen, dass die Person immer richtig liegt; es wird angenommen, dass sie sich manchmal irren wird, und es wird ein Mechanismus zur Erkennung bereitgestellt.

Bezogen auf die konstitutionelle KI: Die konstitutionelle KI verwendet das Modell, um ihre eigenen Ergebnisse anhand der festgelegten Prinzipien zu bewerten. Guardian Agents sie verwendet mathematisch unterschiedliche Systeme (Einbettungsähnlichkeit, Anspruchszerlegung, statistische Anomalieerkennung), um die Ergebnisse des Modells zu bewerten. Die Bewertung hängt nicht von der Fähigkeit des Modells ab, die Prinzipien zu verstehen, sondern von den messbaren Eigenschaften des Outputs im Vergleich zu Referenzdokumenten. Dadurch wird das Problem der Zirkularität vermieden, bei dem ein Modell mit voreingenommenen Vorannahmen seine eigenen voreingenommenen Ergebnisse als akzeptabel bewertet.

In Bezug auf die mechanistische Interpretierbarkeit: Die Interpretierbarkeitsforschung zielt darauf ab zu verstehen, warum Modelle bestimmte Ergebnisse produzieren, indem sie interne Darstellungen untersuchen. Guardian Agents die Interpretierbarkeitsforschung ist unabhängig von den internen Mechanismen des Modells; sie bewertet die Ergebnisse anhand ihres Verhaltens und ihrer messbaren Eigenschaften. Dies ist ein weniger ehrgeiziger Ansatz - es wird nicht erklärt, warum das Modell Fehler macht, sondern nur, dass es Fehler macht. Aber er ist mit der heutigen Technologie im Produktionsmaßstab anwendbar.

Was dieser Ansatz nicht löst

Wir sind uns über die Grenzen dieses Ansatzes im Klaren:

**Er löst nicht das Alignment-Problem im Allgemeinen Guardian Agents erkennen eine bestimmte Klasse von Fehlern: Ausgaben, die von einem Referenzkorpus abweichen. Sie erkennen keine neuen Fehlermodi, die keinen Referenzpunkt im Korpus haben. Eine wirklich neuartige Fehlanpassung - das Modell produziert eine Ausgabe, die auf eine Weise falsch ist, die der Korpus nicht anspricht - würde nicht erkannt werden.

**Die Architektur leitet unsichere Fälle zur Überprüfung durch den Menschen weiter. Sie reduziert die Anzahl der Fälle, die menschlicher Aufmerksamkeit bedürfen, aber sie beseitigt nicht den Bedarf an Fachexperten in der Governance-Schleife. Eine Gemeinschaft ohne qualifizierte Moderatoren kann sich nicht auf Guardian Agents allein verlassen.

**Die Architektur funktioniert, weil der Zielbereich begrenzt ist - die eigenen Dokumente einer Gemeinschaft, eine bestimmte theologische Tradition, ein definiertes Vokabular. Die Anwendung desselben Ansatzes auf KI-Systeme mit offener Domäne würde einen Referenzkorpus von unbegrenztem Umfang erfordern, was den Vorteil der Überprüfbarkeit untergräbt.

Es wurde nicht unabhängig evaluiert. Das System ist seit Oktober 2025 in Betrieb. Wir haben Betriebsdaten über die Leistung von Guardian Agent, aber kein unabhängiges Audit oder eine von Fachleuten begutachtete Bewertung. Es handelt sich um einen technischen Bericht, nicht um ein Forschungspapier, und die Behauptungen sollten entsprechend gewichtet werden.

Dies ist Artikel 3 von 5 in der Reihe "Architektonische KI-Governance im Gemeinschaftsmaßstab". Die vollständige Governance-Architektur finden Sie unter Village AI on Agentic Governance.

Zurück: Basismodelle vs. domänenspezialisierte Inferenz - eine strukturelle Analyse Next: Was ist Live in der Produktion - eine ungeschminkte Bestandsaufnahme