Jenseits des Modells - Plattformarchitektur und Governance-Integration

Serie: Architektonische KI-Governance im Gemeinschaftsmaßstab - Eine technische Untersuchung von Village AI (Artikel 5 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Das Modell ist nicht das System

In den vorangegangenen Artikeln wurden das Generierungsmodell, die Verifizierungspipeline Guardian Agent und das Problem der Verteilungsfehler untersucht. In diesem letzten Artikel wird untersucht, wie sich die architektonische Steuerung über das Modell hinaus auf die Plattform ausdehnt, und der Gesamtansatz wird im Hinblick auf seine Nachteile und Vorteile bewertet.

Die zentrale Behauptung ist, dass KI-Anpassung auf Gemeinschaftsebene nicht allein durch das Modell gelöst werden kann - nicht durch Training, nicht durch Feinabstimmung, nicht durch RLHF und nicht durch isolierte Verifikation zur Inferenzzeit. Die Anpassung beim Einsatz erfordert architektonische Einschränkungen, die sich auf das gesamte System erstrecken: Datenisolierung, Zustimmungsarchitektur, Vokabularrahmen, Integration menschlicher Aufsicht und föderierte Steuerung. Das Modell ist eine Komponente. Die Architektur ist der Eingriff.

Datenisolierung als Mechanismus für den Abgleich

Die Datenisolierung für mehrere Mandanten wird in der Regel als ein Sicherheitsaspekt diskutiert. In der Village-Architektur fungiert sie auch als Angleichungsmechanismus.

Jede Datenbankabfrage wird nach tenantId gefiltert. Der Vektorspeicher verwaltet mandantenübergreifende Sammlungen. Das Generierungsmodell erhält den Kontext nur aus dem Korpus des abfragenden Mandanten. Dies sind Standardmuster für mehrere Mandanten, aber sie haben eine Auswirkung auf die Ausrichtung: Das Modell kann nicht auf Verteilungsmuster aus den Daten anderer Mandanten zurückgreifen.

Dies ist von Bedeutung, da die Ausrichtung in Gemeinschaftskontexten nicht universell ist. Was für eine bischöfliche Gemeinde eine angemessene Sprache ist, kann für eine Naturschutzgruppe unangemessen sein, und umgekehrt. Ein Modell, das Zugang zu den Daten aller Mieter hat - auch nur zum Lesen, sogar zum Abrufen - würde Verteilungsprioritäten entwickeln, die sich über die Gemeinschaften hinweg vermischen. Die Isolierung von Mietern verhindert diese Kreuzkontamination auf der Datenebene.

Das architektonische Prinzip lautet: Das Kontextfenster des Modells sollte nur Inhalte aus der Gemeinschaft enthalten, die es gerade bedient. Dies wird strukturell durchgesetzt, nicht durch Anweisungen. Dem Modell muss nicht gesagt werden, dass es innerhalb der Grenzen des Mandanten bleiben soll; es hat keinen Zugang zu irgendetwas außerhalb davon.

Consent Architecture

Das Zustimmungssystem (ConsentRecord-Modell, AIMemoryConsent-Komponente) regelt, welche Inhalte in die KI-Pipeline gelangen. Es sind drei verschiedene Zustimmungszwecke definiert: ai_triage_memory, ai_ocr_memory, und ai_summarisation_memory. Inhalte werden nur dann für die KI-Nutzung indiziert, wenn der Ersteller der Inhalte seine ausdrückliche Zustimmung für den jeweiligen Zweck erteilt hat.

Dies ist eine Ausrichtungsbeschränkung, die vor der Inferenz greift. Inhalte, die nicht für die KI-Nutzung freigegeben wurden, erscheinen nicht im Vektorspeicher, werden während der RAG nicht abgerufen und stehen nicht als Referenzmaterial für die Überprüfung von Guardian Agent zur Verfügung. Das Modell kann nicht aufgrund von Inhalten, die es noch nie gesehen hat, halluzinieren.

Die Zustimmungsarchitektur geht auch auf ein subtileres Problem ein: Community-Mitglieder, denen die Verarbeitung ihrer Beiträge durch KI unangenehm ist, können ihre Inhalte ausschließen, ohne die Fähigkeit des Systems zu beeinträchtigen, anderen Mitgliedern zu dienen. Dies ist sowohl ein Mechanismus zur Steuerung als auch ein Mechanismus zum Schutz der Privatsphäre - er ermöglicht es der Gemeinschaft, die Wissensbasis der KI durch individuelle Zustimmungsentscheidungen zu gestalten.

Einschränkung: Die Zustimmung bezieht sich auf die Inhaltsebene, nicht auf die Informationsebene. Wenn Mitglied A eine Geschichte schreibt, in der Mitglied B erwähnt wird, und Mitglied A der KI-Verarbeitung zustimmt, gelangen Informationen über Mitglied B in die KI-Pipeline, unabhängig von den Präferenzen von Mitglied B. Dies ist eine inhärente Einschränkung der Zustimmung auf Inhaltsebene, die wir noch nicht vollständig gelöst haben.

Vokabular als Rahmen für Governance

In Artikel 4 wurden die Schnittstelle des Vokabularsystems und die Auswirkungen auf Modellebene beschrieben. Hier untersuchen wir es als Governance-Mechanismus.

Das Vokabularsystem implementiert etwas, das man als Framing Governance bezeichnen könnte: Es schränkt den konzeptionellen Rahmen ein, innerhalb dessen das Modell arbeitet. Wenn das System im gesamten Eingabeaufforderungskontext "Gemeindemitglieder" durch "Benutzer" und "Gemeindeverwaltung" durch "Verwaltungseinstellungen" ersetzt, verschiebt es die bedingte Verteilung des Modells weg von Technologieplattform-Mustern und hin zu Gemeindeverwaltungs-Mustern.

Dies ist eine schwächere Intervention als die Feinabstimmung - sie wirkt auf der Ebene der Eingabeaufforderung, nicht auf der Ebene der Gewichtung - aber sie hat zwei Vorteile:

Es ist transparent und überprüfbar. Die Vokabelzuordnungen werden in einer einzigen Konfigurationsdatei (product-vocabularies.js) definiert. Ein Forscher kann genau überprüfen, welche Begriffe ersetzt werden, und ihre Auswirkungen auf das Modellverhalten vorhersagen.
**Verschiedene Produkttypen haben unterschiedliche Vokabularzuordnungen, und diese können erweitert werden, ohne das Modell neu zu trainieren. Dies ist relevant für Gemeinschaften, deren Terminologie zu keinem der bestehenden Produkttypen passt.

Die Interaktion zwischen dem Vokabular-Framing und der Feinabstimmung der Fachebene ist erwähnenswert. Das Vokabularsystem verschiebt den Prompt-Kontext, die Feinabstimmung verschiebt die Verteilungsprioritäten des Modells. Wenn beide zusammen wirken - die Eingabeaufforderung verwendet bischöfliches Vokabular und das Modell verfügt über bischöfliche Feinabstimmung - ist der kombinierte Effekt stärker als jede Intervention für sich. Wenn nur eine Maßnahme zum Tragen kommt (ein Gemeinschaftstyp ohne spezialisiertes Modell, der nur das Vokabular-Framing verwendet), ist der Effekt schwächer, aber immer noch in der Qualität der Ergebnisse messbar.

Integration der menschlichen Aufsicht

Der Boundary Enforcer (der in Artikel 3 der Pfarrserie als Governance-Komponente beschrieben wird) leitet Fragen, die Werte, Ethik oder den kulturellen Kontext betreffen, an die menschliche Überprüfung weiter. Dies wird durch den PreInferenceProtector und durch eine vertrauensbasierte Weiterleitung realisiert: Wenn die Überprüfung von Guardian Agent ein Vertrauen unterhalb eines konfigurierbaren Schwellenwerts ergibt, wird die Antwort zur Überprüfung durch einen Moderator gekennzeichnet und nicht direkt zugestellt.

Auf diese Weise entsteht eine "Human-in-the-Loop"-Architektur, bei der die KI selbständig vertrauenswürdige, gut begründete Anfragen bearbeitet und unsichere oder sensible Anfragen an die menschliche Aufsicht weiterleitet. Der Schwellenwert ist für jeden Mandanten konfigurierbar, so dass die Gemeinschaften ihre eigene Risikotoleranz festlegen können.

Einschränkung: Die Qualität der menschlichen Aufsicht hängt von der Qualität der menschlichen Moderatoren ab. Das System kann unsichere Anfragen an einen Moderator weiterleiten, aber es kann nicht sicherstellen, dass der Moderator über das nötige Fachwissen verfügt, um sie effektiv zu bewerten. Dies ist eine organisatorische Einschränkung, keine technische, aber sie schränkt die Wirksamkeit der Gesamtarchitektur ein.

Der Weg der Moderatoren-Akkreditierung - eine strukturierte Schulung für Community-Mitglieder, die die Moderatorenrolle übernehmen - soll diese Einschränkung beheben, wird aber schrittweise eingeführt.

Föderation und gemeinschaftsübergreifende Verwaltung

Die Föderationsarchitektur ermöglicht es verschiedenen Village-Instanzen, bilaterale Verbindungen herzustellen, d. h. ausgewählte Inhalte über Community-Grenzen hinweg gemeinsam zu nutzen und dabei die Datenhoheit zu wahren. Beide Gemeinschaften müssen der Verbindung zustimmen, und jede von ihnen kann sich jederzeit zurückziehen.

Unter dem Gesichtspunkt der Angleichung stellt der Verbund einen kontrollierten Kanal dar, über den die Verteilungsmuster einer Gemeinschaft die andere beeinflussen können. Ein föderierter Austausch von Inhalten zwischen einer bischöflichen Gemeinde und einer Naturschutzgruppe könnte im Prinzip das KI-Verhalten der empfangenden Gemeinschaft verändern, indem Inhalte außerhalb der Domäne in den Vektorspeicher aufgenommen werden.

Die Föderationsarchitektur begegnet diesem Problem durch selektive Freigabe - nur explizit für die Föderation gekennzeichnete Inhalte werden freigegeben - und durch eine mieterübergreifende Überprüfung. Guardian Agent überprüft den Korpus der empfangenden Gemeinschaft, der föderierte Inhalte erst dann enthält, wenn sie akzeptiert und indiziert wurden. Die Moderatoren der empfangenden Community kontrollieren, welche verbündeten Inhalte in ihre KI-Pipeline gelangen.

Dies ist ein Governance-Mechanismus, der in der Alignment-Literatur keine Entsprechung hat, da in der Alignment-Literatur der Einsatz mehrerer Communities in der Regel nicht als erstklassiges Anliegen betrachtet wird. Wir weisen darauf hin, dass es sich hierbei um einen Bereich handelt, in dem KI-Systeme, die in einer Community eingesetzt werden, mit Herausforderungen konfrontiert sind, die in Laborumgebungen nicht zu bewältigen sind.

Was dieser Ansatz opfert

Wir zählen die Kosten dieses Ansatzes klar auf:

**Ein 8B-Parameter-Modell kann bei allgemeinen Aufgaben nicht mit Grenzsystemen mithalten. Benutzer, die kreatives Schreiben, komplexes Denken in unbekannten Bereichen oder ein breites Spektrum an intellektueller Unterstützung benötigen, werden dieses System unzureichend finden.

Latenzzeit. Die Guardian Agent Pipeline fügt jeder Antwort einen Verifizierungs-Overhead hinzu. Die vierstufige Pipeline, einschließlich der Einbettungsberechnung, der Kosinus-Ähnlichkeitssuche, der Anspruchszerlegung und der Anomalieprüfung, führt zu einer messbaren Latenzzeit. Für Gemeinschaften, die einer schnellen Antwort den Vorzug vor einer strengen Überprüfung geben, ist dies ein Kostenfaktor.

Abdeckung. Die Domänentreue des Systems hängt von der Qualität und Abdeckung der Feinabstimmungsdaten und des Inhaltskorpus der Gemeinschaft ab. Eine neu eingerichtete Community mit minimalem Inhalt bietet einen spärlichen Referenzkorpus, wodurch die Überprüfung von Guardian Agent weniger effektiv und das Modellverhalten weniger fundiert ist.

Skalierbarkeit. Die Architektur ist für den Einsatz auf Gemeinschaftsebene konzipiert (einige Dutzend bis wenige Hundert gleichzeitige Nutzer pro Tenant). Sie wurde nicht im Internet-Maßstab getestet, und die Pipeline zur Überprüfung pro Antwort würde wahrscheinlich erhebliche architektonische Änderungen erfordern, um einen hohen Durchsatz zu erreichen.

Verallgemeinerbarkeit. Die Specialised-Layer-Strategie wurde für einen Produkttyp (Episcopal) validiert. Ob sie auf alle neun definierten Produkttypen verallgemeinert werden kann und ob die Schwellenwerte von Guardian Agent eine Kalibrierung pro Domäne erfordern, ist nicht bewiesen.

Was dieser Ansatz bringt

Verifizierbarkeit. Jede KI-Antwort kann zu bestimmten Quelldokumenten zurückverfolgt werden. Die Kosinus-Ähnlichkeitswerte, die Verifizierungsergebnisse auf Anspruchsebene und die Vertrauensindikatoren sind zur Überprüfung verfügbar. Dies ist eine Eigenschaft, die Frontier-Systeme, die mit unbegrenzten Trainingskorpora arbeiten, nicht bieten können.

Überprüfbarkeit. Die Feinabstimmungsdaten, die Vokabularzuordnungen, die Guardian Agent Schwellenwerte und die Korrekturen der Rückkopplungsschleife sind alle einsehbar. Ein Forscher oder Prüfer kann die gesamte Kette von der Eingabe bis zur Ausgabe untersuchen und verstehen, warum das System eine bestimmte Reaktion erzeugt hat. Das Rahmenwerk Tractatus wird unter EUPL-1.2 veröffentlicht; die Governance-Architektur ist für externe Überprüfungen offen.

Gemeinschaftssouveränität. Die Gemeinschaft kontrolliert die Daten, die Inferenzinfrastruktur, das Vokabular, die Zustimmungsgrenzen und die Moderationspolitik. Kein Drittanbieter kann das Verhalten des Systems ohne die Zustimmung der Gemeinschaft ändern. Dies ist eine Governance-Eigenschaft, keine technische, aber sie wird architektonisch durchgesetzt.

Epistemische Trennung: Das Verifizierungssystem arbeitet nach anderen Prinzipien als das Generierungssystem. Dies garantiert zwar nicht die Korrektheit, bietet aber einen Mechanismus zur Erkennung des spezifischen Fehlermodus - stille Verteilungsumkehr -, der die Architektur motiviert hat. Der Vorfall 27027 würde von der Pipeline Guardian Agent erfasst, da die Kosinusähnlichkeit zwischen der therapeutischen Trauersprache und dem theologischen Korpus der Gemeinschaft unter den Verifikationsschwellenwert fallen würde.

Falsifizierbarkeit. Das System stellt bestimmte, überprüfbare Behauptungen auf: dass die Verifizierung von Guardian Agent unbegründete Antworten reduziert, dass die Spezialisierung auf einen bestimmten Bereich die Registertreue verbessert und dass die Wortschatzgestaltung das Modellverhalten messbar verändert. Diese Behauptungen sind im Prinzip unabhängig überprüfbar. Wir haben noch keine unabhängigen Tests veranlasst, aber die Architektur steht dem nicht entgegen.

Offene Fragen für die Forschungsgemeinschaft

Wir schließen mit Fragen, die wir selbst nicht beantworten können und zu denen wir eine Beteiligung begrüßen würden:

Ist die epistemische Trennung für die Angleichung ausreichend oder lediglich notwendig? Die Architektur von Guardian Agent ermöglicht die Erkennung von Verteilungsumkehr. Erkennung ist keine Vorbeugung. Gibt es eine theoretische Grundlage für die Behauptung, dass Erkennung und Korrektur zu einer Angleichung führen, oder wird dadurch lediglich die Häufigkeit von Fehlern begrenzt?
Wie sollten die Schwellenwerte für die Kosinusähnlichkeit kalibriert werden? Die derzeitigen Schwellenwerte sind empirisch abgestimmt. Gibt es eine prinzipielle Methode zur Festlegung von Verifizierungsschwellenwerten, die ein Gleichgewicht zwischen der Falsch-Positiv-Rate (Kennzeichnung von geerdeten Antworten als ungeerdet) und der Falsch-Negativ-Rate (Durchlassen von ungeerdeten Antworten) herstellt?
Gibt es praktische Abhilfemaßnahmen für die Schwachstelle der korrelierten Einbettung? Das gemeinsame Einbettungsmodell, das sowohl für den Abruf als auch für die Verifizierung verwendet wird, schafft einen einzigen Fehlerpunkt. Welche Architekturen könnten eine wirklich unabhängige Überprüfung ermöglichen und dabei rechnerisch vertretbar bleiben?
Kann die Strategie der spezialisierten Schichten formalisiert werden? Die Intuition, dass die domänenspezifische Feinabstimmung eines kleineren Modells eine bessere Domänentreue ergibt als die Aufforderung eines größeren Modells, wird durch unseren Einsatz empirisch gestützt, wurde aber noch nicht rigoros verglichen. Unter welchen Bedingungen ist dies der Fall, und wann ist es nicht mehr möglich?
Welche Evaluierungsrahmen gelten für das Alignment auf Gemeinschaftsebene? Standard-Benchmarks für das Alignment bewerten allgemeine Sicherheitseigenschaften. Welche Benchmarks eignen sich für die Bewertung der domänenspezifischen Ausrichtung - der Treue zu den Normen, dem Vokabular und den Werten einer bestimmten Gemeinschaft?

Diese Fragen gehen über den Rahmen eines einzelnen Entwicklungsteams hinaus. Wir werfen sie auf, weil das Alignment-Problem auf Gemeinschaftsebene - prosaisch, operationell folgenreich und von der Forschungsgemeinschaft weitgehend ignoriert - mehr Aufmerksamkeit verdient, als es derzeit erhält.

Dies ist Artikel 5 von 5 in der Serie "Architectural AI Governance at Community Scale". Um mehr über die Plattform zu erfahren, besuchen Sie Village Beta Programme. Die vollständige KI-Architektur finden Sie unter Village AI on Agentic Governance.

Zurück: Was ist Live in der Produktion - eine ungeschminkte Bestandsaufnahme