Fundamentale Modelle vs. domänenspezifische Inferenz - eine strukturelle Analyse

Serie: Architektonische KI-Governance auf Gemeinschaftsebene - Eine technische Untersuchung von Village AI (Artikel 2 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International

Das Problem der Verteilungspriorität

Frontier-Sprachmodelle werden auf Korpora trainiert, die die statistische Verteilung von Texten im Internet widerspiegeln. Dies ist eine wohlverstandene Beobachtung, aber ihre Auswirkungen auf eingesetzte Systeme, die in spezialisierten Bereichen arbeiten, sind in der Alignment-Literatur noch nicht ausreichend untersucht worden.

Die Trainingsverteilung eines typischen großen Sprachmodells ist überrepräsentiert:

Englischsprachige Inhalte (und innerhalb des Englischen die amerikanische englische Orthographie und Idiomatik)
Kommerzielle, Marketing- und Unternehmenskommunikation
Individualistische Formulierung von sozialen und moralischen Fragen
Weltliche therapeutische Sprache für emotionale und ethische Kontexte
Technischer und professioneller Diskurs
Inhalte aus den letzten zwei Jahrzehnten, mit begrenzter historischer Tiefe

Dementsprechend unterrepräsentiert:

Liturgische, andächtige und theologische Sprache
Traditionen der Entscheidungsfindung in der Gemeinschaft
Nicht-westliche moralische und philosophische Rahmenwerke
Mündliche Traditionen und narrative Kulturen
Die operative Sprache kleiner, verwurzelter Gemeinschaften
Bereichsspezifische Korpora, die im offenen Web nicht gut vertreten sind

Die Folge ist keine zufällige Verteilung von Fehlern. Es handelt sich um eine systematische Verteilungsverzerrung: Unter Unsicherheit greift das Modell auf das statistische Zentrum seiner Trainingsverteilung zurück. Für Gemeinschaften, deren Normen, Vokabular und Werte in dieser Verteilung unterrepräsentiert sind, ist diese Umkehrung still und konsequent.

Warum Prompting und RLHF die Verteilungsprioritäten am Ende nicht auflösen

Drei gängige Ansätze zur Anpassung des Verhaltens von Basismodellen sind Systemaufforderungen, RLHF und konstitutionelle KI. Jeder dieser Ansätze hat nachweislich seine Grenzen, wenn er am Ende der Trainingsverteilung arbeitet.

Systemaufforderungen liefern zum Zeitpunkt der Inferenz einen Kontext, der die Ausgabe des Modells beeinflusst. Sie sind effektiv, wenn das gewünschte Verhalten in der Trainingsverteilung gut repräsentiert ist - die Aufforderung aktiviert bestehende Muster. Sie sind wesentlich weniger effektiv, wenn das geforderte Verhalten mit starken Verteilungsprioritäten in Konflikt steht. Das Modell folgt dem Prompt, wo es kann, aber wenn der Prompt ein Verhalten vorgibt, das in den Trainingsdaten statistisch selten ist, setzt sich der Prior durch. Dies ist kein Versagen der Prompt-Technik, sondern eine Folge der Funktionsweise bedingter Verteilungen.

RLHF lernt ein Belohnungsmodell aus menschlichen Präferenzdaten und verwendet es zur Feinabstimmung des Basismodells. Das Belohnungsmodell ist selbst eine gelernte Funktion, die denselben Verteilungsbeschränkungen unterliegt wie das Basismodell. Wenn die Präferenzdaten die betreffende Domäne nicht angemessen abdecken - wenn z. B. die Kommentatoren, die die Ergebnisse einstufen, keine Fachkenntnisse in anglikanischer Liturgie oder Maori Tikanga haben -, wird das Belohnungsmodell nicht die für die Domäne unpassenden Ergebnisse bestrafen. Das fein abgestimmte Modell kann in der Auswertungsmenge angepasst erscheinen, während es in genau den Bereichen, in denen die Anpassung am wichtigsten ist, nicht angepasst ist.

die Konstitutionelle KI definiert Prinzipien und verwendet das Modell selbst, um seine Ergebnisse anhand dieser Prinzipien zu bewerten. Dies ist ein eleganter Ansatz, der jedoch eine zirkuläre Wirkung hat: Die Fähigkeit des Modells, die bereichsspezifische Übereinstimmung zu bewerten, wird durch dieselben Verteilungsprioritäten begrenzt, die die Fehlanpassung verursachen. Ein Modell, das therapeutische Sprache durch theologische Sprache ersetzt, weil seine Trainingsverteilung die erstere bevorzugt, wird diese Substitution nicht zuverlässig erkennen, wenn es aufgefordert wird, sich selbst zu bewerten - weil ihm die Verteilungsgrundlage fehlt, um die Substitution als Substitution zu erkennen.

Keiner dieser Ansätze ist ohne Wert. Sie verbessern das Verhalten im durchschnittlichen Fall erheblich. Die Behauptung ist enger gefasst: Sie lösen nicht das Problem der Schwanzverteilung für Gemeinschaften, deren Normen im Trainingskorpus unterrepräsentiert sind. Bei diesen Gemeinschaften liegt der Fehler nicht in gelegentlichen schlechten Ergebnissen, sondern in der systematischen, stillen Rückkehr zu Verteilungsprioritäten.

Die Strategie der spezialisierten Schichten

Village AI verfolgt einen anderen Ansatz. Anstatt zu versuchen, ein Grenzmodell durch Eingriffe in der Trainingszeit anzugleichen, wird ein kleineres Basismodell (8B Parameter) mit bereichsspezifischen Feinabstimmungsschichten verwendet.

Die Architektur besteht aus drei Komponenten:

Das Basismodell: villageai-8b-corrected-v4. Dies ist die Basisschicht, die auf dem operativen Wissen der Plattform basiert - wie das Village-System funktioniert, welche Funktionen es gibt, wie man sich auf der Oberfläche bewegt. Jeder Mieter nutzt diese Schicht. Sie bietet kompetente Allzweck-Sprachgenerierung innerhalb eines begrenzten Bereichs.

**Auf dem Basismodell werden für jeden Produkttyp domänenspezifische, fein abgestimmte Varianten trainiert. Die erste Produktionsspezialisierung ist villageai-8b-episcopal-v2, trainiert auf bischöfliche/anglikanische liturgische, pastorale und Governance-Inhalte. Das Ziel der Feinabstimmung besteht darin, die Verteilungsprioritäten des Modells innerhalb der Zieldomäne zu verändern - nicht um Wissen hinzuzufügen, das über RAG abgerufen werden kann, sondern um die Standardsprache, das Framing und die normativen Annahmen des Modells neu zu gestalten.

Tenant-spezifische Inhalte über RAG. Individuelle Community-Inhalte - ihre Bulletins, Stories, Governance-Dokumente - sind nicht in das Modell integriert. Sie werden zur Inferenzzeit über die Vektorsuche (Qdrant) abgerufen und als Kontext bereitgestellt. Dies trennt das sprachliche Verhalten des Modells (das durch Feinabstimmung geformt wird) von den faktischen Inhalten, auf die es sich bezieht (die aus dem gemeinschaftseigenen Korpus abgerufen werden).

Die Unterscheidung zwischen Feinabstimmung und RAG ist architektonisch bedeutsam. Die Feinabstimmung verändert die Prioritäten des Modells - sein Standardvokabular, seine rahmenden Annahmen, sein normatives Register. RAG bietet eine faktische Grundlage. Die beiden Mechanismen zielen auf unterschiedliche Fehler ab: Feinabstimmung behebt Verteilungsfehler (das Modell verwendet das falsche Register), während RAG auf Halluzinationen abzielt (das Modell erfindet Fakten).

Der Zielkonflikt: Fähigkeit vs. Überprüfbarkeit

Dieser Ansatz ist mit einem bewussten Kompromiss verbunden, der klar und deutlich gesagt werden sollte.

Ein 8B-Parameter-Modell kann nicht mit einem 700B+-Grenzmodell für allgemeine Fähigkeiten mithalten. Es produziert weniger flüssige Prosa zu Themen außerhalb der Domäne. Es hat ein kleineres effektives Kontextfenster. Es ist weniger in der Lage, komplexe mehrstufige Schlussfolgerungen zu ziehen. Es kann keine Bilder generieren, keinen Code in obskuren Sprachen schreiben und sich nicht mit der Leichtigkeit eines Grenzsystems an einem weitreichenden philosophischen Diskurs beteiligen.

Was es im Gegenzug bietet:

Überprüfbarkeit. Die Ergebnisse des Modells können anhand eines begrenzten Quellkorpus überprüft werden. Wenn die Guardian Agent Architektur (beschrieben in Artikel 3) die Kosinus-Ähnlichkeit zwischen der Antworteinbettung des Modells und den Einbettungen der Quelldokumente berechnet, ist der Korpus klein genug, dass eine Überprüfung durchführbar ist. Die Überprüfung der Antwort eines Grenzmodells gegen "das Internet" ist nicht durchführbar.

Überprüfbarkeit. Die Feinabstimmungsdaten des Modells sind bekannt und werden kontrolliert. Die durch die Feinabstimmung eingeführten Verteilungsprioritäten sind im Prinzip überprüfbar - man kann den Trainingskorpus untersuchen und verstehen, warum das Modell eine bestimmte Sprache vorgibt. Dies ist bei einem Modell, das auf Billionen von Token von Webdaten trainiert wurde, wesentlich schwieriger.

**Das Modell läuft auf kontrollierter Hardware - einer AMD RX 7900 XTX GPU, auf die über WireGuard VPN zugegriffen wird, mit CPU-Fallback auf einem 3B degradierten Modell für die Verfügbarkeit. Keine Inferenzanfrage verlässt die Infrastruktur des Betreibers. Keine Eingabeaufforderung oder Antwort wird von einem API-Anbieter protokolliert.

**Innerhalb der Zieldomäne sind die Verteilungsprioritäten des spezialisierten Modells näher an den tatsächlichen Normen der Gemeinschaft als es die Prioritäten eines Grenzmodells wären. Die bischöfliche Spezialisierung verwendet die Auferstehungssprache und nicht die therapeutische Sprache als Standardregister für Trauerkontexte, weil die Feinabstimmungsdaten genau diese Sprache enthalten.

Das Opfer ist real. Der Gewinn ist real. Ob der Kompromiss angemessen ist, hängt vom jeweiligen Einsatzkontext ab. Für eine Gemeinschaft, die einen universellen intellektuellen Begleiter braucht, ist dieses System ungeeignet. Für eine Gemeinschaft, die einen domänentreuen Assistenten benötigt, dessen Ergebnisse anhand ihrer eigenen Aufzeichnungen überprüft werden können, kann der Kompromiss günstig sein.

Die Einbettungspipeline

Die Vektorsuchkomponente verdient eine kurze technische Beschreibung.

Die Inhalte der Community werden über eine Einbettungspipeline (EmbeddingService) verarbeitet, die in Qdrant gespeicherte Vektordarstellungen erzeugt. Bei der Abfrage werden die Eingaben des Benutzers mit demselben Modell eingebettet, und die Kosinus-Ähnlichkeitssuche findet die relevantesten Quelldokumente aus dem Community-Korpus.

Diese abgerufenen Dokumente dienen zwei Zwecken: Sie liefern den faktischen Kontext für die Antwort des Modells (Standard-RAG), und sie liefern den Referenzkorpus, gegen den die Guardian Agents die Antwort verifizieren (beschrieben in Artikel 3). Sowohl für die Abfrage als auch für die Überprüfung wird derselbe Einbettungsraum verwendet, was einen Kohärenzvorteil mit sich bringt - die Überprüfung findet im selben Darstellungsraum statt wie die Abfrage -, aber auch eine potenzielle Schwachstelle: Systematische Verzerrungen im Einbettungsmodell würden sich gleichzeitig auf die Abfrage und die Überprüfung auswirken.

Wir halten dies für eine ungelöste Einschränkung. Das Einbettungsmodell ist eine gemeinsame Abhängigkeit, und seine Fehlermodi könnten mit den Fehlermodi des Generierungsmodells auf eine Weise korreliert sein, die innerhalb des Systems schwer zu erkennen ist.

Dies ist Artikel 2 von 5 in der Serie "Architectural AI Governance at Community Scale". Für die vollständige Guardian Agents architektur finden Sie unter Village AI on Agentic Governance.

Zurück: Was KI ist - und wo das Ausrichtungsproblem tatsächlich liegt Nächste: Warum Governance zur Trainingszeit scheitert - Architektureinschränkungen als Alternative