🤖 AI Research Edition Artikel 1 von 7

Moonlight tracing a path across dark water

Architektonische KI-Governance auf Community-Ebene – Eine technische Untersuchung von Village AI

Für KI-/ML-Forscher und Sicherheitsforscher

Eine fünfteilige technische Reihe, die einen alternativen Ansatz zur KI-Ausrichtung untersucht: architektonische Einschränkungen zum Zeitpunkt der Inferenz anstelle einer Ausrichtung durch Training. Geschrieben für Forscher, die mit RLHF, konstitutioneller KI, mechanistischer Interpretierbarkeit und der breiteren Literatur zum Thema Ausrichtung vertraut sind. Serienspezifische Terminologie wird im Glossar definiert.

Die Reihe

1. Was KI ist – und wo das Alignment-Problem tatsächlich liegt

Emergentes Schlussfolgern, Skalierungsgesetze und die Unterscheidung zwischen Fähigkeit und Steuerbarkeit – nun geschärft durch den Wandel von Chatbots zu Agenten in den Jahren 2024–2026 (Fähigkeit vs. Produktisierung) sowie durch Ergebnisse zur „Chain-of-Thought-Unfaithfulness“, die die CoT-basierte Überwachung einschränken. Warum sich das Alignment-Problem, wie es in eingesetzten Community-Systemen auftritt, von dem im Labor untersuchten Alignment-Problem unterscheidet – und warum die „Agentic Turn“ den Wirkungsradius dieser Kluft vergrößert.

2. Grundmodelle vs. domänenspezifische Inferenz – Eine strukturelle Analyse

Verteilungsverschiebung, Basisratenverzerrung und das Problem der stillen Substitution. Wie die Zusammensetzung der Trainingsdaten das Standardverhalten bestimmt, warum Prompting und RLHF die Verteilungs-Prioren am Rand nicht auflösen und was eine „Specialised Layer“-Strategie bei einem Modell mit 14 Milliarden Parametern im Vergleich zu Spitzen-Systemen bietet (und opfert) – einschließlich der Eigenschaft der Aktionsbegrenzung, die eine begrenzte Inferenz ermöglicht, sobald die KI handelt, anstatt nur zu antworten.

3. Warum Governance während der Trainingsphase versagt – architektonische Einschränkungen als Alternative

Der Vorfall 27027 als Fallstudie für ein Versagen der Ausrichtung: Ein KI-System, das trotz expliziter Anweisungen stillschweigend theologische Sprache durch therapeutische Sprache ersetzt. Warum Fine-Tuning, RLHF und konstitutionelle KI diese Problemklasse nicht lösen. Guardian Agents als epistemische Trennung – Verifizierungssysteme, die strukturell unabhängig von dem Modell sind, das sie überwachen.

4. Was ist derzeit in Produktion – Eine ungeschönte Bestandsaufnahme

Das tatsächliche System: ein 14B-Qwen2-Basismodell mit produktartenspezifischem Fine-Tuning der Specialised Layer, selbst gehosteter GPU-Inferenz mit CPU-Fallback, Kosinus-Ähnlichkeitsprüfung gegenüber Quelldokumenten, vier Guardian Agent-Schichten, einer adaptiven Rückkopplungsschleife und einer einzigen begrenzten agentischen Oberfläche (Feedback-Auflösung). Was funktioniert, was noch unbewiesen ist und wo uns Einschränkungen bekannt sind.

5. Jenseits des Modells – Plattformarchitektur und Integration von Governance

KI als eine Komponente innerhalb einer souveränen Community-Plattform. Wie sich architektonische Einschränkungen über das Modell hinaus auf Datenisolierung, Einwilligungsarchitektur, vokabulargesteuerte Rahmung und föderierte, gemeinschaftsübergreifende Governance erstrecken. Was dieser Ansatz an Leistungsfähigkeit einbüßt und was er an Überprüfbarkeit gewinnt.

Für wen dieser Beitrag gedacht ist

Diese Artikel richten sich an Forscher, die sich mit KI-Alignment, Sicherheit, Interpretierbarkeit und Governance beschäftigen. Es wird vorausgesetzt, dass die Leser mit Transformer-Architekturen, Fine-Tuning-Methoden, verstärktem Lernen anhand von menschlichem Feedback sowie der aktuellen Literatur zum Thema Alignment vertraut sind.

Der Beitrag ist nicht theoretischer Natur. Es handelt sich um die Beschreibung eines seit 2025 im Einsatz befindlichen Systems, das einen anderen Ansatz für das Alignment-Problem verfolgt: architektonische Einschränkungen zum Zeitpunkt der Inferenz statt Alignment durch Training. Der Ansatz ist noch jung, wird in bescheidenem Umfang betrieben und wurde noch nicht unabhängig evaluiert. Wir stellen ihn als Fallstudie vor, nicht als Lösung.

Wir weisen klar auf die Einschränkungen hin. Ein Modell mit 14 Milliarden Parametern und Domänenspezialisierung kann in Bezug auf die allgemeine Leistungsfähigkeit nicht mit den führenden Systemen mithalten. Die Guardian Agent-Architektur verursacht zusätzliche Latenz. Die Überprüfung der Kosinusähnlichkeit hängt von der Qualität und der Abdeckung des Quelldokument-Korpus ab. Dies sind echte Kompromisse, die wir im gesamten Beitrag erörtern.

Weiterführende Literatur

Village AI – Vollständige technische Architektur
Das Tractatus-Framework – Open-Source-KI-Governance
Guardian Agents – Architektur und Implementierung
Gründungs-Community-Programm
Praktikerkurse zum Betrieb dieser Systeme unter menschlicher Kontrolle: Arbeiten mit Claude und Agenten im Einsatz

Fandest du diesen Artikel hilfreich? Dann teile ihn oder zeige den QR-Code zum Scannen.