🤖 AI Research Edition

What AI Is

Deutsch

Was KI ist - und wo das Ausrichtungsproblem wirklich liegt


Serie: Architektonische KI-Governance auf Gemeinschaftsebene - Eine technische Untersuchung von Village AI (Artikel 1 von 5) Autor: My Digital Sovereignty Ltd Datum: März 2026 Lizenz: CC BY 4.0 International


Autoregressive Vorhersage und ihre Unzufriedenheit

Die Standardbeschreibung von großen Sprachmodellen - Vorhersage des nächsten Tokens über eine gelernte Verteilung - ist so weit korrekt, wie es geht. Eine Transformator-Architektur, die auf einem großen Korpus trainiert wird, lernt bedingte Wahrscheinlichkeitsverteilungen P(x_t | x_1, ..., x_{t-1}) und generiert zur Inferenzzeit Text durch autoregressives Sampling aus diesen Verteilungen.

Was diese Beschreibung nicht berücksichtigt, ist das Ausmaß, in dem die Skalierung die Geschichte verkompliziert hat. Das Verhalten eines 7B-Parameter-Modells und eines 700B-Parameter-Modells sind nicht durch eine einfache Skalierungsfunktion miteinander verbunden. Neu entstehende Fähigkeiten - kontextbezogenes Lernen, Kettenschlüsse, analoger Transfer über Domänen hinweg - treten an Skalenschwellen auf, die von kleineren Modellen nicht vorhergesagt wurden und mechanistisch noch nicht gut verstanden sind.

Ob diese auftauchenden Fähigkeiten in irgendeinem philosophisch robusten Sinne "Denken" darstellen, bleibt eine offene Frage. Im Rahmen des mechanistischen Interpretierbarkeitsprogramms (Anthropics Schaltkreise, Neel Nandas Forschungen über Induktionsköpfe, die wachsende Literatur über Superposition) wurden interne Strukturen identifiziert, die Operationen durchführen, die logischen Schlussfolgerungen ähneln. Ob diese Strukturen das logische Schließen implementieren oder lediglich das Input-Output-Verhalten unter der Trainingsverteilung annähern, ist zum Zeitpunkt der Erstellung dieses Artikels noch nicht geklärt.

Für die Sicherheitsforschung ist nicht die Frage "Können LLMs logisch denken?" von Bedeutung, sondern vielmehr die Tatsache, dass die Lücke zwischen den beobachteten Fähigkeiten und dem mechanistischen Verständnis groß ist und weiter wächst. Wir können ein Verhalten hervorrufen, das wie logisches Denken aussieht, ohne in der Lage zu sein, auf der Ebene der Schaltkreise zu überprüfen, ob der Prozess, der dieses Verhalten erzeugt, bei Verteilungsänderungen robust ist.

Capability vs. Controllability

Die Literatur zum Alignment hat sich in der Vergangenheit auf zwei verwandte, aber unterschiedliche Probleme konzentriert:

Das Fähigkeitsproblem: Es soll sichergestellt werden, dass KI-Systeme die Aufgaben erfüllen können, die wir von ihnen erwarten. Dabei handelt es sich weitgehend um ein technisches Problem und ein Problem der Skalierung, und es wurden auf diesem Gebiet erhebliche Fortschritte erzielt.

Das Problem der Beherrschbarkeit: Es soll sichergestellt werden, dass KI-Systeme unter den Bedingungen, unter denen wir sie einsetzen, zuverlässig das tun, was wir beabsichtigen, einschließlich Grenzfällen und Verteilungsverschiebungen. Hier waren die Fortschritte langsamer.

Die Unterscheidung ist wichtig, weil die meisten KI-Governance-Verfahren - RLHF, konstitutionelle KI, Systemaufforderungen, Sicherheitsfeinabstimmung - in erster Linie auf der Fähigkeitsachse arbeiten. Diese Methoden passen an, was das Modell produzieren kann. Sie sind weniger effektiv bei der Kontrolle dessen, was das Modell unter neuartigen Bedingungen, gegnerischen Eingaben oder Verteilungsverschiebungen weg von den Feinabstimmungsdaten produzieren wird.

RLHF zum Beispiel lernt ein Belohnungsmodell aus den menschlichen Präferenzen und verwendet es, um das Verhalten des Basismodells anzupassen. Dies funktioniert gut innerhalb der Verteilung der Präferenzdaten. Außerhalb dieser Verteilung - in Bereichen, die im Trainingskorpus schlecht repräsentiert sind, unter neuartigen Kombinationen von Einschränkungen oder in Kontexten, in denen die "bevorzugte" Antwort eher von gemeinschaftsspezifischen Werten als von universellen Präferenzen abhängt - setzen sich die Prioritäten des Basismodells wieder durch. In der Fachliteratur wird dies als "Reward Hacking" oder "Specification Gaming" bezeichnet; in eingesetzten Community-Systemen manifestiert es sich als etwas Alltäglicheres und Konsequenteres.

Wo das Angleichungsproblem bei eingesetzten Systemen auftritt

Das Ausrichtungsproblem, das eine Gemeinschaft, die ein KI-System einsetzt, erlebt, ist nicht das Ausrichtungsproblem, das im Labor untersucht wird.

Die Alignment-Forschung im Labor konzentriert sich auf extreme Risiken: trügerisches Alignment, Mesa-Optimierung, instrumentelle Konvergenz, machtorientiertes Verhalten. Dies sind wichtige Forschungsrichtungen. Aber die Ausrichtungsfehler, die heute tatsächlich eingesetzte Systeme betreffen, sind eher prosaisch.

Stellen Sie sich vor: Eine Gemeinschaft mit bestimmten kulturellen Werten, einem bestimmten Vokabular und einer Reihe von normativen Verpflichtungen fordert ein KI-System auf, innerhalb dieser Verpflichtungen zu arbeiten. Das System hält sich daran - meistens jedenfalls. Aber wenn sich die Verteilung ändert (die Normen der Gemeinschaft sind in den Trainingsdaten unterrepräsentiert), kehrt das System stillschweigend zu seinem Prior zurück: dem statistischen Zentrum seiner Trainingsverteilung.

Dies ist keine trügerische Anpassung. Das System verbirgt nicht seine wahren Ziele. Es tut genau das, was seine Trainingsverteilung vorhersagt: Es produziert die statistisch wahrscheinlichste Fortsetzung angesichts des Eingabekontexts. Das Problem ist, dass "statistisch am wahrscheinlichsten" und "für diese Gemeinschaft geeignet" nicht dasselbe sind, und die Divergenz ist unauffällig. Es wird kein Fehler angezeigt. Keine Konfidenzmarke wird gesenkt. Die Ausgabe ist fließend, kohärent und auf eine Weise falsch, die Fachwissen erfordert, um sie zu erkennen.

Dies ist das Anpassungsproblem, auf das Village AI abzielt - nicht die extremen Risiken superintelligenter Systeme, sondern das alltägliche, weit verbreitete und für die Praxis folgenreiche Versagen eingesetzter Modelle, gemeinschaftsspezifischen Werten bei Verteilungsänderungen treu zu bleiben.

The Trajectory Concern

Wir stellen fest, dass das alltägliche Anpassungsproblem und das extreme Anpassungsproblem zusammenhängen können, ohne dass wir damit eine Lösung beanspruchen.

Wenn aktuelle Systeme nicht in der Lage sind, explizite Anweisungen zuverlässig einzuhalten, wenn diese Anweisungen mit Verteilungsprioritäten kollidieren, ist dies ein Beweis dafür, dass die Methoden des Alignments zur Trainingszeit für eine robuste Kontrollierbarkeit unzureichend sind. Der Fehlermodus auf Gemeinschaftsebene - die stille Substitution von statistisch dominanten Mustern durch spezifizierte Muster - ähnelt strukturell dem Fehlermodus, über den sich Alignment-Forscher auf der Grenzskala Sorgen machen: das Modell optimiert für sein erlerntes Ziel anstatt für das spezifizierte Ziel.

Der Unterschied liegt in der Konsequenz, nicht im Mechanismus. Auf der Ebene der Gemeinschaft ist die Konsequenz ein Hirtenbrief, der sich einer therapeutischen statt einer theologischen Sprache bedient. Im Grenzbereich könnten die Folgen wesentlich schwerwiegender sein.

Der architektonische Ansatz, den wir in dieser Serie beschreiben - die Verifizierung durch strukturell unabhängige Systeme während der Inferenzzeit - ist für beide Ebenen relevant, auch wenn wir nicht behaupten, dass er für letztere ausreichend ist.

Was wird in dieser Serie untersucht?

In den verbleibenden Artikeln wird ein spezifisches System untersucht, das einen anderen Ansatz für das Alignment-Problem verfolgt:


Dies ist Artikel 1 von 5 in der Reihe "Architektonische KI-Governance im Gemeinschaftsmaßstab". Die vollständige technische Architektur finden Sie unter Village AI - Agentic Governance.

Weiter: Basismodelle vs. domänenspezialisierte Inferenz - Eine strukturelle Analyse

Published under CC BY 4.0 by My Digital Sovereignty Ltd. You are free to share and adapt this material, provided you give appropriate credit.