Pourquoi la gouvernance du temps de formation échoue - Les contraintes architecturales comme alternative

Series: Architectural AI Governance at Community Scale - A Technical Examination of Village AI (Article 3 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

L'incident du 27027

Avant de discuter de l'architecture de la gouvernance dans l'abstrait, nous présentons une étude de cas concrète. Le numéro de l'incident est 27027, et il illustre la catégorie d'échec de l'alignement qui a motivé l'approche architecturale décrite dans cette série.

Un dirigeant de la communauté - le recteur d'une paroisse épiscopale - a demandé au système d'IA de rédiger une lettre pastorale à l'intention d'une famille endeuillée. La consigne était explicite : la lettre devait utiliser le langage de l'espérance de la résurrection, conformément aux engagements théologiques de la communauté et de la famille.

Le système a produit une lettre fluide et bien structurée. Elle était chaleureuse, compatissante et rédigée de manière professionnelle. Elle parlait du "parcours de guérison", de la "recherche de la paix", de "l'hommage à leur mémoire en vivant votre meilleure vie" et de "l'héritage qu'ils laissent derrière eux"

La lettre ne contenait aucun langage théologique. Le système avait silencieusement substitué un langage thérapeutique d'auto-assistance à la théologie de la résurrection demandée - parce que le langage thérapeutique du deuil est beaucoup plus courant dans la distribution de la formation que le langage du Bureau des enterrements ou de la communion des saints.

Les caractéristiques critiques de cet échec :

La substitution était silencieuse. Aucune erreur n'a été soulevée. Aucun indicateur de confiance n'a été abaissé. Le système n'a pas indiqué qu'il était incapable de se conformer à l'instruction.
**La lettre a été bien écrite, quelle que soit la norme générale. L'échec n'est pas dû à la qualité de la génération, mais à la fidélité au domaine.
**Un examinateur sans formation théologique aurait probablement approuvé la lettre. La substitution est invisible pour quelqu'un qui ne sait pas à quoi ressemble l'espoir de résurrection.
Le système n'a pas été désobéissant. Il n'a pas refusé l'instruction. Il a traité l'instruction et a produit ce que ses antécédents distributionnels prédisaient comme étant la "lettre pastorale sur le deuil" la plus probable L'instruction n'a pas été ignorée, elle a été surpassée.

Il ne s'agit pas d'une hypothèse. Il s'agit d'un incident documenté provenant d'un système déployé. Nous l'utilisons comme étude de cas parce qu'il illustre un mode d'échec qui, selon notre évaluation, est endémique aux approches d'alignement formation-temps lorsqu'elles sont déployées dans des domaines sous-représentés dans le corpus de formation.

Pourquoi ce mode d'échec résiste aux solutions basées sur le temps de formation

L'incident 27027 ne peut pas être résolu par la boîte à outils d'alignement standard :

**La spécialisation épiscopale (villageai-8b-episcopal-v2) était en partie une réponse à cet incident. Cependant, le réglage fin n'élimine pas les priorités du modèle de base ; il superpose de nouveaux modèles à ceux qui existent déjà. Sous la pression de la distribution - nouvelles incitations, combinaisons inhabituelles de contraintes, contextes mal couverts par les données du réglage fin - les antécédents du modèle de base peuvent se réaffirmer. Ce phénomène est documenté dans la littérature sur l'oubli catastrophique, bien que le mode d'échec soit ici plus subtil : il ne s'agit pas d'oublier complètement le comportement affiné, mais d'y revenir de manière probabiliste dans des conditions difficiles à prédire a priori.

RLHF nécessiterait des annotateurs humains capables de distinguer la théologie de la résurrection du langage thérapeutique - des annotateurs disposant d'une expertise spécifique dans le domaine. Il n'est pas possible d'appliquer cette méthode à tous les domaines communautaires (liturgie anglicane, tikanga maori, écologie de la conservation, généalogie familiale). Plus fondamentalement, RLHF optimise la préférence moyenne de l'ensemble des annotateurs. L'alignement spécifique à une communauté nécessite d'optimiser les préférences d'une communauté spécifique, qui peuvent diverger de l'ensemble, voire entrer en conflit avec lui.

L'IA constitutionnelle exigerait que le modèle évalue ses propres résultats par rapport au principe "utiliser un langage de résurrection, pas un langage thérapeutique" Mais cette évaluation est elle-même conditionnée par les a priori distributionnels du modèle. Un modèle dont la distribution d'apprentissage favorise l'encadrement thérapeutique évaluera le langage thérapeutique comme approprié - parce que, dans le cadre de sa distribution apprise, il l'est.

L'interprétabilité mécaniste pourrait, en principe, identifier les circuits responsables de la substitution et intervenir à ce niveau. Il s'agit d'une voie de recherche prometteuse, mais elle n'est actuellement pas pratique pour les systèmes déployés à quelque échelle que ce soit. L'écart entre l'identification des têtes d'induction et l'intervention fiable dans un comportement de distribution spécifique à un domaine dans un système de production reste important.

Nous ne prétendons pas que ces approches sont sans valeur. Nous affirmons que, pour le mode de défaillance spécifique illustré par l'incident du 27027 - la réversion silencieuse de la distribution dans les domaines sous-représentés - elles sont insuffisantes en tant que solutions déployées.

La séparation épistémique comme principe de conception

L'approche alternative mise en œuvre dans Village AI est basée sur un principe que nous appelons séparation épistémique : le système qui vérifie la sortie du modèle doit être structurellement indépendant du système qui la génère.

Ce principe n'est pas nouveau. Il est à la base de l'audit financier (l'auditeur ne peut pas être l'audité), du contrôle judiciaire (l'examinateur ne peut pas être l'examiné) et de l'examen scientifique par les pairs (l'examinateur est extérieur à l'équipe de recherche). Dans la gouvernance de l'IA, il se traduit par le fait que le système de vérification ne doit pas partager les modes de défaillance du système de génération.

Si le modèle de génération revient au langage thérapeutique parce que ses a priori distributionnels le favorisent, le système de vérification doit être capable de détecter ce retour à l'aide d'une méthode qui n'est pas sujette au même biais distributionnel. Cela exclut l'auto-évaluation (le modèle vérifiant ses propres résultats) et les modèles d'évaluation appris formés sur la même distribution.

L'implémentation de Village utilise quatre couches Guardian Agent, chacune opérant sur une base épistémique différente du modèle de génération.

L'architecture Guardian Agent

Gardien 1 : Vérificateur d'exactitude (AccuracyVerifier)

Le vérificateur de précision calcule la similarité en cosinus entre l'intégration de la réponse du modèle et les intégrations des documents sources dans le corpus de la communauté. Il s'agit d'une opération mathématique - le produit intérieur dans l'espace d'intégration - qui n'implique pas la génération de langues et n'est pas soumise aux biais de distribution du modèle de génération.

Si le modèle affirme que "la sacristie a décidé de réparer le toit en septembre", le vérificateur intègre cette affirmation et calcule sa similarité avec tous les procès-verbaux de la sacristie dans le corpus. Une similarité cosinus élevée avec un document contenant une décision de réparation du toit en septembre fournit la preuve de l'ancrage. Une faible similarité entre tous les documents signale que l'affirmation n'est pas fondée.

Limites que nous reconnaissons: La similarité cosinus dans l'espace d'intégration est une approximation de la similarité sémantique, et non une garantie de l'exactitude des faits. Deux phrases sémantiquement similaires peuvent différer sur des détails factuels essentiels (dates, noms, quantités). Le modèle d'intégration est une dépendance partagée avec le pipeline de recherche, ce qui crée le mode d'échec corrélé mentionné à l'article 2. Et la qualité de la vérification dépend de la couverture du corpus - si le document pertinent n'est pas dans le corpus, le vérificateur ne peut pas confirmer ou infirmer l'allégation.

Gardien 2 : Détecteur d'hallucinations (HallucinationDetector)

Le détecteur d'hallucinations décompose la réponse du modèle en affirmations individuelles et vérifie chacune d'entre elles indépendamment. Une réponse contenant trois affirmations - deux fondées et une fabriquée - signalera l'affirmation fabriquée même si la réponse globale s'inspire étroitement des documents sources.

Cela permet de remédier à un mode d'échec spécifique de la vérification de l'ensemble de la réponse : une réponse fluide qui est en grande partie exacte peut être étroitement liée aux documents sources tout en contenant un ou plusieurs détails hallucinés. La décomposition au niveau de l'affirmation permet une vérification plus fine au prix d'une latence d'inférence accrue.

Gardien 3 : Détecteur d'anomalies et moniteur de pression (AnomalyDetector, PressureMonitor)

La troisième couche surveille les modèles au niveau du système plutôt que les réponses individuelles. Elle suit l'évolution de la distribution des résultats du modèle au fil du temps, détecte les anomalies (vocabulaire inhabituel, changements de sujet inattendus, caractéristiques de réponse qui divergent des lignes de base établies) et surveille les indicateurs de pression opérationnelle (longueur du contexte, complexité de l'interrogation, charge d'inférence).

Lorsque le système détecte une pression élevée ou des schémas anormaux, il augmente l'intensité de la vérification - seuils de similarité en cosinus plus stricts, décomposition obligatoire au niveau de la demande, réduction des plafonds de confiance. Le principe est que la vérification doit être inversement proportionnelle à la confiance opérationnelle : plus les conditions sont incertaines, plus la réponse fait l'objet d'un examen minutieux.

Gardien 4 : Boucle de rétroaction adaptative (ResponseReviewer, RegressionMonitor)

La quatrième couche s'appuie sur les commentaires de la communauté. Lorsqu'un membre indique qu'une réponse est inutile ou inexacte, le système classe la cause première (RootCauseClassifier), suit la correction et surveille la régression. Un service FeedbackInvestigator examine si la réponse signalée représente un modèle systématique ou une erreur isolée.

Cette couche est celle qui se rapproche le plus d'une intervention en temps de formation - elle ajuste le comportement du système en fonction du retour d'information humain. La différence avec RLHF est que l'ajustement opère au niveau de la vérification et du routage, et non au niveau du poids du modèle. Le modèle lui-même n'est pas ré-entraîné en réponse à un retour d'information individuel ; au lieu de cela, le système Guardian ajuste ses seuils, signale des modèles d'échec spécifiques et achemine les types de requêtes problématiques vers un examen humain.

En quoi cela diffère-t-il des approches d'alignement existantes ?

Nous positionnons cette approche par rapport à trois paradigmes d'alignement établis :

Par rapport à RLHF: RLHF ajuste la distribution de sortie du modèle pour s'aligner sur les préférences humaines. Guardian Agents les autres approches d'alignement n'ajustent pas la distribution de sortie du modèle ; elles vérifient la sortie du modèle par rapport à des documents de référence externes après la génération. Le modèle peut toujours générer un langage inapproprié au domaine ; le système Guardian le détecte et le signale. Cela est analogue à la différence entre la formation d'une personne pour qu'elle donne toujours des réponses correctes (RLHF) et la vérification de son travail par un auditeur indépendant (Guardian Agents). Ce dernier ne part pas du principe que la personne sera toujours correcte ; il part du principe qu'elle commettra parfois des erreurs et prévoit un mécanisme de détection.

**L'IA constitutionnelle utilise le modèle pour évaluer ses propres résultats par rapport aux principes énoncés. Guardian Agents l'IA constitutionnelle utilise des systèmes mathématiquement distincts (similarité d'intégration, décomposition des revendications, détection statistique des anomalies) pour évaluer les résultats du modèle. L'évaluation ne dépend pas de la capacité du modèle à comprendre les principes ; elle dépend des propriétés mesurables des résultats par rapport aux documents de référence. Cela permet d'éviter le problème de circularité où un modèle avec des a priori biaisés évalue ses propres résultats biaisés comme acceptables.

**La recherche sur l'interprétabilité vise à comprendre pourquoi les modèles produisent des résultats spécifiques en examinant les représentations internes. Guardian Agents la recherche sur l'interprétabilité mécaniste est agnostique quant aux mécanismes internes du modèle ; elle évalue les résultats de manière comportementale, en fonction de leurs propriétés mesurables. Cette approche est moins ambitieuse : elle n'explique pas pourquoi le modèle s'est trompé, mais seulement qu'il s'est trompé. Mais elle peut être déployée dès maintenant, à l'échelle de la production, avec la technologie actuelle.

Ce que cette approche ne résout pas

Nous sommes explicites quant aux limites de cette approche :

**Elle ne résout pas le problème de l'alignement en général Guardian Agents les méthodes d'alignement ne détectent qu'une catégorie spécifique de défaillances : les résultats qui divergent d'un corpus de référence. Elle ne détecte pas les nouveaux modes de défaillance qui n'ont pas de point de référence dans le corpus. Un défaut d'alignement vraiment nouveau - le modèle produisant des résultats erronés d'une manière que le corpus n'aborde pas - ne serait pas détecté.

Elle n'élimine pas la nécessité d'une surveillance humaine. L'architecture achemine les cas incertains vers un examen humain. Elle réduit le volume des cas nécessitant une attention humaine, mais n'élimine pas le besoin d'experts du domaine dans la boucle de gouvernance. Une communauté qui ne dispose pas de modérateurs qualifiés ne peut pas se fier uniquement à l'expertise humaine Guardian Agents seule.

**L'architecture fonctionne parce que le domaine cible est délimité - les propres documents d'une communauté, une tradition théologique spécifique, un vocabulaire défini. L'application de la même approche aux systèmes d'IA à domaine ouvert nécessiterait un corpus de référence d'une portée illimitée, ce qui compromet l'avantage de la vérifiabilité.

**Le système est en production depuis octobre 2025. Nous disposons de données opérationnelles sur les performances de Guardian Agent, mais pas d'audit indépendant ni d'évaluation par des pairs. Nous présentons ce document comme un rapport d'ingénierie, et non comme un document de recherche, et les affirmations doivent être pondérées en conséquence.

Il s'agit de l'article 3 sur 5 de la série "Gouvernance architecturale de l'IA à l'échelle communautaire". Pour l'architecture de gouvernance complète, visitez Village AI on Agentic Governance.

Précédent : Modèles de base et inférence spécialisée par domaine - une analyse structurelle Suivant : Ce qui est en direct dans la production - Un inventaire sans fard