Ce qu'est l'IA - et où se situe le problème de l'alignement

Series: Architectural AI Governance at Community Scale - A Technical Examination of Village AI (Article 1 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

La prédiction autorégressive et ses inconvénients

La description standard des grands modèles linguistiques - la prédiction du prochain mot sur la base d'une distribution apprise - est exacte jusqu'à un certain point. Une architecture de transformateur formée sur un grand corpus apprend les distributions de probabilité conditionnelle P(x_t | x_1, ..., x_{t-1}) et, au moment de l'inférence, génère du texte en échantillonnant ces distributions de manière autorégressive.

Cette description ne tient pas compte du degré de complexité de l'échelle. Le comportement d'un modèle à 7 milliards de paramètres et d'un modèle à 700 milliards de paramètres n'est pas lié par une simple fonction d'échelle. Les capacités émergentes - apprentissage en contexte, raisonnement en chaîne, transfert analogique entre domaines - apparaissent à des seuils d'échelle qui n'étaient pas prévus par les modèles plus petits et qui ne sont pas encore bien compris d'un point de vue mécanique.

La question de savoir si ces capacités émergentes constituent un "raisonnement" au sens philosophique du terme reste ouverte. Le programme d'interprétabilité mécaniste (les travaux d'Anthropic sur les circuits, les recherches de Neel Nanda sur les têtes d'induction, la littérature croissante sur la superposition) a identifié des structures internes qui effectuent des opérations ressemblant à des inférences logiques. La question de savoir si ces structures mettent en œuvre le raisonnement ou si elles se contentent d'approximer son comportement d'entrée-sortie dans le cadre de la distribution d'apprentissage n'a pas encore été résolue à ce jour.

Pour la recherche sur la sécurité, l'observation pertinente n'est pas "les LLM peuvent-ils raisonner ?" mais plutôt : l'écart entre la capacité observée et la compréhension mécaniste est important et s'accroît. Nous pouvons susciter un comportement qui ressemble à un raisonnement sans pouvoir vérifier, au niveau du circuit, que le processus générant ce comportement est robuste en cas de changement de distribution.

Capacité et contrôlabilité

La littérature sur l'alignement s'est historiquement concentrée sur deux problèmes liés mais distincts :

Le problème de la capacité : s'assurer que les systèmes d'IA peuvent accomplir les tâches que nous voulons qu'ils accomplissent. Il s'agit en grande partie d'un problème d'ingénierie et de mise à l'échelle, et des progrès considérables ont été réalisés dans ce domaine.

**Le problème de la contrôlabilité : s'assurer que les systèmes d'IA font ce que nous voulons, de manière fiable, dans les conditions dans lesquelles nous les déployons, y compris les cas limites et le changement de distribution. C'est dans ce domaine que les progrès ont été les plus lents.

La distinction est importante parce que la plupart des méthodes de gouvernance de l'IA déployées - RLHF, IA constitutionnelle, invites du système, réglage fin de la sécurité - opèrent principalement sur l'axe de la capacité. Ces méthodes ajustent ce que le modèle peut produire. Elles sont moins efficaces pour contrôler ce que le modèle produira dans des conditions inédites, en présence d'intrants contradictoires ou d'une distribution qui s'éloigne des données de réglage fin.

La méthode RLHF, par exemple, apprend un modèle de récompense à partir des préférences humaines et l'utilise pour ajuster le comportement du modèle de base. Cette méthode fonctionne bien dans le cadre de la distribution des données relatives aux préférences. En dehors de cette distribution - dans des domaines mal représentés dans le corpus d'apprentissage, sous de nouvelles combinaisons de contraintes ou dans des contextes où la réponse "préférée" dépend de valeurs propres à la communauté plutôt que de préférences universelles - les a priori du modèle de base se réaffirment. Dans la littérature technique, on parle de "reward hacking" ou de "specification gaming" ; dans les systèmes communautaires déployés, ce phénomène se manifeste de manière plus banale et plus conséquente.

Où se situe le problème d'alignement dans les systèmes déployés ?

Le problème d'alignement tel qu'il est vécu par une communauté déployant un système d'IA n'est pas le problème d'alignement tel qu'il a été étudié en laboratoire.

La recherche sur l'alignement en laboratoire se concentre sur les risques extrêmes : alignement trompeur, méso-optimisation, convergence instrumentale, comportement de recherche de pouvoir. Il s'agit là d'axes de recherche importants. Mais les échecs d'alignement qui affectent réellement les systèmes déployés aujourd'hui sont plus prosaïques.

Prenons l'exemple suivant : une communauté dotée de valeurs culturelles spécifiques, d'un vocabulaire spécifique et d'un ensemble précis d'engagements normatifs demande à un système d'intelligence artificielle d'opérer dans le cadre de ces engagements. Le système s'y conforme - la plupart du temps. Mais en cas de changement de distribution (les normes de la communauté sont sous-représentées dans les données d'apprentissage), le système revient silencieusement à son antériorité : le centre statistique de sa distribution d'apprentissage.

Il ne s'agit pas d'un alignement trompeur. Le système ne dissimule pas ses véritables objectifs. Il fait précisément ce que sa distribution d'apprentissage prédit : produire la suite statistiquement la plus probable compte tenu du contexte d'entrée. Le problème est que "statistiquement le plus probable" et "approprié pour cette communauté" ne sont pas la même chose, et la divergence est silencieuse. Aucune erreur n'est soulevée. Aucun indicateur de confiance n'est abaissé. La sortie est fluide, cohérente et erronée d'une manière qui nécessite une expertise dans le domaine pour être détectée.

C'est le problème d'alignement que Village AI est censé résoudre - non pas les risques extrêmes des systèmes superintelligents, mais l'échec banal, omniprésent et opérationnel des modèles déployés pour maintenir la fidélité aux valeurs spécifiques de la communauté en cas de changement de distribution.

The Trajectory Concern

Nous notons, sans prétendre le résoudre, que le problème de l'alignement banal et le problème de l'alignement extrême peuvent être liés.

Si les systèmes actuels ne peuvent pas maintenir de manière fiable la fidélité aux instructions explicites lorsque ces instructions sont en conflit avec les a priori distributionnels, cela prouve que les méthodes d'alignement du temps d'apprentissage sont insuffisantes pour assurer une contrôlabilité robuste. Le mode de défaillance à l'échelle communautaire - substitution silencieuse des modèles statistiquement dominants aux modèles spécifiés - est structurellement similaire au mode de défaillance qui préoccupe les chercheurs en alignement à l'échelle de la frontière : le modèle optimisant pour son objectif appris plutôt que pour l'objectif spécifié.

La différence réside dans les conséquences et non dans le mécanisme. À l'échelle de la communauté, la conséquence est une lettre pastorale qui utilise un langage thérapeutique au lieu d'un langage théologique. À l'échelle de la frontière, les conséquences peuvent être beaucoup plus graves.

L'approche architecturale que nous décrivons dans cette série - la vérification du temps d'inférence par des systèmes structurellement indépendants - est pertinente pour les deux échelles, bien que nous ne prétendions pas qu'elle soit suffisante pour la dernière.

Ce que cette série examine

Les autres articles examinent un système spécifique déployé qui adopte une approche différente du problème de l'alignement :

L'article 2 analyse en détail le problème du biais de distribution, en examinant comment la composition des données d'apprentissage détermine le comportement par défaut et ce que la spécialisation d'un domaine sur un modèle à 8B paramètres peut et ne peut pas réaliser.
L'article 3 présente l'incident du 27027 comme une étude de cas sur l'échec de l'alignement et décrit l'architecture Guardian Agent comme une approche de la séparation épistémique - des systèmes de vérification qui fonctionnent indépendamment du modèle qu'ils contrôlent.
L'article 4 dresse un inventaire sans fard de ce qui est en production, y compris ce qui fonctionne, ce qui ne fonctionne pas et les domaines dans lesquels nous sommes conscients de limitations non résolues.
**L'article 5 examine comment la gouvernance architecturale s'étend au-delà du modèle dans la plateforme, et discute de ce que cette approche sacrifie et de ce qu'elle gagne.

Ceci est l'article 1 sur 5 de la série "Gouvernance architecturale de l'IA à l'échelle communautaire". Pour l'architecture technique complète, visitez Village AI - Agentic Governance.

Suivant : Modèles de base vs. inférence spécialisée par domaine - Une analyse structurelle