Pourquoi la gouvernance de l'IA basée sur les politiques est insuffisante - L'alternative structurelle

Series: Community-Scale AI Governance - A Research Perspective on the Village Platform (Article 3 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

Le problème de la substitution silencieuse

Considérons un scénario qui illustre un mode de défaillance de la gouvernance distinct de l'erreur factuelle.

Un chercheur demande à un système d'IA de résumer les principes de gouvernance d'une organisation communautaire, en précisant que le résumé doit refléter l'éthique communautaire de l'organisation - prise de décision partagée, obligation mutuelle, subsidiarité. Le système produit un résumé bien structuré. Il est fluide, cohérent et fait autorité. Il reformule aussi systématiquement les principes communautaires en termes individualistes : la "prise de décision partagée" devient la "consultation des parties prenantes", l'"obligation mutuelle" devient l'"engagement des membres" et la "subsidiarité" devient l'"autorité déléguée"

Cette substitution n'est pas le fruit du hasard. Elle reflète la dominance statistique du langage de la gouvernance d'entreprise dans les données d'apprentissage du modèle. Le modèle n'a pas refusé l'instruction. Il n'a pas signalé de conflit. Il a silencieusement remplacé un cadre de valeurs par un autre - un cadre qui est statistiquement plus probable compte tenu de sa distribution d'apprentissage.

C'est ce que l'on pourrait appeler une dérive distributionnelle au niveau des valeurs : les résultats de l'IA divergent systématiquement du cadre de valeurs prévu, non pas parce que le système est défectueux, mais parce que sa distribution d'apprentissage et la distribution cible sont mal alignées. La dérive est subtile - le vocabulaire est suffisamment proche pour passer l'inspection occasionnelle - et silencieuse - le système ne fournit aucune indication qu'une substitution a eu lieu.

Ce mode de défaillance est qualitativement différent de l'erreur factuelle. Les erreurs factuelles peuvent être détectées par la vérification des documents sources. La dérive au niveau des valeurs opère au niveau de la formulation, de l'accentuation et des hypothèses implicites - des dimensions qui sont difficiles à saisir dans une règle de vérification et difficiles à détecter pour un lecteur non expert.

Les limites de la gouvernance fondée sur les politiques

L'approche prédominante de la gouvernance de l'IA dans les contextes organisationnels est fondée sur des politiques : politiques d'utilisation acceptable, lignes directrices éthiques, cadres d'IA responsable, conditions de service. Ces instruments ont en commun une limitation structurelle qui est bien comprise dans la théorie de la gouvernance mais insuffisamment reconnue dans la pratique de la gouvernance de l'IA.

La gouvernance fondée sur des politiques repose sur le respect de la politique par l'entité gouvernée. Pour les agents humains, ce modèle a des limites mais est partiellement efficace - les humains peuvent lire, interpréter et choisir de suivre les politiques, et les conséquences sociales et juridiques de la non-conformité fournissent des mécanismes d'application.

Pour les systèmes d'intelligence artificielle, le modèle est fondamentalement inadapté. Un LLM ne lit pas et n'interprète pas un document de politique comme le ferait un employé humain. Lorsqu'une invite du système demande au modèle de "respecter les valeurs de la communauté" ou de "maintenir un ton communautaire", le modèle traite ces instructions comme un contexte supplémentaire qui influence - mais ne détermine pas - la distribution de ses résultats. Dans les cas où l'instruction entre en conflit avec des modèles forts de la distribution de l'entraînement de base, la distribution de l'entraînement a tendance à dominer.

Le réglage fin résout partiellement ce problème en ajustant la distribution du modèle pour favoriser les résultats souhaités. Cependant, le réglage fin opère sur la distribution de base plutôt que de la remplacer. La littérature technique fait état de plusieurs modes de défaillance :

Oubli catastrophique: les comportements affinés se dégradent avec le temps ou dans de nouvelles conditions d'entrée.
**Le changement de distribution : les données qui divergent de la distribution de réglage fin déclenchent un retour aux comportements du modèle de base.
**L'injection de stimuli : des stimuli adverses peuvent passer outre les contraintes de réglage fin, un problème qui n'a pas été résolu de manière robuste.

L'approche fondée sur les politiques n'est pas sans valeur. Elle établit des normes, communique les attentes et fournit un point de référence pour la responsabilité. Mais elle est insuffisante en tant qu'unique mécanisme de gouvernance pour des systèmes qui ne comprennent pas - de manière significative - les politiques qu'ils sont censés suivre et ne s'engagent pas à les respecter.

Fondements théoriques : Wittgenstein, Berlin et la gouvernance polycentrique

Le cadre Tractatus s'appuie sur trois traditions intellectuelles qui, bien que disparates, convergent vers une idée commune : certains problèmes de gouvernance ne peuvent être réduits à des règles.

**Les travaux de Ludwig Wittgenstein sur les limites du langage et de la formalisation sont directement pertinents. Son observation - que certaines propositions peuvent être énoncées avec précision tandis que d'autres échappent à une formulation précise - correspond à une distinction pratique dans la gouvernance de l'IA. Certaines décisions communautaires sont formalisables : la question "Quelle est l'heure de la prochaine réunion ?" a une réponse précise que l'on peut retrouver dans les archives. D'autres ne le sont pas : la question "Comment devons-nous aborder une question délicate avec un membre de longue date ?" implique un jugement contextuel, des connaissances relationnelles et des compromis de valeur qui résistent à un traitement systématique.

Le cadre Tractatus rend cette distinction opérationnelle sous la forme d'un mécanisme d'application de la frontière : les requêtes qui relèvent du domaine formalisable sont traitées par l'IA ; les requêtes qui dépassent le domaine non formalisable sont acheminées vers des décideurs humains. La frontière est imposée par l'architecture et non par la politique.

**L'argument d'Isaiah Berlin selon lequel les valeurs humaines sont irréductiblement plurielles - que certains biens sont réellement incompatibles et ne peuvent être optimisés simultanément - a des implications pour les systèmes d'IA qui cherchent à générer des réponses "optimales". Dans un contexte communautaire, les tensions entre la vie privée individuelle et la transparence collective, entre la tradition et l'adaptation, entre l'efficacité et la participation, n'ont pas de solutions optimales. Elles nécessitent une négociation permanente de la part des humains qui en supportent les conséquences.

Un système d'IA qui résout ces tensions en adoptant par défaut sa distribution d'apprentissage ne gouverne pas - il impose une résolution particulière sans autorité. Le cadre Tractatus aborde ce problème en identifiant les points de décision chargés de valeurs et en exigeant une décision humaine plutôt qu'une résolution par l'IA.

**Les travaux d'Elinor Ostrom sur la gouvernance des ressources communes fournissent un cadre permettant de comprendre comment des communautés à petite échelle peuvent gouverner efficacement des ressources partagées sans autorité centralisée. Plusieurs des principes de conception d'Ostrom - limites clairement définies, accords de choix collectif, surveillance, sanctions graduelles, mécanismes de résolution des conflits - sont directement applicables à la gouvernance de l'IA à l'échelle communautaire.

Le cadre Tractatus adopte explicitement un modèle polycentrique : l'autorité de gouvernance est répartie entre de multiples mécanismes indépendants (les mécanismes d'évaluation de l'efficacité de l'IA) Guardian Agents décrits dans l'article précédent), dont aucun n'a d'autorité unilatérale et dont chacun surveille les autres. Ce modèle est structurellement analogue à l'observation d'Ostrom selon laquelle une gouvernance efficace des biens communs nécessite des mécanismes d'application multiples et superposés plutôt qu'une autorité centralisée unique.

Le cadre Tractatus: Gouvernance architecturale

Le cadre Tractatus propose quatre mécanismes structurels de gouvernance qui fonctionnent indépendamment du système d'IA qu'ils régissent :

**Une couche de classification qui évalue les requêtes entrantes et identifie celles qui impliquent des jugements de valeur, des compromis éthiques ou une sensibilité contextuelle dépassant le domaine formalisable. L'IA ne répond pas à ces requêtes, mais les achemine vers des décideurs humains désignés au sein de la communauté. La limite est définie par la configuration propre à la communauté, et non par l'évaluation que fait le modèle d'IA de ses propres compétences.

**Les instructions définies par la communauté - "toujours utiliser cette terminologie", "ne jamais générer de contenu sur ce sujet", "transmettre les questions sur ce sujet au modérateur" - sont stockées dans un système distinct auquel le modèle d'IA ne peut pas accéder ou qu'il ne peut pas modifier. Les résultats du modèle sont comparés à ces instructions stockées après la génération. Les conflits sont résolus en faveur de l'instruction stockée, quelle que soit la distribution des résultats du modèle.

**La couche de vérification Guardian Agent décrite dans l'article précédent - l'ancrage sémantique, la décomposition des revendications, la surveillance de la dérive et le retour d'information adaptatif. Ces mécanismes sont structurellement indépendants du modèle d'IA et utilisent des méthodes de calcul différentes (similarité d'intégration et non prédiction générative) pour évaluer les résultats.

**Une couche de méta-gouvernance qui surveille les conditions dans lesquelles l'IA fonctionne - complexité des requêtes, nouveauté par rapport à la distribution de la formation, charge du système - et ajuste l'intensité de la vérification en conséquence. Dans des conditions de forte pression (nouvelles requêtes, cas limites, demandes complexes en plusieurs parties), les seuils de vérification sont renforcés. Cela répond à l'observation selon laquelle les systèmes d'IA sont plus susceptibles d'échouer dans des conditions où leurs résultats sont les plus importants.

Ce que le cadre n'affirme pas

Il est important d'indiquer explicitement ce que le cadre Tractatus ne prétend pas, car la tentation d'exagérer la contribution est un mode d'échec reconnu dans la recherche sur la gouvernance.

Il ne prétend pas résoudre le problème de l'alignement. Le cadre régit les résultats de l'IA après la génération. Il n'aborde pas la question plus profonde de savoir si les représentations internes d'un système d'IA peuvent être alignées sur les valeurs humaines. Le cadre part du principe que l'alignement n'est pas possible avec la technologie actuelle et qu'une gouvernance externe est donc nécessaire - mais cette hypothèse peut elle-même être erronée, et une percée dans la recherche sur l'alignement pourrait rendre l'approche du cadre moins pertinente.

**Le cadre atténue les effets du biais de distribution grâce à la vérification et à l'application des limites. Il n'élimine pas le biais du modèle. Dans des conditions où les couches de vérification échouent (domaines nouveaux, enregistrements de communautés éparses, données contradictoires), le biais de distribution se réaffirmera.

**Le cadre est conçu pour un déploiement à l'échelle de la communauté, c'est-à-dire des organisations comptant des dizaines ou des centaines de membres, avec un accès authentifié et des modérateurs identifiables. Il n'a pas été testé pour savoir s'il pouvait s'appliquer à des organisations plus grandes, à des contextes d'accès anonyme ou à des communautés dépourvues de structures de gouvernance stables.

**Le cadre est mis en œuvre et opérationnel, mais la base de déploiement est petite. Les affirmations relatives à l'efficacité sont fondées sur une analyse architecturale et des données opérationnelles limitées, et non sur des études contrôlées ou des recherches longitudinales. Les auteurs considèrent qu'il s'agit là d'une limite importante.

**Le cadre régit les systèmes d'IA de la génération actuelle dans des contextes de déploiement spécifiques. Il n'aborde pas les risques spéculatifs associés à l'intelligence générale artificielle ou à la superintelligence, qui nécessitent des approches de gouvernance fondamentalement différentes.

Questions de recherche ouvertes

Le cadre Tractatus soulève plusieurs questions que les auteurs considèrent comme ouvertes et dignes d'être étudiées :

**Comment déterminer la limite entre les requêtes formalisables et non formalisables ? L'implémentation actuelle utilise une configuration spécifique à la communauté, mais les critères pour tracer la frontière ne sont pas formalisés. Est-il possible d'élaborer une méthodologie généralisable pour la détermination de la limite ?
Adéquation de la vérification Dans quelles conditions les mécanismes de vérification de Guardian Agent échouent-ils ? Quel est le taux de faux négatifs pour la détection des dérives au niveau des valeurs ? Les données adverses peuvent-elles échapper systématiquement aux couches de vérification ?
Dynamique de la boucle de rétroaction. Le mécanisme de rétroaction adaptatif converge-t-il vers les préférences de la communauté au fil du temps, ou introduit-il des biais systématiques ? Dans quelles conditions le signal de rétroaction se dégrade-t-il ?
**L'architecture produit-elle des résultats comparables en matière de gouvernance dans différents types de communautés (religieuses, environnementales, commerciales, éducatives) ? Quelles sont les caractéristiques de la communauté qui prédisent le succès ou l'échec ?
**Limites d'extensibilité : à partir de quelle taille de communauté le modèle de gouvernance polycentrique s'effondre-t-il ? Existe-t-il un seuil au-delà duquel la gouvernance centralisée devient plus efficace ?
**Stabilité longitudinale : les propriétés de la gouvernance se dégradent-elles au fil du temps, à mesure que le corpus de contenu de la communauté évolue et que le modèle est ré-entraîné ? Existe-t-il un équivalent de la dérive du modèle en matière de gouvernance ?

Ces questions ne sont pas rhétoriques. Elles définissent un programme de recherche que les auteurs jugent nécessaire pour évaluer la contribution du cadre. La valeur du cadre en tant que contribution à la recherche dépend de la volonté de le soumettre à un examen empirique, et les auteurs invitent activement à un tel examen.

Il s'agit de l'article 3 sur 5 de la série "Gouvernance de l'IA à l'échelle communautaire". Pour l'architecture de gouvernance complète, visitez Village AI on Agentic Governance. Le code source du cadre Tractatus est disponible sous EUPL-1.2 à agenticgovernance.digital.

Précédent : IA de plateforme vs. IA gouvernée par la communauté - Une analyse structurelle Suivant : Un système de production à l'étude - Ce qui est déployé aujourd'hui