Ce qu'est l'IA, ce qu'elle n'est pas et ce qui reste incertain

Series: Community-Scale AI Governance - A Research Perspective on the Village Platform (Article 1 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

Prédiction statistique à l'échelle

Le mécanisme central des grands modèles de langage (LLM) contemporains est la prédiction du prochain token. Étant donné une séquence de tokens, le modèle génère une distribution de probabilité sur les continuations possibles, en s'appuyant sur des modèles extraits d'un corpus d'apprentissage à grande échelle - généralement des milliards de documents couvrant de multiples domaines, langues et registres.

Ce mécanisme produit des résultats qui sont souvent utiles : une prose cohérente, un résumé compétent, des réponses plausibles à des questions factuelles et un code fonctionnel. L'utilité pratique n'est pas contestée.

Ce qui est contesté - et ce qui importe pour la gouvernance - c'est la nature du processus qui produit ces résultats et, par conséquent, la confiance que l'on peut leur accorder.

La question du raisonnement : Un problème empirique ouvert

Les premières caractérisations des LLM en tant que "perroquets stochastiques" - des systèmes qui reproduisent des régularités statistiques sans aucune forme de compréhension - ont permis de saisir un aspect important des fondements de la technologie. Cependant, au fur et à mesure que l'échelle du modèle a augmenté, des comportements sont apparus qui résistent à une caractérisation simple.

Les grands modèles font preuve d'une capacité d'inférence logique à plusieurs étapes, de raisonnement analogique entre les domaines et de performances sur de nouveaux problèmes structurellement différents des exemples d'apprentissage. Certains chercheurs décrivent ces capacités comme des capacités émergentes, c'est-à-dire des propriétés qui apparaissent à grande échelle sans avoir été explicitement conçues. D'autres affirment que le raisonnement apparent est une forme sophistiquée d'interpolation de modèles qui ressemble simplement à un raisonnement lorsqu'il est évalué par des observateurs humains prédisposés à attribuer une compréhension.

Les preuves empiriques sont, à l'heure actuelle, insuffisantes pour résoudre cette question. Plusieurs observations compliquent toute position assurée :

Les modèles résolvent des problèmes qui requièrent une généralisation de la composition, ce qui suggère quelque chose qui va au-delà de la simple récupération.
Les modèles présentent également des défaillances - génération confiante de fausses déclarations, fragilité face aux perturbations adverses, sensibilité aux caractéristiques superficielles des invites - qui ne sont pas compatibles avec un raisonnement solide.
Les représentations internes des grands modèles ne sont pas bien comprises. La recherche sur l'interprétabilité mécaniste a identifié des structures de type circuit qui sont en corrélation avec des capacités spécifiques, mais le domaine n'en est qu'à ses débuts.
La question de savoir si la distinction entre "raisonnement authentique" et "comportement de type raisonnement" a une signification empirique ou si elle se réduit à un engagement philosophique n'est pas résolue.

En matière de gouvernance, l'implication pragmatique est la suivante : on ne peut pas supposer avec certitude qu'un LLM raisonnera correctement, ni rejeter ses résultats comme étant peu fiables. Le système occupe un milieu inconfortable où les résultats sont souvent utiles, parfois erronés, et ne peuvent être distingués les uns des autres de manière fiable sans vérification externe.

Nouveauté et synthèse

Une question connexe est de savoir si les LLM peuvent produire des résultats véritablement nouveaux. L'affirmation la plus forte - que les modèles ne génèrent que des recombinaisons de données d'apprentissage - est étroitement correcte et largement trompeuse.

Prenons l'exemple d'un modèle qui a absorbé des textes sur la théorie de la gouvernance polycentrique, le comportement organisationnel et l'informatique communautaire en tant que corpus de travail distincts. Lorsqu'il est sollicité de manière appropriée, il peut synthétiser des connexions entre ces domaines qu'aucun chercheur individuel n'a établies, parce qu'aucun chercheur individuel n'a la même étendue d'exposition. Les idées constitutives ne sont pas nouvelles. La synthèse, cependant, peut être nouvelle pour un lecteur donné - et peut identifier de véritables parallèles structurels qui méritent d'être étudiés.

Cela n'équivaut pas à la nouveauté de la recherche primaire. Le modèle n'a pas accès aux données empiriques sur lesquelles il n'a pas été formé, il n'a pas la capacité de concevoir des expériences et il n'a pas la capacité d'évaluer si les liens qu'il a synthétisés tiennent la route en cas d'examen approfondi. La synthèse est un générateur d'hypothèses, pas un validateur d'hypothèses. Mais la génération d'hypothèses a de la valeur, à condition de ne pas la confondre avec la confirmation d'hypothèses.

Pour les chercheurs qui évaluent les systèmes d'IA, l'implication est que les résultats du LLM peuvent être utiles comme point de départ pour l'examen de la littérature, l'exploration inter-domaines et l'identification d'analogies structurelles - mais nécessitent le même examen critique que celui que l'on appliquerait à toute source non vérifiée.

Les données de formation comme vision du monde

Chaque LLM hérite de la distribution statistique de son corpus de formation. Il ne s'agit pas d'un biais corrigeable, mais d'une propriété structurelle de la technologie.

Un modèle formé principalement sur du contenu Internet occidental en langue anglaise, à vocation commerciale, produira des résultats qui reflètent les hypothèses, le cadrage et les priorités de ce corpus. Lorsqu'on lui demande d'aborder des sujets pour lesquels les données de formation sont rares - traditions de gouvernance indigènes, langage liturgique, culture orale, prise de décision au sein de petites communautés - le modèle adopte par défaut des modèles statistiquement dominants plutôt que de reconnaître l'écart.

Cela a des implications directes pour tout déploiement dans un contexte communautaire spécifique. Un modèle chargé de générer du contenu pour un groupe de recherche étudiant la gouvernance communale adoptera par défaut le langage de la gestion d'entreprise - non pas parce qu'il a évalué les alternatives, mais parce que le langage de la gestion d'entreprise prédomine dans ses données de formation. La substitution est silencieuse : le modèle ne signale pas qu'il opère en dehors de son domaine de compétence.

Ce phénomène - que l'on pourrait qualifier de "dérive distributionnelle" dans un contexte de gouvernance - est bien documenté mais pas bien résolu. Des techniques telles que le réglage fin, la génération augmentée par récupération (RAG) et les messages-guides du système peuvent atténuer l'effet, mais ne l'éliminent pas. Le biais résiduel du modèle de base persiste, en particulier dans le cas de requêtes nouvelles ou complexes pour lesquelles le signal de réglage fin est plus faible que la distribution de base.

Implications pour la recherche sur la gouvernance

Les caractéristiques décrites ci-dessus - résultats utiles mais non fiables, biais de distribution silencieux, capacité de raisonnement incertaine - définissent collectivement le défi de la gouvernance.

Un système d'IA qui se trompe occasionnellement est un problème d'assurance qualité. Un système d'IA qui se trompe occasionnellement au point de substituer silencieusement un cadre de valeurs à un autre est un problème de gouvernance. La distinction est importante car le premier problème peut être résolu par la vérification des erreurs, tandis que le second nécessite des mécanismes structurels qui détectent les dérives au niveau des valeurs, et pas seulement les erreurs factuelles.

C'est ce problème que le cadre Tractatus est censé résoudre. La question de savoir s'il y parvient est une question empirique qui sera examinée dans des articles ultérieurs. Ce que l'on peut affirmer ici, c'est que le problème est réel, bien caractérisé, et qu'il n'est pas traité de manière adéquate par les approches politiques qui dominent actuellement le discours sur la gouvernance de l'IA.

Ce que cet article ne prétend pas

Cet article ne prétend pas que les LLM sont incapables de raisonner - les preuves sont insuffisantes pour tirer cette conclusion. Il ne prétend pas que les MFR peuvent raisonner - les preuves sont tout aussi insuffisantes. Il ne prétend pas que le biais de distribution est insoluble, mais seulement que les techniques d'atténuation actuelles sont partielles. Il ne prétend pas non plus que la gouvernance de l'IA est impossible, mais seulement que le défi de la gouvernance est plus structurel qu'il n'est généralement admis.

L'article suivant examine les différences structurelles spécifiques entre les plateformes d'IA commerciales et les systèmes d'IA gérés par la communauté, et analyse les compromis impliqués.

Ceci est l'article 1 sur 5 de la série "Gouvernance de l'IA à l'échelle communautaire". Pour l'architecture technique complète, visitez Village AI - Agentic Governance.

Suivant : IA de plateforme vs. IA gouvernée par la communauté - Une analyse structurelle