L'IA de plateforme vs l'IA gouvernée par la communauté - Une analyse structurelle

Series: Community-Scale AI Governance - A Research Perspective on the Village Platform (Article 2 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

Le problème du corpus

Les propriétés de gouvernance d'un système d'IA sont largement déterminées par son corpus de formation. Il ne s'agit pas d'une préoccupation secondaire, mais d'une propriété architecturale de premier ordre.

Les LLM commerciaux des principaux fournisseurs de plateformes sont formés sur des corpus à l'échelle du web : des milliards de documents récupérés sur l'internet ouvert, complétés par des ensembles de données sous licence et des collections propriétaires. Les systèmes qui en résultent ont des capacités étendues et, par conséquent, des hypothèses de distribution étendues.

L'internet, en tant que corpus de formation, surreprésente certains domaines et perspectives :

Le contenu en langue anglaise et, au sein de l'anglais, l'usage et les conventions américaines
Les registres commerciaux et de marketing
La formulation individualiste des questions sociales et éthiques
Le langage thérapeutique séculier pour des sujets traditionnellement abordés par des traditions communautaires ou spirituelles
Discours technique et professionnel
Contenu produit au cours des deux dernières décennies, avec une profondeur historique limitée

Il est donc sous-représenté :

Les traditions de prise de décision et les pratiques de gouvernance communales
Les registres professionnels spécifiques à un domaine (liturgique, écologique, indigène, coopératif)
Les traditions orales et les cultures dont la présence numérique est limitée
Les documents opérationnels des petites organisations : procès-verbaux de réunions, correspondance interne, bulletins communautaires
Cadres éthiques et de gouvernance non occidentaux

Ce déséquilibre de distribution ne peut être corrigé par l'échelle. Un corpus web plus important amplifie les mêmes biais. Il s'agit d'une propriété structurelle de la source de données et non d'une erreur d'échantillonnage.

L'IA spécifique à un domaine : l'alternative et ses limites

La plateforme Village adopte une approche architecturale différente : un modèle plus petit, entraîné sur un corpus stratifié qui privilégie le contenu spécifique à un domaine plutôt que l'étendue.

L'architecture de formation comporte trois couches :

La couche "plateforme " : connaissances opérationnelles communes à tous les déploiements - comment fonctionne la plateforme, quelles sont les fonctionnalités disponibles, l'aide à la navigation. Cette couche est analogue à une ontologie partagée entre les instances.

**Couche "communauté" : contenu spécifique à un déploiement particulier - les enregistrements, les communications et les documents produits par la communauté qui exploite l'instance. Cette couche est ce qui différencie un déploiement d'un autre et permet d'ancrer les résultats du modèle dans le contexte local.

**Une contrainte structurelle : aucun contenu n'entre dans le corpus de formation sans le consentement explicite et vérifiable du créateur du contenu. Cette contrainte est imposée par l'architecture et non par la politique.

Le système qui en résulte est plus étroit qu'un LLM commercial. Il ne peut pas discuter de sujets en dehors de son domaine de formation avec quelque compétence que ce soit. Il ne produira pas d'écrits créatifs à usage général et ne s'engagera pas dans une conversation de grande envergure. Ce qu'il offre à la place, ce sont des résultats ancrés dans les archives d'une communauté spécifique, vérifiables par rapport à ces archives.

Limites de cette approche

Plusieurs limites doivent être reconnues :

**Un modèle spécifique à un domaine ne peut pas aider à effectuer des tâches en dehors de son domaine de formation. Les membres de la communauté qui ont besoin d'une assistance générale en matière d'IA doivent utiliser un système distinct.

**Contraintes liées à la taille du corpus : les petites communautés produisent un contenu limité. Un modèle formé sur quelques centaines de documents possède une base de connaissances étroite. La qualité des résultats est directement limitée par le volume et la qualité du contenu de la communauté.

**La couche communautaire nécessite un recyclage périodique pour intégrer le nouveau contenu. Entre les cycles de recyclage, les connaissances du modèle sont périmées. La cadence actuelle de recyclage (hebdomadaire pendant la version bêta) peut être insuffisante pour des contextes qui évoluent rapidement.

**Fragilité de la mise au point ** La mise au point spécifique à un domaine superpose de nouveaux modèles à la distribution existante d'un modèle de base. Dans certaines conditions d'interrogation - en particulier pour les questions nouvelles ou complexes - les modèles de base peuvent se réaffirmer, un phénomène connu dans la littérature sous le nom d'oubli catastrophique. La mesure dans laquelle ce phénomène affecte les résultats pertinents pour la gouvernance dans la pratique n'est pas encore bien caractérisée pour ce système.

Guardian Agents: Architecture de vérification externe

La plateforme Village ne s'appuie pas uniquement sur la formation pour garantir la qualité des résultats. Elle interpose une couche de vérification - appelée "Guardian Agents"entre les résultats du modèle et l'utilisateur final.

L'architecture Guardian Agent comprend quatre mécanismes de vérification indépendants :

**Les résultats du modèle sont comparés au corpus de documents de la communauté à l'aide de mesures de similarité basées sur l'intégration. Les résultats qui ne s'appuient pas suffisamment sur des enregistrements réels sont signalés ou supprimés.

Décomposition au niveau des réclamations. Les résultats sont décomposés en réclamations individuelles, chacune étant vérifiée de manière indépendante. Cela permet de remédier au mode d'échec courant lorsqu'une réponse contient un mélange d'affirmations fondées et non fondées.

**Une couche de surveillance longitudinale permet de suivre l'évolution des résultats du modèle au fil du temps, en détectant les changements systématiques de ton, de formulation ou de précision qui peuvent indiquer une dérive ou une dégradation de la distribution.

Intégration d'un retour d'information adaptatif Le retour d'information des membres de la communauté (évaluations explicites et corrections du modérateur) est incorporé dans les seuils de vérification. Cela crée une boucle de rétroaction qui permet au système de vérification de mieux s'adapter aux attentes de la communauté au fil du temps.

Contre-arguments et modes d'échec

L'architecture Guardian Agent est une contribution à la recherche et non un problème résolu. Plusieurs contre-arguments et modes d'échec méritent d'être examinés :

**La vérification basée sur l'intégration mesure la proximité sémantique et non l'exactitude factuelle. Une déclaration qui est sémantiquement proche d'un document source peut néanmoins être erronée sur le plan factuel - les paraphrases peuvent inverser le sens tout en préservant la similarité d'intégration. La couche de décomposition au niveau de la revendication permet de résoudre partiellement ce problème, mais il reste des faux positifs et des faux négatifs.

La couverture de la vérification est incomplète. Les gardiens peuvent vérifier les revendications par rapport aux enregistrements existants. Ils ne peuvent pas vérifier les affirmations concernant des sujets qui ne sont pas couverts par les enregistrements de la communauté. Pour les nouvelles questions, le système doit choisir entre refuser de répondre (conservateur mais peu utile) et générer des résultats invérifiables (utile mais non protégé). L'implémentation actuelle signale les réponses peu fiables au lieu de les supprimer, ce qui transfère le fardeau de la vérification à l'utilisateur final.

**Le mécanisme de retour d'information adaptatif suppose que le retour d'information de la communauté est un signal fiable. Dans la pratique, le retour d'information peut être peu abondant, biaisé en faveur de certaines catégories d'utilisateurs ou refléter des préférences qui entrent en conflit avec l'exactitude. Le système ne fait actuellement pas de distinction entre les commentaires qui corrigent des erreurs factuelles et ceux qui reflètent des préférences esthétiques ou idéologiques.

**La vérification à quatre niveaux ajoute des temps de latence et des coûts de calcul. Pour les requêtes sensibles au temps, cette surcharge peut dégrader l'expérience de l'utilisateur au point que le système n'est pas utilisé - un échec de la gouvernance par non-adoption plutôt que par erreur technique.

Le compromis : un cadre analytique

Le choix entre l'IA commerciale et l'IA communautaire n'est pas un choix entre une bonne et une mauvaise option. Il s'agit d'un choix entre différents profils de compromis :

| L'IA commerciale et l'IA gérée par la communauté ne sont pas des alternatives, mais des compromis |---|---|---| | L'ampleur de la capacité - Élevée - Faible (spécifique à un domaine) - L'étendue de la capacité - Élevée - Faible (spécifique à un domaine) | Les résultats de l'analyse des profils de compromis sont présentés dans le tableau ci-dessous | Les données peuvent être vérifiées à tout moment et à tout moment, mais elles ne sont pas toujours disponibles | Souveraineté des données | Les données circulent vers le fournisseur | Les données restent à l'intérieur des limites de la communauté | Architecture de vérification | Contrôlée par le fournisseur | Inspectable par la communauté | Ressources de calcul - considérables (à l'échelle du nuage) - limitées (locales ou à l'échelle d'un petit nuage) | Généralisable | Élevée | Faible (par conception)

Aucun des deux profils n'est catégoriquement supérieur. Le choix approprié dépend des priorités de gouvernance de la communauté qui le déploie - un point qui constitue en soi une décision de gouvernance.

Reproductibilité et généralisation

Une question particulièrement intéressante pour la communauté des chercheurs est de savoir si l'architecture du Village est reproductible et généralisable au-delà de son contexte de déploiement actuel.

La plateforme est conçue pour fonctionner avec plusieurs locataires dans divers types de communautés (la mise en œuvre actuelle prend en charge neuf types de produits, des paroisses aux associations d'anciens élèves en passant par les groupes de protection de la nature). Le système de vocabulaire adapte la terminologie au contexte communautaire, ce qui suggère un certain degré de généralisation dans la couche de la plate-forme.

Toutefois, plusieurs facteurs limitent les affirmations de généralisabilité :

Le système a été déployé avec un petit nombre de communautés. La base de preuves de l'efficacité inter-contexte est mince.
Les seuils de Guardian Agent sont calibrés en fonction de types de contenu spécifiques. Il n'a pas été vérifié s'ils s'appliquent à des communautés dont les structures de contenu sont fondamentalement différentes.
L'architecture du consentement suppose un modèle d'adhésion avec accès authentifié. Les communautés ayant des modèles d'accès différents (accès libre, contribution anonyme) nécessiteraient des modifications architecturales.

Il s'agit là de questions de recherche ouvertes, et non de décisions de conception résolues.

Ceci est l'article 2 sur 5 de la série "Gouvernance de l'IA à l'échelle communautaire". Pour l'architecture complète Guardian Agents l'architecture complète, visitez Village AI on Agentic Governance.

Précédent : Ce qu'est l'IA, ce qu'elle n'est pas et ce qui reste incertain Suivant : Pourquoi la gouvernance de l'IA basée sur les politiques est insuffisante - L'alternative structurelle