Au-delà du modèle - Architecture de la plateforme et intégration de la gouvernance

Série: Gouvernance architecturale de l'IA à l'échelle de la communauté - Un examen technique de Village AI (Article 5 de 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

Le modèle n'est pas le système

Les articles précédents ont examiné le modèle de génération, le pipeline de vérification Guardian Agent et le problème du biais de distribution. Ce dernier article examine la manière dont la gouvernance architecturale s'étend au-delà du modèle, jusqu'à la plate-forme, et évalue l'approche globale en fonction de ce qu'elle sacrifie et de ce qu'elle gagne.

L'affirmation centrale est que l'alignement de l'IA à l'échelle de la communauté ne peut être résolu par le modèle seul - ni par l'entraînement, ni par le réglage fin, ni par la RLHF, ni par la vérification du temps d'inférence de manière isolée. L'alignement au moment du déploiement nécessite des contraintes architecturales qui couvrent l'ensemble du système : isolation des données, architecture du consentement, encadrement du vocabulaire, intégration de la surveillance humaine et gouvernance fédérée. Le modèle est un élément. L'architecture est l'intervention.

L'isolation des données en tant que mécanisme d'alignement

L'isolation des données multi-locataires est généralement considérée comme une question de sécurité. Dans l'architecture Village, elle fonctionne également comme un mécanisme d'alignement.

Chaque requête de base de données est filtrée par l'identifiant du locataire. Le magasin de vecteurs conserve des collections à l'échelle du locataire. Le modèle de génération ne reçoit le contexte que du corpus du locataire qui fait la requête. Il s'agit de modèles standard de multi-locataires, mais ils ont une conséquence en termes d'alignement : le modèle ne peut pas s'appuyer sur des modèles de distribution provenant des données d'autres locataires.

Cela est important car l'alignement dans les contextes communautaires n'est pas universel. Ce qui constitue un langage approprié pour une paroisse épiscopale peut être inapproprié pour un groupe de protection de la nature, et vice versa. Un modèle qui a accès aux données de tous les locataires - même en lecture seule, même pour les extraire - développerait des a priori distributionnels qui se mélangent entre les communautés. L'isolement des locataires empêche cette contamination croisée au niveau des données.

Le principe architectural est le suivant : la fenêtre contextuelle du modèle ne doit contenir que du contenu provenant de la communauté qu'il dessert actuellement. Ce principe est appliqué de manière structurelle, et non par instruction. Le modèle n'a pas besoin qu'on lui dise de rester dans les limites du locataire ; il n'a pas accès à ce qui se trouve à l'extérieur.

Architecture du consentement

Le système de consentement (modèle ConsentRecord, composant AIMemoryConsent) régit le contenu qui entre dans le pipeline de l'IA. Trois objectifs de consentement distincts sont définis : ai_triage_memory, ai_ocr_memory et ai_summarisation_memory. Le contenu n'est pas indexé en vue d'une utilisation par l'IA si le créateur du contenu n'a pas donné son consentement explicite pour l'objectif concerné.

Il s'agit d'une contrainte d'alignement qui intervient avant l'inférence. Le contenu qui n'a pas été autorisé à être utilisé par l'IA n'apparaît pas dans le magasin de vecteurs, n'est pas récupéré pendant la GCR et n'est pas disponible en tant que matériel de référence pour la vérification sur le site Guardian Agent. Le modèle ne peut pas halluciner sur la base d'un contenu qu'il n'a jamais vu.

L'architecture de consentement aborde également un problème plus subtil : les membres de la communauté qui ne sont pas à l'aise avec le traitement de leurs contributions par l'IA peuvent exclure leur contenu sans affecter la capacité du système à servir les autres membres. Il s'agit d'un mécanisme de gouvernance autant que d'un mécanisme de protection de la vie privée - il permet à la communauté de façonner la base de connaissances de l'IA par le biais de décisions de consentement individuelles.

Limitation: Le consentement opère au niveau du contenu, et non au niveau de l'information. Si le membre A écrit un article mentionnant le membre B et que le membre A consent au traitement par l'IA, les informations concernant le membre B entrent dans le pipeline de l'IA, quelles que soient les préférences du membre B. Il s'agit d'une limitation inhérente au consentement au niveau du contenu que nous n'avons pas entièrement résolue.

Le vocabulaire comme cadre de gouvernance

L'article 4 a décrit l'interface du système de vocabulaire et ses effets au niveau du modèle. Nous l'examinons ici en tant que mécanisme de gouvernance.

Le système de vocabulaire met en œuvre ce que l'on pourrait appeler une gouvernance du cadrage : il limite le cadre conceptuel dans lequel le modèle fonctionne. Lorsque le système remplace "paroissiens" par "utilisateurs" et "gouvernance de la sacristie" par "paramètres administratifs" dans le contexte de l'invite, il modifie la distribution conditionnelle du modèle en s'éloignant des modèles de plate-forme technologique et en s'orientant vers des modèles de gouvernance communautaire.

Il s'agit d'une intervention plus faible que le réglage fin - elle opère au niveau de l'invite, et non au niveau du poids - mais elle présente deux avantages :

**Les correspondances de vocabulaire sont définies dans un seul fichier de configuration (product-vocabularies.js). Un chercheur peut vérifier exactement quels termes sont substitués et prédire leur effet sur le comportement du modèle.
Il est configurable par la communauté. Différents types de produits ont des correspondances de vocabulaire différentes, et celles-ci peuvent être étendues sans qu'il soit nécessaire d'entraîner à nouveau le modèle. Cela est utile pour les communautés dont la terminologie ne correspond à aucun type de produit existant.

L'interaction entre l'encadrement du vocabulaire et le réglage fin de la couche spécialisée mérite d'être soulignée. Le système de vocabulaire modifie le contexte de l'invite ; le réglage fin modifie les a priori distributionnels du modèle. Lorsque les deux fonctionnent ensemble - l'invite utilise un vocabulaire épiscopal et le modèle a un réglage fin épiscopal - l'effet combiné est plus fort que l'une ou l'autre intervention prise isolément. Lorsqu'une seule intervient (un type de communauté sans modèle spécialisé, utilisant uniquement le vocabulaire), l'effet est plus faible mais reste mesurable en termes de qualité de la production.

Intégration de la supervision humaine

L'exécuteur des limites (décrit dans l'article 3 de la série paroissiale comme un élément de gouvernance) soumet les questions relatives aux valeurs, à l'éthique ou au contexte culturel à un examen humain. Ceci est mis en œuvre par l'intermédiaire du PreInferenceProtector et d'un routage basé sur la confiance : lorsque la vérification Guardian Agent produit une confiance inférieure à un seuil configurable, la réponse est marquée pour être examinée par un modérateur plutôt que d'être livrée directement.

Cela crée une architecture humaine dans la boucle où l'IA traite de manière autonome les requêtes bien fondées et de confiance élevée et transmet les requêtes incertaines ou sensibles à une supervision humaine. Le seuil est configurable par locataire, ce qui permet aux communautés de définir leur propre tolérance au risque.

**La qualité de la supervision humaine dépend de la qualité des modérateurs humains. Le système peut acheminer des requêtes incertaines vers un modérateur, mais il ne peut pas garantir que le modérateur dispose de l'expertise nécessaire pour les évaluer efficacement. Il s'agit d'une contrainte organisationnelle et non technique, mais elle limite l'efficacité de l'architecture globale.

Le parcours d'accréditation des modérateurs - une formation structurée pour les membres de la communauté qui assument le rôle de modérateur - est conçu pour remédier à cette limitation, mais il est progressivement mis en place.

Fédération et gouvernance intercommunautaire

L'architecture de fédération permet à des instances de village distinctes d'établir des connexions bilatérales, c'est-à-dire de partager des contenus sélectionnés au-delà des frontières de la communauté tout en préservant la souveraineté des données. Les deux communautés doivent consentir à la connexion, et l'une ou l'autre peut se retirer à tout moment.

Du point de vue de l'alignement, la fédération introduit un canal contrôlé par lequel les modèles de distribution d'une communauté peuvent en influencer une autre. Un échange de contenu fédéré entre une paroisse épiscopale et un groupe de protection de la nature pourrait, en principe, modifier le comportement de la communauté réceptrice en matière d'intelligence artificielle en introduisant un contenu hors domaine dans le magasin de vecteurs.

L'architecture de fédération résout ce problème par un partage sélectif - seul le contenu explicitement marqué pour la fédération est partagé - et par une vérification à l'échelle du locataire. Guardian Agent La vérification opère sur le corpus de la communauté réceptrice, qui inclut le contenu fédéré seulement après qu'il a été accepté et indexé. Les modérateurs de la communauté réceptrice contrôlent le contenu fédéré qui entre dans leur pipeline d'IA.

Il s'agit d'un mécanisme de gouvernance qui n'a pas d'analogue dans la littérature sur l'alignement, car celle-ci ne considère généralement pas le déploiement multi-communautaire comme une préoccupation de premier ordre. Il s'agit d'un domaine dans lequel les systèmes d'IA communautaires déployés sont confrontés à des défis d'alignement que les environnements de laboratoire ne permettent pas d'appréhender.

Ce que cette approche sacrifie

Nous énumérons clairement les coûts de cette approche :

Capacité brute. Un modèle de 8B paramètres ne peut pas rivaliser avec les systèmes d'avant-garde pour les tâches générales. Les utilisateurs qui ont besoin d'une écriture créative, d'un raisonnement complexe dans des domaines peu familiers ou d'une assistance intellectuelle à large spectre trouveront ce système inadéquat.

**Le pipeline Guardian Agent ajoute une surcharge de vérification à chaque réponse. Le pipeline à quatre niveaux, comprenant le calcul de l'intégration, la recherche de similitudes en cosinus, la décomposition de la demande et la vérification des anomalies, introduit un temps de latence mesurable. Pour les communautés qui privilégient la rapidité de la réponse à la rigueur de la vérification, il s'agit d'un coût.

**La fidélité du système au domaine dépend de la qualité et de la couverture des données de mise au point et du corpus de contenu de la communauté. Une communauté nouvellement établie avec un contenu minimal fournit un corpus de référence clairsemé, ce qui rend la vérification Guardian Agent moins efficace et le comportement du modèle moins bien ancré.

**L'architecture est conçue pour un déploiement à l'échelle de la communauté (de quelques dizaines à quelques centaines d'utilisateurs simultanés par locataire). Elle n'a pas été testée à l'échelle de l'internet, et le pipeline de vérification par réponse nécessiterait probablement des changements architecturaux substantiels pour fonctionner à haut débit.

**La stratégie de la couche spécialisée a été validée pour un type de produit (Episcopal). Il n'est pas prouvé qu'elle s'applique aux neuf types de produits définis, ni que les seuils de Guardian Agent nécessitent un étalonnage par domaine.

Ce que cette approche apporte

**Chaque réponse de l'IA peut être tracée jusqu'à des documents sources spécifiques. Les scores de similarité cosinus, les résultats de la vérification au niveau de l'allégation et les indicateurs de confiance sont disponibles pour inspection. Il s'agit d'une propriété que les systèmes de pointe fonctionnant sur des corpus de formation non limités ne peuvent pas offrir.

**Les données de réglage fin, les correspondances de vocabulaire, les seuils de Guardian Agent et les corrections de la boucle de rétroaction sont tous inspectables. Un chercheur ou un auditeur peut examiner la chaîne complète, de l'entrée à la sortie, et comprendre pourquoi le système a produit une réponse spécifique. Le cadre Tractatus est publié sous EUPL-1.2; l'architecture de gouvernance est ouverte à un examen externe.

**La communauté contrôle les données, l'infrastructure d'inférence, le vocabulaire, les limites du consentement et la politique de modération. Aucun fournisseur tiers ne peut modifier le comportement du système sans le consentement de la communauté. Il s'agit d'une propriété de gouvernance, et non d'une propriété technique, mais elle est appliquée au niveau de l'architecture.

**Le système de vérification fonctionne selon des principes différents de ceux du système de génération. Cela ne garantit pas l'exactitude, mais fournit un mécanisme de détection pour le mode de défaillance spécifique - la réversion distributionnelle silencieuse - qui a motivé l'architecture. L'incident du 27027 serait détecté par le pipeline Guardian Agent, car la similarité du cosinus entre le langage de deuil thérapeutique et le corpus théologique de la communauté tomberait en dessous du seuil de vérification.

**Le système fait des affirmations spécifiques et vérifiables : la vérification de Guardian Agent réduit les réponses non fondées, la spécialisation du domaine améliore la fidélité du registre, le cadrage du vocabulaire modifie le comportement du modèle de manière mesurable. Ces affirmations sont, en principe, testables de manière indépendante. Nous n'avons pas encore organisé de tests indépendants, mais l'architecture ne s'y oppose pas.

Questions ouvertes pour la communauté des chercheurs

Nous concluons par des questions auxquelles nous ne pouvons pas répondre nous-mêmes et sur lesquelles nous aimerions être entendus :

**La séparation épistémique est-elle suffisante pour l'alignement, ou simplement nécessaire ? L'architecture Guardian Agent permet de détecter la réversion de la distribution. La détection n'est pas la prévention. Existe-t-il une base théorique pour soutenir que la détection et la correction convergent vers l'alignement, ou ne font-elles que limiter la fréquence des échecs ?
**Les seuils actuels sont réglés de manière empirique. Existe-t-il une méthode fondée sur des principes pour fixer des seuils de vérification qui équilibrent le taux de faux positifs (en signalant les réponses fondées comme non fondées) et le taux de faux négatifs (en acceptant les réponses non fondées) ?
**Le modèle d'intégration partagé utilisé à la fois pour la recherche et la vérification crée un point de défaillance unique. Quelles architectures pourraient fournir une vérification véritablement indépendante tout en restant calculable ?
**La stratégie de la couche spécialisée peut-elle être formalisée ? L'intuition - la mise au point spécifique à un domaine sur un modèle plus petit permet d'obtenir une meilleure fidélité au domaine que l'utilisation d'un modèle plus grand - est soutenue empiriquement dans notre déploiement, mais n'a pas été rigoureusement comparée. Dans quelles conditions cela se vérifie-t-il, et quand cela s'effondre-t-il ?
Quels cadres d'évaluation s'appliquent à l'alignement à l'échelle de la communauté Les critères d'alignement standard évaluent les propriétés de sécurité générales. Quels repères seraient appropriés pour évaluer l'alignement spécifique à un domaine - la fidélité aux normes, au vocabulaire et aux valeurs d'une communauté spécifique ?

Ces questions dépassent le cadre d'une seule équipe de déploiement. Nous les soulevons parce que le problème de l'alignement à l'échelle de la communauté - prosaïque, ayant des conséquences opérationnelles et largement ignoré par la communauté des chercheurs - mérite plus d'attention qu'il n'en reçoit actuellement.

Ceci est l'article 5 sur 5 de la série "Gouvernance architecturale de l'IA à l'échelle de la communauté". Pour en savoir plus sur la plateforme, visitez [Village Beta Programme] (https://mysovereignty.digital/betabrief.html). Pour l'architecture complète de l'IA, visitez Village AI on Agentic Governance.

Précédent : Ce qui est en direct dans la production - Un inventaire sans fard