Modèles de base et inférence spécialisée par domaine - Une analyse structurelle

Series: Architectural AI Governance at Community Scale - A Technical Examination of Village AI (Article 2 of 5) Author: My Digital Sovereignty Ltd Date: Mars 2026 Licence: CC BY 4.0 International

Le problème de l'antériorité distributionnelle

Les modèles de langage frontaliers sont formés sur des corpus qui reflètent la distribution statistique du texte sur l'internet. Il s'agit d'une observation bien comprise, mais ses implications pour les systèmes déployés opérant dans des domaines spécialisés ne sont pas suffisamment étudiées dans la littérature sur l'alignement.

La distribution d'entraînement d'un grand modèle de langage typique est surreprésentée :

Le contenu en langue anglaise (et, au sein de l'anglais, l'orthographe et l'idiome de l'anglais américain)
La communication commerciale, marketing et d'entreprise
Formulation individualiste des questions sociales et morales
Langage thérapeutique laïque pour les contextes émotionnels et éthiques
Discours technique et professionnel
Contenu des deux dernières décennies, avec une profondeur historique limitée

Il est donc sous-représenté :

Le langage liturgique, dévotionnel et théologique
Les traditions communautaires de prise de décision
Les cadres moraux et philosophiques non occidentaux
Les traditions orales et les cultures narratives
Le langage opérationnel des petites communautés enracinées
Les corpus spécifiques à un domaine ne sont pas bien représentés sur le web ouvert

La conséquence n'est pas une distribution aléatoire des erreurs. Il s'agit d'un biais de distribution systématique : en cas d'incertitude, le modèle revient au centre statistique de sa distribution d'apprentissage. Pour les communautés dont les normes, le vocabulaire et les valeurs sont sous-représentés dans cette distribution, ce retour est silencieux et cohérent.

Pourquoi l'incitation et la RLHF ne résolvent pas les biais de distribution à la queue du modèle

Trois approches courantes pour adapter le comportement du modèle de base sont les messages-guides du système, la RLHF et l'IA constitutionnelle. Chacune d'entre elles présente des limites documentées lorsqu'elle opère à la queue de la distribution d'apprentissage.

Les messages-guides du système fournissent un contexte au moment de l'inférence qui conditionne la sortie du modèle. Elles sont efficaces lorsque le comportement demandé est bien représenté dans la distribution d'apprentissage - l'invite active les modèles existants. Elles sont nettement moins efficaces lorsque le comportement demandé entre en conflit avec des a priori distributionnels forts. Le modèle suit l'invite lorsqu'il le peut, mais lorsque l'invite spécifie un comportement qui est statistiquement rare dans les données d'apprentissage, l'a priori se réaffirme. Il ne s'agit pas d'un échec de l'ingénierie des invites, mais d'une conséquence du fonctionnement des distributions conditionnelles.

RLHF apprend un modèle de récompense à partir des données de préférence humaine et l'utilise pour affiner le modèle de base. Le modèle de récompense est lui-même une fonction apprise, soumise aux mêmes limites de distribution que le modèle de base. Si les données de préférence ne couvrent pas correctement le domaine en question - si, par exemple, les annotateurs qui classent les résultats n'ont pas d'expertise en matière de liturgie anglicane ou de tikanga maori - le modèle de récompense ne pénalisera pas les résultats inadaptés au domaine. Le modèle affiné peut sembler aligné sur l'ensemble d'évaluation tout en restant mal aligné dans les domaines où l'alignement est le plus important.

L'IA constitutionnelle définit des principes et utilise le modèle lui-même pour évaluer ses résultats par rapport à ces principes. Cette approche est élégante, mais elle hérite d'une circularité : la capacité du modèle à évaluer la conformité à un domaine spécifique est limitée par les mêmes a priori de distribution qui sont à l'origine du désalignement. Un modèle qui substitue le langage thérapeutique au langage théologique parce que la distribution de son entraînement favorise le premier ne détectera pas de manière fiable cette substitution lorsqu'on lui demandera de s'auto-évaluer - parce qu'il ne dispose pas de la base distributionnelle nécessaire pour reconnaître la substitution en tant que telle.

Aucune de ces approches n'est sans valeur. Elles améliorent considérablement le comportement moyen. Le problème est plus limité : elles ne résolvent pas le problème de la distribution de la queue pour les communautés dont les normes sont sous-représentées dans le corpus de formation. Pour ces communautés, le mode d'échec n'est pas un mauvais résultat occasionnel ; il s'agit d'un retour systématique et silencieux aux priorités distributionnelles.

La stratégie de la couche spécialisée

Village AI adopte une approche différente. Plutôt que d'essayer d'aligner un modèle frontière par le biais d'interventions sur le temps de formation, elle exploite un modèle de base plus petit (8B paramètres) avec des couches de réglage fin spécifiques au domaine.

L'architecture se compose de trois éléments :

Le modèle de base : villageai-8b-corrected-v4. Il s'agit de la couche de base, formée sur les connaissances opérationnelles de la plateforme - comment le système Village fonctionne, quelles sont les fonctionnalités existantes, comment naviguer dans l'interface. Chaque locataire partage cette couche. Elle permet de générer un langage polyvalent et compétent dans un domaine restreint.

**En plus du modèle de base, des variantes affinées spécifiques au domaine sont formées pour chaque type de produit. La première spécialisation de production est villageai-8b-episcopal-v2, entraînée sur le contenu liturgique, pastoral et de gouvernance épiscopal/anglican. L'objectif du réglage fin est de modifier les priorités distributionnelles du modèle dans le domaine cible - non pas pour ajouter des connaissances qui peuvent être récupérées via le RAG, mais pour remodeler le langage par défaut du modèle, le cadrage et les hypothèses normatives.

**Le contenu des communautés individuelles - leurs bulletins, leurs histoires, leurs documents de gouvernance - n'est pas intégré au modèle. Il est récupéré au moment de l'inférence via la recherche vectorielle (Qdrant) et fourni en tant que contexte. Cela permet de séparer le comportement linguistique du modèle (façonné par un réglage fin) du contenu factuel auquel il fait référence (extrait du corpus de la communauté).

La distinction entre le réglage fin et le RAG est importante d'un point de vue architectural. Le réglage fin modifie les antécédents du modèle - son vocabulaire par défaut, ses hypothèses de cadrage, son registre normatif. La RAG fournit des bases factuelles. Les deux mécanismes s'attaquent à des modes d'échec différents : le réglage fin s'attaque au biais de distribution (le modèle utilise le mauvais registre), tandis que les RAG s'attaquent à l'hallucination (le modèle invente des faits).

Le compromis : capacité ou vérifiabilité

Cette approche implique un compromis délibéré qu'il convient d'énoncer clairement.

Un modèle à 8 milliards de paramètres ne peut rivaliser avec un modèle à plus de 700 milliards de frontières pour ce qui est de la capacité générale. Il produit une prose moins fluide sur les sujets hors domaine. Sa fenêtre contextuelle effective est plus petite. Il est moins capable d'effectuer des raisonnements complexes en plusieurs étapes. Il ne peut pas générer d'images, écrire des codes dans des langues obscures ou s'engager dans un discours philosophique de grande envergure avec la même facilité qu'un système frontière.

Ce qu'il offre en échange :

**Les résultats du modèle peuvent être vérifiés par rapport à un corpus source limité. Lorsque l'architecture Guardian Agent (décrite à l'article 3) calcule la similarité en cosinus entre l'intégration de la réponse du modèle et les intégrations des documents sources, le corpus est suffisamment petit pour que la vérification soit réalisable. La vérification de la réponse d'un modèle de frontière par rapport à "l'internet" n'est pas réalisable.

**Les données de réglage fin du modèle sont connues et contrôlées. Les priorités distributionnelles introduites par le réglage fin sont, en principe, vérifiables - il est possible d'examiner le corpus d'apprentissage et de comprendre pourquoi le modèle adopte par défaut une langue particulière. C'est beaucoup plus difficile avec un modèle formé sur des trillions de tokens de données web.

**Le modèle fonctionne sur un matériel contrôlé - un GPU AMD RX 7900 XTX auquel on accède via WireGuard VPN, avec un repli du CPU sur un modèle dégradé 3B pour des raisons de disponibilité. Aucune demande d'inférence ne quitte l'infrastructure de l'opérateur. Aucune invite ou réponse n'est enregistrée par un fournisseur d'API tiers.

**Dans son domaine cible, les aprioris distributionnels du modèle spécialisé sont plus proches des normes réelles de la communauté que ne le seraient les aprioris d'un modèle frontière. La spécialisation épiscopale utilise le langage de résurrection, et non le langage thérapeutique, comme registre par défaut pour les contextes de deuil - parce que c'est ce que ses données de réglage fin contiennent.

Le sacrifice est réel. Le gain est réel. La pertinence du compromis dépend du contexte de déploiement. Pour une communauté qui a besoin d'un compagnon intellectuel polyvalent, ce système est inadéquat. Pour une communauté qui a besoin d'un assistant fidèle au domaine dont les résultats peuvent être vérifiés par rapport à ses propres enregistrements, le compromis peut être favorable.

Le pipeline d'intégration

La composante de recherche vectorielle mérite une brève description technique.

Le contenu de la communauté est traité par un pipeline d'intégration (EmbeddingService) qui génère des représentations vectorielles stockées dans Qdrant. Au moment de la requête, l'entrée de l'utilisateur est intégrée en utilisant le même modèle, et la recherche par similarité cosinusoïdale extrait les documents sources les plus pertinents du corpus de la communauté.

Ces documents récupérés ont deux objectifs : ils fournissent un contexte factuel pour la réponse du modèle (RAG standard), et ils fournissent le corpus de référence par rapport auquel l'utilisateur peut vérifier la réponse (décrit dans l'article 3) Guardian Agents vérifier la réponse (décrit dans l'article 3). Le même espace d'intégration est utilisé pour la recherche et la vérification, ce qui présente un avantage en termes de cohérence - la vérification s'effectue dans le même espace de représentation que la recherche - mais aussi une vulnérabilité potentielle : des biais systématiques dans le modèle d'intégration affecteraient simultanément la recherche et la vérification.

Nous notons qu'il s'agit d'une limitation non résolue. Le modèle d'intégration est une dépendance partagée, et ses modes de défaillance pourraient être corrélés avec les modes de défaillance du modèle de génération d'une manière difficile à détecter à l'intérieur du système.

Il s'agit de l'article 2 sur 5 de la série "Gouvernance architecturale de l'IA à l'échelle communautaire". Pour l'architecture Guardian Agents l'architecture, visitez Village AI on Agentic Governance.

Précédent : Ce qu'est l'IA - et où se situe le problème de l'alignement Suivant : Pourquoi la gouvernance en temps de formation échoue - Les contraintes architecturales comme alternative