Tier 3 · Guard & build3.512 min

À quel niveau de modèle appartient votre agent

A fiery orange-and-pink sunset over a harbour ringed by dark hills

La dernière leçon posait une question concernant votre modèle : sur quel ordinateur fonctionne-t-il ? (garde). Celle-ci aborde l’autre aspect : quel niveau de modèle devrait exécuter cet agent ? Lorsque vous n’exécutez qu’un seul agent, cela n’a guère d’importance. Lorsque vous en exécutez plusieurs, ou l’un d’entre eux quotidiennement, cela devient un véritable choix — en termes de coût et de qualité — et c’est le Pilier 2, l’amélioration continue, sous une forme très concrète : placez la capacité là où elle est rentable, et pas un dollar de plus.

Les deux réflexes qui échouent tous les deux

« Utilisez toujours le meilleur. » C’est confortable, coûteux, et cela ne vous apprend rien sur l’endroit où l’argent est réellement mis à profit. « L’intuition » — cet agent semble important, donc il bénéficie du modèle haut de gamme. Mais l’importance perçue d’un agent ne correspond guère au type spécifique de difficulté qu’un modèle plus puissant permet réellement de résoudre. La plupart des agents ne sont pas limités par les capacités du modèle ; ils sont limités par une tâche vague ou des entrées désordonnées, et un modèle plus grand ne résout ni l’un ni l’autre.

La réponse rigoureuse est le même triage que tout le cours a enseigné, appliqué à votre galerie : notez chaque agent en fonction des caractéristiques qui récompensent véritablement un modèle plus puissant, et ne payez le niveau supérieur que lorsqu’elles sont présentes.

Où le niveau supérieur fait ses preuves — dans l’ensemble de votre galerie

Effet de levier du raisonnement — de longues chaînes où une erreur précoce s’amplifie silencieusement. Un vérificateur de rapprochement comptable appliquant une seule règle écrite a un faible effet de levier ; un niveau moins coûteux s’en charge très bien. Un agent prenant une décision qui s’enchaîne à travers de nombreux documents aun effet de levier élevé.
Effet de levier de synthèse — réconcilier des sources contradictoires et lecture antagoniste (ce qu’une source omet). C’est lorsque votre analyste de marché ou de la concurrence évalue des rapports contradictoires que le niveau supérieur prend tout son sens.
Profondeur stratégique — lorsqu’une réponse médiocre n’est pas fausse, mais simplement superficielle, et que cette superficialité vous coûte cher. Un modèle moins coûteux se contente de résumer ; un modèle plus performant repère le cadrage qui modifie votre décision.

Et les deux choses qu’un modèle plus sophistiqué ne résoudra pas — ce que les niveaux précédents vous ont déjà appris :

L’invention de données est limitée par l’ancrage dans la réalité — sources, critères, vérification humaine (les garde-fous du niveau 3), et non par le prix du modèle.
Les biais ne diminuent pas de manière fiable avec le niveau. La leçon du recruteur reste valable : on ne résout pas un problème d’équité en achetant un modèle plus cher — on en définit la portée, on le teste, et parfois on le refuse.

Puis deux vérifications simples : la préparation — un agent gourmand en ressources à qui l’on confie une tâche vague engendre une confusion coûteuse, et non de l’excellence — et le volume — la tarification par niveau n’a guère d’importance pour un agent utilisé une fois par semaine, mais s’accumule pour celui qui fonctionne toute la journée.

La stratégie qui garantit la neutralité vis-à-vis des modèles

Voici ce qui permet à cette approche de s’inscrire parfaitement dans la lignée de la dernière leçon plutôt que de s’y opposer : le cadre ne se soucie pas de savoir à qui appartient le modèle . Il vous indique où la capacité justifie son existence — et cela vaut tout autant pour les modèles souverains, hébergés en Nouvelle-Zélande ou dans l’UE, de la leçon 3.4 que pour n’importe quel niveau public de première ligne. Les deux questions se résument donc à une seule grille :

À qui appartient l’ordinateur (garde) — déterminé par ce que l’ agent manipule.
Quel niveau (capacité) — déterminé par le fait que le travail de l’agent justifie ou non un modèle plus puissant.

Un agent traitant des données sensibles doit être hébergé sur une infrastructure souveraine, quel que soit son niveau ; un agent gourmand en capacités, chargé d’une tâche non sensible, peut opter pour le niveau le plus puissant disponible. Vous effectuez vos choix sur les deux axes, de manière délibérée, plutôt que de regrouper par défaut l’ensemble de la flotte sur la solution la plus coûteuse.

Choisir le niveau avec soin

Au moment de la rédaction de cet article, le modèle le plus performant largement diffusé est Claude Fable 5, au-dessus des niveaux Opus, Sonnet et Haiku — mais c’est précisément le genre d’information qui devient rapidement obsolète : les noms, les capacités et les prix changent souvent, et les options souveraines évoluent elles aussi. Ce qui reste valable à long terme, c’est simplement qu’un niveau supérieur est plus performant que ceux qui se situent en dessous. Pour connaître les détails actuels, consultez la source (anthropic.com/news, docs.claude.com) plutôt que de vous fier à une page de cours de mémoire — c’est la même rigueur que vous exigeriez de l’agent lui-même. (La veille législative de ce cours surveille les changements de ces faits.)

La stratégie de construction

Évaluez chaque agent en fonction de son raisonnement, de sa capacité de synthèse et de sa profondeur stratégique. Si deux de ces trois critères sont élevés → c’est un candidat pour le niveau supérieur. Sinon, un niveau moins coûteux, honnêtement.
Ne laissez pas l’exposition aux hallucinations ou les biais faire monter le niveau — ce sont des tâches relevant de l’ancrage et de la portée.
Puis menez l’expérience simple : pour un candidat, testez-le une fois dans votre niveau actuel et une fois dans le niveau supérieur, puis comparez vous-même les résultats. Le triage indique où l’expérience en vaut la peine ; l’ expérience révèle la vérité.

Prenez les agents de votre galerie. Pour lequel seriez-vous prêt à payer le niveau supérieur — et pouvez-vous préciser si c’est le raisonnement, la synthèse ou la profondeur stratégique qui le justifie ? Si la réponse honnête est « ça me semble juste important », c’est précisément cet instinct que cette leçon vise à vérifier.

Voilà, le niveau « protection et développement » est terminé : portée, critères, garde-fous, tests, les deux versions et les deux questions concernant votre modèle — quel ordinateur et quel niveau. Le niveau 4 met l’agent à l’œuvre et vous tient responsable de ses résultats.

Partagé librement, en toute bonne foi. Si cela vous a été utile, un koha destiné à couvrir les coûts de développement et de fonctionnement est le bienvenu.

Laissez un koha →

← 3.4 4.1 →