Tier 3 · Guard & build3.512 min

Auf welcher Modellstufe läuft Ihr Agent

A fiery orange-and-pink sunset over a harbour ringed by dark hills

In der letzten Lektion wurde eine Frage zu Ihrem Modell gestellt – auf wessen Computer läuft es? (Verwahrung). In dieser Lektion geht es um die andere Hälfte: Auf welcher Modellstufe sollte dieser Agent laufen? Wenn Sie nur einen Agenten betreiben, spielt das kaum eine Rolle. Wenn Sie mehrere Agenten ausführen oder einen davon täglich, wird es zu einer echten Entscheidung – über Kosten und über Qualität – und es ist Anker 2, kontinuierliche Verbesserung, in einer sehr konkreten Form: Setzen Sie die Kapazität dort ein, wo sie sich bezahlt macht, und keinen Dollar mehr.

Die beiden Instinkte, die beide versagen

„Verwende immer das Beste.“ Bequem, teuer und man lernt nichts darüber, wo das Geld tatsächlich etwas bewirkt. „Gefühl“ – dieser Agent fühlt sich wichtig an, also bekommt er das Top-Modell. Aber wie wichtig sich ein Agent anfühlt, korreliert schlecht mit der spezifischen Art von Schwierigkeit, die ein stärkeres Modell tatsächlich bewältigt. Die meisten Agenten sind nicht durch die Leistungsfähigkeit des Modells eingeschränkt; sie sind durch eine vage Aufgabenstellung oder unübersichtliche Eingaben eingeschränkt, und ein größeres Modell behebt keines von beiden.

Die fundierte Antwort ist dieselbe Triage, die der gesamte Kurs vermittelt hat, bezogen auf Ihre Galerie: Bewerten Sie jeden Agenten anhand der Merkmale, die ein stärkeres Modell tatsächlich vorteilhaft machen, und bezahlen Sie die oberste Stufe nur dort, wo diese Merkmale vorhanden sind.

Wo sich die oberste Stufe bezahlt macht – in Ihrer gesamten Galerie

Hebelwirkung beim Schlussfolgern – lange Ketten, in denen sich ein früher Fehler unbemerkt verstärkt. Ein Buchhalter, der als Abgleichprüfer eine einzige festgelegte Regel anwendet, hat eine geringe Hebelwirkung; eine kostengünstigere Stufe erledigt dies gut. Ein Agent, der eine Entscheidung trifft, die sich über viele Dokumente erstreckt, hat eine hohe Hebelwirkung.
Synthetische Hebelwirkung – das Abgleichen widersprüchlicher Quellen und das adversarische Lesen (was eine Quelle auslässt). Ihr Markt- oder Wettbewerbsanalyst, der widersprüchliche Berichte abwägt, ist der Bereich, in dem die oberste Stufe ihre Stärke zeigt.
Strategische Tiefe – wo eine mittelmäßige Antwort nicht falsch, sondern nur oberflächlich ist, und diese Oberflächlichkeit Sie teuer zu stehen kommt. Ein kostengünstigeres Modell fasst zusammen; ein leistungsfähigeres erkennt den Rahmen, der Ihre Entscheidung beeinflusst.

Und die beiden Dinge, die ein umfangreicheres Modell nicht beheben kann – was Ihnen die früheren Stufen bereits gelehrt haben:

Das Erfinden von Dingen wird durch Fundiertheit eingedämmt – Quellen, Kriterien, eine menschliche Überprüfung (die Leitplanken von Stufe 3) –, nicht durch den Preis des Modells.
Voreingenommenheit nimmt nicht zuverlässig mit der Stufe ab. Die Lektion des Personalvermittlers gilt nach wie vor: Man kauft sich nicht mit einem teureren Modell aus einem Fairnessproblem heraus – man definiert den Umfang, testet es und lehnt es manchmal ab.

Dann zwei einfache Überprüfungen: Bereitschaft – ein ressourcenhungriger Agent, dem eine vage Aufgabe übertragen wird, verursacht teure Verwirrung, keine Brillanz – und Volumen – die Preisgestaltung nach Stufen spielt kaum eine Rolle bei einem Agent, der einmal pro Woche läuft, und summiert sich bei einem, der den ganzen Tag läuft.

Der Schritt, der es modellunabhängig hält

Und genau das sorgt dafür, dass sich diese Lektion nahtlos an die letzte anschließt, anstatt ihr zu widersprechen: Dem Framework ist es egal, wem das Modell gehört. Es zeigt dir, wo sich die Leistungsfähigkeit bezahlt macht – und das gilt ebenso für die souveränen, in Neuseeland oder der EU gehosteten Modelle aus Lektion 3.4 wie für jede öffentliche Frontier-Stufe. Die beiden Fragen lassen sich also zu einem Raster zusammenfassen:

Wessen Computer (Verwahrung) – entschieden danach, womit der Agent in Berührung kommt.
Welche Ebene (Fähigkeit) – entschieden danach, ob die Arbeit des Agenten ein leistungsfähigeres Modell rechtfertigt.

Ein Agent, der mit sensiblen Daten arbeitet, gehört in eine souveräne Infrastruktur, unabhängig von seiner Ebene; ein fähigkeitshungriger Agent, der nicht-sensible Aufgaben erledigt, kann auf die stärkste verfügbare Ebene zurückgreifen. Man nimmt bewusst Zuweisungen auf beiden Achsen vor, anstatt die gesamte Flotte standardmäßig auf die teuerste Instanz zu legen.

Die Benennung der Stufe – sorgfältig

Zum Zeitpunkt der Abfassung dieses Artikels ist das leistungsfähigste, weit verbreitete Modell Claude Fable 5, das über den Stufen Opus, Sonnet und Haiku liegt – doch genau diese Art von Informationen veraltet schnell: Namen, Leistungsmerkmale und Preise ändern sich häufig, und auch die Optionen der Souveräne verschieben sich. Die beständige Aussage lautet lediglich, dass eine höhere Stufe leistungsfähiger ist als die darunter liegenden. Für aktuelle Einzelheiten sollten Sie die Quelle (anthropic.com/news, docs.claude.com) konsultieren, anstatt sich auf eine Kursseite aus dem Gedächtnis zu verlassen – dieselbe Disziplin bei der Beweisführung, die Sie auch vom Agenten selbst erwarten würden. (Die „Legislative Watch“ dieses Kurses behält im Auge, wann sich diese Fakten ändern.)

Der Aufbau-Schritt

Beurteilen Sie jeden Agenten hinsichtlich Argumentation, Synthese und strategischer Tiefe. Zwei von drei Bewertungen „hoch“ → ein Kandidat für die oberste Stufe. Andernfalls ehrlich gesagt eine günstigere Stufe.
Lassen Sie nicht zu, dass Halluzinationen oder Verzerrungen die Stufe nach oben treiben – das sind Aufgaben der Grundierung und des Umfangs.
Führe dann das einfache Experiment durch: Lass einen Kandidaten einmal in deiner aktuellen Stufe und einmal in der obersten Stufe laufen und vergleiche die Ergebnisse selbst. Die Bewertung zeigt, wo sich das Experiment lohnt; das Experiment liefert die Wahrheit.

Nehmen Sie die Agenten in Ihrer Galerie. Für welchen würden Sie tatsächlich die oberste Stufe bezahlen – und können Sie benennen, ob logisches Denken, Synthese oder strategische Tiefe dies rechtfertigt? Wenn die ehrliche Antwort lautet: „Es fühlt sich einfach wichtig an“, dann ist das genau der Instinkt, den diese Lektion überprüfen soll.

Weiter

Damit ist die „Guard-and-Build“-Stufe abgeschlossen: Umfang, Kriterien, Leitplanken, Tests, die beiden Builds und die beiden Fragen zu deinem Modell – wessen Computer und welche Stufe. Stufe 4 setzt den Agenten ein und hält dich dafür verantwortlich.

Kostenlos und in gutem Glauben geteilt. Wenn es für dich von Nutzen war, ist ein koha zur Deckung der Entwicklungs- und Betriebskosten herzlich willkommen.

koha spenden →

← 3.4 4.1 →