Tier 3 · Guard & build3.512 min

Auf welcher Modellstufe läuft Ihr Agent

A fiery orange-and-pink sunset over a harbour ringed by dark hillsAgents at Work — CC BY 4.0

In der letzten Lektion wurde eine Frage zu Ihrem Modell gestellt – auf wessen Computer läuft es? (Verwahrung). In dieser Lektion geht es um die andere Hälfte: Auf welcher Modellstufe sollte dieser Agent laufen? Wenn Sie nur einen Agenten betreiben, spielt das kaum eine Rolle. Wenn Sie mehrere Agenten ausführen oder einen davon täglich, wird es zu einer echten Entscheidung – über Kosten und über Qualität – und es ist Anker 2, kontinuierliche Verbesserung, in einer sehr konkreten Form: Setzen Sie die Kapazität dort ein, wo sie sich bezahlt macht, und keinen Dollar mehr.

Die beiden Instinkte, die beide versagen

„Verwende immer das Beste.“ Bequem, teuer und man lernt nichts darüber, wo das Geld tatsächlich etwas bewirkt. „Gefühl“ – dieser Agent fühlt sich wichtig an, also bekommt er das Top-Modell. Aber wie wichtig sich ein Agent anfühlt, korreliert schlecht mit der spezifischen Art von Schwierigkeit, die ein stärkeres Modell tatsächlich bewältigt. Die meisten Agenten sind nicht durch die Leistungsfähigkeit des Modells eingeschränkt; sie sind durch eine vage Aufgabenstellung oder unübersichtliche Eingaben eingeschränkt, und ein größeres Modell behebt keines von beiden.

Die fundierte Antwort ist dieselbe Triage, die der gesamte Kurs vermittelt hat, bezogen auf Ihre Galerie: Bewerten Sie jeden Agenten anhand der Merkmale, die ein stärkeres Modell tatsächlich vorteilhaft machen, und bezahlen Sie die oberste Stufe nur dort, wo diese Merkmale vorhanden sind.

Und die beiden Dinge, die ein umfangreicheres Modell nicht beheben kann – was Ihnen die früheren Stufen bereits gelehrt haben:

Dann zwei einfache Überprüfungen: Bereitschaft – ein ressourcenhungriger Agent, dem eine vage Aufgabe übertragen wird, verursacht teure Verwirrung, keine Brillanz – und Volumen – die Preisgestaltung nach Stufen spielt kaum eine Rolle bei einem Agent, der einmal pro Woche läuft, und summiert sich bei einem, der den ganzen Tag läuft.

Der Schritt, der es modellunabhängig hält

Und genau das sorgt dafür, dass sich diese Lektion nahtlos an die letzte anschließt, anstatt ihr zu widersprechen: Dem Framework ist es egal, wem das Modell gehört. Es zeigt dir, wo sich die Leistungsfähigkeit bezahlt macht – und das gilt ebenso für die souveränen, in Neuseeland oder der EU gehosteten Modelle aus Lektion 3.4 wie für jede öffentliche Frontier-Stufe. Die beiden Fragen lassen sich also zu einem Raster zusammenfassen:

Ein Agent, der mit sensiblen Daten arbeitet, gehört in eine souveräne Infrastruktur, unabhängig von seiner Ebene; ein fähigkeitshungriger Agent, der nicht-sensible Aufgaben erledigt, kann auf die stärkste verfügbare Ebene zurückgreifen. Man nimmt bewusst Zuweisungen auf beiden Achsen vor, anstatt die gesamte Flotte standardmäßig auf die teuerste Instanz zu legen.

Die Benennung der Stufe – sorgfältig

Zum Zeitpunkt der Abfassung dieses Artikels ist das leistungsfähigste, weit verbreitete Modell Claude Fable 5, das über den Stufen Opus, Sonnet und Haiku liegt – doch genau diese Art von Informationen veraltet schnell: Namen, Leistungsmerkmale und Preise ändern sich häufig, und auch die Optionen der Souveräne verschieben sich. Die beständige Aussage lautet lediglich, dass eine höhere Stufe leistungsfähiger ist als die darunter liegenden. Für aktuelle Einzelheiten sollten Sie die Quelle (anthropic.com/news, docs.claude.com) konsultieren, anstatt sich auf eine Kursseite aus dem Gedächtnis zu verlassen – dieselbe Disziplin bei der Beweisführung, die Sie auch vom Agenten selbst erwarten würden. (Die „Legislative Watch“ dieses Kurses behält im Auge, wann sich diese Fakten ändern.)

Der Aufbau-Schritt

Nehmen Sie die Agenten in Ihrer Galerie. Für welchen würden Sie tatsächlich die oberste Stufe bezahlen – und können Sie benennen, ob logisches Denken, Synthese oder strategische Tiefe dies rechtfertigt? Wenn die ehrliche Antwort lautet: „Es fühlt sich einfach wichtig an“, dann ist das genau der Instinkt, den diese Lektion überprüfen soll.

Weiter

Damit ist die „Guard-and-Build“-Stufe abgeschlossen: Umfang, Kriterien, Leitplanken, Tests, die beiden Builds und die beiden Fragen zu deinem Modell – wessen Computer und welche Stufe. Stufe 4 setzt den Agenten ein und hält dich dafür verantwortlich.

Wenn Sie diese Lektion als abgeschlossen markieren, wird Ihr Fortschritt auf diesem Gerät gespeichert – kein Konto, keine Nachverfolgung.

Kostenlos und in gutem Glauben geteilt. Wenn es für dich von Nutzen war, ist ein koha zur Deckung der Entwicklungs- und Betriebskosten herzlich willkommen.

koha spenden →

Nützlich? Teile diese Lektion mit einem Kollegen.