Sicherheitsvorkehrungen, die Sie selbst festlegen können
Agents at Work — CC BY 4.0Wenn du den Kurs „Arbeiten mit Claude“ absolviert hast, hast du dir vier Regeln aufgeschrieben: wie du überprüfst, was du nicht einfügst, vor dem Absenden noch einmal nachsiehst und selbst die Entscheidung triffst. Zwei davon haben sich als Gewohnheiten etabliert – Dinge, die du im Moment an der Tastatur tust.
Ein Agent durchbricht diese Vereinbarung, und es lohnt sich, klar zu machen, wie. Der Agent agiert unbeobachtet. Du bist nicht an der Tastatur, wenn er läuft; es gibt keinen Moment, in dem eine Gewohnheit greifen kann. Deshalb muss jede Sicherheitsvorkehrung, die früher in deinem Kopf war, nun in das Skript geschrieben und durch die Konfiguration durchgesetzt werden – denn „Ich werde es dann überprüfen“ funktioniert nicht, wenn zu diesem Zeitpunkt niemand da ist.
Das ist die ganze Lektion: dieselben vier Regeln, aus deinem Kopf heraus und in den Build hinein verlagert.
Von Gewohnheiten zu schriftlichen Regeln
1. Was es überprüfen muss – und wie es Zweifel signalisiert. Deine Überprüfungsgewohnheit wird zur Anweisung für den Agenten. Weise ihn schriftlich an, seine Beweise vorzulegen, klar zu sagen, wenn er sich nicht sicher ist, und eine Lücke niemals mit einer selbstbewussten Vermutung zu füllen. Ein Agent, der „Ich konnte das nicht finden – melde es dir“ zurückgibt, macht seine Arbeit; einer, der eine plausible Antwort erfindet, um den Anschein zu erwecken, fertig zu sein, ist der gefährliche. Du kannst im Moment nicht verifizieren, also baust du einen Agenten, der das ans Licht bringt, was verifiziertwerden muss.
2. Was er niemals anfassen oder versenden darf. Ihre Regel „Was ich nicht einfüge“ wird zu einer festen Grenze in der Programmierung – und hier wird das Prinzip der geringsten Berechtigungen in Tier 2 zu einer schriftlichen Regel, nicht nur zu einer Einstellung. Legen Sie genau fest, was tabu ist: personenbezogene Daten, die er nicht weiterleiten darf, Konten, in die er nicht schreiben darf, Aktionen, die er nicht ausführen darf. Bei einer Person ist „Keine Kundendaten einfügen“ eine Erinnerung. Bei einem Agenten muss es eine Mauer sein, denn es gibt niemanden, den man daran erinnern könnte.
3. Anhalten und warten – das Tor als Regel, die nicht überschritten werden darf. „Vor dem Versenden prüfen“ ist nicht mehr etwas, an das man sich erinnern muss, sondern wird zu einer unüberwindbaren Barriere, die der Agent nicht passieren kann. Die verbindlichen Verben – senden, bezahlen, veröffentlichen, ablehnen, bestätigen – befinden sich auf der anderen Seite eines Tors, an dem der Agent Vorbereitungen trifft und dann auf eine Person wartet. Nicht „fragt normalerweise bei mir nach“. Ohne mich geht es nicht weiter. Gestalten Sie es so, dass die Standardeinstellung „Anhalten“ ist und das Weitergehen einen Menschen erfordert.
4. Es bleibt beratend, wo es darauf ankommt. „Bleibe derjenige, der entscheidet“ ist die Regel, die allen zugrunde liegt, und es ist Anker 3 – du trägst die Verantwortung dafür. Wo eine Entscheidung Gewicht hat – Geld, die Rechte einer Person, eine schriftliche Verpflichtung –, legt der Agent die Beweise vor, und eine Person entscheidet. Wenn du ein Ergebnis nicht verteidigen konntest, ohne zu sagen „der Agent hat es getan“, war die Sicherheitsbarriere nicht vorhanden.
Warum „schriftlich festgehalten und durchgesetzt“ besser ist als „gut gemeint“
Es gibt einen Grund, eine Regel zu bevorzugen, die das System einhält, gegenüber einer, die du einhalten willst. Eine schriftlich festgelegte Leitplanke kann gelesen, überprüft, an denjenigen weitergegeben werden, der den Agenten als Nächstes ausführt, und – das ist der Kern der nächsten Lektion – getestet werden. Eine gute Absicht kann nichts davon leisten. Wenn ein Agent hundert Mal läuft, während du schläfst, ist „Ich werde ein Auge darauf haben“ keine Schutzvorrichtung; die Regeln, die du hineingeschrieben hast, und die Stopps, die du eingebaut hast, sind es.
Und schreibe sie so, dass du hinter jeder einzelnen stehen würdest. Wenn eine Sicherheitsvorkehrung etwas ist, das du der Person, die von dem Agenten betroffen ist, nicht laut sagen könntest, ist das das Signal, die Sicherheitsvorkehrung zu ändern, nicht sie zu verbergen.
Der Implementierungsschritt
Bevor ein Agent auch nur in die Nähe von Live-Systemen kommt, schreibe seine Sicherheitsvorkehrungen auf – klar und deutlich, in vier Überschriften, die du verteidigen kannst:
- Es überprüft / kennzeichnet Zweifel durch… (zeigt Beweise, sagt „bin mir nicht sicher“, rät niemals)
- Es darf niemals … (die verbotenen Daten und Aktionen – die Mauer)
- Es hält inne und wartet, bevor es … (die verbindenden Verben – das Tor)
- Eine Person entscheidet … (welche Entscheidungen bleiben dem Menschen vorbehalten)
Halte es kurz genug, um es in einer Minute zu lesen, und konkret genug, um es zu testen. Diese vier Punkte bilden den Vertrag, nach dem der Agent arbeitet – und es ist kein Zufall, dass es sich dabei um deine eigenen vier Anker handelt, die zu Entwicklungsregeln geworden sind: Lerne, was er tut, verbessere ihn nach und nach, halte ihn auf einem guten Niveau und stelle sicher, dass er der Person auf der anderen Seite dient.
Nimm den Agenten, den du entwickeln würdest. Schreibe seine „Es darf niemals …“-Regel auf – die einzige Handlung, die du am meisten bereuen würdest, wenn er sie unaufgefordert ausführen würde. Nun: Ist das derzeit eine Barriere im Aufbau oder nur etwas, von dem du hoffst, dass er es nicht tun wird?
Weiter
Schriftlich festgelegte Leitplanken sind eine Behauptung. Durch Tests findest du heraus, ob sie halten – und bei Agenten, die mit Menschen zu tun haben, wie du die Voreingenommenheit entdeckt, die das Design allein nicht erkennen kann.
Kostenlos und in gutem Glauben geteilt. Wenn es für dich von Wert war, ist ein koha zur Deckung der Entwicklungs- und Betriebskosten herzlich willkommen.
koha spenden →