Richtlijnen die je zelf kunt opstellen
Agents at Work — CC BY 4.0Als je de cursus ‘Werken met Claude’ hebt gevolgd, heb je voor jezelf vier regels opgesteld: hoe je controleert, wat je niet plakt, nadenken voordat je iets verstuurt, en zelf de beslisser blijven. Twee daarvan zijn gewoontes geworden — dingen die je op dat moment doet, achter het toetsenbord.
Een agent doorbreekt die afspraak, en het is de moeite waard om duidelijk te maken hoe. De agent handelt onbewaakt. Je zit niet achter het toetsenbord wanneer hij draait; er is geen moment waarop een gewoonte in werking kan treden. Dus elke veiligheidsmaatregel die vroeger in je hoofd zat, moet nu in de agent worden ingebouwd en door de opzet worden afgedwongen — want ‘ik controleer het wel op dat moment’ is geen optie als er op dat moment niemand aanwezig is.
Dat is de hele les: dezelfde vier regels, verplaatst van in je hoofd naar de build.
Van gewoontes naar geschreven regels
1. Wat het moet verifiëren — en hoe het twijfel signaleert. Je verificatiegewoonte wordt de instructies voor de agent. Zeg hem, schriftelijk, dat hij zijn bewijs moet laten zien, duidelijk moet aangeven wanneer hij het niet zeker weet, en nooit een leemte mag opvullen met een zelfverzekerde gok. Een agent die antwoordt: „Ik kon dit niet vinden — ik meld het aan je”, doet zijn werk; een agent die een aannemelijk antwoord verzint om de indruk te wekken dat hij klaar is, is gevaarlijk. Je kunt niet op dat moment verifiëren, dus bouw je een agent die aan het licht brengt wat gecontroleerdmoet worden.
2. Wat hij nooit mag aanraken of verzenden. Je regel „wat ik niet plak“ wordt een harde limiet in de programmering — en dit is waar het ‘minimale-rechten’-principe van Tier 2 een geschreven regel wordt, niet alleen een instelling. Leg duidelijk vast wat verboden terrein is: persoonlijke gegevens die hij niet mag doorgestuuren, accounts waar hij niet naar mag schrijven, acties die hij niet mag ondernemen. Bij een persoon is ‘plak geen klantgegevens’ een herinnering. Bij een agent moet het een muur zijn, want er is niemand om aan te herinneren.
3. Stoppen en wachten — de poort als een regel die hij niet mag passeren. ‘Controleer voordat het wordt verzonden’ is niet langer iets wat je moet onthouden, maar wordt een harde stop waar de agent niet doorheen kan lopen. De bindende werkwoorden — verzenden, betalen, plaatsen, afwijzen, vastleggen — bevinden zich aan de andere kant van een poort waar de agent zich voorbereidt en vervolgens wacht op een persoon. Niet ‘overlegt meestal met mij’. Kan niet doorgaan zonder mij. Bouw het zo dat de standaardinstelling ‘stoppen’ is, en dat verdergaan alleen mogelijk is met een mens.
4. Het blijft adviserend waar het ertoe doet. ‘Blijf degene die beslist’ is de regel die aan alle andere ten grondslag ligt, en het is Anker 3 — jij bent er verantwoordelijk voor. Waar een beslissing zwaar weegt — geld, iemands rechten, een schriftelijke toezegging — legt de agent bewijsmateriaal voor en beslist een persoon. Als je een uitkomst niet zou kunnen verdedigen zonder te zeggen „de agent heeft het gedaan“, dan was de veiligheidsbarrière er niet.
Waarom ‘op schrift gesteld en gehandhaafd’ beter is dan ‘goedbedoeld’
Er is een reden om de voorkeur te geven aan een regel die het systeem handhaaft boven een regel die jij wilt handhaven. Een schriftelijke veiligheidsbarrière kan worden gelezen, gecontroleerd, doorgegeven aan degene die de agent vervolgens uitvoert, en — het punt van de volgende les — getest. Een goede intentie kan geen van deze dingen zijn. Als een agent honderd keer wordt uitgevoerd terwijl je slaapt, is „Ik houd het wel in de gaten“ geen vangrail; de regels die je erin hebt geschreven en de stopmechanismen die je hebt ingebouwd, zijn dat wel.
En schrijf ze zo dat je achter elk ervan zou staan. Als een veiligheidsmaatregel iets is wat je niet hardop zou kunnen zeggen tegen de persoon op wie de agent invloed heeft, dan is dat het signaal om de veiligheidsmaatregel te veranderen, niet om hem te verbergen.
De implementatiestap
Voordat een agent ook maar in de buurt van live-omgevingen komt, schrijf je de veiligheidsmaatregelen op — duidelijk, in vier kopjes die je kunt verdedigen:
- Het verifieert / signaleert twijfel door… (toont bewijs, zegt „niet zeker”, gokt nooit)
- Het mag nooit… (de verboden gegevens en acties — de muur)
- Het stopt en wacht voordat… (de bindende werkwoorden — de poort)
- Een persoon beslist… (welke beslissingen blijven bij de mens)
Houd het kort genoeg om in een minuut te lezen en specifiek genoeg om te testen. Deze vier vormen het contract waaronder de agent werkt — en, niet toevallig, zijn het jouw eigen vier ankers die zijn omgezet in bouwregels: leer wat het doet, verbeter het gaandeweg, houd het goed, en zorg ervoor dat het de persoon aan de andere kant dient.
Neem de agent die je zou bouwen. Schrijf de regel ‘het mag nooit…’ op — de enige handeling waarvan je het meest zou betreuren als het die uit eigen beweging zou uitvoeren. Nu: is dat momenteel een muur in de opzet, of gewoon iets waarvan je hoopt dat het het niet zal doen?
Vervolg
Opgeschreven veiligheidsmaatregelen zijn een bewering. Door te testen kom je erachter of ze standhouden — en, voor agents die met mensen te maken hebben, hoe je de vooringenomenheid ontdekt die je met ontwerp alleen niet kunt zien.
Vrij gedeeld, te goeder trouw. Als je er iets aan hebt gehad, is een koha voor ontwikkelings- en exploitatiekosten van harte welkom.
Laat een koha achter →