Implementeren en toezicht houden — een groen vinkje betekent nog geen succes
Agents at Work — CC BY 4.0De hele belofte van een agent is dat hij draait terwijl je niet kijkt — ’s nachts, of terwijl je bij een klant bent. Dat is ook het grote gevaar, en die twee zijn in feite hetzelfde. Deze les gaat over de discipline om een agent onbeheerd te laten draaien zonder dat ‘onbeheerd’ stilletjes verandert in ‘onverantwoordelijk’.
De valkuil van het groene vinkje
Een agent rondt zijn run af en meldt succes. De taak staat op ‘voltooid’. Alles is groen. Dit moet je goed onthouden: een groen vinkje betekent dat de agent de stappen heeft uitgevoerd die hem waren opgedragen. Het betekent niet dat hij het juiste heeft gedaan.
Een afstemmingscontroleprogramma kan foutloos draaien en toch de verkeerde facturen markeren. Een triage-agent kan een volle inbox sorteren en stilletjes dat ene dringende bericht verkeerd archiveren. Een screeningagent kan elke aanvraag foutloos beoordelen en zich sterk tegen één groep keren — geen fout, geen crash, groen vinkje, echte schade. De agent kan je alleen vertellen wat hij heeft gedaan. Hij kan je niet vertellen dat wat hij deed correct, eerlijk of verstandig was — dat is jouw oordeel, en dat verdwijnt niet omdat de run is geslaagd.
Dus de eerste regel van toezicht: beschouw ‘voltooid’ nooit als ‘correct’. Voltooiing is een bewering over het proces. Correctheid is een bewering over de werkelijkheid, en alleen iemand die toetst aan de werkelijkheid kan die bewering doen.
Toezicht bouw je in, je plakt het er niet achteraf op
Je kunt niet om 2 uur ’s nachts bovenop een agent staan die draait. Toezicht moet dus ingebouwd zijn in de manier waarop het draait — drie eenvoudige gewoontes:
- Het controlespoor. De agent moet een verslag achterlaten van wat hij daadwerkelijk heeft gedaan — wat hij heeft gelezen, wat hij heeft besloten, wat hij heeft gewijzigd of verzonden, en waarom. Niet om het er grondig uit te laten zien, maar zodat je, als er iets mis is, zonder giswerk kunt achterhalen wat er is gebeurd en wanneer. Een agent waarvan je het werk achteraf niet kunt reconstrueren, is er een waarvoor je geen verantwoording kunt afleggen — en verantwoording afleggen is juist de taak (Anker 3).
- Steekproeven volgens een schema. Het testen uit 3.2 is geen startpoort die je eenmalig passeert; het is een gewoonte die je volhoudt. Controleer regelmatig de werkelijke output van de agent, niet alleen op de dag dat je hem hebt gebouwd — want de onderliggende modellen veranderen, en wat vorige maand nog „in orde“ was, kan afwijken.
- Een stop die je kunt bereiken. Je moet in staat zijn om de agent snel uit te schakelen — te pauzeren, de toegang in te trekken — zonder een ontwikkelaar, wanneer er iets niet klopt. Als je het niet snel kunt stoppen, houd je er geen toezicht op; dan hoop je maar het beste.
Begin klein, breid uit op basis van bewijs
Dit is Anker 2: continue verbetering als implementatieregel. Geef een nieuwe agent niet meteen op dag één de volledige taak en loop dan weg. Laat hem op een klein deel draaien, houd hem in de gaten, volg zijn spoor, controleer zijn output. Breid zijn rol uit naarmate hij het vertrouwenverdient — meer volume, meer autonomie, minder controle — op basis van bewijs dat hij zich goed gedraagt, niet op basis van het feit dat hij nog niet duidelijk kapot is gegaan. De bedrijven die de dupe worden, zijn degenen die „het heeft een week lang zonder problemen gedraaid“ verwarden met „het is veilig om niet meer op te letten“.
De stap naar onbeheerd draaien
Voordat een agent zonder toezicht op echt werk draait:
- Bepaal hoe ‘fout’ eruit zou zien — de specifieke negatieve uitkomst waar je op let — en hoe je dit zou opmerken aan de hand van het logboek, niet aan de hand van een groen vinkje.
- Bouw eerst het controlespoor op, niet pas na het eerste incident.
- Stel de frequentie van de steekproeven en de stopprocedurevast — en zorg ervoor dat iemand anders dan jij beide kan gebruiken.
Stel je voor dat je agent de hele nacht draait. Om 3 uur ’s nachts gaat er iets mis — geen crash, maar een verkeerde beslissing. Als je ’s ochtends achter je computer gaat zitten, hoe zou je dat dan überhaupt merken? Als het eerlijke antwoord ‘Misschien niet’ is, dan is dat de lacune die je moet dichten vóór de implementatie, niet erna.
Vervolgens
Je hebt het geïmplementeerd en je houdt het in de gaten. Nu het deel dat mensen het liefst zouden overslaan, maar zich het minst kunnen veroorloven: de wetgeving waarbinnen je daadwerkelijk werkt.
Vrijelijk gedeeld, te goeder trouw. Als je er iets aan hebt gehad, is een koha voor ontwikkelings- en exploitatiekosten van harte welkom.
Laat een koha achter →