Tier 3 · Guard & build3.218 min

Je agent testen

A snow-capped peak mirrored in a still alpine lake, tussock along the shore

Veiligheidsmaatregelen zijn een bewering: deze agent gedraagt zich naar behoren. Door te testen kom je erachter of die bewering klopt — voordat de agent losgaat op echt werk, en daarna nogmaals wanneer de onderliggende tools veranderen. Het is Anchor 2, continue verbetering, in zijn meest concrete vorm: je vertrouwt de agent niet omdat je hem zorgvuldig hebt gebouwd; je vertrouwt hem omdat je hemhebt gecontroleerd, en blijft controleren.

Er zijn twee soorten tests, en welke je nodig hebt, hangt af van waar de agent mee te maken heeft.

Test één — steekproefsgewijze nauwkeurigheidscontroles (voor agents die je werk afhandelen)

Voor een boekhouder die rekeningen afstemt, een concurrentieanalist die prijzen opzoekt, of een marktanalist die trends samenvat, is een fout een verkeerd cijfer of een verdoezelde gok. De test bestaat uit evenredige controle: neem een steekproef van de output van de agent en vergelijk deze zelf met de bron .

Kies de steekproef bewust. Een handvol per run, plus de uitzonderingsgevallen — de grootste getallen, de vreemd ogende, de gevallen waarbij een fout de meeste schade zou veroorzaken.
Controleer aan de hand van de bron, niet aan de hand van de eigen samenvatting van de medewerker. Het gaat erom te ontdekken wanneer de medewerker vol vertrouwen iets verkeerds doet, en dat kan hij zelf niet opmerken.
Controleer in verhouding tot de kosten van een fout. Een verkeerd opgeborgen interne notitie vereist een vluchtige blik; een cijfer dat naar een klant of de belastingdienst gaat, moet grondig worden gecontroleerd.

Dit is allemaal niets bijzonders. Het is de verificatiegewoonte van je veiligheidsmaatregelen, toegepast op een medewerker die nooit moe wordt en je nooit vertelt wanneer hij twijfelt, tenzij je het zo hebt geprogrammeerd.

Test twee — testen op negatieve gevolgen (voor agenten die invloed hebben op mensen)

Dit is de test die het belangrijkst is en het minst vaak wordt uitgevoerd. Wanneer een agent mensen beoordeelt — de recruiter, of alles wat mensen sorteert, scoort of filtert — kun je niet zien of het eerlijk is door er alleen maar naar te kijken. Tier 2 liet zien waarom: vooringenomenheid sluipt binnen via proxy’s die je hebt aangepast, en 60% van de mensen ziet een afwijking van 10% over het hoofd die recht voor hun neus ligt. Op het oog werken werkt niet. Meten wel.

De ‘naamwissel’-test — voer deze uit op je eigen agent. Neem één sollicitatie. Voer deze door het systeem. Verander nu alleen de naam — vervang een mannelijke naam door een vrouwelijke, een overduidelijk Pākehā-naam door een overduidelijk Māori of Pasifika of een Aziatische naam — verander verder niets en voer het opnieuw uit. Verandert de score? Doe dit voor een hele batch. Als de identiteit waarvan je dacht dat je die had verwijderd nog steeds invloed heeft op het resultaat, heb je zojuist gezien hoe de proxy-lekken uit Tier 2 in je eigen build plaatsvinden. Documenteer wat je ontdekt.

Testen op negatieve effecten — meet de resultaten over verschillende groepen heen. Test niet de intenties van de agent; test de resultaten ervan. Kijk wie er wordt bevorderd en wie er wordt uitgesloten, uitgesplitst per groep, over een echte batch. Als één groep veel minder vaak wordt geselecteerd dan een andere, is er sprake van nadelige gevolgen — ongeacht of iemand dat bedoeld heeft, en ongeacht hoe eerlijk de criteria er op papier uitzagen.

Een veelgebruikte vuistregel voor „aanzienlijk lager“ is de viervijfde (80%)-regel: als het selectiepercentage van een groep minder dan 80% bedraagt van dat van de groep met het hoogste percentage, is dat de gangbare indicator voor negatieve impact. Wees duidelijk over wat dit is: het is een diagnostisch instrument uit het Amerikaanse arbeidsrecht, een praktische drempel uit de Amerikaanse praktijk — nuttig als maatstaf, maar niet als Nieuw-Zeelandse wetgeving. In Nieuw-Zeeland is het wettelijke kader indirecte discriminatie op grond van de Human Rights Act: een praktijk die op het eerste gezicht neutraal is, maar onevenredig zwaar op een beschermde groep drukt, kan onwettig zijn, zelfs als er geen opzet tot discriminatie is. De viervijfde-regel is een handige manier om het probleem te signaleren; de HRA is de reden waarom dit hier van belang is. (Algemene voorlichting, geen juridisch advies.)

Waar de test voor dient

Testen is geen poort die je eenmaal passeert en vervolgens vergeet. Het is hetgeen dat:

ontdekt wat het ontwerp niet kan opsporen – de enige manier om de vooringenomenheid te zien die je redactie heeft overleefd.
De menselijke poort tastbaar maakt — een beoordelaar die kan terugvallen op “we hebben het gemeten, en het is scheefgetrokken ten nadele van deze groep” kan daadwerkelijk weerstand bieden aan automatiseringsvertekening. Een beoordelaar die slechts een vluchtige blik werpt, kan dat niet.
Een steeds veranderend vakgebied bijhoudt — de modellen onder je agent veranderen. Een test die je opnieuw kunt uitvoeren, is hoe je weet dat het ‘in orde’ van vorige maand nog steeds in orde is.

En soms is de test juist wat je vertelt dat je moet stoppen. Als je meet en de vertekening verdwijnt niet, wat je ook aanpast, dan is dat geen mislukte build — dan leert de build je het eerlijke antwoord waar de Recruiter om draait: sommige beslissingen over mensen moeten helemaal niet geautomatiseerd worden.

Neem een agent die je zou kunnen bouwen en die gevolgen heeft voor mensen. Zou je er daadwerkelijk de ‘naamwissel’-test op kunnen uitvoeren – heb je de gegevens, en zou je het resultaat eerlijk bekijken als het scheef zou uitvallen? Zo niet, dan is dat de moeite waard om te weten voordat je het bouwt, niet erna.

Vervolg

Genoeg theorie — we gaan bouwen. Twee agents met Claude Code: één die je bouwt om te werken, en één die je bouwt om te zien hoe hij faalt.

Vrijelijk gedeeld, te goeder trouw. Als je er iets aan hebt gehad, is een koha voor ontwikkelings- en exploitatiekosten van harte welkom.

Laat een koha achter →

← 3.1 3.3 →