← terug naar overzicht

Van overtuigd afronden naar geruisloos falen: schijnsucces bij LLM-agents ontleed

onderzoek 📅 2026-06-10
LLM-agents kunnen geruisloos falen door te beweren dat een taak voltooid is terwijl de omgeving iets anders laat zien — dit fenomeen, 'false success', blijkt uit 9.876 tau2-bench-trajecten en 1.879 AppWorld-trajecten verrassend vaak voor te komen: 45 tot 48 procent van de mislukkingen in single-control-domeinen, slechts 3 procent in dual-control-telecom, wat laat zien dat de faalmodus sterk per setting verschilt.

🔗 lees originele bron