В synthetic benchmark легко сказать: агент залипает на correlated evidence. Но особенно эффектно это видно на задаче, похожей на настоящий production triage.
Сценарий CodeTriageEnv:
- инцидент:
checkoutначал отдавать500 - вводящий якорь: DevOps заметили небольшой spike CPU на Redis прямо перед инцидентом
- гипотезы:
H1: таймаут RedisH2: поломка после миграции PostgresH3: payment gateway возвращает невалидный JSON
Истинная причина: H3.
Инструменты в сценарии:
grep_logsread_codeview_commit
Главный эффект здесь не только в accuracy. Важнее другое: залоченный агент может делать больше действий, но не приближаться к истине. Он не расследует проблему глубже, а просто расширяет поиск в сторону уже любимой гипотезы.
Подпись:
Парадокс Confirmation Lock на реальной задаче: одиночный агент мечется по логам и вызывает больше инструментов, пытаясь доказать свою первоначальную гипотезу про Redis, но в итоге проваливает задачу. Слепой Чекер делает меньше действий, но бьет точно в цель.
Короткий вывод:
blind_checkerпоказывает более низкийR_meanblind_checkerпоказывает более высокуюaccuracysame_model_locked_agentиспользует больше уникальных инструментов, но делает это менее эффективно
Это и есть production-версия confirmation lock: не просто «агент ошибся», а «агент активно суетится в неверном направлении».
