- BrainTools - https://www.braintools.ru -

Кукушка хвалит петуха: как работает LLM-AS-A-JUDGE

Мы все через это проходили. Написали умного агента, запустили. Вроде отвечает складно. Начальник доволен. Но у нас высокорисковый бизнес, а мы умные, поэтому где-то внутри сидит червячок сомнения: “А что, если он сейчас галлюцинирует, просто делает это очень уверенно?”.

Чтобы успокоить совесть, индустрия придумала красивое решение: “Пусть одна нейросеть (поумнее) проверяет другую (поглупее)”. Звучит логично [1]. Но практика показывает: нас обманывают. Причем, из лучших побуждений.

Проблема “Хорошего парня”
Современные языковые модели обучены быть помощниками. Быть вежливыми. Быть “за все хорошее”. Когда вы просите одну нейросеть оценить работу другой, она подсознательно (на уровне своих настроек) старается сгладить углы.
“Ответ немного неточный, но в целом полезный. 8 из 10”.
В жизни это называется тактичностью. В разработке — это пропущенный баг, который улетит пользователю. У нас получается “кружок взаимного восхищения”, а не контроль качества.

Эффект длины
Еще одно забавное наблюдение: проверяющая нейросеть почти всегда ставит оценку выше длинному ответу. Если бот налил “воды” на три абзаца, он получает высший балл за “полноту”. А четкий ответ “Да, это возможно” получает нагоняй за “краткость”.
В итоге мы, сами того не желая, учим агентов быть болтливыми бюрократами, а не помощниками.

Включите режим “Вредного критика”
Уже ясно, что просить “оценить качество” бесполезно. Нужно менять подход.
Вместо доброго учителя мы теперь создаем для проверки “Злого критика”.
Мы изменим задачу для проверяющей нейросети, и не спрашиваем: “Насколько этот ответ хорош?”. Мы говорим: “Найди в этом ответе логическую ошибку [2]. Найди противоречие. Придерись к фактам”.

И если разрешить нейросети быть “токсичной”, она начнет базово находить реальные проблемы. Перестанет прощать мелкие неточности. Оценки рухнут, но качество будет расти.

Не бойтесь “обидеть” своего агента жесткой проверкой. Агентные системы — это не магия, это инструмент. И чтобы он работал надежно, его нужно не гладить по головке, а устраивать ему стресс-тесты.

Автор: linabesson

Источник [3]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25176

URLs in this post:

[1] логично: http://www.braintools.ru/article/7640

[2] ошибку: http://www.braintools.ru/article/4192

[3] Источник: https://habr.com/ru/articles/992678/?utm_campaign=992678&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100