- BrainTools - https://www.braintools.ru -

Ошибки ИИ радикально отличаются от человеческих

Ошибки ИИ радикально отличаются от человеческих - 1

Нам нужны новые системы безопасности, учитывающие их странности

Люди регулярно ошибаются — это часть нашей повседневной жизни. Мы можем допустить промах как в новых, так и в привычных действиях. Одни из них несущественны, другие — фатальны. Они способны подорвать доверие окружающих, испортить репутацию на работе или даже стать вопросом жизни и смерти.

За тысячелетия человечество создало множество механизмов, минимизирующих типичные промахи. В казино, например, часто меняют крупье, поскольку монотонность увеличивает вероятность сбоев. В больницах пациенты перед операциями получают пометки на теле, чтобы врачи не перепутали часть тела, и проводят проверку инструментов, чтобы ничего не осталось внутри. Мы научились справляться с человеческим фактором — от корректуры текстов и двойной бухгалтерии до апелляций в судах.

Теперь в обществе активно внедряется новый тип участника процессов — искусственный интеллект [1] (ИИ). Системы, вроде больших языковых моделей (LLMs), решают когнитивные задачи, которые ранее были доступны только людям. Но и они не безупречны. Порой их «советы» — как есть камни или добавлять клей в пиццу — вызывают недоумение. Однако важен не сам факт наличия сбоев, а природа этих сбоев — она совсем иная, чем у человека.

Многие риски, связанные с ИИ, проистекают из этой разницы. Нам нужны новые системы безопасности, адаптированные под специфику машинного мышления [2], чтобы свести к минимуму потенциальный вред.

Человеческие ошибки [3] vs. ошибки ИИ

Жизненный опыт [4] помогает нам предсказывать, где и почему может оступиться человек. Обычно сбои происходят на границах знаний: большинство из нас легко допустит ошибку в сложной математике [5]. Мы понимаем, что промахи часто идут “пачкой”: неуверенность в одном вопросе тянет за собой другие. Мы также знаем, что на надежность влияет усталость или отвлеченность. И чаще всего человек осознаёт, когда чего-то не знает: тот, кто не силён в матанализе, вероятно, прямо скажет «не знаю».

Когда ИИ допускает нечто подобное, мы можем использовать знакомые методы проверки. Однако современные языковые модели демонстрируют совершенно иной характер поведения [6].

Машинные промахи кажутся случайными, без очевидной привязки к теме. Ошибочные ответы могут касаться как сложных математических задач, так и абсурдных заявлений вроде «капуста ест козу». Кроме того, модели не признаются в своей неуверенности — они с одинаковой уверенностью сообщают как достоверные, так и абсурдные факты. Такая непоследовательность мешает полагаться на их выводы в многошаговых рассуждениях. Если ИИ участвует в решении бизнес-задач, важно не только, чтобы он знал, какие факторы влияют на прибыль, но и чтобы не “забыл”, что такое деньги.

Как справляться с промахами ИИ?

Это приводит к двум ключевым направлениям исследований. Первое — создать модели, чьи недочёты больше похожи на человеческие. Второе — разработать совершенно новые механизмы, учитывающие специфику ИИ.

Уже есть технологии, позволяющие сделать модели ближе к человеку. Их разрабатывают в рамках направления по «выравниванию» ИИ — чтобы система следовала целям и намерениям своих создателей. Например, обучение [7] с подкреплением [8] через обратную связь от людей (RLHF), использованное в ChatGPT, «поощряет» ответы, которые одобряются экспертами. Такой подход может быть адаптирован для того, чтобы снижать вероятность непонятных или «инородных» промахов.

Для контроля качества машинных ответов частично подходят и традиционные методы. Например, можно заставить модель перепроверять свои рассуждения. Но даже при этом она способна выдумать правдоподобное объяснение чему-то явно нелепому.

Есть и подходы, которые применимы только к ИИ. Машинам не страшна усталость — это позволяет задавать один и тот же вопрос разными способами и сравнивать ответы. Для человека это утомительно, но ИИ справится.

Понимание различий — ключ к доверию

Исследователи всё ещё выясняют, чем именно машинные сбои отличаются от человеческих. Некоторые проявления ИИ оказываются ближе к человеку, чем казалось. Например, небольшие изменения в формулировке запроса могут изменить результат — явление, известное как чувствительность к формулировке. Но и люди так себя ведут: социологи знают, как важна точность вопросов в опросах.

LLM также склонны повторять [9] самые частотные слова из обучающих данных, даже если они неуместны — например, «Америка» в контексте обсуждения экзотических стран. Это напоминает «эффект доступности», когда система выбирает первое, что «всплывает». Подобно человеку, LLM может «терять внимание» к середине длинного документа, лучше запоминая начало и конец. Однако есть прогресс: при дообучении на задачах извлечения информации из длинных текстов модели начинают справляться лучше.

Иногда ИИ ведёт себя слишком по-человечески. В одном исследовании модели «стимулировали» обещанием награды или угрозами, как людей. Лучшие «джейлбрейки» (способы обмануть ИИ и заставить его нарушить правила) часто копируют уловки из человеческого общения: представляться другим, делать вид, что запрос — шутка. Но есть и такие способы, на которые человек бы не повёлся — например, использование ASCII-графики, чтобы обойти фильтры при опасных вопросах.

Люди могут ошибаться нелепо и внезапно, но это редкость, и таким людям обычно не поручают принятие критически важных решений. Того же стоит придерживаться и в случае ИИ: ограничивать его использование задачами, в которых он действительно силён, и всегда помнить о возможных последствиях его «сбоев».

Автор: MIRKB

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15626

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] мышления: http://www.braintools.ru/thinking

[3] ошибки: http://www.braintools.ru/article/4192

[4] опыт: http://www.braintools.ru/article/6952

[5] математике: http://www.braintools.ru/article/7620

[6] поведения: http://www.braintools.ru/article/9372

[7] обучение: http://www.braintools.ru/article/5125

[8] подкреплением: http://www.braintools.ru/article/5528

[9] повторять: http://www.braintools.ru/article/4012

[10] Источник: https://habr.com/ru/articles/913522/?utm_source=habrahabr&utm_medium=rss&utm_campaign=913522

www.BrainTools.ru

Rambler's Top100