- BrainTools - https://www.braintools.ru -

Большие языковые модели по-прежнему просто предсказывают следующее слово.
Два года назад одна лишь эта причина казалось достаточной, чтобы их отвергать — ведь именно ею обосновывали их неуклюжий вывод. Но в настоящее время большие языковые модели стали гораздо лучше, и одним лишь масштабированием этого не объяснить.
Если вы недавно знакомы с большими языковыми моделями (LLM), то вам стоит посмотреть лекцию Карпаты “Deep Dive into LLMs” [1] и почитать статью Ли и Тротта read Lee & Trott’s “LLMs Explained with a Minimum of Math and Jargon” [2].
Как в 2024 мы представляли себе LLM
Пожалуй, вы уже знаете, что LLM — это не сохраняющие состояния механизмы, предсказывающие следующий токен [3], обучаемые на больших объёмах текста и хранящие информацию в сжатом виде (принцип сжатия очень странный).
На внутреннем уровне эта система организована как очень сложная машина, выполняющая сопоставление с шаблоном и генерирующая на выход поток токенов.
Если бы в 2024 году вы спросили ChatGPT:
Как будет дешевле добраться из Лондона до Барселоны — лететь самолётом или взять билет на поезд в следующую пятницу?
то она дала бы, в сущности, бесполезный ответ:
Лететь самолётом по этому маршруту, как правило, дешевле, чем ехать поездом.
Авиакомпании эконом-класса, например, Ryanair и easyJet часто предлагают рейсы из Лондона в Барселону по стоимости в диапазоне 30–80 фунтов, если заказывать билеты заранее. Полёт длится примерно 2 часа.
Напротив, если решите ехать поездом, то придётся сначала добираться на Eurostar от Лондона до Парижа, а оттуда отправиться высокоскоростным поездом до Барселоны. Это может обойтись в 120–200 фунтов, а само путешествие займёт около 10-12 часов.
Таким образом, лететь, вероятно, будет дешевле и быстрее, а ехать на поезде — комфортнее, а также экологичнее.
Пусть с 2024 года ничего принципиально не изменилось, можно убедиться, что в 2026 году мы получаем ответ из «совершенно другой лиги».
Модели учатся говорить «Я не знаю»
В 2024 году одним из основных раздражающих факторов при обращении с LLM было то, как уверенно они галлюцинировали.
Проor всего проблема решалась так: научить модель говорить «я не знаю» — а потом предложить им, что делать в таких случаях. (в ретроспективе кажется, что это весьма очевидный ход)
Модели теперь обучаются распознавать паттерны, свидетельствующие о неопределённости — например, когда запрашиваешь у них данные реального времени — и в ответ на такой паттерн реагировать [4] отказом. Например:
Какая сейчас погода в Париже? Извини, у меня нет доступа к оперативным данным о погоде. Можно проверить на сайте weather.com [5].
На предоставленных примерах модели обучаются самокритичности.
Оказывается, тем самым удаётся добиться не только значительно более конструктивного общения с моделями. Более того, модель сама начинает определять, в каких случаях ей не хватает информации, и учится выходить из таких ситуаций.
Запрашиваем информацию (с применением инструментов)
Модели можно научить не просто отказывать в ответе, но и обращаться за помощью. Для этого модель должна сгенерировать вызов инструмента [6], который система затем перехватит, выполнит и вновь подаст модели на вход в виде контекста.
Вернёмся к нашему примеру с погодой. Вы спрашиваете:
Какая сейчас погода в Париже?
→ [TOOL_CALL: web_search(“weather Paris”)]
→ (результат внедряется в контекст)
Сейчас в Париже 18°C и небольшая облачность.
С точки зрения [7] пользователя, всё это происходит неявно. Задав вопрос, вы можете увидеть индикатор “Searching the web…” (Ищу в Интернете…), а затем получите ответ.
Но с точки зрения модели ничего принципиально не изменилось. Она как генерировала токены, так и продолжает генерировать. Фокус в том, что теперь среда реагирует на определённые токены, дополнительно выбирая реальные данные.
Чтобы не полагаться на внутренние знания (информация хранится в системе в сжатом виде, причём, именно в таком, как она была зафиксирована по результатам обучения [8]), модель пользуется доступом к целому Интернету, проприетарным базам данных, либо к любому API, связанному с системой. Если ей нужно выполнять какие-то расчёты, для этого можно написать программку на Python и приказать хосту её выполнить.
Рассуждение
В 2024 году модели обычно генерировали ответы за один проход.
Но это не обязательное условие. Человеческий мозг [9], выдавший обучающий датасет, работает иначе. Мы продумываем задачи, подвергаем сомнению собственные допущения, а иногда можем годами размышлять над каким-то вопросом.
Первый намёк на то, что LLM способны делать что-то подобное, появился в 2022 году. Тогда исследователи показали, что, если включить в промпт подсказку «думай пошагово», то производительность модели в задачах на рассуждение возрастала. Эту технику стали называть (chain-of-thought prompting [10]) (промптинг с цепочкой рассуждений), но модель по-прежнему работает в одиночку — никто не проверяет её шаги.
Автоматизация мышления [11]
Чтобы эта техника приносила пользу при решении реалистичных исследовательских задач, человек может сформулировать: «думай пошагово и после каждого шага обращайся за обратной связью», а затем вести диалог с моделью в направлении желаемого результата.
Очевидно, на следующей итерации нужно убрать человека из этого цикла. Пошаговым рассуждением модели должен руководить не пользователь — пусть это делает другая модель, либо одна и та же модель играет обе роли, проверяя на прочность собственные ответы.
Выглядит работоспособно. Но на практике всё оказалось ещё интереснее, когда исследователи привнесли в эту систему “Обучение с подкреплением [12]”(RL).
Обучение с подкреплением [13]
(После предобучения) базовая модель получает набор задач, которые начинает решать как цикл. Всякий раз она даёт разные ответы, и каждый ответ оценивается. Спустя много итераций, модель методом проб и ошибок получает всё более качественные результаты и генерирует ответы, получающие высокую оценку, так как нужные веса в них усиливались.
Таким образом, заложенное в модель сопоставление с шаблоном постепенно работает всё качественнее. В следующий раз, когда она столкнётся со схожей задачей, те процессы, которые приводили к верному ответу, будут активироваться сильнее, тем самым повышая вероятность, что модель воспользуется успешным подходом.
Необработанная информация уже содержится в базовой модели. Благодаря обучению с подкреплением всего лишь становится гораздо вероятнее, что модель станет правильно её использовать. Вычисления задействуются для улучшения структуры информации; а именно, в систему внедряется метаинформация.
Это первый реальный способ получать интеллект [14] в эквиваленте затрачиваемых вычислений.
Примечание: в ранних LLM обучение с подкреплением использовалось с поддержкой людей-оценщиков, судивших, какие ответы «лучше» других (RLHF [15]). Благодаря этому модели получались вежливыми, но субъективными и дорогими. Настоящий прорыв был достигнут с появлением RLVR [16] — обучения с подкреплением, применяющего верифицируемые вознаграждения. При решении задач на математику [17] и программирование правильность полученных решений такая технология может проверять автоматически. Такой подход масштабируется, поскольку верифицировать гораздо проще, чем решать [18].
Нативные LLM-рассуждения
После того, как было внедрено обучение с подкреплением и верифицируемыми вознаграждениями (RLVR) произошло нечто неожиданное: модели сами начали действовать по принципу пошагового рассуждения [19]. Никто им не подсказывал, что задачи нужно разбивать на подзадачи, но веса сдвинулись именно таким образом, так как при методологическом подходе ответы получаются в целом более правильными.
Помните идею о том, что две модели могут проверять друг друга? Здесь то же самое, но это происходит в рамках одной модели и в пределах одного отклика.
Когда сгенерированный текст выглядит как сложная задача, модель пишет: «Дай я разделю это на части». Закончив обработку подзадачи, она пишет: «Дай я ещё раз проверю». Упёршись в тупик, она реагирует так: «На первый взгляд, это неверно, дай мне ещё раз это обдумать».
Этот метод гораздо мощнее, чем цепочка рассуждений, выдаваемая в ответ на промпт — ведь модель обучается распознавать паттерны сложности, которые не под силу самостоятельно перечислить ни одному промпт-инженеру.
Обучение с подкреплением всегда нацелено на результат. В данном случае таким результатом стали рассуждения.
Вычисления во время логического вывода и рассуждения
Как только модель научилась рассуждать на основе обучения с подкреплением, оказывается, что заставить её поумнеть удивительно просто: дайте ей подумать подольше [20].
На этапе логического вывода [21] — то есть, именно пока вы задаёте вопрос — модель может сгенерировать дополнительные токены, исследовать альтернативы, проследить рассуждения в обратном направлении и лишь затем дать ответ. Без обучения с подкреплением дополнительные токены с высокой вероятностью окажутся шумом, но модель, обучаемая с подкреплением, предпочитает именно те паттерны, которые связаны с продуктивным мышлением.
Рассуждение со стороны LLM — это поиск по всем путям, которые могут вести к решению, на основе изученной эвристики.
Это компромиссы второго рода. Теперь интеллект не ограничивается тем, что было заложено в веса на этапе обучения, а дополняется тем, какую вычислительную мощность вы готовы потратить в момент формулировки вопроса.
Всё вместе
Эти возможности хорошо сочетаются. Модель, способная как рассуждать, так и использовать инструменты, фундаментально отличается от модели, которая может либо одно, либо другое.
Вернёмся к вопросу, который мы разбирали в начале этой статьи:
Как будет дешевле добраться из Лондона до Барселоны — лететь самолётом или взять билет на поезд, если я собираюсь ехать в следующую пятницу?
Мы уже видели, как бы ответила на этот вопрос бесполезная модель из 2024 года.
Модель, опирающаяся при работе лишь на инструменты, может поискать в Интернете и вернуть некоторые результаты, но не в силах их осмысленно сравнить. Рассуждающая модель может выдать блестящую аналитическую картинку, но числа в неё будут заложены «с потолка».
Если же модель обладает обеими возможностями, то она может и судить о том, какие данные её нужны, и сделать несколько вызовов к нужным инструментам, чтобы проверить цены на авиарейсы и поезда, а также написать небольшую программу. Эта программа учтёт такие факторы как длительность пути и пересадки в аэропортах, затем модель получит от программы результаты, распознает, какие поисковые результаты выглядят устаревшими, попробует ещё раз — и представит вам хорошо продуманный ответ, основанный на реальных данных.
Именно на основе рассуждений подбираются инструменты, а инструменты помогают подкрепить рассуждения.
Заключение
Большие языковые модели в настоящее время по-прежнему просто предсказывают следующее слово.
Но такой предиктор следующего слова можно научить признавать, что он может чего-то не знать. Вы можете предоставить ему доступ к инструментам. Можно научить её думать, прежде чем отвечать, либо научить её ставить под сомнения её собственные выводы.
Получающийся результат по-настоящему полезен на практике, хотя, современные модели по-прежнему иногда галлюцинируют, излишне усложняют выводы и решения, а также залипают в циклах. Тем не менее, с 2024 года был достигнут огромный прогресс.
Автор: ph_piter
Источник [22]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28221
URLs in this post:
[1] “Deep Dive into LLMs” : https://www.youtube.com/watch?v=7xTGNNLPyMI
[2] “LLMs Explained with a Minimum of Math and Jargon”: https://www.understandingai.org/p/large-language-models-explained-with
[3] предсказывающие следующий токен: https://poloclub.github.io/transformer-explainer/
[4] реагировать: http://www.braintools.ru/article/1549
[5] weather.com: http://weather.com
[6] вызов инструмента: https://docs.anthropic.com/en/docs/build-with-claude/tool-use/overview
[7] зрения: http://www.braintools.ru/article/6238
[8] обучения: http://www.braintools.ru/article/5125
[9] мозг: http://www.braintools.ru/parts-of-the-brain
[10] chain-of-thought prompting: https://arxiv.org/abs/2201.11903
[11] мышления: http://www.braintools.ru/thinking
[12] Обучение с подкреплением: https://www.understandingai.org/p/reinforcement-learning-explained
[13] подкреплением: http://www.braintools.ru/article/5528
[14] интеллект: http://www.braintools.ru/article/7605
[15] RLHF: https://arxiv.org/abs/2203.02155
[16] RLVR: https://arxiv.org/abs/2501.12948
[17] математику: http://www.braintools.ru/article/7620
[18] верифицировать гораздо проще, чем решать: https://www.nature.com/articles/s41586-025-09422-z
[19] модели сами начали действовать по принципу пошагового рассуждения: https://magazine.sebastianraschka.com/p/the-state-of-llm-reasoning-model-training
[20] дайте ей подумать подольше: https://openai.com/index/learning-to-reason-with-llms/
[21] логического вывода: https://www.gmicloud.ai/blog/inference-time-compute
[22] Источник: https://habr.com/ru/companies/piter/articles/1018914/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1018914
Нажмите здесь для печати.