- BrainTools - https://www.braintools.ru -
Команда AI for Devs [1] подготовила перевод обзорной статьи о ключевых сдвигах в развитии LLM в 2025 году. Андрей разбирает, почему Reinforcement Learning from Verifiable Rewards стал новой базовой стадией обучения [2], откуда взялся «рваный интеллект», как появился новый слой LLM-приложений и почему ИИ всё чаще «живёт» прямо на компьютере разработчика.
2025 стал насыщенным и очень сильным годом прогресса в области LLM. Ниже — список лично для меня наиболее заметных и в какой-то мере неожиданных «смен парадигмы» — вещей, которые изменили ландшафт и концептуально выделились.
В начале 2025 года продакшн-стек обучения LLM во всех лабораториях выглядел примерно так:
предварительное обучение (GPT-2/3, около 2020 года),
дообучение с учителем (Supervised Finetuning, InstructGPT, ~2022),
Reinforcement Learning from Human Feedback (RLHF, ~2022).
Это был стабильный и проверенный рецепт обучения LLM продакшн-уровня. В 2025 году Reinforcement Learning from Verifiable Rewards (RLVR) оформился как де-факто новый крупный этап, который добавили к этой схеме. Обучая LLM на автоматически проверяемых наградах в ряде сред (например, математические и кодовые задачи), модели спонтанно вырабатывают стратегии, которые людям выглядят как «рассуждение»: они учатся разбивать решение задач на промежуточные вычисления и осваивают разные способы итеративного поиска решения (примеры см. в статье про DeepSeek R1). В предыдущих парадигмах добиться таких стратегий было бы крайне сложно, потому что непонятно, как должны выглядеть оптимальные трассы рассуждений и восстановления — модель должна сама найти то, что для неё работает, через оптимизацию по наградам.
В отличие от этапов SFT и RLHF, которые относительно тонкие и короткие (с вычислительной точки зрения [3] это небольшие дообучения), RLVR предполагает обучение по объективным (не поддающимся «игре») функциям награды, что позволяет проводить гораздо более длительную оптимизацию. Запуск RLVR показал очень высокое соотношение возможностей к стоимости, из-за чего он поглотил вычислительные ресурсы, изначально предназначенные для предварительного обучения. В результате большая часть прогресса возможностей в 2025 году была обусловлена тем, что лаборатории LLM «переваривали» этот новый этап: мы видели модели примерно тех же размеров, но с куда более длинными RL-прогонами. Уникальной особенностью этого этапа стало и появление нового регулятора (и соответствующего закона масштабирования), позволяющего управлять возможностями как функцией вычислений на этапе тестирования — за счёт генерации более длинных цепочек рассуждений и увеличения «времени на размышление». OpenAI o1 (конец 2024 года) стал первой демонстрацией модели с RLVR, но именно релиз o3 (начало 2025) был очевидной точкой перелома, когда разницу уже можно было буквально почувствовать.
2025 — это год, когда я (и, думаю, вся индустрия) впервые начал по-настоящему интуитивно понимать «форму» интеллекта [4] LLM. Мы не «выращиваем животных» и не «эволюционируем» их — мы «призываем призраков». Во всём стеке LLM всё устроено иначе: нейронная архитектура, обучающие данные, алгоритмы обучения и, что особенно важно, давление оптимизации. Поэтому неудивительно, что мы получаем сущности в пространстве интеллекта, которые плохо описываются через призму животных. С точки зрения надзора, человеческие нейросети оптимизированы под выживание племени в джунглях, тогда как нейросети LLM оптимизируются под имитацию текстов человечества, сбор наград в математических задачах и получение апвоута от человека на LM Arena. По мере того как верифицируемые домены становятся доступными для RLVR, возможности LLM резко «взлетают» в окрестности этих доменов, а в целом модели демонстрируют забавно рваные характеристики: одновременно гениальный полимат и растерянный школьник с когнитивными трудностями, которого в любой момент могут обмануть джейлбрейком и заставить утечь ваши данные.
Со всем этим связана и моя общая апатия и потеря доверия к бенчмаркам в 2025 году. Ключевая проблема в том, что бенчмарки почти по определению являются верифицируемыми средами и потому сразу же уязвимы для RLVR и его более слабых форм через генерацию синтетических данных. В типичном процессе «бенчмаксинга» команды в лабораториях LLM неизбежно конструируют среды, соседствующие с небольшими карманами эмбеддинг-пространства, занятыми бенчмарками, и «наращивают рваности», чтобы их покрыть. Обучение на тестовом наборе стало новым видом искусства.
Как это выглядит — раздавить все бенчмарки, но так и не получить AGI?
Я гораздо подробнее писал об этом в следующих материалах:
Verifiability [6]
Самое примечательное в Cursor (помимо его стремительного взлёта в этом году) — то, что он убедительно проявил новый слой «LLM-приложений»: люди начали говорить «Cursor для X». Как я подчёркивал в своём выступлении на Y Combinator в этом году (есть расшифровка [8] и видео [9]), LLM-приложения вроде Cursor объединяют и оркестрируют вызовы LLM под конкретные вертикали:
они делают «инженерию контекста»,
под капотом оркестрируют множество вызовов LLM, связывая их во всё более сложные DAG’и и аккуратно балансируя между производительностью и стоимостью,
предоставляют прикладной GUI для человека в контуре,
предлагают «ползунок автономности».
В 2025 году было много разговоров о том, насколько «толстым» окажется этот новый прикладной слой. Захватят ли лаборатории LLM все приложения, или же останутся зелёные пастбища для LLM-приложений? Лично я считаю, что лаборатории будут стремиться выпускать универсально способного «студента колледжа», а LLM-приложения будут организовывать, дообучать и фактически «оживлять» команды таких моделей в виде развёрнутых профессионалов для конкретных вертикалей — снабжая их приватными данными, сенсорами, актуаторами и петлями обратной связи.
Claude Code (CC) стал первой убедительной демонстрацией того, как выглядит LLM-агент — нечто, что в циклической манере связывает использование инструментов и рассуждение для длительного решения задач. Кроме того, CC примечателен тем, что работает на вашем компьютере и в вашем приватном окружении, с вашими данными и контекстом. Мне кажется, OpenAI здесь ошиблись: они сфокусировали свои усилия вокруг codex / агентов на облачных развёртываниях в контейнерах, оркестрируемых из ChatGPT, вместо localhost. И хотя рои агентов в облаке выглядят как «эндшпиль AGI», мы живём в промежуточном мире с достаточно медленным взлётом и рваными возможностями, где логичнее просто запускать агентов на компьютере, бок о бок с разработчиками и их конкретной конфигурацией. CC правильно расставил приоритеты и упаковал это в красивый, минималистичный и убедительный CLI-форм-фактор, который изменил представление о том, как выглядит ИИ: это не просто сайт, куда вы заходите, как в Google, а маленький дух/призрак, который «живёт» на вашем компьютере. Это новая, самостоятельная парадигма взаимодействия с ИИ.
2025 — это год, когда ИИ перешёл порог возможностей, достаточный для создания самых разных впечатляющих программ просто на английском языке, практически забывая о существовании кода. Забавно, что термин «vibe coding» я придумал в одном импульсивном твите [10], совершенно не представляя, насколько далеко это зайдёт. С vibe coding программирование перестаёт быть прерогативой исключительно высококвалифицированных специалистов — им может заниматься кто угодно. В этом смысле это ещё один пример того, о чём я писал в Power to the people: How LLMs flip the script on technology diffusion [11] — о том, как (в резком контрасте со всеми предыдущими технологиями) обычные люди выигрывают от LLM гораздо больше, чем профессионалы, корпорации и государства. Но vibe coding не только даёт обычным людям возможность приблизиться к программированию, он также позволяет подготовленным специалистам писать гораздо больше (vibe-кодированного) софта, который иначе просто никогда бы не появился. В nanochat я с помощью vibe coding написал собственный кастомный, очень эффективный BPE-токенизатор на Rust, вместо того чтобы брать готовые библиотеки или осваивать Rust на таком уровне. В этом году я vibe-кодил множество проектов как быстрые демо-приложения того, что мне хотелось бы видеть (например, menugen, llm-council, reader3, HN time capsule). Я даже vibe-кодил целые эфемерные приложения ради поиска одного-единственного бага — просто потому что почему бы и нет: код внезапно стал бесплатным, временным, пластичным и одноразовым. Vibe coding будет терраформировать софт и менять описания профессий.
Google Gemini Nano banana — одна из самых невероятных и действительно меняющих парадигму моделей 2025 года. В моей картине мира LLM — это следующий крупный вычислительный сдвиг, сопоставимый с компьютерами 1970-х, 80-х и так далее. Поэтому мы увидим схожие типы инноваций по фундаментально схожим причинам: аналоги персональных компьютеров, микроконтроллеров (когнитивное ядро), интернета (агентов) и так далее. В частности, если говорить про UI/UX, «чат» с LLM сегодня — это что-то вроде ввода команд в консоль компьютера 1980-х. Текст — это сырой и предпочтительный формат данных для компьютеров (и LLM), но не предпочтительный формат для людей, особенно на вводе. Людям в принципе не нравится читать текст — это медленно и требует усилий. Зато людям нравится потреблять информацию визуально и пространственно, поэтому в классических вычислениях и появился GUI. Точно так же LLM должны говорить с нами в нашем предпочтительном формате — через изображения, инфографику, слайды, доски, анимации и видео, веб-приложения и т. д. Ранние и текущие версии этого — это, конечно, эмодзи и Markdown, способы визуально «одеть» и разложить текст для более лёгкого восприятия [12] с помощью заголовков, жирного и курсивного шрифта, списков, таблиц и так далее. Но кто в итоге построит полноценный GUI для LLM? В этой картине мира nano banana — первое раннее указание на то, как это может выглядеть. И важно, что дело не только в генерации изображений как таковой, а в совместной способности, возникающей из генерации текста, генерации изображений и знаний о мире, тесно переплетённых в весах модели.
TLDR. 2025 стал захватывающим и в меру неожиданным годом для LLM. Они оформляются как новый тип интеллекта — одновременно намного умнее и намного глупее, чем я ожидал. В любом случае они чрезвычайно полезны, и я не думаю, что индустрия на текущем уровне возможностей реализовала хотя бы 10% их потенциала. При этом идей для экспериментов огромное количество, и концептуально поле выглядит совершенно открытым. И, как я упоминал ранее в этом году в подкасте Dwarkesh, я одновременно (и на первый взгляд парадоксально) верю и в быстрый, продолжающийся прогресс, и в то, что работы впереди ещё очень много. Пристегнитесь.

Друзья! Эту статью подготовила команда ТГК «AI for Devs [1]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [1], чтобы быть в курсе и ничего не упустить!
Автор: python_leader
Источник [13]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23438
URLs in this post:
[1] AI for Devs: https://t.me/+9Ti1CKW0yJo5YWNi
[2] обучения: http://www.braintools.ru/article/5125
[3] зрения: http://www.braintools.ru/article/6238
[4] интеллекта: http://www.braintools.ru/article/7605
[5] Animals vs. Ghosts: https://karpathy.bearblog.dev/animals-vs-ghosts/
[6] Verifiability: https://karpathy.bearblog.dev/verifiability/
[7] The Space of Minds: https://karpathy.bearblog.dev/the-space-of-minds
[8] расшифровка: https://www.donnamagi.com/articles/karpathy-yc-talk
[9] видео: https://www.youtube.com/watch?v=LCEmiRjPEtQ
[10] в одном импульсивном твите: https://x.com/karpathy/status/1886192184808149383
[11] Power to the people: How LLMs flip the script on technology diffusion: https://karpathy.bearblog.dev/power-to-the-people/
[12] восприятия: http://www.braintools.ru/article/7534
[13] Источник: https://habr.com/ru/articles/978726/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978726
Нажмите здесь для печати.