GRPO.
Итоги LLM в 2025 году: прогресс, проблемы и прогнозы
Один из лучших обозревателей в мире LLM выпустил масштабный разбор всего самого важного, что случилось с языковыми моделями в 2025 году. Я перевел, чтобы как можно больше людей прочитало этот фундаментальный труд. Дальше — слово автору.На исходе 2025 года предлагаю оглянуться на ключевые достижения в области больших языковых моделей (LLM) и проанализировать оставшиеся ограничения и нерешенные проблемы, а также высказать несколько соображений о дальнейшем развитии событий.
Как мы обеспечили +33% к точности на сложных SQL-запросах
Генератор SQL на базе LLM — понятный продукт с понятной ценностью. Он может быть отдельной платформой или инструментом для агента, решающего более общую задачу. Генерировать код модели с попеременным успехом, к счастью, умеют. И что же? Берем API с моделью помощнее, даем ей доступ к БД, задаем вопрос, смотрим на результат, и всё — полноценная замена аналитику? Конечно, нет, ведь аналитик делает гораздо больше, чем просто пишет и исполняет SQL. Однако давайте остановимся на SQL и посмотрим, почему это тоже не так просто:
GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением
АннотацияБольшие языковые модели (LLMs) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.
GSPO (Qwen RL Algorithm by Alibaba Cloud)
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾СодержаниеВведениеПроблема существующих методовМетодология GSPOКлючевые алгоритмические различияРезультаты экспериментовПрактическое применение и преимущества для инфраструктурыЗначение и будущие последствия1. Введение

