DeepSeek-R1: ИИ впервые научился рассуждать с нуля

В Nature опубликована работа, которая уже наделала шума в научном сообществе. Китайская команда представила DeepSeek-R1, первую масштабную языковую модель, которая научилась рассуждать без примеров от человека.

До сих пор обучение ^[1] reasoning-моделей требовало дорогостоящих наборов данных. Для каждой задачи исследователи вручную составляли цепочки мыслей (поэтапные объяснения решений). Это давало ИИ пример рассуждения, но лишало его шанса выработать собственную стратегию. DeepSeek-R1 разорвала этот шаблон.

Модель обучали по принципу «правильно/неправильно», выдавая награду только за конечный ответ. А вот как именно к нему прийти — ИИ выяснял сам. Ключевой технологией стал алгоритм Group Relative Policy Optimization (GRPO). Он дал возможность системе проверять промежуточные шаги, критиковать себя, менять методику, если результат не сходился.

a) Точность AIME модели DeepSeek-R1-Zero во время обучения. AIME принимает математическую задачу в качестве входных данных и число в качестве выходных данных, как показано в расширенной таблице данных 1. pass@1 и cons@16 описаны в дополнительной информации, раздел 4.1. Базовый уровень — это средний балл, достигнутый участниками-людьми в соревновании AIME. b) Средняя длина ответа DeepSeek-R1-Zero на обучающем наборе данных во время процесса RL. DeepSeek-R1-Zero естественным образом учится решать задачи на рассуждение с большим временем на обдумывание. Обратите внимание, что шаг обучения относится к одной операции обновления политики. — a) Точность AIME модели DeepSeek-R1-Zero во время обучения. AIME принимает математическую задачу в качестве входных данных и число в качестве выходных данных, как показано в расширенной таблице данных 1. pass@1 и cons@16 описаны в дополнительной информации, раздел 4.1. Базовый уровень — это средний балл, достигнутый участниками-людьми в соревновании AIME. b) Средняя длина ответа DeepSeek-R1-Zero на обучающем наборе данных во время процесса RL. DeepSeek-R1-Zero естественным образом учится решать задачи на рассуждение с большим временем на обдумывание. Обратите внимание ^[2], что шаг обучения относится к одной операции обновления политики.

Результаты оказались революционными. В математическом бенчмарке AIME точность поднялась с 15% до 78%, а при включении механизма самопроверки — до 87%, что выше среднего уровня реальных участников олимпиад. В задачах по программированию и STEM-дисциплинам модель обошла все системы своего масштаба и приблизилась к куда более крупным конкурентам.

Более того, исследователи показали, что даже облегчённые версии DeepSeek-R1 сохраняют большую часть новых навыков. То есть разумность такого типа можно упаковать в компактные модели, пригодные для практического применения.

Конечно, пока не всё идеально: стиль ответов страдает, встречаются смешения языков, а в гуманитарных темах модель работает слабее. В перспективе подобные системы смогут самостоятельно открывать закономерности в науке ^[3], проектировать инженерные решения и помогать образованию.

Делегируйте часть рутинных задач вместе с BotHub! ^[4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Подробнее ^[6]

Автор: cognitronn

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19655

URLs in this post:

[1] обучение: http://www.braintools.ru/article/5125

[2] внимание: http://www.braintools.ru/article/7595

[3] науке: http://www.braintools.ru/article/7634

[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=DEEPSEEK-R1:%20AI%20LEARNS%20TO%20REASON%20FROM%20SCRATCH%20FOR%20THE%20FIRST%20TIME

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Подробнее: https://www.nature.com/articles/s41586-025-09422-z

[7] Источник: https://habr.com/ru/companies/bothub/news/948272/?utm_source=habrahabr&utm_medium=rss&utm_campaign=948272

Нажмите здесь для печати.