Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

v3.1 создана на основе предыдущей версии Deepseek‑v3, но получила дополнительно 840 миллиардов токенов для обучения ^[1]. Это должно улучшить понимание длинных контекстов и повысить результативность на сложных заданиях. Кроме того, Deepseek обновила токенизатор и чат‑шаблоны.

Поворот к гибридной модели в стиле Anthropic

Deepseek‑v3.1 позволяет переключаться между двумя режимами. «Think mode» (deepseek‑reasoner) заточен под многошаговые рассуждения и использование инструментов, а «non‑think mode» (deepseek‑chat) предназначен для более простых задач. В обоих случаях поддерживается контекст до 128 000 токенов. Переключение происходит с помощью специального токена </think> в запросе.

Deepseek‑v3.1 превосходит предыдущую модель рассуждений R1 в тестах на код и логику ^[2]

По данным самой компании, модель демонстрирует лучшие результаты в таких бенчмарках, как SWE и Terminal‑Bench, и показывает «существенный прирост в эффективности мышления». Также отмечается, что «Think Mode» работает быстрее, чем прошлая reasoning‑модель R1. Архитектура при этом не изменилась: общее число параметров — 671 миллиард, из них 37 миллиардов активных.

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение - 3

Согласно обзору Artificial Analysis ^[3], в режиме рассуждений v3.1 набрала 60 баллов в индексе интеллекта ^[4] против 59 у R1. Однако до последней модели Alibaba она не дотянула и «пальму первенства не вернула». Более того, она чуть слабее свежего опенсорсной рассуждающей модели OpenAI — GPT‑OSS.

Аналитики обращают внимание ^[5] и на важный недостаток: v3.1 не поддерживает вызов функций в режиме рассуждений, что «серьёзно ограничивает её возможности в агентных сценариях». Конкуренты вроде GPT-5 Thinking умеют использовать инструменты — от анализа изображений до генерации кода — прямо в цепочке рассуждений, что заметно расширяет их арсенал.

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение - 4

Кроме того, по данным Artificial Analysis, v3.1 в режиме рассуждений потребляет чуть меньше токенов, чем R1, а в обычном режиме — немного больше, чем v3-0324. Тем не менее non‑think остаётся значительно более экономным.

Воспользоваться моделями DeepSeek можно в BotHub. По ссылке дают ^[6] 100 000 бесплатных капсов, чтобы сразу приступить к работе с нейросетями.

Автор: dmitrifriend

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18591

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] логику: http://www.braintools.ru/article/7640

[3] Artificial Analysis: https://x.com/ArtificialAnlys/status/1958432118562041983

[4] интеллекта: http://www.braintools.ru/article/7605

[5] внимание: http://www.braintools.ru/article/7595

[6] По ссылке дают: https://bothub.chat/?invitedBy=m%5C_aGCkuyTgqllHCK0dUc7

[7] Источник: https://habr.com/ru/companies/bothub/news/939580/?utm_source=habrahabr&utm_medium=rss&utm_campaign=939580

Нажмите здесь для печати.