Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение. chatgpt 5.. chatgpt 5. DeepSeek R1.. chatgpt 5. DeepSeek R1. deepseek v3.. chatgpt 5. DeepSeek R1. deepseek v3. deepseek v3.1.. chatgpt 5. DeepSeek R1. deepseek v3. deepseek v3.1. бенчмарки.. chatgpt 5. DeepSeek R1. deepseek v3. deepseek v3.1. бенчмарки. Блог компании BotHub.. chatgpt 5. DeepSeek R1. deepseek v3. deepseek v3.1. бенчмарки. Блог компании BotHub. ии-функции.. chatgpt 5. DeepSeek R1. deepseek v3. deepseek v3.1. бенчмарки. Блог компании BotHub. ии-функции. рассуждающие модели.
Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение - 1

v3.1 создана на основе предыдущей версии Deepseek‑v3, но получила дополнительно 840 миллиардов токенов для обучения. Это должно улучшить понимание длинных контекстов и повысить результативность на сложных заданиях. Кроме того, Deepseek обновила токенизатор и чат‑шаблоны.

Поворот к гибридной модели в стиле Anthropic

Deepseek‑v3.1 позволяет переключаться между двумя режимами. «Think mode» (deepseek‑reasoner) заточен под многошаговые рассуждения и использование инструментов, а «non‑think mode» (deepseek‑chat) предназначен для более простых задач. В обоих случаях поддерживается контекст до 128 000 токенов. Переключение происходит с помощью специального токена </think> в запросе.

Deepseek‑v3.1 превосходит предыдущую модель рассуждений R1 в тестах на код и логику

Deepseek‑v3.1 превосходит предыдущую модель рассуждений R1 в тестах на код и логику

По данным самой компании, модель демонстрирует лучшие результаты в таких бенчмарках, как SWE и Terminal‑Bench, и показывает «существенный прирост в эффективности мышления». Также отмечается, что «Think Mode» работает быстрее, чем прошлая reasoning‑модель R1. Архитектура при этом не изменилась: общее число параметров — 671 миллиард, из них 37 миллиардов активных.

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение - 3

Согласно обзору Artificial Analysis, в режиме рассуждений v3.1 набрала 60 баллов в индексе интеллекта против 59 у R1. Однако до последней модели Alibaba она не дотянула и «пальму первенства не вернула». Более того, она чуть слабее свежего опенсорсной рассуждающей модели OpenAI — GPT‑OSS.

Аналитики обращают внимание и на важный недостаток: v3.1 не поддерживает вызов функций в режиме рассуждений, что «серьёзно ограничивает её возможности в агентных сценариях». Конкуренты вроде GPT-5 Thinking умеют использовать инструменты — от анализа изображений до генерации кода — прямо в цепочке рассуждений, что заметно расширяет их арсенал.

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение - 4

Кроме того, по данным Artificial Analysis, v3.1 в режиме рассуждений потребляет чуть меньше токенов, чем R1, а в обычном режиме — немного больше, чем v3-0324. Тем не менее non‑think остаётся значительно более экономным.

Воспользоваться моделями DeepSeek можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе с нейросетями.

Автор: dmitrifriend

Источник

Rambler's Top100