Russian NLP.

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Russian NLP.

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Russian NLP.

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой