swe-bench.

Вышел DeepSeek V4. Почему это очень плохо для США?

DeepSeek выпустили V4 с открытыми весами, на уровне frontier-моделей — и в разы дешевле Opus 4.7 или GPT-5.5. R1 в своё время обвалил рынок на 20% за ночь. V4 — масштабнее.DeepSeek V4 Pro — это 1,6 триллиона параметров, mixture of experts (MoE), 49 млрд активных параметров и контекст в 1 миллион токенов. V4 Flash — рабочая лошадка: 284 млрд параметров суммарно, 13 млрд активных. Обе модели обучены примерно на 33 трлн токенов. На агентских бенчмарках кода, MMLU Pro, GPQA Diamond, SWE-bench Verified — V4 рядом с Opus 4.7 и GPT-5.5. Немного отстаёт, но совсем немного.Вот в чём дело.

продолжить чтение

Оставлено в

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

продолжить чтение

Оставлено в

Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen

Модель появилась на OpenRouter в ночь с 30 на 31 марта как бесплатный превью без анонса и пресс-релиза: один твит от исследователя Qwen с таблицей бенчмарков — и всё. За первые два дня через неё прошло 400 млн completion-токенов в ~400 тыс. запросах.Контекстное окно по умолчанию — 1 млн токенов. На Terminal-Bench 2.0 модель набрала 61.6 против 59.3 у Claude 4.5 Opus, на OmniDocBench v1.5 — 91.2 против 87.7. На SWE-bench Verified пока отстаёт: 78.8 против 80.9 у Claude.

продолжить чтение

Оставлено в

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

продолжить чтение

Оставлено в

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые

продолжить чтение

Оставлено в

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python. Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

swe-bench.

Вышел DeepSeek V4. Почему это очень плохо для США?

Разбираем 14 самых популярных бенчмарков для LLM

Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Как мы собираем SWE-bench на других языках

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

swe-bench.

Вышел DeepSeek V4. Почему это очень плохо для США?

Разбираем 14 самых популярных бенчмарков для LLM

Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen

Как выбрать лучшего AI-ассистента для разработки: тестируем Codex, Claude и Cursor

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Как мы собираем SWE-bench на других языках