Quality Assessment.

Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул

Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.Мнимый сюрприз развеялся.

продолжить чтение

Оставлено в

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Battle test на русском и английском: цена, качество и артефакты — открытый лидербордLLM-судья оценивает сам себя. Что могло пойти не так?127 баллов из 100. Не опечатка.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Quality Assessment.

Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Quality Assessment.

Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества