Как измеряют LLM: параметры, бенчмарки и тесты на коленке
В комментариях к моей предыдущей статье о тестировании трех флагманских LLM моделей были примерно такие мысли и вопросы:Я взял простую бесплатную LLM, запустил локально и она тоже справилась.А почему вы в свое сравнение не взяли никого от DeepSeek, они же тоже хороши?А зачем всем один и тот же промпт, они же по-разному их воспринимают?
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.
Microsoft AI анонсировала собственный генератор изображений MAI-Image-1
Microsoft AI выпустит первый генератор изображений MAI-Image-1, разработанный и созданный собственными силами. Он уже дебютировал в десятке лучших моделей на LMArena.
Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей
Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.
В lmarena добавили Search Arena — рейтинг нейросетевых поисковиков
Разработчики lmarena выпустили Search Arena — рейтинг нейросетевых поисковиков. Исследователи проанализировала более 7 тыс. пользовательских оценок и нашли лидера — языковую модель Gemini-2.5-Pro-Exp-03-25-Grounding от Google. Нейросеть от OpenAI занимает седьмое место в списке.

