chatbot arena.

От промтов к агентам: как мы дошли до трансформеров, что LLM умеют уже сейчас и что нас ждёт в 2027 году

Большие языковые модели (LLM) — это то будущее, которое уже случилось. Они генерируют тексты, пишут код и стихи, планируют и даже дают советы, как жить. Их уже используют в образовании, науке и медиа. Наверняка вы хоть раз использовали сервисы вроде GitHub Copilot, чтобы быстрее написать код. Согласитесь, это удобно.

продолжить чтение

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года.

продолжить чтение

Leaderboard Illusion: что не так с Chatbot Arena

продолжить чтение

LM Arena обвиняют в предоставлении «избранным» AI-компаниям несправедливых преимуществ при тестировании моделей

В новом документе лаборатории искусственного интеллекта Cohere, Стэнфорда, Массачусетского технологического института и Ai2 обвиняется LM Arena, организация, стоящая за популярным краудсорсинговым бенчмарком в области искусственного интеллекта Chatbot Arena, в помощи избранной группе компаний, занимающихся разработкой искусственного интеллекта, в достижении более высоких результатов в рейтингах за счет конкурентов.

продолжить чтение

Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей

Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.

продолжить чтение

Gemini 2.0 Flash Thinking: самая маленькая модель Google лидирует на Chatbot Arena

Экспериментальная модель искусственного интеллекта Gemini 2.0 Flash Thinking от Google опередила своих конкурентов, показав впечатляющие результаты в тестах по математике, естественным наукам и общей производительности.По данным платформы тестирования lmarena.ai, последняя версия Gemini добилась значительных успехов в Chatbot Arena, улучшив свой результат на 17 баллов с декабря 2024 года. Это ставит ее впереди таких конкурентов, как модели GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

продолжить чтение

Rambler's Top100