бенчмарки. - страница 4

ИИ на поле боя: Claude выбрал мир, а ChatGPT o3 — предательство в эпичной партии Diplomacy

продолжить чтение

Claude Opus 4 за 75 $-млн токенов vs Sonnet 4 за 15 $: стоит ли переплачивать? Тесты внутри

Привет, «Хабр»! Май 2025-го выдался жарким на ИИ‑новости: Anthropic наконец запустила долгожданный Claude 4 — сразу в двух вариантах, Opus 4 и Sonnet 4

продолжить чтение

Тест-драйв Claude 4: Opus и Sonnet в бою за код и 3D

Привет, «Хабр»! Май 2025-го выдался жарким на ИИ‑новости: Anthropic наконец запустила долгожданный Claude 4 — сразу в двух вариантах, Opus 4 и Sonnet 4

продолжить чтение

Почём ИИ для народа: протестировали платформу YADRO G4208P с восемью H100 NVL и RTX 4090 на десятке ИИ-моделей

Привет, Хабр! Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. Сегодня поговорим о готовящемся к выпуску сервере YADRO G4208P G3, к раннему образцу которого мы получили полный доступ, чтобы оценить его эффективность работы с нейросетями.

продолжить чтение

Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp

В последнее время большие языковые модели (LLM) становятся все более популярными, но для их эффективного запуска требуется значительная вычислительная мощность. Один из способов запуска LLM локально - использование библиотеки Llama.cpp. В этой статье мы рассмотрим, как тестировать производительность видеокарт для LLM с использованием инструмента llama-bench, входящего в состав Llama.cpp.Дисклеймер: Почему Llama.cpp, а не Ollama?

продолжить чтение

Leaderboard Illusion: что не так с Chatbot Arena

продолжить чтение

AI-агенты в реальном мире: почему они не работают и как это исправить

Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей. Статья на основе презентации

продолжить чтение

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Бенчмарк Vending-Bench

продолжить чтение

Результаты Llama 4 от Meta* в бенчмарках

LMArena опубликовала доказательства, устраняющие опасения по поводу «экспериментальной» модели искусственного интеллекта Meta*. Платформа опубликовала более 2000 сравнений, включая подсказки пользователей, ответы моделей и предпочтения пользователей.

продолжить чтение

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.

продолжить чтение

Rambler's Top100