бенчмарки.

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше

продолжить чтение

Оставлено в

Большим GPU не нужны большие PC

Raspberry Pi eGPU vs PC GPUС тех пор, как я научил графические карты AMD, Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

продолжить чтение

Оставлено в

Xiaomi выпустила MiMo-V2-Flash 309B, модель достигла абсолютного верха в агентном бенчмарке

Китайский гигант Xiaomi представил MiMo‑V2-Flash — большую языковую модель с открытыми весами, которая претендует на лидерские позиции в конкретных дисциплинах.

продолжить чтение

Оставлено в

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Привет, Хабр!Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Получилось собрать практиков, которые каждый день решают эту дилемму: Андрея Кувалдина («Транссеть»), Сергея Олькова («Диасофт»), Максима Семёнкина (CodeInside), Артема Панькова (Secret Agents), Владислава Кудинова (Veai), Константина Глазкова (СП.АРМ), Лорана Джейкобса (iPavlov AI-Systems) и Виталия Попова («Софтлайн Решения»).

продолжить чтение

Оставлено в

Учёные отправили нейросети на психотерапию – и выявили тревожность, ОКР и внутренние конфликты

Исследователи из Университета Люксембурга предложили необычный способ анализа больших языковых моделей: провести с ними полноценный курс психотерапии. В рамках эксперимента модели ChatGPT, Gemini и Grok прошли четырёхнедельную серию терапевтических сессий, после чего их ответы прогнали через адаптированные клинические психометрические тесты — аналогичные тем, что применяются для людей.

продолжить чтение

Оставлено в

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.

продолжить чтение

Оставлено в

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.На сегодня существует две версии этого теста. Так о чем же он?ARC-AGI-1История начинается в 2019 году со статьи

продолжить чтение

Оставлено в

Бенчмарк конца эпохи — Humanity’s Last Exam

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)

продолжить чтение

Оставлено в

Обзор Claude Opus 4.5 — новый лидер в кодинге

Доброго времени суток, «Хабр»!Немногим больше, чем неделя назад, мир получил новую модель - Claude Opus 4.5. Компания Anthropic заявила, что по сравнению с предыдущими версиями она предоставляет действительно качественные результаты в программировании, написании сценариев и работы с компьютером в целом. Помимо этого, существенно повысилось качество обработки повседневных задач - от поиска и анализа информации до работы с презентациями и таблицами.Действительно ли это так? В сегодняшней статье подробнее остановимся на этой модели, проведем тестирование, а в финале я выскажу собственное мнение о ней.

продолжить чтение

Оставлено в

Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

бенчмарки.

Когда нейросеть решит то, что не решил никто?

Большим GPU не нужны большие PC

Xiaomi выпустила MiMo-V2-Flash 309B, модель достигла абсолютного верха в агентном бенчмарке

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Учёные отправили нейросети на психотерапию – и выявили тревожность, ОКР и внутренние конфликты

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Бенчмарк конца эпохи — Humanity’s Last Exam

Обзор Claude Opus 4.5 — новый лидер в кодинге

Вышла Claude Opus 4.5

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

бенчмарки.