бенчмарки.

Анонимная модель неделю держала топ OpenRouter. Это оказалась модель от Xiaomi

На OpenRouter неделю держалась анонимная модель Hunter Alpha. Многие LLM-провайдеры часто делают так с новыми моделями, чтобы затестить на реальных пользователях.

продолжить чтение

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-ready кода с тестами и security review. Без людей в цикле.Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд

продолжить чтение

Как читать новости об ИИ и отличать прорыв от пресс-релиза. И как относиться к заголовкам про «ИИ отнимет работу»

Схема: из чего состоит релиз модели LLM (пост → model/system card → методика → цена → независимые

продолжить чтение

Исследования показывают, что ИИ-модели по-прежнему слишком часто испытывают галлюцинации

продолжить чтение

«Героиня прикована к полу, но спускается по лестнице»: разбираем логику ИИ-писателей

Леч Мазур добавил три модели в свой бенчмарк по оценке навыков написания коротких рассказов. Kimi K2.5 — 8,07 балла, Qwen3 Max — 7,84, MiniMax-M2.1 — 7,78. Результаты неплохие, но самое ценное в этом бенчмарке — не цифры, а разбор конкретных ошибок.Если вы используете ИИ для текстов, вот на что стоит обращать внимание при проверке.Физическая непрерывность. Героиня «прикована к полу кандалами», через абзац спускается по лестнице, а цепь «остаётся наверху». Модели хорошо держат локальный контекст, но теряют детали на длинной дистанции.

продолжить чтение

Когда нейросеть решит то, что не решил никто?

В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше

продолжить чтение

Большим GPU не нужны большие PC

Raspberry Pi eGPU vs PC GPUС тех пор, как я научил графические карты AMD, Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

продолжить чтение

Xiaomi выпустила MiMo-V2-Flash 309B, модель достигла абсолютного верха в агентном бенчмарке

Китайский гигант Xiaomi представил MiMo‑V2-Flash — большую языковую модель с открытыми весами, которая претендует на лидерские позиции в конкретных дисциплинах.

продолжить чтение

10% на LLM и 90% на инженерию: как российские компании используют ИИ

Привет, Хабр!Продолжаю делиться материалами живых дискуссий, которые идут на телеграм-канале Dev Q&A. На этот раз тема — выбор между open source и коммерческими LLM для корпоративных задач. Получилось собрать практиков, которые каждый день решают эту дилемму: Андрея Кувалдина («Транссеть»), Сергея Олькова («Диасофт»), Максима Семёнкина (CodeInside), Артема Панькова (Secret Agents), Владислава Кудинова (Veai), Константина Глазкова (СП.АРМ), Лорана Джейкобса (iPavlov AI-Systems) и Виталия Попова («Софтлайн Решения»).

продолжить чтение

Учёные отправили нейросети на психотерапию – и выявили тревожность, ОКР и внутренние конфликты

Исследователи из Университета Люксембурга предложили необычный способ анализа больших языковых моделей: провести с ними полноценный курс психотерапии. В рамках эксперимента модели ChatGPT, Gemini и Grok прошли четырёхнедельную серию терапевтических сессий, после чего их ответы прогнали через адаптированные клинические психометрические тесты — аналогичные тем, что применяются для людей.

продолжить чтение

Rambler's Top100