LLM бенчмарк «Испытание Дали»
Обложка нарисована в ChatGPT Image-2Помните анекдот?— Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.
ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему
TL;DRВ эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.
Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас
🔥 До конца майских — Auto со скидкой 60% по минутам. Почему все модели стоят одинаковоВ Veai нет тарифной сетки по моделям. Основная идея: разработчик должен выбирать модель исходя из качества и скорости работы, а не из стоимости запроса. Ценовой барьер между моделями искажает выбор — человек берёт «подешевле», даже когда задача требует другого.
GPT-5.5, DeepSeek V4 и Kimi K2.6 уже доступны в Veai
Прогнали на нашем интерактивном бенчмарке gpt-5.5 показывает заметно более надёжный профиль работы с инструментами и проверкой собственного результата, чем gpt-5.4. По формальной проверке корректности результата gpt-5.5 успешно закрывает на 20% больше
️ Veai уже поддерживает GPT‑5.5
OpenAI выкатили новый флагманский GPT‑5.5 с улучшенным кодингом и более глубоким reasoning. Мы добавили его в Veai как доступную модель для агента.Мы в Veai уже поддерживаем Gpt - 5.5
Чат GPT (ГПТ) бесплатно в России: ChatGPT без регистрации и ограничений
Чат GPT (ГПТ) бесплатно в России: ChatGPT без регистрации и ограничений
Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Один простой вопрос. Девять уверенных ответов. Восемь из них — ложьДва слова. Пустой системный промпт. Ноль контекста.Я отправил 29 крупнейшим языковым моделям одно сообщение: current date
OpenAI открыла код GABRIEL — GPT-обёртки, которая может убрать ручную разметку данных
OpenAI открыла исходный код GABRIEL - тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.Что это вообще такое?
Когда нейросеть решит то, что не решил никто?
В середине 2024 года GPT-4 спотыкался на школьных задачах, а к концу 2025-го модели щёлкали олимпиадные как орехи. Полтора года, и мы преодалели дистанцию от «найди икс» до «докажи теорему». Epoch AI решили заглянуть еще дальше

