Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием
Никто не верил, что модель можно подпустить к таблицам и заставить не галлюцинировать. Цифры из воздуха, выдуманные колонки, суммы, которые не сходятся с источником, думаю на этом обжигались все, кто пробовал. Мы заставили, проблемы все еще есть, но выглядят решаемыми.
Цифровое слабоумие: не помню, который час
Если вы смотрите на часы, а потом понимаете, что не помните время, если вы открываете таск‑трекер и не помните, зачем зашли, если вы теряете нить разговора, если вы забываете ключи, наливаете вторую чашку кофе, плохо спите и вам снятся рабочие задачи, возможно, эта статья уже про вас. Если всё хорошо, эта статья для вас — вы сможете не дойти до состояния из первых двух строчек. В общем‑то, статья для каждого, кто живёт и работает в 2026 году. За очень редким исключением.
ИИ в химии: история участия в хакатоне и рефлексия после
Всем привет! Меня зовут Константин Ушенин, я — ведущий научный сотрудник в AIRI, занимаюсь приложениями искусственного интеллекта в химии и фармакологии. В конце марта 2026 года мы с коллегами выиграли суточный хакатон от Сбера, ИТМО и СПБ ГБУ Молодёжного пространства «ПРОСТО» по созданию ИИ‑ассистента для планирования синтеза в лаборатории органической химии. Мероприятие прошло три месяца назад, однако мы завершили рефлексию результата только сейчас и решили сделать полный разбор.
С чего начать тестирование LLM: 5 проверок из практики
Пять проверок — первое, что я делаю на новом LLM-проекте
Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым
Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвымПубличные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek V4. Я пару месяцев доверял этим таблицам и гонял через лучшие модели свою ежедневную работу.Потом измерил то, чего лидерборды не могут измерить — как работаю конкретно я. Тройка лидеров сжалась в ничью, а победила в практике модель в 37 раз дешевле GLM-5.2.Дальше — как я это мерил, на чём, какие были грабли, и почему «лучшая модель» и «лучшая модель для тебя» — это разные модели.Почему чужой лидерборд не подберет модель под тебя
Skill of the week: Spring Data JDBC — качество Opus на модели за копейки
Ранее в рубрике Skill of the Week мы уже разбирали Skill для Spring Data JPA
Нейробиология объяснила, зачем мы видим сны. А кто их показывает?
Несколько лет назад Дэвид Иглман из Стэнфорда опубликовал работу (официально опубликована 21 мая 2021), которая тихо закрыла один из самых волнующих вопросов в истории человечества. За пределами узкого круга нейробиологов о ней почти никто не знает.Вопрос звучит просто: зачем мы видим сны.Не что они означают, а почему вообще существуют
Что происходит с SDLC в эпоху AI-агентов
Несколько месяцев назад в публичном пространстве появилась история, которую в engineering-сообществе стали называть поучительной. Команда AWS использовала внутренний AI-инструмент Kira для ускорения работы. Kira предложила джуниорам сценарий: переразверни продакшн-слой. Инженеры согласились. Следующие шесть часов весь AWS не работал. После разбора полётов компания объявила новое правило: финальный апрув на изменения, предложенные агентом, должен давать сениор-инженер.
