BrainTools - Методики для развития мозга - страница 9

Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием

Никто не верил, что модель можно подпустить к таблицам и заставить не галлюцинировать. Цифры из воздуха, выдуманные колонки, суммы, которые не сходятся с источником, думаю на этом обжигались все, кто пробовал. Мы заставили, проблемы все еще есть, но выглядят решаемыми.

продолжить чтение

Цифровое слабоумие: не помню, который час

Если вы смотрите на часы, а потом понимаете, что не помните время, если вы открываете таск‑трекер и не помните, зачем зашли, если вы теряете нить разговора, если вы забываете ключи, наливаете вторую чашку кофе, плохо спите и вам снятся рабочие задачи, возможно, эта статья уже про вас. Если всё хорошо, эта статья для вас — вы сможете не дойти до состояния из первых двух строчек. В общем‑то, статья для каждого, кто живёт и работает в 2026 году. За очень редким исключением.

продолжить чтение

От экспериментов к инфраструктуре: почему корпоративный ИИ требует платформы, а не набора инструментов

продолжить чтение

ИИ в химии: история участия в хакатоне и рефлексия после

Всем привет! Меня зовут Константин Ушенин, я — ведущий научный сотрудник в AIRI, занимаюсь приложениями искусственного интеллекта в химии и фармакологии. В конце марта 2026 года мы с коллегами выиграли суточный хакатон от Сбера, ИТМО и СПБ ГБУ Молодёжного пространства «ПРОСТО» по созданию ИИ‑ассистента для планирования синтеза в лаборатории органической химии. Мероприятие прошло три месяца назад, однако мы завершили рефлексию результата только сейчас и решили сделать полный разбор.

продолжить чтение

С чего начать тестирование LLM: 5 проверок из практики

Пять проверок — первое, что я делаю на новом LLM-проекте

продолжить чтение

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвымПубличные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek V4. Я пару месяцев доверял этим таблицам и гонял через лучшие модели свою ежедневную работу.Потом измерил то, чего лидерборды не могут измерить — как работаю конкретно я. Тройка лидеров сжалась в ничью, а победила в практике модель в 37 раз дешевле GLM-5.2.Дальше — как я это мерил, на чём, какие были грабли, и почему «лучшая модель» и «лучшая модель для тебя» — это разные модели.Почему чужой лидерборд не подберет модель под тебя

продолжить чтение

Skill of the week: Spring Data JDBC — качество Opus на модели за копейки

Ранее в рубрике Skill of the Week мы уже разбирали Skill для Spring Data JPA

продолжить чтение

Почему не стоит менять клавиатуру на сварочный аппарат, когда рушится первый этаж индустрии

продолжить чтение

Нейробиология объяснила, зачем мы видим сны. А кто их показывает?

Несколько лет назад Дэвид Иглман из Стэнфорда опубликовал работу (официально опубликована 21 мая 2021), которая тихо закрыла один из самых волнующих вопросов в истории человечества. За пределами узкого круга нейробиологов о ней почти никто не знает.Вопрос звучит просто: зачем мы видим сны.Не что они означают, а почему вообще существуют

продолжить чтение

Что происходит с SDLC в эпоху AI-агентов

Несколько месяцев назад в публичном пространстве появилась история, которую в engineering-сообществе стали называть поучительной. Команда AWS использовала внутренний AI-инструмент Kira для ускорения работы. Kira предложила джуниорам сценарий: переразверни продакшн-слой. Инженеры согласились. Следующие шесть часов весь AWS не работал. После разбора полётов компания объявила новое правило: финальный апрув на изменения, предложенные агентом, должен давать сениор-инженер.

продолжить чтение