Evals: что должен знать каждый AI-инженер в 2026
В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу
Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход
Один набор тестов проверяет всех агентов сразу — в этом суть capability-based подходаВ (https://habr.com/ru/articles/1049482/) я разбирала,
Когда чат-бот продаёт Chevrolet за доллар: как тестировать и мониторить LLM-приложения
Генеративные модели разблокировали огромное количество новых продуктов и новых фич в уже существующих. Поиграться с ними успел, кажется, каждый. И сценарий почти всегда повторяется: команда быстро собирает прототип на внешнем API, выкатывает его в продакшен, продукт начинает приносить ценность, а вместе с ценностью приходит и тревога. Работает ли всё так, как мы ожидали? В этот момент хочется уже не угадывать, а измерять.Эта статья про то, как измерять. Точнее, про то, как тестировать и мониторить адаптивные LLM-системы в продакшене и до него, чтобы убедиться: ассистент ведёт себя так, как задумано.Что именно мы оцениваем
Что перестаёт работать в тестировании, когда приходит LLM
Слева — привычный зелёный тест. Справа — то, что с ним делает LLM
4 антипаттерна CI‑автоматизации, из‑за которых команда делает работу за ботов
Или как мы построили машины, которые говорят людям делать работу, которую должны делать машины.Нам нужно поговорить о неудобной истине, которая у всех инженерных команд лежит на самом виду. Мы годами строили сложные CI/CD‑пайплайны, ботов для ревью кода и инструменты анализа на базе ИИ, а потом настраивали их так, чтобы они отправляли сообщения в Slack и просили людей выполнить ручную работу.Вдумайтесь на секунду. Мы автоматизировали просьбу. Не выполнение.
Генерация тестовой документации с ИИ
Всем привет! Продолжаю цикл статей про применение ИИ в тестировании. В первой я рассказывала о том, зачем мы пошли в пилот по применению ИИ в тестировании. Во второй — как собирать контекст. В третьей — как тестировать требования, когда контекст уже готов.Сегодня поговорим про следующий этап — генерацию тестовой документации: тест-кейсы, чек-листы, матрица покрытия и т.д. Небольшой спойлер: в конце статьи вас ждет ссылка на репозиторий с инструкциями и промтами.
LLM собрала IndexedDB с нуля: 1208 тестов, SQLite и несколько неприятных сюрпризов
TL;DR: одним промптом я реализовал IndexedDB с помощью Claude Code и Ralph loop: получилось пройти 95% целевого подмножества Web Platform Tests и 77,4% более строгого набора тестов.Когда я узнал, что два простых браузерных движка были написаны с помощью вайб-кодинга, я не особенно удивился. Браузерный движок — хорошо изученная задача с несколькими независимыми реализациями, а их кодовые базы наверняка давно попали в обучающие данные LLM.Удивило меня другое: похоже, ни один из проектов по-настоящему не использовал Web Platform Tests
Как навыки гейм-дизайна помогают мне в работе тестировщиком
Дисклеймер: всё что написано в этой статье, не претендует на чистую правду в первой инстанции, это просто мои мысли, которые посетили мой разбитый кофеином мозг в 3 часа ночи.Привет, Хабр! Позволю себе написать немного предыстории о том, как я пришёл к написанию этой публикации:Я уже около четырёх месяцев работаю в крупной IT компании как Junior тестировщик.Проект, на котором я работаю, существует с незапамятных времён, с тех периодов развития рунета, когда слово документация ещё не было в обиходе у программистов той эпохи.
Переработки: как компании превращают вашу ответственность в бесплатный ресурс
ВступлениеВ этой статье я хочу поделиться наблюдениями о переработках в IT-компаниях: как они появляются, почему быстро становятся нормой, чем заканчиваются и что с этим можно делать.Сразу оговорюсь: текст не про то, что нужно в 18:00 ронять ноутбук на пол и исчезать в закат. В инженерной работе бывают аварии. Бывают критичные баги, релизы, инциденты, миграции, production is down, деньги горят, пользователи страдают, бизнес нервно смотрит в мониторинг.Иногда действительно нужно помочь.

