Тестирование IT-систем.

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

Один набор тестов проверяет всех агентов сразу — в этом суть capability-based подходаВ (https://habr.com/ru/articles/1049482/) я разбирала,

продолжить чтение

Оставлено в

Когда чат-бот продаёт Chevrolet за доллар: как тестировать и мониторить LLM-приложения

Генеративные модели разблокировали огромное количество новых продуктов и новых фич в уже существующих. Поиграться с ними успел, кажется, каждый. И сценарий почти всегда повторяется: команда быстро собирает прототип на внешнем API, выкатывает его в продакшен, продукт начинает приносить ценность, а вместе с ценностью приходит и тревога. Работает ли всё так, как мы ожидали? В этот момент хочется уже не угадывать, а измерять.Эта статья про то, как измерять. Точнее, про то, как тестировать и мониторить адаптивные LLM-системы в продакшене и до него, чтобы убедиться: ассистент ведёт себя так, как задумано.Что именно мы оцениваем

продолжить чтение

Оставлено в

Что перестаёт работать в тестировании, когда приходит LLM

Слева — привычный зелёный тест. Справа — то, что с ним делает LLM

продолжить чтение

Оставлено в

4 антипаттерна CI‑автоматизации, из‑за которых команда делает работу за ботов

Или как мы построили машины, которые говорят людям делать работу, которую должны делать машины.Нам нужно поговорить о неудобной истине, которая у всех инженерных команд лежит на самом виду. Мы годами строили сложные CI/CD‑пайплайны, ботов для ревью кода и инструменты анализа на базе ИИ, а потом настраивали их так, чтобы они отправляли сообщения в Slack и просили людей выполнить ручную работу.Вдумайтесь на секунду. Мы автоматизировали просьбу. Не выполнение.

продолжить чтение

Оставлено в

Генерация тестовой документации с ИИ

Всем привет! Продолжаю цикл статей про применение ИИ в тестировании. В первой я рассказывала о том, зачем мы пошли в пилот по применению ИИ в тестировании. Во второй — как собирать контекст. В третьей — как тестировать требования, когда контекст уже готов.Сегодня поговорим про следующий этап — генерацию тестовой документации: тест-кейсы, чек-листы, матрица покрытия и т.д. Небольшой спойлер: в конце статьи вас ждет ссылка на репозиторий с инструкциями и промтами.

продолжить чтение

Оставлено в

LLM собрала IndexedDB с нуля: 1208 тестов, SQLite и несколько неприятных сюрпризов

TL;DR: одним промптом я реализовал IndexedDB с помощью Claude Code и Ralph loop: получилось пройти 95% целевого подмножества Web Platform Tests и 77,4% более строгого набора тестов.Когда я узнал, что два простых браузерных движка были написаны с помощью вайб-кодинга, я не особенно удивился. Браузерный движок — хорошо изученная задача с несколькими независимыми реализациями, а их кодовые базы наверняка давно попали в обучающие данные LLM.Удивило меня другое: похоже, ни один из проектов по-настоящему не использовал Web Platform Tests

продолжить чтение

Оставлено в

Как навыки гейм-дизайна помогают мне в работе тестировщиком

Дисклеймер: всё что написано в этой статье, не претендует на чистую правду в первой инстанции, это просто мои мысли, которые посетили мой разбитый кофеином мозг в 3 часа ночи.Привет, Хабр! Позволю себе написать немного предыстории о том, как я пришёл к написанию этой публикации:Я уже около четырёх месяцев работаю в крупной IT компании как Junior тестировщик.Проект, на котором я работаю, существует с незапамятных времён, с тех периодов развития рунета, когда слово документация ещё не было в обиходе у программистов той эпохи.

продолжить чтение

Оставлено в

Переработки: как компании превращают вашу ответственность в бесплатный ресурс

ВступлениеВ этой статье я хочу поделиться наблюдениями о переработках в IT-компаниях: как они появляются, почему быстро становятся нормой, чем заканчиваются и что с этим можно делать.Сразу оговорюсь: текст не про то, что нужно в 18:00 ронять ноутбук на пол и исчезать в закат. В инженерной работе бывают аварии. Бывают критичные баги, релизы, инциденты, миграции, production is down, деньги горят, пользователи страдают, бизнес нервно смотрит в мониторинг.Иногда действительно нужно помочь.

продолжить чтение

Оставлено в

Почему хороший ответ ИИ иногда ведёт к плохому результату

Иногда я прошу ИИ улучшить производительность страницы и получаю на вид хороший результат: компонент становится проще, лишний код исчезает, рендеров становится меньше. Позже выясняется другое: страница тормозила из-за тяжёлого запроса, большого списка или лишней загрузки данных.Так часто бывает с производительностью. Видно медленный участок интерфейса, и рука тянется к самому заметному месту:Оптимизируй этот компонент.

продолжить чтение

Оставлено в

Борьба с галлюцинациями и 27 часов работы: практический опыт тестирования калькулятора трудозатрат с помощью ИИ

Сразу честно, чтобы вы понимали, с кем имеете дело: я из тех душнил, которые закатывают глаза, когда в сотый раз слышат «а давайте это все сделает нейросеть». Я видел слишком много красивых демок, где ИИ за минуту генерит сотню тест-кейсов – из которых добрая половина про кнопки, которых в продукте нет, а вторая половина дублирует друг друга разными словами, не говоря уже о глубине тестирования бизнес-логики.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Тестирование IT-систем.

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

Когда чат-бот продаёт Chevrolet за доллар: как тестировать и мониторить LLM-приложения

Что перестаёт работать в тестировании, когда приходит LLM

4 антипаттерна CI‑автоматизации, из‑за которых команда делает работу за ботов

Генерация тестовой документации с ИИ

LLM собрала IndexedDB с нуля: 1208 тестов, SQLite и несколько неприятных сюрпризов

Как навыки гейм-дизайна помогают мне в работе тестировщиком

Переработки: как компании превращают вашу ответственность в бесплатный ресурс

Почему хороший ответ ИИ иногда ведёт к плохому результату

Борьба с галлюцинациями и 27 часов работы: практический опыт тестирования калькулятора трудозатрат с помощью ИИ

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Тестирование IT-систем.