Как тестировать LLM-фичи: пишем автоэвалы и гоняем их в CI
Привет! У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его, как все: поправил промпт, прогнал пяток вопросов руками, поставил в голове галочку «вроде стало лучше» и выкатил. Закончилось это предсказуемо. Коллега подкрутил промпт ретривера под свой кейс и по дороге сломал мой, причём заметили мы это через две недели по жалобе пользователя. А когда обновились на свежую версию модели, часть ответов просто уехала непонятно куда, и никто не мог сказать, стало в среднем лучше или хуже. Потому что «лучше» жило у нас в головах и мерялось настроением.
Что должен знать и уметь Разработчик Автоматического Тестирования, чтобы называться Инженером
Оглядываясь на свой путь, хочу поделиться накопленными навыками и наблюдениями. Возможно, это поможет другим избежать подводных камней на карьерном пути и понять, к чему стремиться.

