engineer.

Как тестировать LLM-фичи: пишем автоэвалы и гоняем их в CI

Привет! У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его, как все: поправил промпт, прогнал пяток вопросов руками, поставил в голове галочку «вроде стало лучше» и выкатил. Закончилось это предсказуемо. Коллега подкрутил промпт ретривера под свой кейс и по дороге сломал мой, причём заметили мы это через две недели по жалобе пользователя. А когда обновились на свежую версию модели, часть ответов просто уехала непонятно куда, и никто не мог сказать, стало в среднем лучше или хуже. Потому что «лучше» жило у нас в головах и мерялось настроением.

продолжить чтение

Что должен знать и уметь Разработчик Автоматического Тестирования, чтобы называться Инженером

Оглядываясь на свой путь, хочу поделиться накопленными навыками и наблюдениями. Возможно, это поможет другим избежать подводных камней на карьерном пути и понять, к чему стремиться.

продолжить чтение