Материал подготовлен для будущих студентов курса «ИИ-архитектор».Когда RAG-система дает сбой, по одному только ответу невозможно понять, почему это произошло. RAG расшифровывается как retrieval-augmented generation – генерация с дополнением через поиск – и это одна из самых распространенных техник проектирования контекста, позволяющая добавлять AI-агентам дополнительную информацию, а значит, и повышать точность их работы. Поскольку RAG – критически важный компонент современных AI-приложений, разработчикам нужен метод оценки LLM, который позволяет выявлять проблемы и отслеживать качество работы RAG.
продолжить чтение
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.
продолжить чтение