ragas.

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магии

Как мы научили ИИ-агента отвечать за свои слова: 10 000 сообщений, Венгерский алгоритм и немного магииНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru

продолжить чтение

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Агент 1С-консультант: от RAG-прототипа до агента в продакшнеНа связи Сергей Смирнов, AI-инженер LLMStart.ru

продолжить чтение

Инженерия качества: Как перестать надеяться на удачу и начать измерять своих ИИ-агентов [Часть 3]

Доброго времени суток!В прошлой статье, мы рассмотрели 2 достаточно универсальные метрики характерные для почти любой агентской системы, в этой сместим фокус внимания и поговорим об оценке самого популярного архитектурного шаблона RAG.Есть довольно значительная вероятность, что уважаемый читатель, открывший статью про инженерию качества, уже знает, что такое RAG. Но на всякий случай дам краткое описание с ключевыми смыслами:Что такое RAG и зачем он нужен

продолжить чтение

Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ

Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные способы. Одно из самых простых решений, позволяющих значительно повысить точность и достоверность ответов, — RAG (Retrieval Augmented Generation). Это генерация с дополненной выборкой. 

продолжить чтение

Выбор LLM и фреймворка для ИИ-агентов

продолжить чтение

Как поднять точность RAG-агента: чек-лист и инструменты. Часть 2. Финал

В первой части я разбирал архитектуру AI-агента, выбор между RAG и GraphRAG на примере AI-юриста для техподдержки. Если пропустили – https://habr.com/ru/articles/975230/Во второй части решил уделить внимание тому, как добиться нормального качества поиска и точности ответов. Чтобы AI-агент не остался в песочнице и не превратился в очередной эксперимент "мы попробовали, не взлетело".Надеюсь мой опыт будет полезен и вы сэкономите себе деньги, нервы и время. А может быть и вовсе откажетесь от идеи создания агента — это тоже нормальный исход.

продолжить чтение

RAG+Ragas: учим AI-помощника учить без галлюцинаций

Представьте ситуацию: вы прошли онлайн-курс, начинаете применять знания на практике, но что-то не получается и надо вернуться в учебные материалы, найти, где про это что-то рассказывали. Что будете делать: пролистывать все уроки (а их может быть пара десятков), писать куратору (а он может ответить через сутки)?

продолжить чтение

Тестирование качества работы RAG. Описание и сравнение метрик

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.Одним из способов решения для таких случаев является применение AI с использованием RAG.В этой статье мы постарались привести метрики для оценки качества работы подобных решений.RAG (Retrieval Augmented Generation) - генерация ответов с использованием внешнего источника данных.

продолжить чтение

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от теории к практике и посмотреть, как эти подходы показывают себя в деле.В этой статье мы посмотрим на результаты экспериментов: какие техники оказались наиболее эффективными на датасете Natural Questions, где они приятно удивили, а где — наоборот, не оправдали ожиданий. Для оценки будем использовать фреймворк RAGAS, а также метрики BertScore и ROUGE-2

продолжить чтение

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 1

При про­ектировании RAG-системы инженер каждый раз сталкивается с множеством вопросов: как получать чанки, какую векторную базу использовать, как организовать получение релевантной информации из базы, да даже выбор эмбеддера может занять приличное время — и это лишь вершина айсберга. Идеальным решением является перебор основных вариантов, затем оценка качества и выбор подходящих для конкретной задачи. Ведь то, что хорошо работает, например, для техподдержки, может провалиться в юридическом анализе, и наоборот.

продолжить чтение

12