Как мы с Claude Code учились оценивать качество RAG системы
Уверен, на Хабре найдётся немало статей, посвященных оценке качества RAG систем. Тема по-прежнему остаётся актуальной, потому что даже готовые библиотеки вроде RAGAS не очень-то работают из коробки, требуют навыков программирования и некоторой квалификации. При этом сам процесс оценки - повторение достаточно простых операций и мне всегда хотелось переложить его на AI-ассистента.
RAG-Anything: Как собрать по-настоящему мультимодальный RAG
Существует множество достойных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в современных реалиях - не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой многочисленных форматов. Комбинируешь OCR, парсеры, ридеры…RAG-Anything устраняет ненужные телодвижения.
RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain
PM: Нам нужно актуализировать базу знаний для ИИ-ассистента, там изменилась инструкция по смене пароля.DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится. Предупреди Заказчика о недоступности сервиса.Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа.В продакшене могут быть сотни тысяч документов, живые пользователи и
Когда RAG на горе свистнет: архитектура, метрики оценки и практика тестирования в ПСБ
Одна из ключевых проблем ИИ — склонность к «галлюцинациям», то есть к генерации убедительно звучащих, но ложных ответов. Яркий пример на картинке :) Как это можно исправить или улучшить? Есть разные способы. Одно из самых простых решений, позволяющих значительно повысить точность и достоверность ответов, — RAG (Retrieval Augmented Generation). Это генерация с дополненной выборкой.
Простые проблемы с RAG, которые мы решали в ИИ-стартапе
Предыстория. Ну как ИИ-стартап, в общем-то обычный SaaS но с ключевыми задачками в бизнес-процессах для LLM. Задача основателю казалась простой. Нужно было построить систему, которая принимает пользовательский запрос, анализирует контекст пользователя, извлекает релевантные данные и формирует ответ.На первом этапе архитектура ИИ-слоя выглядела очень просто и типично:user request ⭢ RAG retrieval ⭢ LLM ⭢ answerВ прототипе все работало отлично. Но после запуска в реальном продукте начались первые проблемы. Именно тогда этот стартап и попал ко мне.
Я год доверял ChatGPT в строительстве, а потом он придумал ГОСТы
Эту историю для моего блога рассказал Алексей КривоносовГод назад я начал использовать ChatGPT для работы. Занимаюсь загородным строительством — это основной бизнес. Также веду YouTube-канал компании. Нейросеть помогала генерировать сценарии, составлять контент-планы, оформлять технические отчёты.Но когда попробовал использовать ChatGPT для работы со строительными нормами — СП, ГОСТами, нормативной документацией — столкнулся с проблемой. Нейросеть придумывала несуществующие пункты нормативов, выдавала цифры, которых не было в документах.

