Data Engineering. - страница 10

Методы построения RAG систем

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.Типовые задачи процессов RAG системКлассификация запросов,Деление на фрагментыВекторизация данныхПоиск,Переранжирование,

продолжить чтение

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото Яни Каасинен на Unsplash.

продолжить чтение

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

продолжить чтение

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в феврале

Что изучать в феврале? 🧑‍🎓 Мы собрали бесплатные курсы и лекции для тех, кто рассматривает возможность смены профессии. Тем, кто стремится быстрее окунуться в профессию, предлагаем онлайн-занятия. А тем, кто настроен на глубокое погружение в мир цифровых специалистов, подойдут наши онлайн-курсы.Системный аналитик: первые шаги к профессииКогда: 3 февраля — 12 февраля

продолжить чтение

AI в энтерпрайзе

Мнение.Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными.AI и, так называемые, Агенты AI, в этой сфере, в ближайшие 2-3 года, мало что поменяют.В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море.Миграция с Oracle на Postgresql или переезд с Lotus Domino, для большинства крупных не-IT компаний принесет больше пользы, чем внедрение AI, здесь и сейчас.Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.

продолжить чтение

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

продолжить чтение

Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

продолжить чтение

Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.Небольшая справкаKyuubi — распределённый многопользовательский шлюз для предоставления serverless SQL для хранилищ, озёр данных и lakehouse.

продолжить чтение

Улучшаем RAG с помощью графов знаний

Знакомство с RAG и связанными с ним проблемамиГенерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и

продолжить чтение

PPTAgent: Генерация и оценка презентаций, выходящая за рамки преобразования текста в слайды

АннотацияАвтоматическая генерация презентаций из документов представляет собой сложную задачу, требующую баланса между качеством контента, визуальным дизайном и структурной связностью. Существующие методы в основном сосредоточены на улучшении и оценке качества контента изолированно, часто упуская из виду визуальный дизайн и структурную связность, что ограничивает их практическую применимость. Для решения этих ограничений мы предлагаем PPTAgent, который комплексно улучшает генерацию презентаций за счет двухэтапного подхода, основанного на редактировании, вдохновленного рабочими процессами человека.

продолжить чтение

Rambler's Top100