Data Engineering. - страница 13

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

продолжить чтение

Методы построения RAG систем

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.Типовые задачи процессов RAG системКлассификация запросов,Деление на фрагментыВекторизация данныхПоиск,Переранжирование,

продолжить чтение

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото Яни Каасинен на Unsplash.

продолжить чтение

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

продолжить чтение

10 бесплатных онлайн-курсов и занятий, которые стоит пройти в феврале

Что изучать в феврале? 🧑‍🎓 Мы собрали бесплатные курсы и лекции для тех, кто рассматривает возможность смены профессии. Тем, кто стремится быстрее окунуться в профессию, предлагаем онлайн-занятия. А тем, кто настроен на глубокое погружение в мир цифровых специалистов, подойдут наши онлайн-курсы.Системный аналитик: первые шаги к профессииКогда: 3 февраля — 12 февраля

продолжить чтение

AI в энтерпрайзе

Мнение.Основные проблемы в корпоративном IT это, как и прежде: инфраструктура, безопасность и работа с данными.AI и, так называемые, Агенты AI, в этой сфере, в ближайшие 2-3 года, мало что поменяют.В корпоративном секторе столько неэффективности и реакционности, что буст продуктивности, который принесет AI станет каплей в море.Миграция с Oracle на Postgresql или переезд с Lotus Domino, для большинства крупных не-IT компаний принесет больше пользы, чем внедрение AI, здесь и сейчас.Без современной инфраструктуры и стека данных, внедрение AI не отобьет OPEX и тем более CAPEX.

продолжить чтение

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

продолжить чтение

Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

продолжить чтение

Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.Небольшая справкаKyuubi — распределённый многопользовательский шлюз для предоставления serverless SQL для хранилищ, озёр данных и lakehouse.

продолжить чтение

Улучшаем RAG с помощью графов знаний

Знакомство с RAG и связанными с ним проблемамиГенерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и

продолжить чтение

Rambler's Top100