Как я победил в RAG Challenge: от нуля до SoTA за один конкурс
Автор - DarkBonesПредисловиеВ этом посте я расскажу про подход, благодаря которому я занял первое место в обеих призовых номинациях и в общем SotA рейтинге.Памятка по RAGRAG - это инструмент, расширяющий возможности LLM через “подключение” к ней базы знаний любого размера.Путь разработки базовой RAG системы состоит из этапов:
Управление качеством данных
Итак, у нас есть данные, и есть требования к ним. От кого? От тех, кто будет ими пользоваться. Если те, кто ставит задачу говорят что "данные плохие" и не могут сформулировать критерии к качеству данных, им можно их подсказать, подсмотрев в предыдущей статье. Таким образом, управление качеством данных - это, в первую очередь, методология, которая обеспечивает некий уровень качества в отношении выбранных данных.
Настройка PostgreSQL для LLM
Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!
Карьера в Data Engineering: взгляд на образование и зарплату
Каждый день мы создаем колоссальные объемы данных: кликаем по рекламе, совершаем покупки, вызываем такси, смотрим видео. Компании накопили терабайты информации, но без правильной структуры и обработки она бесполезна. Именно инженеры данных отвечают за то, чтобы данные можно было эффективно хранить, обрабатывать и передавать аналитикам, машинному обучению и бизнесу.Data Engineering — профессия с будущимАналитики помогают бизнесу принимать решения на основе данных, и для этого крайне важна их правильная структура, обработка и передача. Без качественных данных аналитикам трудно делать точные прогнозы и рекомендации.
Google представила Data Science Agent в Colab для упрощения анализа
Google выпустила обновление для Colab, которое позволит изменить способ анализа данных. Бесплатная облачная среда Jupyter Notebook теперь включает в себя Data Science Agent на базе Gemini, который автоматизирует такие задачи, как импорт библиотек, загрузка данных и написание шаблонного кода.
Обучение моделей timm. Связка с fastai
Привет Хабр! Решал задачу поиска оптимальной модели для классификации собственного датасета изображений (в основном искал на HuggingFace) и столкнулся с моделями timm. Старый конвейер dvc не работал с этими моделями и пришлось искать решение. Вообще почему именно timm? Как сказано в руководстве:«timm` - это библиотека глубокого обучения, созданная Россом Уайтманом, и представляет собой коллекцию моделей компьютерного зрения SOTA, слоев, утилит, оптимизаторов, планировщиков, загружающих данных, а также обучающих / валидационных скриптов с возможностью воспроизведения результатов обучения ImageNet.
Порядок работы с устареванием ML моделей. Шаг 2: Создание надежных и долговечных моделей
ВведениеЕще на этапе создания модели следует проделать работу, направленную на замедление ее устаревания.Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага:Шаг 1: Понимание устареванияШаг 2: Создание надежных и долговечных моделейШаг 3: Внедрение системы мониторингаШаг 4: Переобучение и поддержание актуальности моделиВ этой части мы с вами узнаем, как создать надежную и долговечную модель, а также получить много полезной информации, которая поможет нам бороться с устареванием в будущем.
Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных
Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

