bm25.

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

От 0.034 до 0.791 и обратно: соревнование по Legal RAG, 17 итераций и стена масштабированияМне давно хотелось погрузиться в RAG, но повода не было. Я решил поучаствовать в ARLC 2026 — юридическом AI-челлендже, где нужно строить RAG-пайплайн поверх корпуса судебных решений и законов DIFC – находить нужные страницы в нужных документах, извлекать ответы и давать точные ссылки на источники. Соло, с Claude Code в качестве напарника.

продолжить чтение

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

ВведениеДобрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.Вся система делалась мной самостоятельно без использования LangChain

продолжить чтение

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: 

продолжить чтение

Практический кейс: как применять ML и GPT для поиска дубликатов в базе данных

Привет! Я Давид Акопян, занимаюсь интеграциями ML, GPT и консалтингом. Сейчас работаю тимлидом продуктовой аналитики в Авито. Ранее был опыт в:EY операционном консалтинге в сфере ретейла. Консультировал такие компании как Магнит, Детский Мир, Аскона, МВидео, НЛМК;E-groccery-стартапе;был тимлидом аналитики обычной и экспресс-доставки Яндекс.Маркета;  а еще пробовал себя в различных проектах во фрилансе.

продолжить чтение