bm25.

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

ВведениеДобрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.Вся система делалась мной самостоятельно без использования LangChain

продолжить чтение

Разбираем на запчасти поисковый сервис в Яндекс Лавке

Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: 

продолжить чтение

Практический кейс: как применять ML и GPT для поиска дубликатов в базе данных

Привет! Я Давид Акопян, занимаюсь интеграциями ML, GPT и консалтингом. Сейчас работаю тимлидом продуктовой аналитики в Авито. Ранее был опыт в:EY операционном консалтинге в сфере ретейла. Консультировал такие компании как Магнит, Детский Мир, Аскона, МВидео, НЛМК;E-groccery-стартапе;был тимлидом аналитики обычной и экспресс-доставки Яндекс.Маркета;  а еще пробовал себя в различных проектах во фрилансе.

продолжить чтение

Rambler's Top100