Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности
Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально.
Matrix Reloaded: зачем дата-сайентисту линейная алгебра
Меня зовут Мария Жарова, я ML-инженер в Wildberries, преподаватель и автор канала Easy Data. Давайте разберемся, где и зачем дата-сайентисту нужна линейная алгебра. Не будет скучных доказательств, только практические примеры, визуализация и конкретные кейсы.Поехали!Источник:
Простой механизм поиска с нуля
Мы с Крисом недавно «с нуля» буквально за пару часов создали механизм поиска для моего блога. Основную часть проделал именно Крис, так как до этого с word2vec я был знаком лишь отдалённо.
- Оставлено в
Знакомьтесь, FRIDA. Открытая эмбеддинг-модель для русского языка
В этой статье мы расскажем о нашей новой модели FRIDA, которая сейчас (20.05.2025) занимает первое место в русскоязычном бенчмарке MTEB (ссылка на таблицу лидеров).Ранее мы уже
- Оставлено в
Как мы учили нейросеть разбираться в сложных документах: задача семантического поиска
Привет! Меня зовут Павел Яковлев, я инженер по разработке ПО искусственного интеллекта в YADRO
Важные паттерны в создании продуктов на основе генеративного ИИ
По мере того как программные продукты, использующие технологии генеративного искусственного интеллекта, переходят из стадии прототипирования в продакшн, выявляется ряд повторяющихся паттернов. Большие языковые модели (LLM) требуют адаптации, чтобы предоставлять информацию, выходящую за пределы общего и статичного обучающего набора. В большинстве случаев эту проблему решает Retrieval‑Augmented Generation (RAG, «генерация с поисковым дополнением»), хотя базовый подход RAG имеет свои ограничения и требует дополнительных техник для их устранения. Если же RAG оказывается недостаточно эффективным, Fine‑Tuning становится обоснованным шагом.
pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов
У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.pg_auto_embeddings

