Прокачать SQLite и сократить векторы в видеоформате — открытые инструменты для работы с эмбеддингами. beeline cloud.. beeline cloud. анализ текста.. beeline cloud. анализ текста. векторные представления.. beeline cloud. анализ текста. векторные представления. векторные субд.. beeline cloud. анализ текста. векторные представления. векторные субд. эмбеддинги.

Мы в Beeline Cloud подготовили новую подборку по теме векторных СУБД, в которой собрали примечательные инструменты по теме: например, решение, позволяющее хранить эмбеддинги в «видеоформате», а также расширение для SQLite, добавляющее поиск по векторам.

Изображение: Possessed Photography (Unsplash License)
Изображение: Possessed Photography (Unsplash License)

Привет от китайской корпорации

Zvec — это легковесная СУБД на основе открытой векторной поисковой системы Proxima, представленная специалистами из open source-подразделения Alibaba. Ее первая версия была выложена в открытый доступ в 2025 году под лицензией Apache 2.0, и с тех пор проект набрал больше 9 тыс. звезд на GitHub. Среди преимуществ Zvec авторы выделяют высокую скорость поиска. Они провели серию тестов на бенчмарке VectorDBBench, предназначенном для оценки векторных СУБД на реальных сводах данных. Zvec оказалась на первом месте по максимальному количеству запросов, обрабатываемых за секунду (на наборе из десяти миллионов 768-мерных векторов). Для сравнения, второе место заняла платформа Zilliz Cloud с показателем в 3,9 тыс. запросов, а третье — OpenSearch с результатом 1,6 тыс. запросов.

К слову, производительность Zvec подтверждают тесты. В начале года проект привлек внимание резидентов Hacker News; тематический тред на площадке набрал две сотни плюсов и десятки комментариев. Один из участников обсуждения протестировал СУБД, сравнив Zvec с LanceDB и Qdrant при работе с датасетом из трех коллекций (по 10 тыс. элементов в каждой). Проект Alibaba показал самую высокую скорость обработки данных — 0,8 мс. Для сравнения, у LanceDB эта цифра составила 5,9 мс, а у Qdrant — 21,1 мс. Впрочем, как отмечает автор теста, успех Zvec во многом был обусловлен локальным высокопроизводительным диском. Еще одним преимуществом Zvec для локальной работы является простота развертывания.

Python и ничего лишнего

Векторную СУБД Valori представил индийский инженер в 2025 году. Она полностью написана на Python и поддерживает семантический поиск. История рождения проекта довольно банальна: автор работал над инструментом для генерации документации docgen.dev и ему потребовалось реализовать функцию поиска по базе знаний. Он перебрал несколько готовых решений, но по разным причинам они ему не подошли, — требовали Docker или большое количество зависимостей. Так что он написал под свои нужды Valori. Решение избавляет от необходимости работать со сторонними API и готовить YAML-конфигурации. Небольшая демонстрация того, как выглядит команда поиска в этой СУБД, представлена на сайте проекта.

Разработчик считает, что его решение пригодится для построения RAG-приложений — например, чат-ботов — с функцией поиска по документам. Еще его можно использовать для интерактивной навигации по репозиториям и построения корпоративных баз знаний. Valori умеет работать с «офисными» документами и PDF, а в качестве одного из парсеров используется открытая библиотека Docling. Valori не требует долгой настройки и, по сути, готова к работе после развертки, поскольку содержит необходимые системы логирования, мониторинга и обработки ошибок. Руководства по этой СУБД можно найти в репозитории, там же описаны ее основные компоненты. Автор планирует подготовить инструкции для установки с помощью менеджера пакетов uv, а также сделать некоторые зависимости опциональными.

Индексирование на любой вкус

Векторное хранилище с гибридным поиском comet написано на Go и имеет лицензию MIT. Его представил разработчик из компании Couchbase, развивающей открытую нереляционную базу данных. Comet позволяет проводить полнотекстовый поиск с алгоритмом ранжирования BM25. Можно использовать фильтрацию по метаданным с помощью структур данных Roaring Bitmap и bitslice-индексов. Что касается индексирования, поддерживаются механизмы HNSW, IVF, комбинация IVF + PQ и другие. В README-файле репозитория разработчик расписал несколько возможных сценариев использования comet — разумеется, с примерами. Среди потенциальных юзкейсов: рекомендательные системы для маркетплейсов, вопросно-ответные системы и семантический поиск по документам. Все в том же репозитории comet можно найти и инструкции по установке, описание компонентов. В официальной документации чуть больше подробностей: есть описание архитектуры, ключевых концепций, обзор лучших практик, рекомендации по оптимизации производительности и не только.

Comet — не единственный проект этого разработчика. В его портфолио есть и другие решения для работы с векторами, а также поисковые движки. Например, Tinkerbird является браузерной векторной СУБД, использующей в качестве слоя хранения данных IndexedDB. А Blaze представляет собой Go-движок для полнотекстового поиска. Он поддерживает ранжирование по алгоритму BM25, инвертированное индексирование, булевы запросы и так далее.

Изображение: googledeepmind (Unsplash License)
Изображение: googledeepmind (Unsplash License)

Прокачать SQLite

Очевидно, что существуют не только векторные СУБД, но и расширения, добавляющие такую функциональность в классические реляционные СУБД. Одним из таких является SQLite Vector, который позволяет SQLite реализовать векторный поиск. Плагин написали специалисты из американской компании SQLite AI, разрабатывающей расширения для этой СУБД (например, упрощающие развертку в облаке).  SQLite Vector был опубликовано в середине 2025 года под лицензией Elastic License 2.0 с дополнительными условиями для открытых разработок [продукт можно использовать или изменять без ограничений, но только в случаях, когда оно применяется в рамках проекта с лицензией, одобренной OSI]. Специалисты строили это решение с расчетом, что оно найдет применение в сфере мобильных и периферийных устройств, так как на них бывает трудно работать с подобными системами.

Разработчики отмечают, что прочие векторные расширения полагаются на сложные алгоритмы индексации, например, HNSW или IVF, зачастую требующие предварительной подготовки БД. В случае с SQLite Vector такая подготовка не нужна, поскольку она работает напрямую со столбцами BLOB, предназначенными для хранения больших объемов неструктурированных бинарных данных. SQLite Vector занимает около 30 МБ оперативной памяти. Расширение мультиплатформенное — работает на Windows, Linux и macOS, на мобильных iOS и Android (также можно скачать версию SQLite для WebAssembly). Инструкции по работе с расширением есть в репозитории. Там же можно найти справочник по API и примеры использования. 

Векторы в .mv2

Последний инструмент в нашей подборке позволяет реализовать альтернативный (и даже экспериментальный) подход к хранению данных. Вместо того чтобы размещать эмбеддинги в СУБД, Memvid предлагает хранить векторы, индексы и WAL-журналы в едином файле видеоформата .mv2. Решение было опубликовано независимым разработчиком под лицензией Apache 2.0 — и с момента релиза в 2025 году Memvid получило на GitHub более 13 тыс. звезд.

Memvid стал «побочным» продуктом личного проекта автора. Он писал свою RAG-систему, однако она получалась тяжеловесной — на один только поиск нужных PDF-файлов уходило восемь гигабайт оперативной памяти. Тогда ему в голову пришла неожиданная идея: «Если современным видеокодекам десятилетиями оптимизировали алгоритмы сжатия, то почему бы ими не воспользоваться». Основу Memvid составляют смарт-фреймы — неизменяемые единицы данных, хранящие не только само содержимое, но и его временные метки, контрольные суммы и метаданные. Также Memvid поддерживает встроенную функцию упреждающей записи, позволяющую проводить автоматическое восстановление после сбоев и обеспечивать целостность данных.

В качестве эксперимента разработчик преобразовал текст из 10 тыс. PDF-файлов в QR-коды, а затем их закодировал — тысячи документов превратились в один видеофайл размером 1,4 ГБ. И если до этого поиск в векторной СУБД автора проекта занимал 8 ГБ оперативной памяти, то с таким подходом энтузиасту удалось уменьшить расход RAM до 200 МБ, тогда как индексирование замедлилось всего на 10%. Как считает разработчик, Memvid может оказаться полезным при построении корпоративных баз знаний и автономных систем ИИ, а также для написания персональных ИИ-помощников и нейросетевых агентов.

Документация довольно подробная, в ней можно найти как базовые инструкции по работе с Memvid, так и перечень поддерживаемых моделей от разных поставщиков (с руководствами по настройке). Еще автор проекта подготовил справочник по всем CLI-командам для Memvid. При желании на официальном сайте можно изучить архитектуру Memvid с пояснениями о том, как разработчику взаимодействовать с инструментом.

Beeline Cloud — разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

О чем еще рассказываем в нашем блоге на Хабре и на нашем DIY-медиа:

Автор: beeline_cloud

Источник