chroma.

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Главное: RAG — это не просто «поиск + LLM». В локальном эксперименте основная дополнительная нагрузка появилась не в vector DB, а в embedding запроса, росте размера prompt и его обработке моделью. Top-k, chunk size и retrieval mode оказались параметрами проектирования и контроля, а не техническими настройками «по умолчанию». Главный вывод: стратегию retrieval нужно выбирать под тип вопроса, структуру данных, latency budget и требований к качеству.Введение

продолжить чтение

Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени

продолжить чтение

Выбираем векторную БД для AI-агентов и RAG: большой обзор баз данных и поиск смысла

В этой статье я сделал обзор основных векторных баз данных: Milvus, Qdrant, Weaviate, ChromaDB, pgvector, Redis, pgvectorscale, LanceDB, ClickHouse, Vespa, Marqo, ElasticSearch.Если вы запутались в разнообразии векторных баз данных или хочется верхнеуровнево понимать как они устроены, чем отличаются и для чего вообще нужны, то эта статья будет очень полезна. Мы пошагово соберем все ожидания от векторных БД, посмотрим бенчмарки, а затем попробуем собрать все воедино.

продолжить чтение

Перегрузка языковых моделей информацией приводит к нерелевантным ответам

Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.

продолжить чтение