От баз данных до инструментов для ИИ‑экосистем: проекты, которые получили гранты Yandex Open Source

Развивать собственный технологический проект в одиночку или небольшой командой — это всегда вызов. Нужно не просто написать работающий код, но и продумать архитектуру, закрыть инфраструктурные боли ^[1], настроить CI/CD и при этом не выгореть. Тем ценнее видеть, как крутые разработки получают заслуженную поддержку, помогающую им выйти на новый уровень.

В этом году мы провели Yandex Open Source при поддержке платформы для разработчиков SourceCraft ^[2]. А ещё мы увеличили призовой фонд с 12 до 18 победителей. Мы принимали заявки по трём трекам:

Обработка и хранение данных.
Разработка.
Искусственный интеллект ^[3].

Так как у нас много победителей, чтобы не утомлять вас, в этой статье мы собрали несколько проектов, которые персонально понравились нашим членами жюри из числа победителей программы грантов. В подборку вошли проекты разного масштаба: от embedded key‑value базы и веб‑интерфейса для Docker Registry до GraphRAG‑движка и роутера для маршрутизации запросов к LLM. А про проекты всех победителей почитать можно здесь ^[4].

Трек: Обработка и хранение данных

В трек входят: реляционные СУБД, NoSQL базы данных, NewSQL‑системы, S3, брокеры сообщений и инструменты для работы с ними.

libmdbx → Леонид Юрьев ^[5]

libmdbx — высокопроизводительная, компактная и встраиваемая (embedded) база данных класса «ключ‑значение». Проект зародился как переработка СУБД LMDB, но с 2015 года развивается независимо. За это время код был фактически переписан с нуля.

С конца 2025 года проект перешёл на поставку в виде амальгамированного исходного кода (single‑file‑source), что упростило его интеграцию в сторонний софт. Поддержка оригинального кода остаётся бесплатной и верифицируется по git tree hash. В ближайших планах — глобальный технологический транзит и эволюция ^[6] движка в сторону полностью новой архитектуры MithrilDB.

DRUI → Сергей Зезюлин ^[7]

Управление приватными Docker‑репозиториями через консоль часто превращается в рутину из‑за отсутствия наглядности и удобных инструментов навигации. Веб‑приложение DRUI решает эту задачу, предоставляя интерфейс для Docker Distribution на стеке Python.

Инструмент разворачивается одной командой через Docker и позволяет быстро шэрить, фильтровать и инспектировать манифесты образов, включая аудит истории слоёв (build steps) и мультиархитектурных сборок. Вектор развития проекта направлен на совершенствование встроенной аналитики дискового пространства реестра, доработку выгрузки тегов в tar‑архивы и внедрение системы тегирования проверенных издателей.

Трек: Разработка

В трек входят: фреймворки, библиотеки и тулзы для фронтенда, бэкенда и мобильной разработки.

mlut → Валентин Ульянов ^[8]

Многие популярные Utility‑First фреймворки (вроде Tailwind CSS или Tachyons) часто критикуют за перегруженный синтаксис сложных конструкций, неочевидные сокращения классов и двусмысленность в именовании свойств. Эту проблему решает mlut — CSS‑инструментарий на базе Sass, главной особенностью которого стало строгое следование синтаксису и логике ^[9] чистого CSS.

Архитектура проекта построена на предсказуемом алгоритме сокращений (наподобие Emmet), предоставляя разработчику эргономичные классы, встроенную систему реактивных сигналов и состояний, а также мощный JIT‑движок, сканирующий разметку на лету.

Инструмент бесшовно интегрируется в существующие проекты без конфликтов имён, работает как в AOT, так и в JIT‑режимах и поставляется с готовыми плагинами для Vite, Webpack и Rollup. В ближайших планах команды — глубокая оптимизация производительности компиляции, поддержка селекторов с аргументами (например,:has()), работа со сложными градиентами и выпуск расширений для автодополнения кода в IDE.

EffCSS → Марат Сабитов ^[10]

Инструмент EffCSS представляет собой легковесную CSS‑in‑JS библиотеку, построенную исключительно на базе стандартных браузерных API без использования сторонних парсеров. Проект предлагает полноценную интеграцию стилей через экосистему JavaScript и TypeScript, позволяя генерировать изолированные, минифицированные селекторы прямо на этапе выполнения кода.

Ключевой особенностью архитектуры является концепция Stylesheet maker — функциональных контрактов, которые через строгую типизацию TS подсказывают разработчику доступные утилиты и поддерживают любые методологии вёрстки (включая BEM и функциональный Atomic CSS).

Платформа независима от фреймворков, обладает нулевым количеством внешних зависимостей и совместима со всеми стратегиями рендеринга (CSR, SSR, SSG). Вектор развития фреймворка включает расширение возможностей кастомных инструментов отладки (Devtools для Firefox и Chromium‑браузеров) и оптимизацию глубокого слияния объектов конфигурации при декларативном описании динамических тем, анимаций и @property‑правил.

Утилиты для Playwright → Виталий Городков ^[11]

Инструментарий Playwright Labs — модульная экосистема фикстур, утилит и репортеров, спроектированную для повышения стабильности и сквозного мониторинга сквозных (E2E) тестов. Проект ориентирован на расширение базовых возможностей Playwright, превращая его в полноценный фреймворк автоматизации с поддержкой ООП‑декораторов, валидации схем данных через AJV/Zod и генерации моков.

Архитектурно платформа разделена на изолированные npm‑пакеты, которые закрывают специфические потребности ^[12] инфраструктурного тестирования: от оркестрации реальных Docker‑контейнеров через Testcontainers до глубокого инспектирования состояния фронтенд‑компонентов (через специализированные селекторные движки для Angular, React Fiber и Vue 3). Особое внимание ^[13] в кодовой базе уделено наблюдаемости (Observability) — встроенный репортер нативно транслирует тестовые метрики и спаны в любые OTLP‑совместимые бэкенды вроде Jaeger или Prometheus.

Платформа воспроизводимого бенчмаркинга → Андрей Сумской ^[14]

Web Framework Benchmark (WFB) — инструмент для комплексного тестирования производительности веб‑фреймворков на различных языках программирования. В отличие от большинства синтетических бенчмарков, измеряющих лишь пропускную способность сокетов на тестах уровня Hello World, WFB фокусируется на симуляции реальной продуктовой нагрузки. Набор тестов включает ресурсоёмкую бизнес‑логику: от тяжёлой агрегации JSON‑данных интернет‑магазинов до многопоточных параллельных запросов к базам данных через ORM.

Архитектура системы реализована в виде изолированного рабочего пространства (workspace) на Rust. Встроенный CLI‑раннер (wfb‑runner) полностью берёт на себя оркестрацию Docker‑контейнеров, управление жизненным циклом баз данных и прогрев JIT‑компиляторов для честного сравнения платформ. Инструмент позволяет наглядно сопоставлять эффективность протоколов REST HTTP и gRPC при идентичной нагрузке, а генератор трафика строго валидирует корректность каждого ответа, отсекая любые манипуляции с кешированием. Проект снабжён интерактивным веб‑интерфейсом для визуализации гистограмм задержек (latency) и полностью готов к публичному деплою с поддержкой строгих политик безопасности (CSP, HSTS и CORS).

libBeresta → Дмитрий Соломенников ^[15]

Библиотека libBeresta — кросс‑платформенный инструмент для низкоуровневой генерации PDF‑файлов, написанный на чистом ANSI C. Проект возник как глубокий архитектурный рефакторинг известной, но стагнирующей библиотеки libHaru. Главной задачей разработчиков было создание модульного и предсказуемого движка, который позволяет конструировать документы с текстом, графикой, аннотациями и изображениями (PNG, JPEG, TIFF) без необходимости погружаться в спецификации и внутреннее устройство формата Portable Document Format.

В отличие от предшественника, кодовая база libBeresta строго разделена на экспортируемую и приватную части, а её функциональность разбита на изолированные модули, что позволяет исключать неиспользуемые компоненты (например, криптографическое шифрование, сжатие или азиатские кодировки) для экономии памяти ^[16].

Проект разрабатывается под лицензией MIT, поддерживает полную интернационализацию (включая кодировку UTF-8) и опирается на строгие инженерные регламенты: обязательное unit‑тестирование, валидацию задокументированных ошибок состояния (таких как BRST_INVALID_DOCUMENT) и проверку орфографии в коде.

Трек: Искусственный интеллект

В трек входят: ML‑модели, датасеты и инструменты практического применения ИИ.

langchain‑localai → Михаил Хлуднев ^[17]

Пакет langchain‑localai создавался для тех, кто разворачивает нейросети локально или в закрытом контуре компании и использует LangChain. Обычно коннекторы к LocalAI работают неторопливо, особенно если нужно обработать пачку документов за раз. Этот проект решает проблему со скоростью.

Разработчики перевели библиотеку на современный OpenAI SDK v1, благодаря чему появилась полноценная асинхронность, а массовая генерация эмбеддингов стала выполняться в разы быстрее. Плюс внутрь сразу зашили поддержку LocalAIRerank — это позволяет переранжировать результаты поиска и точнее отвечать на вопросы пользователя прямо внутри RAG‑систем. Пакет строго следит за версиями Python и LangChain, чтобы ничего не ломалось при обновлениях, а в будущем авторы планируют ещё сильнее разогнать пакетную обработку данных и повысить стабильность при нестабильном сетевом соединении.

Auto AI Router → Никита Лебедев ^[18]

AI Router — высокопроизводительный прокси‑маршрутизатор, выступающий единой точкой входа для работы со всеми популярными большими языковыми моделями.

Инструмент позволяет гибко распределять потоки запросов к OpenAI, Vertex AI, Gemini AI Studio и Anthropic, а также может каскадно перенаправлять трафик на другие экземпляры роутера. «Из коробки» в систему заложены важные enterprise‑функции: автоматическая балансировка нагрузки для минимизации задержек и строгий Rate Limiting, защищающий квоты аккаунтов от внезапного исчерпания лимитов.

Отдельный упор автор сделал на безопасность и защиту инфраструктуры. Он интегрировал в маршрутизатор модуль защиты на базе концепции Fail2Ban. Система в реальном времени анализирует паттерны поведения ^[19], моментально вычисляет и отправляет в автоматический бан клиентов, которые злоупотребляют тяжёлыми запросами или пытаются зафлудить шлюз подозрительной активностью.

RAGU (Retrieval‑Augmented Generation & Understanding) → Михаил Комаров ^[20]

RAGU — это модульный движок GraphRAG, разработанный для тех, кому стандартного векторного поиска уже не хватает и нужно строить полноценные графы знаний по текстовым документам. Проект частично основан на наработках nano‑graphrag и позволяет собирать, хранить и гибко опрашивать структурированные данные.

Вся работа разделена на понятные этапы: сначала сырой текст режется на стабильные чанки, затем нейросеть вытаскивает из них сущности и связи, а на этапе сборки графа движок сам дедуплицирует узлы, схлопывает описания и разбивает граф на кластеры по алгоритму Leiden. Но главная фишка RAGU — это гибкие стратегии поиска. Из коробки доступны локальный поиск (по конкретным узлам и их соседям), глобальный (по саммари крупных сообществ для широких вопросов) и наивный векторный RAG. А если этого мало, можно запустить микс‑режим, который опрашивает все поисковые движки разом. Библиотека написана на Python, легко ставится через uv или pip и поддерживает как облачные API, так и локальные модели из Hugging Face.

Как правило, весь опенсорс держится на людях, которые готовы годами развивать инструменты, библиотеки и инфраструктурные решения — часто в свободное время и без большой команды за спиной. Грантовая программа Yandex Open Source как раз про то, чтобы такие проекты получали ресурс на развитие: от рефакторинга и документации до новых фич, тестов и поддержки пользователей.

Мы продолжим поддерживать авторов открытых технологий и следить за тем, как развиваются проекты‑победители. Если вы развиваете open source‑проект в области данных, разработки или искусственного интеллекта — готовьтесь к следующему запуску программы: анонс нового набора появится на странице Yandex Open Source ^[4].

Автор: veged

Источник ^[21]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30887

URLs in this post:

[1] боли: http://www.braintools.ru/article/9901

[2] SourceCraft: https://sourcecraft.dev/

[3] интеллект: http://www.braintools.ru/article/7605

[4] здесь: https://opensource.yandex/grants/

[5] libmdbx → Леонид Юрьев: https://sourcecraft.dev/dqdkfa/libmdbx

[6] эволюция: http://www.braintools.ru/article/7702

[7] DRUI → Сергей Зезюлин: https://sourcecraft.dev/pxlfx/drui

[8] mlut → Валентин Ульянов: https://sourcecraft.dev/mr150/mlut

[9] логике: http://www.braintools.ru/article/7640

[10] EffCSS → Марат Сабитов: https://sourcecraft.dev/msabitov/effcss

[11] Утилиты для Playwright → Виталий Городков: https://sourcecraft.dev/vitalicset/playwright-labs?rev=main

[12] потребности: http://www.braintools.ru/article/9534

[13] внимание: http://www.braintools.ru/article/7595

[14] Платформа воспроизводимого бенчмаркинга → Андрей Сумской: https://sourcecraft.dev/nogcio/web-framework-benchmark

[15] libBeresta → Дмитрий Соломенников: https://sourcecraft.dev/libberesta/libberesta

[16] памяти: http://www.braintools.ru/article/4140

[17] langchain‑localai → Михаил Хлуднев: https://sourcecraft.dev/gedel/langchain-localai

[18] Auto AI Router → Никита Лебедев: https://sourcecraft.dev/mike-milos/auto-ai-router

[19] поведения: http://www.braintools.ru/article/9372

[20] RAGU (Retrieval‑Augmented Generation & Understanding) → Михаил Комаров: https://sourcecraft.dev/ragu-team/ragu

[21] Источник: https://habr.com/ru/companies/yandex/articles/1040282/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1040282

Нажмите здесь для печати.