От баз данных до инструментов для ИИ‑экосистем: проекты, которые получили гранты Yandex Open Source. Open source.. Open source. opensource.. Open source. opensource. sourcecraft.. Open source. opensource. sourcecraft. Блог компании SourceCraft.. Open source. opensource. sourcecraft. Блог компании SourceCraft. Блог компании Яндекс.. Open source. opensource. sourcecraft. Блог компании SourceCraft. Блог компании Яндекс. гранты.. Open source. opensource. sourcecraft. Блог компании SourceCraft. Блог компании Яндекс. гранты. искусственный интеллект.. Open source. opensource. sourcecraft. Блог компании SourceCraft. Блог компании Яндекс. гранты. искусственный интеллект. опенсорс.. Open source. opensource. sourcecraft. Блог компании SourceCraft. Блог компании Яндекс. гранты. искусственный интеллект. опенсорс. Программирование.
От баз данных до инструментов для ИИ‑экосистем: проекты, которые получили гранты Yandex Open Source - 1

Развивать собственный технологический проект в одиночку или небольшой командой — это всегда вызов. Нужно не просто написать работающий код, но и продумать архитектуру, закрыть инфраструктурные боли, настроить CI/CD и при этом не выгореть. Тем ценнее видеть, как крутые разработки получают заслуженную поддержку, помогающую им выйти на новый уровень.

В этом году мы провели Yandex Open Source при поддержке платформы для разработчиков SourceCraft. А ещё мы увеличили призовой фонд с 12 до 18 победителей. Мы принимали заявки по трём трекам:

  1. Обработка и хранение данных. 

  2. Разработка. 

  3. Искусственный интеллект

Так как у нас много победителей, чтобы не утомлять вас, в этой статье мы собрали несколько проектов, которые персонально понравились нашим членами жюри из числа победителей программы грантов. В подборку вошли проекты разного масштаба: от embedded key‑value базы и веб‑интерфейса для Docker Registry до GraphRAG‑движка и роутера для маршрутизации запросов к LLM. А про проекты всех победителей почитать можно здесь.


Трек: Обработка и хранение данных

В трек входят: реляционные СУБД, NoSQL базы данных, NewSQL‑системы, S3, брокеры сообщений и инструменты для работы с ними. 

libmdbx → Леонид Юрьев

libmdbx — высокопроизводительная, компактная и встраиваемая (embedded) база данных класса «ключ‑значение». Проект зародился как переработка СУБД LMDB, но с 2015 года развивается независимо. За это время код был фактически переписан с нуля.

С конца 2025 года проект перешёл на поставку в виде амальгамированного исходного кода (single‑file‑source), что упростило его интеграцию в сторонний софт. Поддержка оригинального кода остаётся бесплатной и верифицируется по git tree hash. В ближайших планах — глобальный технологический транзит и эволюция движка в сторону полностью новой архитектуры MithrilDB.

DRUI → Сергей Зезюлин

Управление приватными Docker‑репозиториями через консоль часто превращается в рутину из‑за отсутствия наглядности и удобных инструментов навигации. Веб‑приложение DRUI решает эту задачу, предоставляя интерфейс для Docker Distribution на стеке Python. 

Инструмент разворачивается одной командой через Docker и позволяет быстро шэрить, фильтровать и инспектировать манифесты образов, включая аудит истории слоёв (build steps) и мультиархитектурных сборок. Вектор развития проекта направлен на совершенствование встроенной аналитики дискового пространства реестра, доработку выгрузки тегов в tar‑архивы и внедрение системы тегирования проверенных издателей.

Трек: Разработка

В трек входят: фреймворки, библиотеки и тулзы для фронтенда, бэкенда и мобильной разработки. 

mlut → Валентин Ульянов

Многие популярные Utility‑First фреймворки (вроде Tailwind CSS или Tachyons) часто критикуют за перегруженный синтаксис сложных конструкций, неочевидные сокращения классов и двусмысленность в именовании свойств. Эту проблему решает mlut — CSS‑инструментарий на базе Sass, главной особенностью которого стало строгое следование синтаксису и логике чистого CSS. 

Архитектура проекта построена на предсказуемом алгоритме сокращений (наподобие Emmet), предоставляя разработчику эргономичные классы, встроенную систему реактивных сигналов и состояний, а также мощный JIT‑движок, сканирующий разметку на лету. 

Инструмент бесшовно интегрируется в существующие проекты без конфликтов имён, работает как в AOT, так и в JIT‑режимах и поставляется с готовыми плагинами для Vite, Webpack и Rollup. В ближайших планах команды — глубокая оптимизация производительности компиляции, поддержка селекторов с аргументами (например,:has()), работа со сложными градиентами и выпуск расширений для автодополнения кода в IDE.

EffCSS → Марат Сабитов

Инструмент EffCSS представляет собой легковесную CSS‑in‑JS библиотеку, построенную исключительно на базе стандартных браузерных API без использования сторонних парсеров. Проект предлагает полноценную интеграцию стилей через экосистему JavaScript и TypeScript, позволяя генерировать изолированные, минифицированные селекторы прямо на этапе выполнения кода.

Ключевой особенностью архитектуры является концепция Stylesheet maker — функциональных контрактов, которые через строгую типизацию TS подсказывают разработчику доступные утилиты и поддерживают любые методологии вёрстки (включая BEM и функциональный Atomic CSS). 

Платформа независима от фреймворков, обладает нулевым количеством внешних зависимостей и совместима со всеми стратегиями рендеринга (CSR, SSR, SSG). Вектор развития фреймворка включает расширение возможностей кастомных инструментов отладки (Devtools для Firefox и Chromium‑браузеров) и оптимизацию глубокого слияния объектов конфигурации при декларативном описании динамических тем, анимаций и @property‑правил.

Утилиты для Playwright → Виталий Городков

Инструментарий Playwright Labs — модульная экосистема фикстур, утилит и репортеров, спроектированную для повышения стабильности и сквозного мониторинга сквозных (E2E) тестов. Проект ориентирован на расширение базовых возможностей Playwright, превращая его в полноценный фреймворк автоматизации с поддержкой ООП‑декораторов, валидации схем данных через AJV/Zod и генерации моков.

Архитектурно платформа разделена на изолированные npm‑пакеты, которые закрывают специфические потребности инфраструктурного тестирования: от оркестрации реальных Docker‑контейнеров через Testcontainers до глубокого инспектирования состояния фронтенд‑компонентов (через специализированные селекторные движки для Angular, React Fiber и Vue 3). Особое внимание в кодовой базе уделено наблюдаемости (Observability) — встроенный репортер нативно транслирует тестовые метрики и спаны в любые OTLP‑совместимые бэкенды вроде Jaeger или Prometheus. 

Платформа воспроизводимого бенчмаркинга → Андрей Сумской

Web Framework Benchmark (WFB) — инструмент для комплексного тестирования производительности веб‑фреймворков на различных языках программирования. В отличие от большинства синтетических бенчмарков, измеряющих лишь пропускную способность сокетов на тестах уровня Hello World, WFB фокусируется на симуляции реальной продуктовой нагрузки. Набор тестов включает ресурсоёмкую бизнес‑логику: от тяжёлой агрегации JSON‑данных интернет‑магазинов до многопоточных параллельных запросов к базам данных через ORM.

Архитектура системы реализована в виде изолированного рабочего пространства (workspace) на Rust. Встроенный CLI‑раннер (wfb‑runner) полностью берёт на себя оркестрацию Docker‑контейнеров, управление жизненным циклом баз данных и прогрев JIT‑компиляторов для честного сравнения платформ. Инструмент позволяет наглядно сопоставлять эффективность протоколов REST HTTP и gRPC при идентичной нагрузке, а генератор трафика строго валидирует корректность каждого ответа, отсекая любые манипуляции с кешированием. Проект снабжён интерактивным веб‑интерфейсом для визуализации гистограмм задержек (latency) и полностью готов к публичному деплою с поддержкой строгих политик безопасности (CSP, HSTS и CORS).

libBeresta → Дмитрий Соломенников

Библиотека libBeresta — кросс‑платформенный инструмент для низкоуровневой генерации PDF‑файлов, написанный на чистом ANSI C. Проект возник как глубокий архитектурный рефакторинг известной, но стагнирующей библиотеки libHaru. Главной задачей разработчиков было создание модульного и предсказуемого движка, который позволяет конструировать документы с текстом, графикой, аннотациями и изображениями (PNG, JPEG, TIFF) без необходимости погружаться в спецификации и внутреннее устройство формата Portable Document Format.

В отличие от предшественника, кодовая база libBeresta строго разделена на экспортируемую и приватную части, а её функциональность разбита на изолированные модули, что позволяет исключать неиспользуемые компоненты (например, криптографическое шифрование, сжатие или азиатские кодировки) для экономии памяти

Проект разрабатывается под лицензией MIT, поддерживает полную интернационализацию (включая кодировку UTF-8) и опирается на строгие инженерные регламенты: обязательное unit‑тестирование, валидацию задокументированных ошибок состояния (таких как BRST_INVALID_DOCUMENT) и проверку орфографии в коде. 

Трек: Искусственный интеллект

В трек входят: ML‑модели, датасеты и инструменты практического применения ИИ.

langchain‑localai → Михаил Хлуднев

Пакет langchain‑localai создавался для тех, кто разворачивает нейросети локально или в закрытом контуре компании и использует LangChain. Обычно коннекторы к LocalAI работают неторопливо, особенно если нужно обработать пачку документов за раз. Этот проект решает проблему со скоростью.

Разработчики перевели библиотеку на современный OpenAI SDK v1, благодаря чему появилась полноценная асинхронность, а массовая генерация эмбеддингов стала выполняться в разы быстрее. Плюс внутрь сразу зашили поддержку LocalAIRerank — это позволяет переранжировать результаты поиска и точнее отвечать на вопросы пользователя прямо внутри RAG‑систем. Пакет строго следит за версиями Python и LangChain, чтобы ничего не ломалось при обновлениях, а в будущем авторы планируют ещё сильнее разогнать пакетную обработку данных и повысить стабильность при нестабильном сетевом соединении.

Auto AI Router → Никита Лебедев

AI Router — высокопроизводительный прокси‑маршрутизатор, выступающий единой точкой входа для работы со всеми популярными большими языковыми моделями.

Инструмент позволяет гибко распределять потоки запросов к OpenAI, Vertex AI, Gemini AI Studio и Anthropic, а также может каскадно перенаправлять трафик на другие экземпляры роутера. «Из коробки» в систему заложены важные enterprise‑функции: автоматическая балансировка нагрузки для минимизации задержек и строгий Rate Limiting, защищающий квоты аккаунтов от внезапного исчерпания лимитов.

Отдельный упор автор сделал на безопасность и защиту инфраструктуры. Он интегрировал в маршрутизатор модуль защиты на базе концепции Fail2Ban. Система в реальном времени анализирует паттерны поведения, моментально вычисляет и отправляет в автоматический бан клиентов, которые злоупотребляют тяжёлыми запросами или пытаются зафлудить шлюз подозрительной активностью.

RAGU (Retrieval‑Augmented Generation & Understanding) → Михаил Комаров

RAGU — это модульный движок GraphRAG, разработанный для тех, кому стандартного векторного поиска уже не хватает и нужно строить полноценные графы знаний по текстовым документам. Проект частично основан на наработках nano‑graphrag и позволяет собирать, хранить и гибко опрашивать структурированные данные.

Вся работа разделена на понятные этапы: сначала сырой текст режется на стабильные чанки, затем нейросеть вытаскивает из них сущности и связи, а на этапе сборки графа движок сам дедуплицирует узлы, схлопывает описания и разбивает граф на кластеры по алгоритму Leiden. Но главная фишка RAGU — это гибкие стратегии поиска. Из коробки доступны локальный поиск (по конкретным узлам и их соседям), глобальный (по саммари крупных сообществ для широких вопросов) и наивный векторный RAG. А если этого мало, можно запустить микс‑режим, который опрашивает все поисковые движки разом. Библиотека написана на Python, легко ставится через uv или pip и поддерживает как облачные API, так и локальные модели из Hugging Face.


Как правило, весь опенсорс держится на людях, которые готовы годами развивать инструменты, библиотеки и инфраструктурные решения — часто в свободное время и без большой команды за спиной. Грантовая программа Yandex Open Source как раз про то, чтобы такие проекты получали ресурс на развитие: от рефакторинга и документации до новых фич, тестов и поддержки пользователей.

Мы продолжим поддерживать авторов открытых технологий и следить за тем, как развиваются проекты‑победители. Если вы развиваете open source‑проект в области данных, разработки или искусственного интеллекта — готовьтесь к следующему запуску программы: анонс нового набора появится на странице Yandex Open Source.

Автор: veged

Источник