- BrainTools - https://www.braintools.ru -

Большие языковые модели уверенно пишут функции и отдельные файлы, но теряются, когда нужно собрать проект целиком. На длинной дистанции естественный язык становится ненадежным: расплывчатые формулировки, несовпадающие интерфейсы, утечки зависимостей, рассыпавшаяся структура. В итоге агент меняет решение по ходу работы, тесты плывут, а кодовая база превращается в набор фрагментов.
Исследователи предлагают заменить расплывчатые планы устойчивым графом. Repository Planning Graph (RPG) — это единое представление, где в узлах живут файлы, классы, функции; а рёбра фиксируют семантические связи, потоки данных и порядок реализации. Так в одном формате сходятся два мира: что строим и как именно это будет устроено в коде.
RPG — это не только идея, но и рабочий фреймворк ZeroRepo. Он собирает репозиторий в три шага:
1) Планирование на уровне возможностей: из короткой спецификации выбирается релевантное поддерево из огромного дерева фич (более 1.5 млн узлов). Здесь же происходит реорганизация: близкие функции объединяются в модули с хорошей связностью.
2) Планирование реализации: граф дополняется файловой структурой, интерфейсами, типизированными потоками данных. Появляется топологический порядок — что и в какой последовательности писать.
3) Генерация кода по графу: узел за узлом, с тестовой валидацией в стиле TDD. В репозиторий попадает только то, что прошло тесты.
Чтобы измерить качеств, авторы собрали RepoCraft — бенчмарк из шести реальных Python‑проектов (аналоги scikit‑learn, pandas, sympy, statsmodels, requests, django) и 1,052 задач. Требование жесткое: из минимального описания нужно построить весь репозиторий и пройти эталонные тесты. Меряют широту функционала (coverage), корректность (pass rate), масштаб кода и новизну.
На RepoCraft ZeroRepo показывает заметный задел. В среднем генерируется около 36 тысяч строк кода — примерно в 3.9 раза больше, чем у сильного базлайна Claude Code, и в десятки раз больше, чем у остальных участников. Функциональное покрытие достигает 81.5%, а доля пройденных тестов — 69.7%. Это на 27.3 и 35.8 процентных пункта выше, чем у Claude Code соответственно. Важно и то, что RPG стабилизирует интерфейсы, помогает выдерживать границы модулей и согласовывать потоки данных.
Почти линейное масштабирование. И по числу фич, и по строкам кода рост близок к линейному, пока есть бюджет на планирование. Языковые пайплайны без графа быстро выходят на плато.
Понимание репозитория агентом. По журналам локализации RPG сокращает шаги поиска и правок на 30–50%: есть где искать, какие зависимости трогать и что сломается при изменении.
Управляемая новизна. Система не просто копирует известные компоненты, а предлагает новые функции (11–13% новизны) без разрыва целостности архитектуры.
Разные модели — разные траектории. Qwen3‑Coder агрессивнее расширяет покрытие, o3‑mini сдержаннее и ровнее распределяет фичи по подграфам. Оба стратегически дополняют друг друга по оси полноты и точности.
RPG превращает расплывчатый план в формальный артефакт, который одинаково понимают и LLM, и инженер. Он даёт предсказуемость: топологический порядок, стабильные интерфейсы, явные каналы данных. В такой среде легче масштабировать разработку, подключать новых агентов и людей, проводить целенаправленную отладку и интеграцию.
Но RPG не волшебная палочка: система сильно зависит от качества исходных спецификаций, тестов и покрытия доменных сценариев в глобальном дереве фич. В сложных экосистемах потребуется точная настройка под домен и аккуратная работа с инфраструктурными частями проекта. Но направление выглядит зрелым: графовые представления снимают главный барьер долгосрочного планирования.
📜 Полная статья [1]
***
Если вам интересна тема ИИ, [2]подписывайтесь на мой Telegram‑канал [3] [4]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19773
URLs in this post:
[1] 📜 Полная статья: https://arxiv.org/abs/2509.16198
[2] : https://t.me/+mP35nQPhgXZmZDYy
[3] подписывайтесь на мой Telegram‑канал: https://t.me/+sMYiOlqcFEc2YjQy
[4] : https://t.me/+9nDCqOqSLiM3NTVi
[5] Источник: https://habr.com/ru/articles/949286/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949286
Нажмите здесь для печати.