Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg. Блог компании Kodik.. Блог компании Kodik. ИИ.. Блог компании Kodik. ИИ. искусственный интеллект.

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в том числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. При этом условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет.

Авторы ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить конкретный баг». Однако в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в такой всесторонней деятельности ранее почти не измерялись систематически.

Сейчас результаты оказались такими: ни одна текущая модель не справляется с задачами целиком (так, чтобы получившееся приложение проходило 100% тестов). Порой проходит часть тестов, и это обычно не в случае с FFmpeg, а при воссоздании куда более простых CLI-приложений вроде утилиты fzf:

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg - 1

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:

#		Model	Agent	Resolved help_outline	Almost resolved help_outline
1	Anthropic	Claude Opus 4.7 Anthropic	mini-SWE-agent	0%	3.0%
2	Anthropic	Claude Opus 4.6 Anthropic	mini-SWE-agent	0%	2.5%
3	Anthropic	Claude Sonnet 4.6 Anthropic	mini-SWE-agent	0%	1.0%
4	OpenAI	GPT 5.4 OpenAI	mini-SWE-agent	0%	0.0%
5	Google	Gemini 3.1 Pro Google	mini-SWE-agent	0%	0.0%
6	Google	Gemini 3 Flash Google	mini-SWE-agent	0%	0.0%
7	Anthropic	Claude Haiku 4.5 Anthropic	mini-SWE-agent	0%	0.0%
8	OpenAI	GPT 5.4 mini OpenAI	mini-SWE-agent	0%	0.0%
9	OpenAI	GPT 5 mini OpenAI	mini-SWE-agent	0%	0.0%

Комментаторы зачастую замечают, что и у живых людей обычно не получилось бы воссоздать FFmpeg без интернет-доступа. Поскольку результаты ИИ также околонулевые, порой возникает вопрос, считать ли этот бенчмарк решаемым в принципе. Авторы отвечают, что бенчмарк намеренно сделан очень сложным, однако решаемым. И они ожидают, что он будет считаться сложным ещё некоторое время.

В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, бенчмарк переставал отражать различия моделей. В ответ на сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.

Автор: Kodik_AI

Источник

Запись добавлена: 05.05.2026 в 19:05
Оставлено в

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов