- BrainTools - https://www.braintools.ru -

В первом турнире по вайб-кодингу K Prize победитель смог решить только 7,5% задач

В первом турнире по вайб-кодингу K Prize победитель смог решить только 7,5% задач - 1

В первом этапе турнира по вайб-кодингу [1] под названием K Prize [2] победитель-разработчик смог решить [3] только 7,5% задач.

Соревнование K Prize — это проект некоммерческой организации Laude Institute при поддержке сооснователя Databricks и Perplexity Энди Конвински. Особенность состязания заключается в том, что задания для разработчиков берутся из списка новых задач с GitHub, чтобы исключить возможность подгонки ИИ-систем под сложный тест.

В первом турнире по вайб-кодингу K Prize победитель смог решить только 7,5% задач - 2

Призовой фонд первого раунда K Prize составил $50 000. В рамках проекта для первого опенсорс‑решения, преодолевшего рубеж в 90%, предусмотрен приз в размере $1 000 000.

Победителем первого турнира конкурса K Prize стал [4] инженер-разработчик из Бразилии Эдуардо Роша де Андраде. Его итоговый результат составил всего 7,5% правильных решений (closed 9 out of 120 github issues). «Мы хотели сделать по-настоящему сложный бенчмарк — и это получилось», — отметил Конвински.

В первом турнире по вайб-кодингу K Prize победитель смог решить только 7,5% задач - 3

Организаторы мероприятия пояснили, что популярные тесты вроде SWE‑Bench слишком лёгкие, а многие ИИ-модели учатся проходить их специально. Для мерпориятия K Prize задания именно выбирались среди новых, недавно опубликованных на GitHub проблем, чтобы никто не мог натренировать свои ИИ=алгоритмы заранее.

Например, на тесте SWE‑Bench лучшие ИИ-модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших ИИ-моделей не преодолела даже порог в 10%.

Профильные эксперты считают, что столь низкие результаты — важный сигнал для рынка, где заявляют об ИИ‑программистах, способных заменить людей, но по факту это не так.

Создатели конкурса K Prize планируют продолжать развитие проекта, чтобы получить объективную картину реальных возможностей ИИ‑разработки без искусственных подгонок.

«Если наши лучшие системы не могут справиться даже с 10% новых задач, пора взглянуть на индустрию без розовых очков», — заявил Конвински.

Автор: denis-19

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17620

URLs in this post:

[1] вайб-кодингу: https://habr.com/ru/news/921228/

[2] K Prize: https://www.kaggle.com/competitions/konwinski-prize/overview

[3] смог решить: https://x.com/andykonwinski/status/1948190936078684427

[4] стал: https://www.kaggle.com/competitions/konwinski-prize/leaderboard

[5] Источник: https://habr.com/ru/news/930832/?utm_source=habrahabr&utm_medium=rss&utm_campaign=930832

www.BrainTools.ru

Rambler's Top100