- BrainTools - https://www.braintools.ru -

OpenAI рекомендовала разработчикам больше не использовать бенчмарк SWE-bench Verified для проверки способностей ИИ-моделей к программированию. Этот набор задач был создан самой компанией в 2024 году и быстро стал одним из ключевых стандартов для сравнения coding-моделей.
Со временем выяснилось, что значительная часть заданий и способов их решения уже присутствовала в обучающих данных современных моделей. В результате оценки начали искажаться, поскольку системы могли воспроизводить знакомые паттерны вместо реального решения новых задач. Дополнительной проблемой стало качество самого датасета: по данным OpenAI, более половины задач содержат неточности или некорректные условия.
В компании отмечают, что подобная ситуация типична для популярных бенчмарков. Как только тест становится индустриальным стандартом, он неизбежно попадает в обучающие выборки и перестает отражать реальные возможности моделей.
В качестве альтернативы OpenAI предлагает использовать SWE-Bench Pro. Новый бенчмарк создавался с учетом утечек данных и должен лучше проверять способность моделей работать с незнакомыми репозиториями и реальными инженерными задачами.
Делегируйте часть рутинных задач вместе с BotHub [1]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [2] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [3]
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26207
URLs in this post:
[1] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=ANTHROPIC_LEARNED_AI_MODEL_TO_CODE_COBOL
[2] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim
[3] Источник: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
[4] Источник: https://habr.com/ru/companies/bothub/news/1003548/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003548
Нажмите здесь для печати.