Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ. acecoder.. acecoder. TDD.. acecoder. TDD. tigerlab.. acecoder. TDD. tigerlab. искусственный интеллект.. acecoder. TDD. tigerlab. искусственный интеллект. Машинное обучение.. acecoder. TDD. tigerlab. искусственный интеллект. Машинное обучение. Программирование.

Сегодня в HuggingFace Daily papers ачивку “#3 daily paper” завоевала работа китайских исследователей из TigerLab. Мне она показалась настолько логичной и классной, что захотелось побольше рассказать об этой новости.

Итак, при классическом обучении моделей есть этап Supervised Fine-Tuning, на котором люди вручную подготавливают датасет с примерами качественных ответов для ИИ. Собственно, эти примеры используются для до-обучения модели.

Проблема в том, что подготовка таких датасетов — их разметка, проверка и прочие этапы — требует участия человека, а это самый дорогой и ресурсоемкий процесс в обучении искусственного интеллекта.

В последнее время мы наблюдаем, что модели, обучаемые без ручной разметки, оказываются дешевле и обучаются быстрее, при таком же уровне качества. Прекрасный пример — DeepSeek R1-Zero, который был обучен исключительно на синтетических данных с использованием механизмов Reinforcement Learning, и обошелся в 25 раз дешевле, чем модели с аналогичным качеством.

В чем суть работы

Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ - 1

Исследователи использовали ИИ для создания коллекции пар “[задача] + [тесты для её проверки]”. Эта работа не требует больших интеллектуальных способностей ИИ, для написания тестов подходят даже простенькие модели.

Скажем, тест может использовать “наивный” алгоритм с полным перебором, и при этом качественно проверять правильные ли ответы выдает “основной” код.

В частности, используемая авторами методика привела к росту на 10 процентных пунктов производительности модели Llama-3.1-8B-Ins и росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).

Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей (справедливости ради, DeepSeek V2.5 – это модель с архитектурой Mixture of Expers, и в работе участвует только 21 миллиард параметров, то есть фактический рост в 3 раза).

Кроме того, обучение с подкреплением, основанное как на модели вознаграждения, так и на тест-кейсах, позволило добиться повышения точности программирования в нескольких ключевых бенчмарках, таких как HumanEval, MBPP, BigCodeBench и LiveCodeBench. Применение RL привело к улучшению результатов на HumanEval-plus на 25% и MBPP-plus на 6% всего за 80 шагов оптимизации (!), что демонстрирует невероятный потенциал RL в обучении моделей программированию.

Авторы подчеркивают, что их методология позволяет заменить дорогостоящий ручной труд автоматизированными процессами.

Заключение

Я уже много раз в своих статьях, и у себя в канале писал: DeepSeek открыли ящик Пандоры своей R1-Zero, теперь все кинутся искать Reinforcement Learning подходы без участия человека, и, кажется, мы увидим ещё не одну и не две новости на эту тему в 2025 году. Что и прекрасно, я искренне верю, что масштабирование обучения моделей – это сейчас один из главных барьеров на пути к более качественному ИИ.

—-

P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких “тихих” революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers/arXiv recents/GitHub Trending/прочие исследовательские площадки.

Я делаю это на ежедневной основе, и если нахожу такие алмазы – пишу про них у себя в Телеграм канале, вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.

Автор: ElKornacio

Источник

Rambler's Top100