«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии. ACT.. ACT. Action Chunking Transformer.. ACT. Action Chunking Transformer. reinforcement-learning.. ACT. Action Chunking Transformer. reinforcement-learning. rl.. ACT. Action Chunking Transformer. reinforcement-learning. rl. Vision-Language-Action.. ACT. Action Chunking Transformer. reinforcement-learning. rl. Vision-Language-Action. VLA.. ACT. Action Chunking Transformer. reinforcement-learning. rl. Vision-Language-Action. VLA. робототехника.
«Обучение на опыте» для малых моделей: переносим методы Physical Intelligence на ACT без использования VLA или диффузии - 1

Поведенческое клонирование (BC) – это доминирующая парадигма в ИИ-робототехнике, которая позволяет моделям обучаться имитации роботов под управлением человека на основе успешных действий. При обучении BC-политики мы исключаем ошибки из датасета, чтобы тренироваться только на успешных эпизодах – в конце концов, мы не хотим учиться подражать ошибкам!

Самое перспективное направление в ИИ-робототехнике сегодня – это «обучение на опыте». Поскольку BC-политики учатся только имитировать успешные действия, им трудно восстанавливаться после ошибок, которые неизбежно случаются в сложных сценариях реального мира. Умение отличать хорошие действия от плохих помогло бы политике освоить механизмы восстановления и оптимизировать скорость и эффективность движений. Постобучение через обучение с подкреплением (RL) обещает именно это – обучение на своих ошибках, а не просто имитацию поведения человека.

Пожалуй, самая интересная научная работа в области робототехники этой осенью вышла у Physical Intelligence. Они представили свой метод Pi*0.6 для постобучения базовых моделей роботов через оффлайн-RL. Сначала вы классифицируете действия как «сильные» или «слабые» в зависимости от того, насколько они выгодны, а затем просто добавляете эту классификацию в окно контекста политики действий. В процессе работы мы запрашиваем «сильные» действия, что позволяет сэмплировать варианты из набора, который привел к хорошим результатам во время обучения. Нет нужды в PPO или других сложных градиентных методах, нет проблем с регуляризацией или катастрофическим забыванием, которые часто за ними следуют. Просто говоришь: «Мне нужны хорошие действия», и робот их выполняет. Звучит слишком хорошо, правда?

PPO (Proximal Policy Optimization)

Один из самых популярных алгоритмов обучения с подкреплением, разработанный OpenAI в 2017 году. Если говорить просто, это метод, который учит нейросеть принимать решения (считай, выбирать действия), анализируя полученный опыт. В робототехнике он долгое время считался стандартом.

Хотя в статье Physical Intelligence описывается метод постобучения для больших базовых VLA-моделей, я хотел проверить, сработает ли тот же механизм кондиционирования по преимуществу в моделях поменьше. ACT – это политика на базе трансформера, которую часто используют как бейзлайн в обучении роботов из-за ее простоты, легкости обучения и сравнительно низкой задержки при инференсе. Раз я уже показал, что ACT может работать как эффективная value-модель, мне стало интересно: сработает ли кондиционирование в стиле Pi*0.6 и на этой архитектуре? Давайте проверим!


Нам нужно всего несколько изменений, чтобы обучить ACT-политики с кондиционированием по преимуществу. Чтобы рассчитать истинные метки вознаграждения для каждого кадра в датасете, мы вручную помечаем каждый эпизод как успешный или неудачный. Неудачи происходят либо из-за истечения времени, либо из-за ошибки робота, в результате которой блок выпадает из зоны его досягаемости.

Для успешных эпизодов вознаграждение – это количество кадров до конца (например, если осталось 200 кадров, ревард будет -200), а для неудачных мы добавляем большую отрицательную константу C (допустим, C = -10 000) к количеству оставшихся кадров, чтобы обеспечить очень низкое значение. Затем мы обучаем value-функцию оценивать это истинное вознаграждение, нормализуя значения от 0 до 1 (или от -1 до 0 – на практике это не важно).

В качестве функции ценности мы используем RewACT – мою опенсорсную модификацию ACT-политики, заменив оригинальную регрессионную голову предсказания ценности на классификатор по бинам, обученный с помощью кросс-энтропии, чтобы соответствовать статье Pi. Полезное свойство этого метода заключается в том, что самый нижний бин фактически оценивает вероятность ошибки на конкретном временном шаге, что само по себе может служить полезным сигналом. Судя по результатам экспериментов, RewACT способна выучить достаточно надежное представление ожидаемых вознаграждений для задачи по постройке башни, которую я использовал в качестве примера в этом проекте.

Визуализация предсказанных вознаграждений на новом примере (ускорение 3x) показывает, что наша value-функция достаточно хорошо учится предсказывать ожидаемые вознаграждения.
Визуализация предсказанных вознаграждений на новом примере (ускорение 3x) показывает, что наша value-функция достаточно хорошо учится предсказывать ожидаемые вознаграждения.
Визуализируя вероятность самого нижнего бина, мы также можем получить аппроксимацию предсказания сбоев в качестве интересного побочного эффекта. Обучающий датасет несбалансирован: в нем мало полных провалов и гораздо больше успешных выполнений через механизмы восстановления. Добавление данных об ошибках, скорее всего, сделает эти прогнозы точнее и потенциально полезнее для мониторинга поведения робота в рантайме.

Визуализируя вероятность самого нижнего бина, мы также можем получить аппроксимацию предсказания сбоев в качестве интересного побочного эффекта. Обучающий датасет несбалансирован: в нем мало полных провалов и гораздо больше успешных выполнений через механизмы восстановления. Добавление данных об ошибках, скорее всего, сделает эти прогнозы точнее и потенциально полезнее для мониторинга поведения робота в рантайме.

Предсказания value-модели используются для расчета адвантажа каждого действия. Это определяется сравнением разницы между текущим предсказанным ревардом и ревардом через горизонт действий N (в данном случае N=50) с истинными метками: мы смотрим, больше или меньше предсказанное изменение реварда, чем реальное. Логика расчета такова: «сильные» действия должны увеличивать ревард на временном горизонте сильнее, чем среднее действие (полное математическое определение есть в статье Pi).

Мы также используем несколько эвристик: вмешательствам человека всегда присваивается положительный адвантаж (как в статье Pi), тогда как N действий, предшествующих вмешательству, получают отрицательный адвантаж, так как именно они привели к необходимости вмешательства (эту эвристику я добавил сам после нескольких попыток). Мы снова можем построить график рассчитанных значений адвантажа для этого эпизода из нашего обучающего датасета.

График значений адвантажа очень похож на то, как я бы разметил их сам. Я даже удивился, насколько хорошо работает эта часть системы.

График значений адвантажа очень похож на то, как я бы разметил их сам. Я даже удивился, насколько хорошо работает эта часть системы.

Пока все идет хорошо. Теперь нам остается только добавить значение адвантажа как дополнительный токен во входные данные нашей ACT-модели (с вероятностью дропаута 0.3, как в статье Pi) и итеративно обучать модель. По мере прохождения RL-цикла мы должны получать все более качественные результаты.

Вот роллаут обученной мной ACT-политики с кондиционированием по адвантажу. Цель – собрать кубики в башню, единственное ограничение: фиолетовый блок должен быть в самом низу. Судите сами.

Как и могли предположить математически подкованные читатели, это не работает. Похоже, добавление одного токена адвантажа в контекст трансформерной модели не позволяет четко разделить распределение положительных и отрицательных действий так, как это делает кондиционирование в диффузионных политиках. Обучение имитации ошибок не приведет к положительным результатам.

«Может, проблема в данных или задача слишком сложная?», – скажете вы. В качестве абляции я также обучил обычную ACT-модель только на демонстрациях и коррекциях человека, исключив из датасета все кадры под управлением самой политики.

Результаты намного лучше! Эта политика все еще иногда ошибается, но это наверняка можно исправить после пары раундов ручной коррекции. Вот еще примеры запусков из разных начальных положений, включая как провалы, так и успехи с небольшой помощью человека. Это для тех, кто любит смотреть на роботов и скептически относится к предвзято отобранным демкам.

Неудачный роллаут: робот не может выровнять гриппер относительно желтого кубика для захвата. Ситуация, когда робот не находит блок и застревает, – пожалуй, самый частый сценарий отказа, так как неудачные попытки размещения обычно можно повторить, если только блоки не выпадают из зоны досягаемости манипулятора.

Успешное выполнение, хотя роботу требуется несколько попыток для установки блоков в башню и небольшая помощь человека при захвате.

Еще один успех, хотя потребовалась помощь в выравнивании башни относительно блока в гриппере.

Еще один полностью автономный успех, несмотря на трудности с поиском блока для захвата в самом начале. Это чтобы показать, что первый раз не был просто везением :)

Заключительная глава для ACT

Выпущенная 2.5 года назад, ACT стала одной из самых влиятельных архитектур для обучения роботов за последние годы. Небольшой размер нейросети, возможность обучения на обычных пользовательских видеокартах, низкие задержки, не требующие асинхронного инференса, и поведение, которое в целом более «интуитивно», чем у диффузионных политик, сделали ее общепринятым бейзлайном и отличной отправной точкой для разработчиков. Базовые модели привлекают все внимание, но если пообщаться с инженерами, поразительно, как многие признаются, что их эффектное демо – это «просто ACT».

В этом году название ACT было переиспользовано одним из ее авторов, Тони Чжао, для ACT-1 – базовой модели от Sunday Robotics, которая, несмотря на название, не основана на оригинальной архитектуре. Этот ребрендинг случился очень вовремя. Маленькие узкоспециализированные модели вроде ACT были невероятно успешны, но их ограничения начинают проявляться. Обучение управлению роботом с нуля каждый раз при тренировке новой задачи больше не кажется правильным подходом.

Большинство своих экспериментов в 2025 году я провел на базе архитектуры ACT. Сейчас подходящее время, чтобы попрощаться с ней. Возможно, я еще повторю эксперимент с кондиционированием по адвантажу на базе такой же компактной Diffusion Policy, если будет время интегрировать ее в стек обучения, но более правильное направление для 2026 года – это фокус на масштабировании. Нравятся вам VLA или нет, будущее робототехники за базовыми моделями. Предобучение остается дорогим и по данным, и по ресурсам, но прелесть базовых моделей в их гибкости при файн-тюнинге и постобучении, а также в их применимости для других прикладных задач. Здесь открывается много возможностей, посмотрим, что нам удастся найти :)

Подписывайтесь на наш Telegram-канал. Там мы публикуем полезные подборки от инженеров и делимся инсайтами.

Автор: FaryaRos

Источник

Rambler's Top100