GR00T N1.5: архитектура, данные и эволюция VLA-моделей
Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.
GPT для роботов: как ИИ учится действовать в реальном мире
Привет, Хабр! Меня зовут Артем Якимчук, я инженер-исследователь в Сколтехе и аспирант в области промышленной робототехники.Мы привыкли думать об LLM исключительно в контексте языковых задач: чат-боты, ассистенты, генерация текстов. Но что, если та же самая архитектура способна не просто говорить, но и действовать?Сегодня искусственный интеллект начинает работать и с физическими объектами: распознает их, принимает решения, выполняет задачи в реальном мире — и все это с помощью тех же моделей, которые вы знаете по чат-ботам.В этом материале по мотивам моего доклада для True Tech Day

