
Компания Runway модернизировала модель Gen-4.5 и представила GWM-1, первую в своем роде универсальную мировую модель.
В недавно представленной версии Gen-4.5 теперь есть встроенные функции генерации и редактирования звука, а также многокадровый монтаж, позволяющий пользователям вносить изменения в одну сцену, которые затем распространяются на всё видео.
Новый GWM-1 создает внутреннее представление окружающей среды для моделирования будущих событий в реальном времени. Построенный на архитектуре Gen-4.5, он генерирует видео покадрово, обеспечивая при этом интерактивное управление посредством таких входных данных, как движения камеры, команды робота или звук.
Модель мира поставляется в трех различных версиях: GWM Worlds для создания исследуемых локаций, GWM Avatars для генерации говорящих персонажей с реалистичной мимикой и синхронизацией губ, и GWM Robotics для создания синтетических обучающих данных для роботов. Компания Runway планирует в конечном итоге объединить эти возможности в единую унифицированную модель.
Лаборатории искусственного интеллекта соревнуются в создании моделей
Компания Runway – не единственная, кто стремится внедрить эту технологию. Рынок становится все более конкурентным.
Другие лаборатории, включая Google DeepMind и новый стартап исследователя ИИ Яна Лекуна , также разрабатывают модели окружающего мира. В отрасли эти системы рассматриваются как критически важный шаг вперед по сравнению с традиционными языковыми моделями, которым до сих пор не хватает фундаментального понимания физического мира . Генеральный директор Google DeepMind Демис Хассабис подтвердил , что создание этих моделей является центральным элементом стратегии компании по достижению общего искусственного интеллекта (AGI).
В гонке также участвует World Labs, стартап, основанный Фэй-Фэй Ли, который привлек 230 миллионов долларов для разработки «больших моделей мира» (LWM) с пространственным интеллектом . Компания недавно представила «Marble», прототип, способный создавать устойчивые 3D-среды на основе мультимодальных запросов. Мюнхенский стартап Spaitial разрабатывает пространственные базовые модели, предназначенные для генерации и интерпретации 3D-миров с согласованной физической динамикой.
Конкуренция продолжает расти. Стартапы Etched и Decart недавно представили проект «Oasis» – систему, которая генерирует играбельные 3D-миры в стиле Minecraft в реальном времени со скоростью 20 кадров в секунду. Хотя она позволяет осуществлять базовые взаимодействия, такие как прыжки и подбор предметов, она по-прежнему сталкивается с проблемами стабильности – игроки иногда оказываются в разных локациях, просто повернувшись.
В августе китайский технологический гигант Tencent выпустил Hunyuan World Model 1.0 – модель генеративного искусственного интеллекта с открытым исходным кодом, которая создает трехмерные виртуальные сцены на основе текстовых или графических подсказок.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


