Как Google DeepMind меняет реальность: от умных очков до создания целых миров за секунды

Недавно в эфире 60 Minutes (CBS News) вышел подробный репортаж о прорывных разработках Google DeepMind в сфере ИИ. Корреспондент Скотт Пелли протестировал сразу несколько по‑настоящему впечатляющих технологий — от «умных очков» Astra до моделей, мгновенно создающих интерактивные 3D‑миры в том числе для обучения ^[1] роботов. Давайте посмотрим, как это работает и чем все это может быть полезно.

Astra: ИИ‑ассистент, который «видит» и «слышит»

Astra ^[2]– это ИИ‑ассистент, подключенный к камере и микрофонам на специальных очках. Astra распознает объекты, читает эмоции ^[3] и даже придумывает истории о том, что видит. На видео видно, как журналист надел очки и спросил: «Что это за здание?» — и услышал: «Это Coal Drops Yard, торгово‑развлекательный район». В галерее Astra узнала картину Эдварда Хоппера «Автомат». На вопрос об эмоциях героини ИИ ответил, что она «задумчива и одинока», а затем придумал короткий рассказ о ее мыслях и чувствах. В интервью глава DeepMind Демис Хассабис признался, что не ожидал, насколько быстро ИИ‑системы смогут так уверенно понимать физический мир.

Veo 2: фотореалистичное видео по текстовому запросу

Еще два года назад демо‑версия модели DeepMind создавала размазанные ролики по тексту вроде «золотистый ретривер с крыльями». В новом Veo 2 ^[4] при более подробном описании получился почти что фильм: четко прорисованный щенок с прозрачными перистыми крыльями, бегущий по цветущему лугу, с солнечными бликами на перьях.

Пару примеров видео, созданных Veo 2:

Genie 2: 3D‑мир из одной фотографии

Главный сюрприз показа — модель Genie 2 ^[5], которая на основе одной статичной картинки строит интерактивную трёхмерную локацию. Сотрудник DeepMind загрузил фото водопада в Калифорнии. Genie 2 сгенерировала из него видео от первого лица: сперва вы стоите у края водопада, а затем ИИ «домысливает» дальше — появляются новые скалы, деревья и пейзажи за горизонтом. В другом примере бумажный самолетик парил над диким западом, а модель без остановки дорисовывала каждую следующую сцену. В DeepMind обучили «агента‑рыцаря»: он исследовал сгенерованный мир, поднялся по лестнице, а Genie 2 мгновенно «достраивала» окружающее пространство.

Хассабис объяснил, что такие «модели мира» станут основой для обучения реальных роботов: собирать огромные объемы данных в настоящем мире дорого и медленно, а в симуляции можно «прокачать» алгоритм практически без ограничений, а затем доработать на небольшом количестве реальных примеров.

Перспективы и уличные съемки

DeepMind уже пробует задействовать огромную базу Google: снимки Street View, данные карт и спутников. В будущем это поможет дать ИИ‑системам «географическое чутье» и позволит делать из ваших обычных фотографий полностью интерактивные 3D‑сцены — будь то пейзажи с отпуска или вид из окна соседней улицы.

Все эти технологии демонстрируют, как быстро развиваются ИИ-системы. Ближайшая цель DeepMind — не просто развлечь людей, а создать универсальную «модель мира», которая поймет реальные законы физики и поможет в обучении роботов и развитии виртуальных миров.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал ^[6] – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и обьясняю, как работают все эти ИИ-чудеса.

Автор: Dataist

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14460

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] Astra : https://deepmind.google/technologies/project-astra/

[3] эмоции: http://www.braintools.ru/article/9540

[4] В новом Veo 2: https://deepmind.google/technologies/veo/veo-2/

[5] модель Genie 2: https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

[6] подписывайтесь на мой Telegram-канал: https://t.me/+wQqSYqr1zKlkZDVi

[7] Источник: https://habr.com/ru/news/902788/?utm_source=habrahabr&utm_medium=rss&utm_campaign=902788

Нажмите здесь для печати.