Мозг и мультимодальные нейросети как генераторы виртуальной реальности
«Если люди — это способ Вселенной смотреть на себя, то виртуальная реальность — это способ Вселенной делать вид, что она смотрит на себя». (Уильям Браунинг Спенсер)«
Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%
OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime
Как мы строили KidFolio — цифровую платформу для родителей и детских садов
Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).В этой статье расскажем, как мы делали из идеи продукт:от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;как дообучали модели распознавания лиц под детский домен;
Жестовый язык: похожее в непохожем и наоборот
Привет, Хабр! Наша команда RnD CV продолжает приближать момент, когда компьютер по видео сможет распознавать жестовый язык (ЖЯ) глухих так же качественно, как речь. Сегодня мы расскажем, как собрали один из самых больших в мире датасетов изолированного русского жестового языка Logos, чем различаются визуально одинаковые жесты, как мы с помощью нашего датасета обучили универсальную модель-энкодер и попутно заняли первую строчку в бенчмарке распознавания американского жестового языка. По итогам этой работы мы опубликовали препринт.
Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?
Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AiConf X и HighLoad++ от «Онтико».
Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью
Пример работы нашей модели. Только текстовые запросы — никаких масок!
VLM против вмятин: Как нейросети оценивают повреждения авто по фото
Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?
Ollama 0.7.0 теперь поддерживает мультимодальные модели на своем «движке»
Вышла Ollama версии 0.7.0, которая расширила поддержку мультимодальных моделей с помощью нового специально разработанного движка. Теперь Ollama не зависит от проекта ggml-org/llama.cpp, сосредоточившись вместо этого на создании собственной надёжной основы для мультимодальных систем.
Trassir и Airi исследуют возможность использования ИИ‑моделей для улучшенного поиска краж и контроля сервиса по видео
Специалисты компании Trassir и института Airi провели первый этап исследований по использованию мультимодальных моделей искусственного интеллекта для анализа видео. Цель работы — создание систем, которые помогут расследовать кражи в магазинах. Об этом пресс‑служба Airi сообщила информационной службе Хабра.

