Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite
Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей
Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.
Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках
Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.Эта статья научит вас, как создать Spring Boot приложение, которое работает с графикой и текстом, используя мультимодальность в Spring AI. Мультимодальность - это способность понимать и обрабатывать информацию одновременно из разных источников. Это определение охватывает текст, графические изображения, аудиофайлы и другие форматы данных. Исходный код
Google призналась, что демонстрация мультимодальности Gemini — это постановка
6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

