multimodality.

OpenRouter запустил тестирование моделей генерации видео

https://openrouter.ai/models?fmt=cards&output_modalities=videoНа Openrouter впервые появились API трех моделей генерации видео. Пока только в "экспериментальном" режиме.

продолжить чтение

Оставлено в

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы....Зачем?

продолжить чтение

Оставлено в

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite

продолжить чтение

Оставлено в

Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.

продолжить чтение

Оставлено в

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

продолжить чтение

Оставлено в

Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках

Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.Эта статья научит вас, как создать Spring Boot приложение, которое работает с графикой и текстом, используя мультимодальность в Spring AI. Мультимодальность - это способность понимать и обрабатывать информацию одновременно из разных источников. Это определение охватывает текст, графические изображения, аудиофайлы и другие форматы данных. Исходный код

продолжить чтение

Оставлено в

Google призналась, что демонстрация мультимодальности Gemini — это постановка

6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

multimodality.

OpenRouter запустил тестирование моделей генерации видео

SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках

Google призналась, что демонстрация мультимодальности Gemini — это постановка

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

multimodality.