Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке. ai.. ai. tencent.. ai. tencent. Блог компании BotHub.. ai. tencent. Блог компании BotHub. ИИ.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. мультимодальность.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. мультимодальность. научно-популярное.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. мультимодальность. научно-популярное. нейросети.. ai. tencent. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. мультимодальность. научно-популярное. нейросети. Программирование.
Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке - 1

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision, объединяющую возможности обработки визуальных данных и текста в едином фреймворке. Модель способна не только распознавать изображения, но и рассуждать на их основе, решать сложные визуально-текстовые задачи, а также поддерживать мультиязычные кейсы, включая русский язык.

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке - 2

Ключевые особенности HunyuanVision включают глубокое понимание изображений и сцен (Visual Reasoning), поддержку нескольких языков (Multilingual Support), ведение диалогов на основе изображений и текста (Visual Dialogue) и способность рассуждать на уровне визуальных деталей (Thinking-on-Image). Эти возможности позволяют модели выполнять сложные задачи анализа, генерации и рассуждения по визуальной информации.

Версия HunyuanVision-1.5 демонстрирует продвинутые способности и высокую скорость работы. Модель показывает хорошие результаты при обработке мультиязычного текста, включая русский язык, хотя в некоторых случаях могут встречаться ошибки. Тем не менее, она уже готова для тестирования и использования в реальных сценариях.

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке - 3

Модель доступна через Tencent Cloud API и платформу LMArena (Direct Chat), а полный технический отчёт и веса модели Tencent обещает выпустить позже в октябре. Это позволит исследователям и разработчикам интегрировать HunyuanVision в собственные проекты и изучить её потенциал более подробно.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Автор: cognitronn

Источник

Rambler's Top100