- BrainTools - https://www.braintools.ru -

Открытый исходный код Kimi-VL от Moonshot AI обрабатывает текст, изображения и видео всего с 2,8 миллиардами параметров

Новая модель AI с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Kimi-VL выделяется своей способностью обрабатывать длинные документы, сложные рассуждения и понимание пользовательского интерфейса.

Открытый исходный код Kimi-VL от Moonshot AI обрабатывает текст, изображения и видео всего с 2,8 миллиардами параметров - 1

Согласно Moonshot AI, Kimi-VL использует архитектуру смеси экспертов, активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем многие крупные модели — Kimi-VL обеспечивает результаты, сопоставимые с гораздо более крупными системами в различных бенчмарках.

Модель может похвастаться максимальным контекстным окном в 128 000 токенов, что достаточно для обработки целой книги или длинной видеотрансляции. Moonshot AI сообщает, что Kimi-VL стабильно показывает хорошие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.

Тройной анализ изображений: сравнение городских локаций с воздуха, горизонт Торонто с Роджерс-центром, футуристическая киберпанковская игровая сцена с неоновым освещением.

Kimi-VL демонстрирует сильный визуальный анализ в различных сценариях. | Изображение: Moonshot A

Возможности обработки изображений Kimi-VL примечательны. В отличие от некоторых систем, он может анализировать полные скриншоты или сложную графику, не разбивая их на более мелкие части. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В одном тесте он проанализировал рукописную рукопись, определил ссылки на Альберта Эйнштейна и объяснил их релевантность.

Источник [1]

Автор: dilnaz_04

Источник [2]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14678

URLs in this post:

[1] Источник: https://the-decoder.com/moonshot-ais-open-source-kimi-vl-tackles-text-images-and-video-with-just-2-8-billion-parameters/

[2] Источник: https://habr.com/ru/companies/bothub/news/904834/?utm_source=habrahabr&utm_medium=rss&utm_campaign=904834

www.BrainTools.ru

Rambler's Top100