- BrainTools - https://www.braintools.ru -
Новая модель AI с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Kimi-VL выделяется своей способностью обрабатывать длинные документы, сложные рассуждения и понимание пользовательского интерфейса.

Согласно Moonshot AI, Kimi-VL использует архитектуру смеси экспертов, активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем многие крупные модели — Kimi-VL обеспечивает результаты, сопоставимые с гораздо более крупными системами в различных бенчмарках.
Модель может похвастаться максимальным контекстным окном в 128 000 токенов, что достаточно для обработки целой книги или длинной видеотрансляции. Moonshot AI сообщает, что Kimi-VL стабильно показывает хорошие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.
Возможности обработки изображений Kimi-VL примечательны. В отличие от некоторых систем, он может анализировать полные скриншоты или сложную графику, не разбивая их на более мелкие части. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В одном тесте он проанализировал рукописную рукопись, определил ссылки на Альберта Эйнштейна и объяснил их релевантность.
Источник [1]
Автор: dilnaz_04
Источник [2]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14678
URLs in this post:
[1] Источник: https://the-decoder.com/moonshot-ais-open-source-kimi-vl-tackles-text-images-and-video-with-just-2-8-billion-parameters/
[2] Источник: https://habr.com/ru/companies/bothub/news/904834/?utm_source=habrahabr&utm_medium=rss&utm_campaign=904834
Нажмите здесь для печати.