- BrainTools - https://www.braintools.ru -
Новая модель ИИ с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Модель Kimi-VL отличается способностью обрабатывать длинные документы, сложные рассуждения и понимать пользовательский интерфейс.

По данным Moonshot AI, Kimi-VL использует архитектуру «смесь экспертов», активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем у многих крупных моделей, — Kimi-VL показывает результаты, сопоставимые с результатами гораздо более крупных систем в различных тестах.
Модель может обрабатывать до 128 000 токенов в максимальном контексте, чего достаточно для обработки целой книги или длинной расшифровки видео. Moonshot AI сообщает, что Kimi-VL стабильно показывает высокие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.
Возможности Kimi-VL по обработке изображений примечательны. В отличие от некоторых систем, она может анализировать скриншоты или сложную графику, не разбивая их на более мелкие фрагменты. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В ходе одного теста он проанализировал рукопись, написанную от руки, выявил ссылки на Альберта Эйнштейна и объяснил их актуальность.
Система также функционирует как программный помощник, интерпретируя графические пользовательские интерфейсы и автоматизируя цифровые задачи. Компания Moonshot AI утверждает, что в тестах, в которых модель перемещалась по меню браузера или меняла настройки, она превзошла многие другие системы, включая GPT-4o.
По сравнению с другими моделями с открытым исходным кодом, такими как Qwen2.5-VL-7B и Gemma-3-12B-IT, Kimi-VL выглядит более эффективной. По данным Moonshot AI, она лидирует в 19 из 24 тестов, несмотря на то, что в ней гораздо меньше активных параметров. Сообщается, что в тестах MMBench-EN и AI2D она соответствует или превосходит результаты, которые обычно показывают более крупные коммерческие модели.
Компания объясняет такую производительность своим подходом к обучению [1]. Помимо стандартной контролируемой тонкой настройки, Kimi-VL использует обучение с подкреплением [2]. Специализированная версия под названием Kimi-VL-Thinking была обучена выполнять более длительные логические операции, повышая производительность при выполнении задач, требующих более сложных размышлений, таких как математические вычисления.
У Kimi-VL есть ограничения. Его текущий размер ограничивает производительность при выполнении задач, требующих больших объёмов языковых данных, или нишевых задач, и он по-прежнему сталкивается с техническими проблемами при работе с очень длинными контекстами, даже при расширенном окне контекста.
Moonshot AI заявляет, что планирует разработать более крупные версии моделей, включить в них больше обучающих данных и улучшить тонкую настройку. Заявленная долгосрочная цель компании — создать «мощную, но ресурсосберегающую систему», подходящую для реального использования в исследованиях и промышленности.
Ранее в этом году Moonshot AI выпустила Kimi k1.5 [3], мультимодальную модель для сложных рассуждений, которая, по заявлению компании, не уступает GPT-4o в тестах. Kimi k1.5 доступна в веб-интерфейсе kimi.ai [4]. Демонстрацию Kimi-VL можно найти на Hugging Face [5].
Источник [6]
Автор: mefdayy
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14679
URLs in this post:
[1] обучению: http://www.braintools.ru/article/5125
[2] подкреплением: http://www.braintools.ru/article/5528
[3] Moonshot AI выпустила Kimi k1.5: https://the-decoder.com/chinese-openai-o1-challenger-kimi-k1-5-now-available-as-free-web-version/
[4] kimi.ai: http://kimi.ai
[5] Hugging Face: https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking
[6] Источник: https://the-decoder.com/moonshot-ais-open-source-kimi-vl-tackles-text-images-and-video-with-just-2-8-billion-parameters/
[7] Источник: https://habr.com/ru/companies/bothub/news/904836/?utm_source=habrahabr&utm_medium=rss&utm_campaign=904836
Нажмите здесь для печати.