Новая модель AI с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Kimi-VL выделяется своей способностью обрабатывать длинные документы, сложные рассуждения и понимание пользовательского интерфейса.

Согласно Moonshot AI, Kimi-VL использует архитектуру смеси экспертов, активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем многие крупные модели — Kimi-VL обеспечивает результаты, сопоставимые с гораздо более крупными системами в различных бенчмарках.
Модель может похвастаться максимальным контекстным окном в 128 000 токенов, что достаточно для обработки целой книги или длинной видеотрансляции. Moonshot AI сообщает, что Kimi-VL стабильно показывает хорошие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.
Возможности обработки изображений Kimi-VL примечательны. В отличие от некоторых систем, он может анализировать полные скриншоты или сложную графику, не разбивая их на более мелкие части. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В одном тесте он проанализировал рукописную рукопись, определил ссылки на Альберта Эйнштейна и объяснил их релевантность.
Автор: dilnaz_04


