Открытый исходный код Kimi-VL от Moonshot AI обрабатывает текст, изображения и видео всего с 2,8 миллиардами параметров. ai.. ai. kimi.. ai. kimi. Блог компании BotHub.. ai. kimi. Блог компании BotHub. изображения.. ai. kimi. Блог компании BotHub. изображения. искусственный интеллект.

Новая модель AI с открытым исходным кодом от китайского стартапа Moonshot AI обрабатывает изображения, текст и видео с удивительной эффективностью. Kimi-VL выделяется своей способностью обрабатывать длинные документы, сложные рассуждения и понимание пользовательского интерфейса.

Открытый исходный код Kimi-VL от Moonshot AI обрабатывает текст, изображения и видео всего с 2,8 миллиардами параметров - 1

Согласно Moonshot AI, Kimi-VL использует архитектуру смеси экспертов, активируя только часть модели для каждой задачи. Имея всего 2,8 миллиарда активных параметров — гораздо меньше, чем многие крупные модели — Kimi-VL обеспечивает результаты, сопоставимые с гораздо более крупными системами в различных бенчмарках.

Модель может похвастаться максимальным контекстным окном в 128 000 токенов, что достаточно для обработки целой книги или длинной видеотрансляции. Moonshot AI сообщает, что Kimi-VL стабильно показывает хорошие результаты в таких тестах, как LongVideoBench и MMLongBench-Doc.

Тройной анализ изображений: сравнение городских локаций с воздуха, горизонт Торонто с Роджерс-центром, футуристическая киберпанковская игровая сцена с неоновым освещением.

Kimi-VL демонстрирует сильный визуальный анализ в различных сценариях. | Изображение: Moonshot A

Возможности обработки изображений Kimi-VL примечательны. В отличие от некоторых систем, он может анализировать полные скриншоты или сложную графику, не разбивая их на более мелкие части. Модель также обрабатывает математические задачи с изображениями и рукописные заметки. В одном тесте он проанализировал рукописную рукопись, определил ссылки на Альберта Эйнштейна и объяснил их релевантность.

Источник

Автор: dilnaz_04

Источник

Rambler's Top100