ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст. bytedance.. bytedance. Блог компании BotHub.. bytedance. Блог компании BotHub. Будущее здесь.. bytedance. Блог компании BotHub. Будущее здесь. ИИ.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. исследование.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. исследование. Машинное обучение.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. исследование. Машинное обучение. машинное+обучение.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. исследование. Машинное обучение. машинное+обучение. научно-популярное.. bytedance. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. исследование. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 1

Исследователи ByteDance представили новый бенчмарк MIRA (Multimodal Imagination for Reasoning Assessment), который проверяет, как модели рассуждают, если им предоставлять промежуточные визуальные шаги. Бенчмарк включает 546 задач в 20 категориях, где необходимо видеть, а не просто читать: кубики, зеркала, траектории, силы и другие визуальные объекты.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 2

Эксперименты проводились в трёх режимах: Direct – прямой ответ модели, Text-CoT – рассуждение текстом, и Visual-CoT – рассуждение через рисунки и визуальные шаги. Результаты оказались впечатляющими. Ни одна модель не превысила 20% точности в Direct-режиме, а Text-CoT иногда снижал точность (например, Gemini 2.5 Pro терял 18%). В то же время Visual-CoT давал средний прирост точности +33,7%, особенно заметный в задачах по физике и точным наукам.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 3

Главный вывод исследования прост. Моделям нужен визуальный способ думать. Простые текстовые описания часто недостаточны для понимания пространства и причинно-следственных связей. Если дать модели скетчи промежуточных шагов, её способность рассуждать и решать сложные задачи значительно улучшается.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 4

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100