- BrainTools - https://www.braintools.ru -

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 1

Исследователи ByteDance представили новый бенчмарк MIRA (Multimodal Imagination for Reasoning Assessment), который проверяет, как модели рассуждают, если им предоставлять промежуточные визуальные шаги. Бенчмарк включает 546 задач в 20 категориях, где необходимо видеть, а не просто читать: кубики, зеркала, траектории, силы и другие визуальные объекты.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 2

Эксперименты проводились в трёх режимах: Direct – прямой ответ модели, Text-CoT – рассуждение текстом, и Visual-CoT – рассуждение через рисунки и визуальные шаги. Результаты оказались впечатляющими. Ни одна модель не превысила 20% точности в Direct-режиме, а Text-CoT иногда снижал точность (например, Gemini 2.5 Pro терял 18%). В то же время Visual-CoT давал средний прирост точности +33,7%, особенно заметный в задачах по физике и точным наукам.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 3

Главный вывод исследования прост. Моделям нужен визуальный способ думать. Простые текстовые описания часто недостаточны для понимания пространства и причинно-следственных связей. Если дать модели скетчи промежуточных шагов, её способность рассуждать и решать сложные задачи значительно улучшается.

ByteDance доказала: моделям для рассуждений нужны картинки, а не только текст - 4

Делегируйте часть рутинных задач вместе с BotHub! [1] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [2] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник [3]

Автор: cognitronn

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21722

URLs in this post:

[1] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=NEW%20AI%20PARADIGM%20FROM%20GOOGLE%20ALLOWS%20MODELS%20TO%20LEARN%20INDEFINITELY

[2] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[3] Источник: https://arxiv.org/html/2511.02779v1

[4] Источник: https://habr.com/ru/companies/bothub/news/964860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=964860

www.BrainTools.ru

Rambler's Top100