- BrainTools - https://www.braintools.ru -

Google фактически изменил сам принцип работы Gemini с изображениями. Если раньше модель просто анализировала картинку целиком и отвечала на основе общего восприятия [1], то теперь она действует как исследователь. Gemini использует цикл «думай, действуй, наблюдай» и сама решает, какие операции нужно выполнить, чтобы лучше понять сцену.
На практике это выглядит так. Если на изображении есть мелкие детали, модель не гадает, а генерирует и исполняет код для увеличения фрагмента, обрезки нужной области или разметки объектов. При подсчете предметов Gemini сначала выделяет их рамками, нумерует и только потом считает. Это резко снижает количество ошибок, которые раньше возникали из за визуальных галлюцинаций.

Отдельно прокачали работу с таблицами и графиками. Вместо интерпретации «на глаз» модель теперь извлекает данные и проводит реальные вычисления через код. В результате ответы стали более строгими и проверяемыми, что особенно важно для аналитики, обучения [2] и работы с отчетами.
По данным Google, качество ответов в визуальных задачах выросло на 5–10 процентов. Обновление уже доступно в AI Studio, Vertex AI и в приложении Gemini в режиме Thinking. Фактически это приближает модель к полноценному визуальному агенту, который не просто смотрит на картинку, а активно с ней работает.
Делегируйте часть рутинных задач вместе с BotHub! [3] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейча��!
Источник [5]
Автор: cognitronn
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/24909
URLs in this post:
[1] восприятия: http://www.braintools.ru/article/7534
[2] обучения: http://www.braintools.ru/article/5125
[3] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=MICROSOFT%20STARTS%20ROLLING%20OUT%20MAIA%20200%20ACCELERATOR
[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[5] Источник: https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/
[6] Источник: https://habr.com/ru/companies/bothub/news/990608/?utm_source=habrahabr&utm_medium=rss&utm_campaign=990608
Нажмите здесь для печати.