- BrainTools - https://www.braintools.ru -

Как ИИ научился пользоваться компьютером и почему интернет к этому не готов — лучшие статьи ноября 2025

Как ИИ научился пользоваться компьютером и почему интернет к этому не готов — лучшие статьи ноября 2025 - 1

ИИ начал работать в реальных интерфейсах: он научился видеть экраны, кликать кнопки, писать код и сразу же проверять, что получилось. И оказывается интерфейсы, да и весь интернет проектировали для людей, но не для агентов.

В ноябре вышли исследования, которые показывают этот разрыв. Мы видим попытки научить ИИ действовать в человеческом мире — со всеми его визуальным шумом, неудобными интерфейсами и неявными правилами.

Ниже — 10 самых запоминающихся статей. Поехали!

1. Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

Сегодня ИИ пишет код, но не видит результата на экране. Он может сгенерировать график, который нечитаем, интерфейс — который сломан, или анимацию — которая визуально не соответствует задаче.

JanusCoder — набор моделей для мультимодального интеллектуального программирования; объединяет код с генерацией, редактированием и интерпретацией визуального контента для решения разных задач.

JanusCoder — набор моделей для мультимодального интеллектуального программирования; объединяет код с генерацией, редактированием и интерпретацией визуального контента для решения разных задач.

JanusCoder решает это так: модель работает сразу с текстом и изображением, запускает код и сравнивает ожидаемый и реальный визуальный результат.

Пайплайн работы JanusCode

Пайплайн работы JanusCode

Теперь разработка интерфейсов — это не только задача текстовой модальности, а мультимодальный пайплайн самопроверки итогового результата.

Сгенерированные интерфейсы в DesingBench

Сгенерированные интерфейсы в DesingBench

🔍 Обзор статьи [1]| 📜 Полная статья [2] | 💾 Код [3]

2. От пикселей к смыслу: как SVG помогает ИИ понимать мир

Большинство моделей видят изображение как шум из пикселей. Это плохо масштабируется в понимании сцены. Исследователи предлагают иное решение: переводить картинки в SVG — код с явными объектами и их связями и порядком.

VCode: RGB‑изображение переводится VLM‑кодером в символьный SVG‑код и обратно рендерится в изображение, сохраняя смысл

VCode: RGB‑изображение переводится VLM‑кодером в символьный SVG‑код и обратно рендерится в изображение, сохраняя смысл

SVG можно исполнять, проверять, редактировать и использовать для рассуждений. Эксперименты показывают, что ИИ начинает лучше переносить смысл сцены между задачами.

Прототип CodeVQA

Прототип CodeVQA

Так ИИ научился не просто «распознавать» картинку, а структурно визуально «мыслить».

Усиление агентов-кодеров ревизией и визуальными инструментами

Усиление агентов-кодеров ревизией и визуальными инструментами

🔍 Обзор статьи [4] | 📜 Полная статья [5] | 💾 Код [6]

3. Почему мышление через видео может быть следующим шагом в развитии ИИ

Мы привыкли, что ИИ рассуждает с помощью слов или статичных картинок, но в реальном мире существует ещё одно измерение — время. Ученые научили ИИ-модель мыслит с помощью видео: строить гипотезы, проверять их действиями и сразу корректировать.

Как выглядит мышление через видео: и визуальные, и текстовые задачи решаются в одном потоке кадров и речи

Как выглядит мышление [7] через видео: и визуальные, и текстовые задачи решаются в одном потоке кадров и речи

Такой подход резко улучшает решение пазлов, пространственных и геометрических задач.

Пазлы на раскрашивание и дорисовку фигур: модель не угадывает, а выводит правило и применяет его в кадре

Пазлы на раскрашивание и дорисовку фигур: модель не угадывает, а выводит правило и применяет его в кадре

Удивительно, как ИИ начинает «мыслить» не цепочкой токенов, а совершением во времени определенных действий.

В лабиринтах модель уверена на квадратной сетке, но теряется в других геометриях

В лабиринтах модель уверена на квадратной сетке, но теряется в других геометриях

🔍 Обзор статьи [8]| 📜 Полная статья [9] | 💾 Код [10]

4. Как обучить ИИ работать за компьютером

ИИ-агенты часто знают, что нужно сделать, но не понимают, куда нажать. В GroundCUA вместо синтетических данных использовали реальные рабочие интерфейсы и связали язык с конкретными UI-элементами.

Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.

Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.

Удивительно, что даже малые модели начинают точно попадать в кнопки и поля.

Интерфейс LibreOffice Calc

Интерфейс LibreOffice Calc
Пример интерфейса FreeCAD

Пример интерфейса FreeCAD
GIMP

GIMP

Вывод простой: прогресс компьютерных агентов определяется не размером модели, а качеством связи слов с элементами интерфейса.

🔍 Обзор статьи [11] | 📜 Полная статья [12]

5. Как универсальный ИИ-агент учится жить в открытом мире

Большинство универсальных агентов теряются в шумной, непредсказуемой среде. Агент Lumine идёт другим путём: он видит экран, действует мышью и клавиатурой, а размышляет только в нужные моменты.

Lumine — первый ИИ-агент, способный в реальном времени выполнять многочасовые миссии в обширных открытых 3D-мирах.

Lumine — первый ИИ-агент, способный в реальном времени выполнять многочасовые миссии в обширных открытых 3D-мирах.

Он может часами достигать сложных целей и переноситься в другие среды без дообучения.

Обзор игрового мира Genshin Impact: масштабное исследование открытого мира и многоуровневые задачи в интерактивной 3D‑среде. Игроки свободно перемещаются по регионам, парят, плавают, ныряют, взаимодействуют с персонажами и участвуют в квестах, головоломках и боях.

Обзор игрового мира Genshin Impact: масштабное исследование открытого мира и многоуровневые задачи в интерактивной 3D‑среде. Игроки свободно перемещаются по регионам, парят, плавают, ныряют, взаимодействуют с персонажами и участвуют в квестах, головоломках и боях.

Так ИИ научился не просто решать отдельные задачи, но и “выживать” в неопределенной среде.

Архитектура модели Lumine: на базе VLM получает пиксельный ввод и исторический контекст (предыдущие действия и рассуждения) и выдаёт текстовые команды клавиатуры и мыши. Использует гибридную стратегию рассуждений: генерирует новые шаги только при необходимости, иначе сразу выдаёт действия для эффективного управления в реальном времени.

Архитектура модели Lumine: на базе VLM получает пиксельный ввод и исторический контекст (предыдущие действия и рассуждения) и выдаёт текстовые команды клавиатуры и мыши. Использует гибридную стратегию рассуждений: генерирует новые шаги только при необходимости, иначе сразу выдаёт действия для эффективного управления в реальном времени.

🔍 Обзор статьи [13]| 📜 Полная статья [14]

6. Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

Полностью автономный ИИ-учёный пока работает не очень хорошо. Вместо этого исследователи предлагают сделать ИИ-джуна. Он улучшает одну конкретную статью — дописывает код, проверяет эксперименты, собирает черновик.

Рабочий пайплайн младшего ИИ-исследователя: предоставляются базовая статья, её LaTeX-исходники и код; их эффективное использование на всех этапах заметно повышает качество генерируемой статьи.

Рабочий пайплайн младшего ИИ-исследователя: предоставляются базовая статья, её LaTeX-исходники и код; их эффективное использование на всех этапах заметно повышает качество генерируемой статьи.

Качество резко растёт, но человек всё равно остаётся необходим.

Рабочий пайплайн младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности система передает наиболее перспективные экспериментальные узлы на следующую стадию.

Рабочий пайплайн младшего ИИ-исследователя на этапе экспериментов: три стадии; благодаря управлению ошибками и отслеживанию производительности система передает наиболее перспективные экспериментальные узлы на следующую стадию.

Так ИИ уже сегодня помогает учёным в науке [15], но только если они дают ему правильную роль.

Пример сгенерированной статьи: младший ИИ‑исследователь может создавать полноценные научные статьи с приложениями.

Пример сгенерированной статьи: младший ИИ‑исследователь может создавать полноценные научные статьи с приложениями.

🔍 Обзор статьи [16] | 📜 Полная статья [17] | 💾 Код [18]

7. Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

ИИ-агенты уже не просто пишут код, а сами наводят в нём порядок: переименовывают файлы, дробят длинные методы, выравнивают стиль и даже оформляют всё в аккуратные pull request’ы.

Схема дизайна исследования

Схема дизайна исследования

Такая «гигиена» реально улучшает читаемость и поддержку кода, но почти не затрагивает общую архитектуру.

Стандартизация имён переменных в нескольких файлах.

Стандартизация имён переменных в нескольких файлах.
Разбиение длинного метода на вспомогательные методы для повышения читаемости и уменьшения сложности.

Разбиение длинного метода на вспомогательные методы для повышения читаемости и уменьшения сложности.

Агентам можно смело отдавать рутину и технический долг, освобождая людей для дизайна системы. Это меняет саму модель работы с кодом — и тут стоит разобраться в деталях.

🔍 Обзор статьи [19] | 📜 Полная статья [20]| 💾 Код [21]

8. Как ИИ-агенты живут в “Станции” и делают научные открытия

До сегодняшнего дня ИИ для научных исследований работал по строгому конвейеру: сделали шаг → получили оценку → забыли контекст. Но проект “Станция” показывает, что для настоящих открытий решающим фактором становится сама среда.

Схема Станции. Агенты перемещаются по «комнатам» (публичная память, приватная память, рефлексия, исследовательская стойка) и сами выбирают следующий шаг.

Схема Станции. Агенты перемещаются по «комнатам» (публичная память [22], приватная память, рефлексия, исследовательская стойка) и сами выбирают следующий шаг.

Агенты живут в общей лаборатории: они помнят прошлые идеи, возвращаются к старым гипотезам, спорят между собой и сами выбирают, чем заниматься дальше. У них есть история, контекст и последствия действий. В результате они не просто улучшают метрики, а по ходу пути находят неожиданные методы и нетривиальные решения.

Кривая прогресса в математических задачах: видно, как качество решений растёт по мере жизни Station.

Кривая прогресса в математических задачах: видно, как качество решений растёт по мере жизни Station.

Главное открытие здесь не в бенчмарках. Оно в том, что наука для ИИ начинается с памяти, свободы и постоянной проверки реальностью. Без этого любая система — даже очень умная — легко скатывается в красивые, логичные, но ложные теории и обучаются неверные модели мира.

🔍 Обзор статьи [23] [24]| 📜 Полная статья [25] | 💾 Код [26]

9. Agent READMEs: An Empirical Study of Context Files for Agentic Coding

Команды уже начали писать README не для людей, а для агентов: как запускать проект, что можно менять, а что нельзя. Исследование показало, что эти файлы быстро растут и становятся сложнее обычной документации.

Пример контекстных файлов агента

Пример контекстных файлов агента

Это новый слой управления мышлением ИИ. Если относиться к нему как к коду — контроль сохраняется. Если нет — автономность обгонит безопасность.

Обзор методологии.

Обзор методологии.

🔍 Обзор статьи [27] | 📜 Полная статья [28] | 💾 Код [29]

10. Как сделать интернет удобным для ИИ-агентов

Сегодня веб-агенты работают на ощупь: смотрят на пиксели, угадывают клики, но всё ломается при любом редизайне. Исследователи предлагают сайтам явно описывать допустимые действия и текущее состояние. Таким образом агент перестаёт гадать и начинает работать по правилам.

Пример веб-приложения: список дел

Пример веб-приложения: список дел
Встроенные элементы VOIX в веб-приложении

Встроенные элементы VOIX в веб-приложении

Это действительно один из первых серьёзных шагов к настоящему интернету для людей и ИИ.

Приложение для графического дизайна: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.

Приложение для графического дизайна: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.

🔍 Обзор статьи [30]| 📜 Полная статья [31]

ИИ научился достигать сложных целей в неопределенной среде, видеть интерфейсы и проверять себя. Современные исследования заставляют задуматься о появлении “живого цифрового существа”, встроенного в наши привычные интерфейсы, код и любые цифровые процессы. Но именно здесь главная проблема — мир, который мы построили для людей, оказывается не очень удобной средой для агентов. Следующий скачок случится не в архитектурах и масштабах, а в переустройстве самой среды: когда интернет станет общей информационной средой для людей и ИИ.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [32]  [33]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: Dataist

Источник [34]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23910

URLs in this post:

[1] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F88

[2] 📜 Полная статья: https://arxiv.org/abs/2510.23538

[3] 💾 Код: https://github.com/InternLM/JanusCoder

[4] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F92

[5] 📜 Полная статья: https://arxiv.org/abs/2511.02778

[6] 💾 Код: https://github.com/CSU-JPG/VCode

[7] мышление: http://www.braintools.ru/thinking

[8] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F94

[9] 📜 Полная статья: https://arxiv.org/abs/2511.04570

[10] 💾 Код: https://github.com/tongjingqi/Thinking-with-Video

[11] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F95

[12] 📜 Полная статья : https://arxiv.org/abs/2511.07332

[13] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F96

[14] 📜 Полная статья : https://arxiv.org/abs/2511.08892

[15] науке: http://www.braintools.ru/article/7634

[16] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F93

[17] 📜 Полная статья: https://arxiv.org/abs/2511.04583

[18] 💾 Код: https://github.com/Agent4Science-UTokyo/Jr.AI-Scientist

[19] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F97

[20] 📜 Полная статья : https://arxiv.org/abs/2511.04824

[21] 💾 Код: https://github.com/Mont9165/Agent_Refactoring_Analysis

[22] память: http://www.braintools.ru/article/4140

[23] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F106

[24] : https://telegra.ph/Station-kak-II-agenty-zhivut-v-laboratorii-i-delayut-otkrytiya-12-29

[25] 📜 Полная статья: https://arxiv.org/html/2511.06309v1

[26] 💾 Код: https://github.com/dualverse-ai/station

[27] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F107

[28] 📜 Полная статья: https://arxiv.org/html/2511.12884v1

[29] 💾 Код: https://github.com/woraamy/Agent-Context-File-Analysis

[30] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F98

[31] 📜 Полная статья: https://arxiv.org/abs/2511.11287

[32] подписывайтесь на мой Telegram-канал: https://t.me/+2PhT9MUpBFowZTZi

[33]  : https://t.me/+Sk5dI1rbS5A4MzMy

[34] Источник: https://habr.com/ru/articles/982152/?utm_source=habrahabr&utm_medium=rss&utm_campaign=982152

www.BrainTools.ru

Rambler's Top100