- BrainTools - https://www.braintools.ru -

ИИ начал работать в реальных интерфейсах: он научился видеть экраны, кликать кнопки, писать код и сразу же проверять, что получилось. И оказывается интерфейсы, да и весь интернет проектировали для людей, но не для агентов.
В ноябре вышли исследования, которые показывают этот разрыв. Мы видим попытки научить ИИ действовать в человеческом мире — со всеми его визуальным шумом, неудобными интерфейсами и неявными правилами.
Ниже — 10 самых запоминающихся статей. Поехали!
Сегодня ИИ пишет код, но не видит результата на экране. Он может сгенерировать график, который нечитаем, интерфейс — который сломан, или анимацию — которая визуально не соответствует задаче.
JanusCoder решает это так: модель работает сразу с текстом и изображением, запускает код и сравнивает ожидаемый и реальный визуальный результат.
Теперь разработка интерфейсов — это не только задача текстовой модальности, а мультимодальный пайплайн самопроверки итогового результата.
🔍 Обзор статьи [1]| 📜 Полная статья [2] | 💾 Код [3]
Большинство моделей видят изображение как шум из пикселей. Это плохо масштабируется в понимании сцены. Исследователи предлагают иное решение: переводить картинки в SVG — код с явными объектами и их связями и порядком.
SVG можно исполнять, проверять, редактировать и использовать для рассуждений. Эксперименты показывают, что ИИ начинает лучше переносить смысл сцены между задачами.
Так ИИ научился не просто «распознавать» картинку, а структурно визуально «мыслить».
🔍 Обзор статьи [4] | 📜 Полная статья [5] | 💾 Код [6]
Мы привыкли, что ИИ рассуждает с помощью слов или статичных картинок, но в реальном мире существует ещё одно измерение — время. Ученые научили ИИ-модель мыслит с помощью видео: строить гипотезы, проверять их действиями и сразу корректировать.
Такой подход резко улучшает решение пазлов, пространственных и геометрических задач.
Удивительно, как ИИ начинает «мыслить» не цепочкой токенов, а совершением во времени определенных действий.
🔍 Обзор статьи [8]| 📜 Полная статья [9] | 💾 Код [10]
ИИ-агенты часто знают, что нужно сделать, но не понимают, куда нажать. В GroundCUA вместо синтетических данных использовали реальные рабочие интерфейсы и связали язык с конкретными UI-элементами.
Удивительно, что даже малые модели начинают точно попадать в кнопки и поля.
Вывод простой: прогресс компьютерных агентов определяется не размером модели, а качеством связи слов с элементами интерфейса.
🔍 Обзор статьи [11] | 📜 Полная статья [12]
Большинство универсальных агентов теряются в шумной, непредсказуемой среде. Агент Lumine идёт другим путём: он видит экран, действует мышью и клавиатурой, а размышляет только в нужные моменты.
Он может часами достигать сложных целей и переноситься в другие среды без дообучения.
Так ИИ научился не просто решать отдельные задачи, но и “выживать” в неопределенной среде.
🔍 Обзор статьи [13]| 📜 Полная статья [14]
Полностью автономный ИИ-учёный пока работает не очень хорошо. Вместо этого исследователи предлагают сделать ИИ-джуна. Он улучшает одну конкретную статью — дописывает код, проверяет эксперименты, собирает черновик.
Качество резко растёт, но человек всё равно остаётся необходим.
Так ИИ уже сегодня помогает учёным в науке [15], но только если они дают ему правильную роль.
🔍 Обзор статьи [16] | 📜 Полная статья [17] | 💾 Код [18]
ИИ-агенты уже не просто пишут код, а сами наводят в нём порядок: переименовывают файлы, дробят длинные методы, выравнивают стиль и даже оформляют всё в аккуратные pull request’ы.
Такая «гигиена» реально улучшает читаемость и поддержку кода, но почти не затрагивает общую архитектуру.
Агентам можно смело отдавать рутину и технический долг, освобождая людей для дизайна системы. Это меняет саму модель работы с кодом — и тут стоит разобраться в деталях.
🔍 Обзор статьи [19] | 📜 Полная статья [20]| 💾 Код [21]
До сегодняшнего дня ИИ для научных исследований работал по строгому конвейеру: сделали шаг → получили оценку → забыли контекст. Но проект “Станция” показывает, что для настоящих открытий решающим фактором становится сама среда.
Агенты живут в общей лаборатории: они помнят прошлые идеи, возвращаются к старым гипотезам, спорят между собой и сами выбирают, чем заниматься дальше. У них есть история, контекст и последствия действий. В результате они не просто улучшают метрики, а по ходу пути находят неожиданные методы и нетривиальные решения.
Главное открытие здесь не в бенчмарках. Оно в том, что наука для ИИ начинается с памяти, свободы и постоянной проверки реальностью. Без этого любая система — даже очень умная — легко скатывается в красивые, логичные, но ложные теории и обучаются неверные модели мира.
🔍 Обзор статьи [23] [24]| 📜 Полная статья [25] | 💾 Код [26]
Команды уже начали писать README не для людей, а для агентов: как запускать проект, что можно менять, а что нельзя. Исследование показало, что эти файлы быстро растут и становятся сложнее обычной документации.
Это новый слой управления мышлением ИИ. Если относиться к нему как к коду — контроль сохраняется. Если нет — автономность обгонит безопасность.
🔍 Обзор статьи [27] | 📜 Полная статья [28] | 💾 Код [29]
Сегодня веб-агенты работают на ощупь: смотрят на пиксели, угадывают клики, но всё ломается при любом редизайне. Исследователи предлагают сайтам явно описывать допустимые действия и текущее состояние. Таким образом агент перестаёт гадать и начинает работать по правилам.
Это действительно один из первых серьёзных шагов к настоящему интернету для людей и ИИ.
🔍 Обзор статьи [30]| 📜 Полная статья [31]
ИИ научился достигать сложных целей в неопределенной среде, видеть интерфейсы и проверять себя. Современные исследования заставляют задуматься о появлении “живого цифрового существа”, встроенного в наши привычные интерфейсы, код и любые цифровые процессы. Но именно здесь главная проблема — мир, который мы построили для людей, оказывается не очень удобной средой для агентов. Следующий скачок случится не в архитектурах и масштабах, а в переустройстве самой среды: когда интернет станет общей информационной средой для людей и ИИ.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [32] [33]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: Dataist
Источник [34]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23910
URLs in this post:
[1] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F88
[2] 📜 Полная статья: https://arxiv.org/abs/2510.23538
[3] 💾 Код: https://github.com/InternLM/JanusCoder
[4] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F92
[5] 📜 Полная статья: https://arxiv.org/abs/2511.02778
[6] 💾 Код: https://github.com/CSU-JPG/VCode
[7] мышление: http://www.braintools.ru/thinking
[8] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F94
[9] 📜 Полная статья: https://arxiv.org/abs/2511.04570
[10] 💾 Код: https://github.com/tongjingqi/Thinking-with-Video
[11] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F95
[12] 📜 Полная статья : https://arxiv.org/abs/2511.07332
[13] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F96
[14] 📜 Полная статья : https://arxiv.org/abs/2511.08892
[15] науке: http://www.braintools.ru/article/7634
[16] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F93
[17] 📜 Полная статья: https://arxiv.org/abs/2511.04583
[18] 💾 Код: https://github.com/Agent4Science-UTokyo/Jr.AI-Scientist
[19] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F97
[20] 📜 Полная статья : https://arxiv.org/abs/2511.04824
[21] 💾 Код: https://github.com/Mont9165/Agent_Refactoring_Analysis
[22] память: http://www.braintools.ru/article/4140
[23] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F106
[24] : https://telegra.ph/Station-kak-II-agenty-zhivut-v-laboratorii-i-delayut-otkrytiya-12-29
[25] 📜 Полная статья: https://arxiv.org/html/2511.06309v1
[26] 💾 Код: https://github.com/dualverse-ai/station
[27] 🔍 Обзор статьи: https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F107
[28] 📜 Полная статья: https://arxiv.org/html/2511.12884v1
[29] 💾 Код: https://github.com/woraamy/Agent-Context-File-Analysis
[30] 🔍 Обзор статьи : https://telegra.ph/embed/telegram?url=https%3A%2F%2Ft.me%2Fdataism_science%2F98
[31] 📜 Полная статья: https://arxiv.org/abs/2511.11287
[32] подписывайтесь на мой Telegram-канал: https://t.me/+2PhT9MUpBFowZTZi
[33] : https://t.me/+Sk5dI1rbS5A4MzMy
[34] Источник: https://habr.com/ru/articles/982152/?utm_source=habrahabr&utm_medium=rss&utm_campaign=982152
Нажмите здесь для печати.