- BrainTools - https://www.braintools.ru -
Мы выкинули всё лишнее. Никакого Python, гигабайтных зависимостей и консольных окон.
Это приложение весит всего 600 КБ.
Суть проста: Вы говорите нейросети, что нужно сделать на экране, а она физически перехватывает управление вашей мышью и клавиатурой, чтобы выполнить задачу. Открывает программы, заполняет формы, кликает по кнопкам — делает то, что вы попросили.
Скачиваете и запускаете https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe [1]
Никаких установок. Приложение само откроет браузер с интерфейсом управления.
Если вы закроете вкладку браузера — приложение автоматически закроется.
В интерфейсе вставьте ваш Google Gemini API Key.
Ключ берется бесплатно здесь [2].
Он сохраняется в браузере, каждый раз вводить не надо.
Приложение работает в фоне. Когда нужна помощь ИИ:
Сделайте снимок:
F9 — Скриншот всего экрана.
F10 — Скриншот только активного приложения.
Поставьте задачу:
В появившемся веб-интерфейсе введите запрос. Например: “помести папку “Отчеры” в корзину”.
Фича: Можно прямо на скриншоте маркером обвести нужную область, чтобы ИИ обратил на нее внимание [3].
Проверка и правка:
ИИ вернет список действий, а на скриншоте нарисуются траектории движения мыши.
Если траектория кажется кривой, вы можете мышкой перетащить точки прямо на картинке, скорректировав путь.
Магия:
Нажмите кнопку Execute. Агент заберет управление и выполнит действия.
Аварийная остановка: Если ИИ «понесло», просто резко дерните мышкой (сдвиг > 100px). Выполнение мгновенно прервется.
Весь проект — это один файл на C++ (WinAPI + GDI+). Веб-интерфейс вшит внутрь бинарника.
Чтобы нейросеть (Gemini 3) не промахивалась по кнопкам, мы реализовали несколько хитростей на этапе подготовки изображения:
Линейка: Перед отправкой на скриншот накладываются координатные линейки по краям. Это дает ИИ визуальный ориентир.
Нормализация: Координаты кликов приводятся к единому стандарту, независимо от разрешения вашего монитора.
Визуализация: Траектории, которые строит ИИ, — это не просто список команд, а интерактивный слой поверх скриншота, доступный для редактирования пользователем перед запуском.
Автор: mozg4d
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25397
URLs in this post:
[1] https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe: https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe
[2] здесь: https://www.google.com/url?sa=E&q=https%3A%2F%2Faistudio.google.com%2Fapp%2Fapikey
[3] внимание: http://www.braintools.ru/article/7595
[4] https://github.com/mozg4D/Tiny-Agent: https://github.com/mozg4D/Tiny-Agent
[5] Источник: https://habr.com/ru/articles/993328/?utm_campaign=993328&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.