- BrainTools - https://www.braintools.ru -

TinyAgent.exe: ИИ берет мышь и клавиатуру

Интерфейс tinyAgent

Интерфейс tinyAgent

Мы выкинули всё лишнее. Никакого Python, гигабайтных зависимостей и консольных окон.
Это приложение весит всего 600 КБ.

Суть проста: Вы говорите нейросети, что нужно сделать на экране, а она физически перехватывает управление вашей мышью и клавиатурой, чтобы выполнить задачу. Открывает программы, заполняет формы, кликает по кнопкам — делает то, что вы попросили.

1. Запуск

Скачиваете и запускаете https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe [1]
Никаких установок. Приложение само откроет браузер с интерфейсом управления.
Если вы закроете вкладку браузера — приложение автоматически закроется.

2. Настройка (один раз)

В интерфейсе вставьте ваш Google Gemini API Key.

  • Ключ берется бесплатно здесь [2].

  • Он сохраняется в браузере, каждый раз вводить не надо.

3. Использование

Приложение работает в фоне. Когда нужна помощь ИИ:

  1. Сделайте снимок:

    • F9 — Скриншот всего экрана.

    • F10 — Скриншот только активного приложения.

  2. Поставьте задачу:
    В появившемся веб-интерфейсе введите запрос. Например: “помести папку “Отчеры” в корзину”.
    Фича: Можно прямо на скриншоте маркером обвести нужную область, чтобы ИИ обратил на нее внимание [3].

  3. Проверка и правка:
    ИИ вернет список действий, а на скриншоте нарисуются траектории движения мыши.

    • Если траектория кажется кривой, вы можете мышкой перетащить точки прямо на картинке, скорректировав путь.

  4. Магия:
    Нажмите кнопку Execute. Агент заберет управление и выполнит действия.

Аварийная остановка: Если ИИ «понесло», просто резко дерните мышкой (сдвиг > 100px). Выполнение мгновенно прервется.

Что под капотом?

Весь проект — это один файл на C++ (WinAPI + GDI+). Веб-интерфейс вшит внутрь бинарника.

Чтобы нейросеть (Gemini 3) не промахивалась по кнопкам, мы реализовали несколько хитростей на этапе подготовки изображения:

  1. Линейка: Перед отправкой на скриншот накладываются координатные линейки по краям. Это дает ИИ визуальный ориентир.

  2. Нормализация: Координаты кликов приводятся к единому стандарту, независимо от разрешения вашего монитора.

  3. Визуализация: Траектории, которые строит ИИ, — это не просто список команд, а интерактивный слой поверх скриншота, доступный для редактирования пользователем перед запуском.

https://github.com/mozg4D/Tiny-Agent [4]

Автор: mozg4d

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25397

URLs in this post:

[1] https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe: https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe

[2] здесь: https://www.google.com/url?sa=E&q=https%3A%2F%2Faistudio.google.com%2Fapp%2Fapikey

[3] внимание: http://www.braintools.ru/article/7595

[4] https://github.com/mozg4D/Tiny-Agent: https://github.com/mozg4D/Tiny-Agent

[5] Источник: https://habr.com/ru/articles/993328/?utm_campaign=993328&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100