TinyAgent.exe: ИИ берет мышь и клавиатуру. ai.. ai. automation.. ai. automation. Desktop Agent.. ai. automation. Desktop Agent. gemini.. ai. automation. Desktop Agent. gemini. pyautogui.. ai. automation. Desktop Agent. gemini. pyautogui. автоматизация.
Интерфейс tinyAgent

Интерфейс tinyAgent

Мы выкинули всё лишнее. Никакого Python, гигабайтных зависимостей и консольных окон.
Это приложение весит всего 600 КБ.

Суть проста: Вы говорите нейросети, что нужно сделать на экране, а она физически перехватывает управление вашей мышью и клавиатурой, чтобы выполнить задачу. Открывает программы, заполняет формы, кликает по кнопкам — делает то, что вы попросили.

1. Запуск

Скачиваете и запускаете https://github.com/mozg4D/Tiny-Agent/raw/main/tinyagent.exe
Никаких установок. Приложение само откроет браузер с интерфейсом управления.
Если вы закроете вкладку браузера — приложение автоматически закроется.

2. Настройка (один раз)

В интерфейсе вставьте ваш Google Gemini API Key.

  • Ключ берется бесплатно здесь.

  • Он сохраняется в браузере, каждый раз вводить не надо.

3. Использование

Приложение работает в фоне. Когда нужна помощь ИИ:

  1. Сделайте снимок:

    • F9 — Скриншот всего экрана.

    • F10 — Скриншот только активного приложения.

  2. Поставьте задачу:
    В появившемся веб-интерфейсе введите запрос. Например: “помести папку “Отчеры” в корзину”.
    Фича: Можно прямо на скриншоте маркером обвести нужную область, чтобы ИИ обратил на нее внимание.

  3. Проверка и правка:
    ИИ вернет список действий, а на скриншоте нарисуются траектории движения мыши.

    • Если траектория кажется кривой, вы можете мышкой перетащить точки прямо на картинке, скорректировав путь.

  4. Магия:
    Нажмите кнопку Execute. Агент заберет управление и выполнит действия.

Аварийная остановка: Если ИИ «понесло», просто резко дерните мышкой (сдвиг > 100px). Выполнение мгновенно прервется.

Что под капотом?

Весь проект — это один файл на C++ (WinAPI + GDI+). Веб-интерфейс вшит внутрь бинарника.

Чтобы нейросеть (Gemini 3) не промахивалась по кнопкам, мы реализовали несколько хитростей на этапе подготовки изображения:

  1. Линейка: Перед отправкой на скриншот накладываются координатные линейки по краям. Это дает ИИ визуальный ориентир.

  2. Нормализация: Координаты кликов приводятся к единому стандарту, независимо от разрешения вашего монитора.

  3. Визуализация: Траектории, которые строит ИИ, — это не просто список команд, а интерактивный слой поверх скриншота, доступный для редактирования пользователем перед запуском.

https://github.com/mozg4D/Tiny-Agent

Автор: mozg4d

Источник

Rambler's Top100