AI Bridge: Как по-простому дать Gemini «руки» для управления вашим компьютером. ai.. ai. automation.. ai. automation. Desktop Agent.. ai. automation. Desktop Agent. gemini.. ai. automation. Desktop Agent. gemini. pyautogui.. ai. automation. Desktop Agent. gemini. pyautogui. python.. ai. automation. Desktop Agent. gemini. pyautogui. python. автоматизация.
AI Bridge: Как по-простому дать Gemini «руки» для управления вашим компьютером - 1

Представьте: вы скидываете нейросети скриншот сложной программы (будь то Cinema 4D, Excel или 1С) и говорите: «Сделай мне вот это». И через секунду мышка на вашем экране начинает сама летать по кнопкам, выполняя работу за вас.

Это не магия и не дорогой корпоративный софт. Это AI Bridge — микро-утилита на Python, которую можно запустить за минуту.

Быстрый старт: Повторяем магию за 60 секунд

  1. Скачайте и запустите: http://schoolscience.org/ai_bridge/ai_bridge.exe. Появится маленькое окно «AI Bridge», которое всегда висит поверх остальных.

  2. Сделайте скриншот: Откройте любую программу (например, 3D-редактор). В окне моста нажмите Screen.

  3. Отправьте ИИ: Перейдите в чат с Gemini (или ChatGPT / Kimi). Нажмите Ctrl+V. Скриншот вашего окна уже в буфере.

  4. Задайте задачу: Напишите в чат:

    «Действуй как оператор моего ПК. Используй функции click(x, y), move(x, y) и pyautogui относительно левого верхнего угла окна на скриншоте (0,0). Пришли только чистый Python-код. Задача: [ваша задача, например: создать куб]».

  5. Выполните: Скопируйте в буфер полученный от ИИ код, вернитесь к AI Bridge и нажмите Execute.

Всё. Программа сама активирует нужное окно, «нацелится» и выполнит действия мышкой и клавиатурой. Если что-то пойдет не так — просто дерните мышкой, и умный «стоп-кран» мгновенно прервет выполнение.

Как это работает (для тех, кому интересно)

  • Относительные координаты: Наш мост не привязан к разрешению монитора. Каждая команда click(x, y) привязана к левому верхнему углу целевого окна. Вы можете двигать окно по экрану — ИИ все равно попадет точно в кнопку.

  • Программный фокус: Мы используем Win32 API (SetForegroundWindow), чтобы «телепортировать» нужное окно на передний план. Никаких лишних кликов в пустоту для активации.

  • Smart Sentinel (Безопасность): В скрипт встроен трекер позиции. Если во время работы ИИ вы сами коснетесь мыши, программа увидит расхождение координат и мгновенно «отпустит» управление.

  • Clipboard Pro: Мы научили скрипт работать с буфером обмена Windows на низком уровне (формат DIB), чтобы браузеры гарантированно видели скриншот как изображение.

https://github.com/mozg4D/ai-bridge

Пример управления Cinema4D через AI bridge:
https://rutube.ru/video/0815bdf0bae9c758e35f0e199aa3a9b6/

Зачем это нужно?

Есть программы, интерфейс которых настолько перегружен, что проще объяснить задачу словами, чем искать нужную вкладку. AI Bridge превращает ИИ в вашего личного ассистента, которому не нужно API — ему достаточно «видеть» экран.

Программа будет дорабатываться и становиться умнее. предлагайте ваши функции

Автор: mozg4d

Источник

Rambler's Top100