- BrainTools - https://www.braintools.ru -
Всем привет! Меня зовут Александр, я COO в SaaS-платформе для аналитики данных. Последний год активно изучаю AI-решения в кросс-функциональные процессы. В своих переводах делюсь материалами, которые помогают:
Продуктовым менеджерам — интегрировать AI без перегрузки команд;
Разработчикам — выбирать инструменты под конкретные бизнес-задачи;
Специалистам по данным — избегать ошибок в production-развертывании.
Сегодняшний перевод The Open-Source Toolkit for Building AI Agents [1] — гид по open-сервисам для создания автономных AI-агентов. Вы узнаете, как собрать стек под свои нужды, даже если у вас нет ML-инженеров в штате. Автор провел селективный анализ open-source экосистемы, отбросив маркетинговый шум и сосредоточившись на реально работающих решениях.
В прошлом посте я исследовал, как интернет трансформируется для агент-ориентированного будущего — от оптимизации сайтов для взаимодействия с ИИ через «агент-отзывчивый дизайн» до появления AEO (Agent Engine Optimization) как нового SEO. Мы увидели, как технологические гиганты вроде Google, Apple, OpenAI и Anthropic соревнуются в определении следующего этапа цифровой трансформации, а Gartner прогнозирует, что к 2028 году 33% корпоративных приложений будут включать агентный ИИ (Agent-Responsive Design: Rethinking the web for an agentic future [2]).
В этой статье я представлю обзор open-source экосистемы для разработки ИИ-агентов. Хотя существуют многочисленные маркет-мапы агентов, большинство из них ориентированы на венчурных инвесторов, а не на разработчиков. Давайте сосредоточимся на практических инструментах для создания рабочих агентов уже сегодня.
Какие решения используют разработчики для создания голосовых агентов? Какая open-модель лидирует в обработке документов? Новые пакеты появляются почти ежедневно — я фокусируюсь исключительно на самых эффективных инструментах по моему опыту [3]. Этот список сознательно селективен, а не всеобъемлющ.
Все указанные инструменты имеют разрешительную open-source лицензию и доступны для коммерческого использования.
Охваченные категории:
→ Фреймворки для создания агентов
→ Работа с компьютером и браузером
→ Голосовые интерфейсы
→ Понимание документов
→ Память [4] агентов
→ Тестирование и оценка
→ Мониторинг и наблюдаемость
→ Симуляция окружения
→ Вертикальные агенты
Создание AI-агентов требует мощных фреймворков, способных обрабатывать сложные рабочие процессы, управлять памятью и интегрировать инструменты. Эти базовые фреймворки служат основой для создания агентов, которые могут понимать, планировать и автономно выполнять задачи.
CrewAI [5] — фреймворк для оркестрации ролевых автономных AI-агентов
Phidata [6] — создание AI-ассистентов с памятью, знаниями и инструментами
Camel [7] — построение кастомизированных мультиагентных систем для генерации данных, выполнения задач или симуляции реальных взаимодействий
AutoGPT [8] — создание, развертывание и управление непрерывными AI-агентами для автоматизации сложных процессов
AutoGen [9] — разработка LLM-приложений с использованием нескольких взаимодействующих агентов
SuperAGI [10] — быстрое и надежное создание, управление и запуск автономных AI-агентов
Superagent [11] — открытый фреймворк для построения AI-ассистентов
LangChain [12] и LlamaIndex [13] — классические инструменты для реализации AI Agents через композицию элементов
Для того, чтобы AI-агенты стали по-настоящему полезными, они должны взаимодействовать с компьютерами и браузерами как люди. Эти инструменты позволяют агентам навигировать по сайтам, управлять приложениями и выполнять команды программно, создавая мост между логикой [14] ИИ и реальными действиями.
Open Interpreter [15] — преобразует команды на естественном языке в исполняемый код на локальной машине
Self-Operating Computer [16] — позволяет мультимодальным моделям управлять компьютером
Agent-S [17] — открытый фреймворк для человекообразного взаимодействия с компьютерами
LaVague [18] — создание веб-агентов, выполняющих действия на сайтах с использованием LLM как движка логики
Playwright [19] — фреймворк для автоматизации и тестирования веб-приложений
Puppeteer [20] — JavaScript-библиотека для высокоуровневого управления Chrome/Firefox
Голосовые интерфейсы представляют собой наиболее естественный способ взаимодействия человека с AI-агентами. Эти инструменты позволяют создавать агентов, которые понимают устную речь, сохраняют контекст в диалогах и отвечают естественно звучащей речью, делая взаимодействие с AI более доступным и интуитивно понятным.
Speech2speech
Ultravox [21] — модель для речевого взаимодействия в реальном времени, на данный момент превосходит Moshi
Moshi [22] — система речевого взаимодействия в реальном времени
Pipecat [23] — фреймворк для голосовых и мультимодальных AI, поддерживающий speech2text, text2speech, видео и другие функции
Speech2text
Whisper [24] — speech2text модель от OpenAI
Stable-ts [25] — облегчённая обёртка для Whisper с временными метками
Speaker diarization 3.1 [26] — флагманская модель pyannote для детекции говорящих
Text2speech
Единственной достойной открытой моделью в этой категории я считаю ChatTTS, которая подходит для продакшена. В остальных случаях я предпочитаю использовать ElevenLabs или Cartesia.
Дополнительные инструменты
Vocode [27] — набор инструментов для создания голосовых LLM-агентов
Voice Lab [28] — комплексная система тестирования и оценки голосовых агентов с поддержкой различных языковых моделей, промптов и персонажей
Современным AI-агентам необходимо обрабатывать и понимать документы в различных форматах — от PDF до изображений с текстом. Эти инструменты предоставляют критически важную возможность извлекать, анализировать и действовать на основе информации из неструктурированных документов, позволяя агентам работать с реальными бизнес-процессами.
Qwen2-VL [29] — мультимодальная модель от Alibaba, превосходящая GPT-4o и Claude 3.5 Sonnet в задачах обработки документов
DocOwl2 [30] — эффективная мультимодальная LLM для понимания документов без использования OCR
Qwen2 демонстрирует высокую эффективность в понимании документов и графиков при использовании коммерчески разрешённой лицензии
Память
Без памяти AI-агенты ограничиваются одношаговыми взаимодействиями. Эти инструменты позволяют агентам сохранять контекст длинных диалогов, запоминать предпочтения пользователей и учиться на прошлых взаимодействиях, превращая их в персональных ассистентов вместо простых ответчиков на запросы.
Mem0 [31] — обеспечивает эффективный самообучающийся слой памяти для LLM, позволяя создавать персонализированные AI-интерфейсы
Letta (ранее MemGPT) [32] — создание LLM-агентов с долгосрочной памятью и кастомными инструментами
LangChain [12] — предлагает компоненты памяти для управления историей диалогов и контекстом
По мере усложнения AI-агентов надёжное тестирование становится критически важным. Эти инструменты помогают разработчикам оценивать производительность агентов, выявлять точки сбоев и обеспечивать стабильность работы в различных сценариях и окружениях.
Voice Lab [28] — комплексный фреймворк для тестирования и оценки голосовых агентов
AgentOps [33] — инструменты для мониторинга и бенчмаркинга производительности агентов
AgentBench [34] — набор тестов для оценки LLM как агентов в различных окружениях (веб, Minecraft, визуальный дизайн и др.)
Понимание того, как AI-агенты работают в продакшене, критически важно для поддержания их надежности и оптимизации затрат. Эти инструменты предоставляют аналитику о поведении [35] агентов, использовании ресурсов и метриках производительности, необходимых для масштабирования.
openllmetry [36] – инструмент сквозной наблюдаемости на базе OpenTelemetry для LLM-приложений
AgentOps [33] – мониторинг агентов, трекинг затрат на LLM, бенчмаркинг и другие функции
Прежде чем развертывать агентов в реальных сценариях, критически важно тестировать их в контролируемых средах. Эти инструменты симуляции позволяют разработчикам проверять поведение [37] агентов, тестировать крайние случаи и совершенствовать способности к принятию решений в безопасных, воспроизводимых условиях.
AgentVerse [38] — позволяет развертывать множественных агентов на основе LLM в различных приложениях, включая симуляции
Tau-Bench [39] — бенчмарк и тестовый код для взаимодействий агент-пользователь в реальных доменах, таких как розничная торговля и авиалинии
ChatArena [40] — среды для многопользовательских языковых игр, предназначенные для исследований автономных LLM-агентов
AI Town [41] — Виртуальный город, где ИИ-персонажи живут, общаются и взаимодействуют
Generative Agents [42] — Интерактивные симулякры человеческого поведения от Стэнфорда
Вертикальные агенты
Существуют десятки открытых вертикальных агентов, поэтому приведу лишь несколько избранных, с которыми я экспериментировал и нашёл наиболее полезными:
OpenHands [43] (Разработка) — платформа для агентов разработки ПО на базе ИИ
aider [44] (Программирование) — парное программирование в вашем терминале
GPT Engineer [45] (Low code) — создание приложений с использованием естественного языка. Укажите, что хотите построить, и ИИ уточнит детали перед реализацией
screenshot-to-code [46] — преобразование скриншотов в рабочий веб-сайт с использованием HTML/Tailwind/React/Vue
GPT Researcher [47] (Исследования) — автономный агент для комплексного анализа заданной темы
Vanna [48] (SQL) — общайтесь с вашей SQL-базой данных
Хотя этот материал сосредоточен на open-source решениях с пермиссивными лицензиями, я планирую выпустить ещё один исчерпывающий гид для инженеров, разрабатывающих голосовых агентов. Это руководство будет включать как open-source, так и коммерческие инструменты — от Realtime API OpenAI (speech2speech) до ElevenLabs (text2speech), с детальным сравнением их возможностей, ценовых моделей и оптимальных сценариев использования.
Следите за новыми глубокими погружениями в рамках серии материалов об AI-агентах.
Выше взгляд в будущее от автора инструкции 😅
От себя добавлю, что планирую продолжить выкладывать полезные материалы и переводы, которые подмечаю по теме AI, развития продукта и не только.
Автор: Kual
Источник [49]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13114
URLs in this post:
[1] The Open-Source Toolkit for Building AI Agents: https://substack.com/inbox/post/152246141
[2] Agent-Responsive Design: Rethinking the web for an agentic future: https://www.aitidbits.ai/p/agent-responsive-design
[3] опыту: http://www.braintools.ru/article/6952
[4] Память: http://www.braintools.ru/article/4140
[5] CrewAI: https://github.com/crewAIInc/crewAI
[6] Phidata: https://github.com/phidatahq/phidata
[7] Camel: https://github.com/camel-ai/camel
[8] AutoGPT: https://github.com/Significant-Gravitas/AutoGPT
[9] AutoGen: https://github.com/microsoft/autogen
[10] SuperAGI: https://github.com/TransformerOptimus/SuperAGI
[11] Superagent: https://github.com/superagent-ai/superagent
[12] LangChain: https://github.com/langchain-ai/langchain
[13] LlamaIndex: https://github.com/run-llama/llama_index
[14] логикой: http://www.braintools.ru/article/7640
[15] Open Interpreter: https://github.com/OpenInterpreter/open-interpreter
[16] Self-Operating Computer: https://github.com/OthersideAI/self-operating-computer
[17] Agent-S: https://github.com/simular-ai/Agent-S
[18] LaVague: https://github.com/lavague-ai/LaVague
[19] Playwright: https://github.com/microsoft/playwright
[20] Puppeteer: https://pptr.dev/
[21] Ultravox: https://github.com/fixie-ai/ultravox
[22] Moshi: https://github.com/kyutai-labs/moshi
[23] Pipecat: https://github.com/pipecat-ai/pipecat
[24] Whisper: https://github.com/openai/whisper
[25] Stable-ts: https://github.com/jianfch/stable-ts
[26] Speaker diarization 3.1: https://huggingface.co/pyannote/speaker-diarization-3.1
[27] Vocode: https://github.com/vocodedev/vocode-core
[28] Voice Lab: https://github.com/saharmor/voice-lab
[29] Qwen2-VL: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
[30] DocOwl2: https://huggingface.co/mPLUG/DocOwl2
[31] Mem0: https://github.com/mem0ai/mem0
[32] Letta (ранее MemGPT): https://github.com/letta-ai/letta
[33] AgentOps: https://github.com/AgentOps-AI/agentops
[34] AgentBench: https://github.com/THUDM/AgentBench
[35] поведении: http://www.braintools.ru/article/9372
[36] openllmetry: https://github.com/traceloop/openllmetry
[37] поведение: http://www.braintools.ru/article/5593
[38] AgentVerse: https://github.com/OpenBMB/AgentVerse
[39] Tau-Bench: https://github.com/sierra-research/tau-bench
[40] ChatArena: https://github.com/Farama-Foundation/chatarena
[41] AI Town: https://github.com/a16z-infra/ai-town
[42] Generative Agents: https://github.com/joonspk-research/generative_agents
[43] OpenHands: https://github.com/All-Hands-AI/OpenHands
[44] aider: https://github.com/Aider-AI/aider
[45] GPT Engineer: https://github.com/gpt-engineer-org/gpt-engineer
[46] screenshot-to-code: https://github.com/abi/screenshot-to-code
[47] GPT Researcher: https://github.com/assafelovic/gpt-researcher
[48] Vanna: https://github.com/vanna-ai/vanna
[49] Источник: https://habr.com/ru/articles/890774/?utm_source=habrahabr&utm_medium=rss&utm_campaign=890774
Нажмите здесь для печати.