- BrainTools - https://www.braintools.ru -

Мы запустили red_mad_router [1] — платформу для компаний, у которых LLM уже работают в продуктах, внутренних ассистентах и клиентских сервисах. Она помогает подключать разные модели в одном контуре, управлять доступами, контролировать расходы и задавать правила безопасности для локальных и облачных LLM.
Когда модели используются в нескольких сервисах, вокруг них быстро появляется инфраструктурная обвязка: ключи, лимиты, провайдеры, маршруты запросов, требования к данным, отчёты по потреблению. Если настраивать всё это по отдельности для каждого сценария, поддерживать единые правила становится сложнее.
В red_mad_router мы собираем всё это в одном контуре:
подключение новых моделей и провайдеров через совместимый со стандартом OpenAI API за 17 строк кода;
управление доступами для команд и сотрудников;
лимиты и квоты на уровне команд и отдельных ключей;
мониторинг потребления токенов и распределения нагрузки по моделям;
политики безопасности для локальных и облачных LLM.
Платформа разворачивается в корпоративном контуре и подключается к существующей инфраструктуре, поэтому правила работы с моделями и чувствительными данными не выносятся в разрозненные внешние инструменты.
Единый API поддерживает работу с облачными LLM-провайдерами и open source-моделями, развёрнутыми локально. Для команд это выглядит как единая точка доступа: модели можно подключать, менять и комбинировать без отдельной логики под каждого провайдера.
Ключи, роли и ограничения настраиваются централизованно. Можно задавать разные правила для команд и отдельных ключей:
кому какие модели доступны;
какие лимиты действуют;
какие требования применяются к данным.
Например, разработке можно открыть широкий набор моделей для тестирования, а продуктовому контуру оставить только согласованный стек и заданные бюджетные лимиты.
За безопасность в продукте отвечает наш собственный модуль Guardrails. Он фильтрует персональные данные до отправки запроса в модель, ограничивает нежелательные ответы и позволяет задавать разные политики для LLM.
Дополнительно предусмотрены логирование запросов и действий пользователей, а также разграничение прав доступа.
Для рабочих сценариев добавили механизм fallback. Если одна модель не отвечает, запрос автоматически уходит в резервную.
Механизм нужен для балансировки нагрузки: можно заранее задать несколько LLM и распределять между ними запросы с учётом доступности и ресурсов.
В red_mad_router видно, какие команды, ключи и модели создают основную нагрузку. Можно отслеживать потребление токенов, задавать лимиты и квоты, смотреть распределение расходов и настраивать алерты.
Мы собрали red_mad_router [1] для команд, у которых LLM уже встроены в продукты и внутренние сервисы. Когда управление моделями остаётся разрозненным, растут затраты на администрирование, сложнее контролировать расходы и выше риск некорректной работы с корпоративными данными.
Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять ИИ. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с ИИ сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.
Наш Telegram-канал: t.me/redmadnews [2]
Автор: redmadrobot
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29668
URLs in this post:
[1] red_mad_router: https://redmadrouter.ru
[2] t.me/redmadnews: https://t.me/+3lxUnV6YgYtkNzAy
[3] Источник: https://habr.com/ru/companies/redmadrobot/news/1030198/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1030198
Нажмите здесь для печати.