- BrainTools - https://www.braintools.ru -
На днях я заметил, что квота Ollama Cloud Pro [1] тратится быстрее обычного. Значительно быстрее. За семь дней я сжёг 603 миллиона токенов и не понимал, куда они уходили.
Я открыл логи Hermes Agent [2] и нашёл то, о чём не знал: блок auxiliary: с двенадцатью фоновыми задачами. Сжатие контекста, извлечение из веба, vision, поиск по сессиям, подбор навыков — всё это молча запускалось при каждом моём сообщении. Каждая задача стояла на provider: auto. И поскольку у меня не было ключей для цепочки fallback, каждая молча откатывалась на kimi-k2.6, мою основную модель на триллион параметров.
Я понятия не имел, что это происходит. Пока я печатал одно сообщение, агент отправлял одиннадцать других в фоне — через ту же модель, из той же квоты, не показывая мне промпты. Только сжатие контекста срабатывало 10–20 раз за длинную сессию, каждый раз отправляя всю историю.
Вот что я изменил в блоке auxiliary: файла ~/.hermes/config.yaml. Полный YAML — в разделе Полный конфиг ниже.
Применяется через /reset или перезапуск Hermes. Изменения вступают в силу только для новых сессий.
Двенадцать задач раньше сваливались в одну модель на триллион параметров. Теперь распределены по шести моделям — от 8B до 1T.
Я прочитал десятки гайдов по Hermes — ни в одном не упоминается блок auxiliary. Официальная документация описывает структуру YAML, но нет предупреждения, что provider: auto молча откатывается на основную модель. Нашёл только одно видео от AI Garage [3] на эту тему — больше ничего. Цепочка такая: openrouter → new portal → codex → gemini flash. Если ни у одного бэкенда нет настроенного ключа, система возвращается к основной модели чата.
У меня подписка Ollama Cloud Pro. Вот модели из каталога, которые имеют значение для роутинга:
|
Модель |
Размер |
Сильная сторона |
Лучше всего для |
|---|---|---|---|
|
|
~1T параметров, 256K контекст |
Рассуждения, архитектура, отладка |
Только основной чат |
|
|
~1T параметров |
То же семейство, оптимизирована под длинный контекст |
Суммаризация, сжатие |
|
|
235B параметров |
Мультимодальная (vision + текст) |
Скриншоты, анализ изображений |
|
|
~20B параметров |
Быстрая, хороша на структурированный вывод |
Проверки безопасности, классификация |
|
|
12B параметров |
Лёгкая, быстрая |
Триаж, профиль |
|
|
8B параметров |
Самая дешевая в каталоге |
Заголовки, поиск, навыки |
|
|
2B параметров |
Самая маленькая |
Не используется — слишком слабая |
Я использовал доступные модели из каталога и настроил их для двенадцати вспомогательных задач. Результат тестирования — ниже.
|
# |
Задача |
Что делает |
Почему дорого |
|---|---|---|---|
|
1 |
|
Сжимает переполненный контекст |
10–20 раз за сессию. Вся история каждый раз. |
|
2 |
|
Очищает HTML после |
На каждый поиск. |
|
3 |
|
Обрабатывает скриншоты |
Мультимодальные токены дороже. |
|
4 |
|
Записывает факты в память [4] при |
При каждом завершении сессии. |
|
5 |
|
Разбивает Kanban-задачи на шаги |
Средняя сложность. |
|
6 |
|
Анализирует качество и дубли навыков |
Тяжёлый анализ. |
|
7 |
|
Ищет по прошлым сессиям |
При поиске по истории. |
|
8 |
|
Подбирает навык под запрос |
На почти каждый вопрос. |
|
9 |
|
Классифицирует входящие сообщения |
Бинарная классификация. |
|
10 |
|
Проверка перед терминалом |
Простое да/нет. |
|
11 |
|
Генерирует биографию профиля |
Редкая, лёгкая. |
|
12 |
|
Автоматически именует сессии |
Тривиальная, постоянно. |
Логика [5]: поставить на задачу самую лёгкую модель, которая не ломается, и оставить k2.6 только для настоящих разговоров.
|
Задача |
Модель |
Почему именно она |
|---|---|---|
|
Основной чат |
|
Архитектура, отладка, обсуждение. Единственная задача, которая реально нуждается в триллионе параметров. |
|
Сжатие, web_extract, kanban, curator |
|
То же семейство Kimi [6], оптимизировано под длинный контекст. Качество сводок остаётся высоким. |
|
Vision |
|
Единственная мультимодальная модель в каталоге. Альтернатив нет. |
|
Классификация, профиль |
|
12 млрд против триллиона. Классификация и генерация био не требуют глубины рассуждений. |
|
Проверка безопасности |
|
Бинарная проверка. Важнее скорость ответа. |
|
Заголовки, поиск, навыки, MCP |
|
8 млрд параметров. В 125 раз легче k2.6. Основная экономия здесь — они запускаются постоянно. |
Я работаю на ноутбуке RTX 5070 Ti, 8 ГБ VRAM. Одна модель на 6 млрд параметров помещается. Две — на грани. Каждый раз, когда Hermes переключался с сжатия на проверку безопасности, Ollama выгружал одну модель и загружал другую. Пять–десять секунд простоя, а это неприятно, потому что у меня настроены агенты и к концу дня это может привести к неприятным последствиям. Вдобавок вентилятор гудел. В результате от локальных моделей в auxiliary отказался в тот же день, я хотел ставить на них незначительные процессы, но даже это повлекло за собой проблемы, если характеристики вашего железа лучше, думаю, этот вариант будет более разумным
|
Задача |
До (по умолчанию) |
После (роутинг) |
Уменьшение |
|---|---|---|---|
|
Заголовки, поиск, навыки, MCP |
|
|
В 125 раз легче |
|
Классификация, профиль |
|
|
В 83 раза легче |
|
Проверка безопасности |
|
|
В 50 раз легче |
|
Сжатие, web_extract |
|
|
Освобождает k2.6 для чата |
|
Vision |
|
|
Специализированная мультимодальная |
В видео AI Garage [3] автор замерил стоимость сжатия: Claude Opus при контексте 50K = 13 центов за проход. Kimi K2 для той же задачи = 1.9 цента. Снижение на 85% за один проход. Для активных пользователей сжатие срабатывает 10–20 раз в день. По оценке автора: со стандартными настройками только сжатие может стоить $60 в месяц на Claude Opus. Перенаправленное на более дешёвую модель — $9 в месяц.
К сожалению точную экономию в долларах для Ollama Cloud я подтвердить не могу — они не выдают цену за вызов. Но разница в масштабе однозначна.
|
Компонент |
Статус |
Примечания |
|---|---|---|
|
Тяжёлые задачи на k2.5 |
Работает |
Сжатие и web_extract больше не блокируют основную модель |
|
Vision на qwen3-vl |
Работает |
Единственная доступная мультимодальная опция |
|
Средние задачи на gemma3:12b |
Работает |
Классификация и профиль |
|
Проверка safety на deepseek-v4-flash |
Работает |
Быстрые бинарные решения |
|
Лёгкие задачи на rnj-1:8b |
Работает |
Заголовки, поиск, навыки, MCP |
|
|
Готово |
Явный провайдер на каждой задаче |
|
Локальные модели в auxiliary |
Отказано |
Конфликт [7] VRAM на 8 ГБ ноутбуке |
|
Подсчёт стоимости по задачам |
Невозможен |
Ollama Cloud не выдаёт цену за вызов |
Сессии больше не останавливаются и счётчик токенов перестал монополизировать k2.6.
Вот полный блок auxiliary: из моего ~/.hermes/config.yaml:
auxiliary:
compression:
provider: ollama-cloud
model: kimi-k2.5
timeout: 120
web_extract:
provider: ollama-cloud
model: kimi-k2.5
timeout: 360
kanban_decomposer:
provider: ollama-cloud
model: kimi-k2.5
timeout: 180
curator:
provider: ollama-cloud
model: kimi-k2.5
timeout: 600
vision:
provider: ollama-cloud
model: qwen3-vl:235b-instruct
timeout: 120
download_timeout: 30
triage_specifier:
provider: ollama-cloud
model: gemma3:12b
timeout: 120
profile_describer:
provider: ollama-cloud
model: gemma3:12b
timeout: 60
approval:
provider: ollama-cloud
model: deepseek-v4-flash
timeout: 30
title_generation:
provider: ollama-cloud
model: rnj-1:8b
timeout: 30
session_search:
provider: ollama-cloud
model: rnj-1:8b
timeout: 30
max_concurrency: 3
skills_hub:
provider: ollama-cloud
model: rnj-1:8b
timeout: 30
mcp:
provider: ollama-cloud
model: rnj-1:8b
timeout: 30
Если вы используете Hermes Agent и никогда не трогали блок auxiliary::
hermes config edit
Найдите auxiliary:. Поставьте конкретный provider и model для каждой задачи — ту, которая справляется, но не тянет за собой лишние параметры. Сохраните. /reset. Основная модель перестанет съедать весь токен-бюджет. Если ваша основная модель — Claude или другая frontier-модель, настройка auxiliary ещё важнее. По умолчанию каждая фоновая задача наследует её, и вы платите premium-цену за сжатие контекста и генерацию заголовков.
Какой роутинг используете вы? Пишите в комментариях.
Если интересуетесь AI-агентами, автоматизацией рабочих процессов и конфигурации LLM — подписывайтесь на канал. Там регулярно: сырые заметки по архитектуре агентов и доработки под себя
📬 Telegram-канал — @azamat_dasein [8]
Автор: Azamat_Safarov
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31199
URLs in this post:
[1] Ollama Cloud Pro: https://ollama.com
[2] Hermes Agent: https://github.com/nousresearch/hermes-agent
[3] видео от AI Garage: https://www.youtube.com/watch?v=NoF-YajElIM
[4] память: http://www.braintools.ru/article/4140
[5] Логика: http://www.braintools.ru/article/7640
[6] Kimi: https://www.moonshot.cn
[7] Конфликт: http://www.braintools.ru/article/7708
[8] @azamat_dasein: https://t.me/azamat_dasein
[9] Источник: https://habr.com/ru/articles/1042860/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1042860
Нажмите здесь для печати.