Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы. compress.. compress. langchain.. compress. langchain. llm.. compress. langchain. llm. python.. compress. langchain. llm. python. rust.. compress. langchain. llm. python. rust. token.. compress. langchain. llm. python. rust. token. Алгоритмы.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект. Машинное обучение.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект. Машинное обучение. оптимизация.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект. Машинное обучение. оптимизация. оптимизация затрат.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект. Машинное обучение. оптимизация. оптимизация затрат. Программирование.. compress. langchain. llm. python. rust. token. Алгоритмы. искусственный интеллект. Машинное обучение. оптимизация. оптимизация затрат. Программирование. сжатие.

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы - 1

Всем привет! Если вы работаете с LLM — ChatGPT, Claude, DeepSeek, Qwen или другими — через API, то знаете: токены стоят денег. Контекстное окно у любой модели не резиновое, и чем больше кода вы отправляете, тем дороже каждый запрос. Новые модели с огромными контекстными окнами выходят каждый месяц и дешевеют, но зачем платить за то, что можно не отправлять?

В этой статье я расскажу про TokenCompress.com — прокси-сервис, который сжимает код перед отправкой в LLM. В среднем он убирает ~78% токенов, при этом качество ответов не падает, а в ряде случаев даже растёт — потому что модель получает только релевантный контекст, без шума.

Как это работает

TokenCompress — это не примитивное удаление комментариев или минификация. Внутри двухэтапный пайплайн:

Этап 1 (первоначальная фильтрация): Код разбирается через Tree-Sitter AST-парсер на структурные блоки (функции, классы, методы). Каждый блок ранжируется — насколько этот фрагмент кода снижает неопределённость модели относительно вашего конкретного вопроса. Нерелевантные блоки отсекаются.

Этап 2 (дополнительная фильтрация): Внутри отобранных блоков происходит построчная оптимизация по принципу задачи о рюкзаке — убираются избыточные строки (шаблонный код, неиспользуемые импорты, тестовые фикстуры), при этом логика и сигнатуры функций сохраняются.

Ключевой момент: сжатие контекстно-зависимое. Один и тот же файл сжимается по-разному в зависимости от вашего вопроса. Если вы спрашиваете про функцию post_groups — именно она и её зависимости останутся, а остальное уйдёт. Сжатие срабатывает, если код обернут в тройные кавычки (“`) и превышает 500 токенов.

Поддержка языков

Поддерживается 24 языка: Python, Rust, JavaScript, TypeScript, Go, Java, C#, C++, C, PHP, Kotlin, Dart, Swift, Scala, Ruby, Haskell, Erlang, Julia, Bash, HTML, CSS, Markdown, SQL, JSON. Для неподдерживаемых языков используется построчное разбиение.

Начинаем за 3 шага

Шаг 1. Регистрируемся

Заходим на https://tokencompress.com и входим через аккаунт GitHub, Google или Apple.

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы - 2

Шаг 2. Создаем API-ключ

Переходим в админку на страницу API-ключей и создаем новый ключ. Сохраните его — повторно он не отобразится, придётся создавать заново.

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы - 3

Шаг 3. Компонуем ключи

Это главный шаг. Вам нужно объединить два ключа в один — ключ TokenCompress и ключ вашего LLM-провайдера, разделённые двойным двоеточием :: например:

api_key = "ak_live_ВАШ_КЛЮЧ_TC::sk-ВАШ_КЛЮЧ_ПРОВАЙДЕРА"

Также замените base_url на адрес TokenCompress с указанием одного из поддерживаемого провайдера:

Name	provider	base_url	Auth	Format
OpenAI	openai	https://tokencompress.com/v1/openai	Bearer	openai
Anthropic	anthropic	https://tokencompress.com/v1/anthropic	Bearer	anthropic
DeepSeek	deepseek	https://tokencompress.com/v1/deepseek	Bearer	openai
Google AI (Gemini)	google	https://tokencompress.com/v1/google	Bearer	openai
LM Studio	lm-studio	https://tokencompress.com/v1/lm-studio	—	openai
Mistral AI	mistral	https://tokencompress.com/v1/mistral	Bearer	openai
Qwen (Alibaba)	qwen	https://tokencompress.com/v1/qwen	Bearer	openai
Ollama (Local)	ollama	https://tokencompress.com/v1/ollama	—	openai
Ollama (Cloud)	ollama-cloud	https://tokencompress.com/v1/ollama-cloud	Bearer	openai
OpenRouter	openrouter	https://tokencompress.com/v1/openrouter	Bearer	openrouter
Kilo AI	kilo	https://tokencompress.com/v1/kilo	Bearer	openai

Вот и всё. Ваш код автоматически проходит через пайплайн сжатия, а затем отправляется в LLM-провайдер. Ответ приходит как обычно — включая streaming. Также имеется полная документация.

Тестируем на реальном примере

Давайте проверим сжатие на реальном файле из опенсорсного проекта Vaultwarden. Возьмём organizations.rs — увесистый файл на Rust.

Скачиваем его:

curl -o organizations.rs https://raw.githubusercontent.com/dani-garcia/vaultwarden/refs/heads/main/src/api/core/organizations.rs

Устанавливаем зависимости. Если у вас Python новее 3.12, langchain может не работать, поэтому скачиваем нужную версию Python и создаем виртуальное окружение:

python3.12 -m venv venv
venvScriptsactivate       # Windows
# source venv/bin/activate  # Linux/macOS
pip install langchain-openai

Создаём main.py:

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://tokencompress.com/v1/anthropic",
    api_key="ak_live_ВАШ_КЛЮЧ::sk-ant-ВАШ_КЛЮЧ_ANTHROPIC",
    model="claude-opus-4-5",
)

# читаем ВЕСЬ файл
with open("organizations.rs", "r", encoding="utf-8") as f:
    org_rs = f.read()

# формируем промпт с содержимым файла
prompt = f"""Вот содержимое файла organizations.rs:

```rust
{org_rs}
```

Вопрос: what does post_groups do if org_groups_enable() returns false?"""

response = llm.invoke(prompt)
print(response.content)

Запускаем скрипт:

python main.py

Claude позволяет просмотреть журнал запросов на странице: https://platform.claude.com/workspaces/default/logs — **Claude** позволяет просмотреть журнал запросов на странице: https://platform.claude.com/workspaces/default/logs

Если мы выполним два запроса: один напрямую, другой с использованием TokenCompress, то мы сможем увидеть точную статистику токенов. Зеленым выделен результат сжатия, красным — без сжатия. Результат — токены сократились почти на 70%. Модель получила только релевантные фрагменты кода и корректно ответила на вопрос. Ответ сжатого варианта также короче и точнее.

За 19 тестовых запросов суммарная экономия составила свыше 70 000 токенов.

Страница Compression Stats — Страница ***Compression Stats***

Бенчмарки

Мы прогнали TokenCompress на 600 опенсорсных файлах на 22 языках программирования. Результаты:

Метрика	Значение
Исходных токенов (суммарно)	900 556
После сжатия	170 616
Экономия токенов	80.5%
Средняя задержка на файл	222 мс
Максимальная задержка	431 мс
Деградация качества ответов	Не обнаружена

Распределение степени сжатия: от 60% (p10) до 97% (p90), медиана — 82%.

Почему точность ответов может расти

Звучит контринтуитивно, но вот логика: когда вы отправляете в LLM огромный файл целиком, модель вынуждена «пробираться» через тысячи строк нерелевантного кода. Это создаёт шум, и модель может потерять фокус — особенно в середине длинного контекста (так называемая проблема «lost in the middle»).

TokenCompress отправляет модели только те фрагменты, которые действительно нужны для ответа на ваш вопрос. Меньше шума — точнее ответ.

Сколько можно сэкономить?

Посчитаем при консервативной оценке 60% сжатия (реально обычно выше):

Модель	Экономия input-токенов в месяц*	Стоимость подписки	Чистая выгода
Claude Opus	~$1 125	$5–10	~$1 115
GPT-4o	~$187	$5–10	~$177
DeepSeek V3	~$20	$5	~$15

*при объеме ~25 000 запросов/месяц

Даже на самых дешёвых моделях подписка окупается.

Тарифы

План	Стоимость	Запросов в месяц
Starter	$5	25 000
Pro	$10	60 000
Team	$20/место	125 000/место
Enterprise	$199	1 500 000
Agentic	$299	3 000 000

Есть бесплатный 3-дневный триал Pro-плана (1 500 запросов) без привязки карты.

А что с безопасностью?

Закономерный вопрос: «Мой код проходит через ваш сервер?»

Да, при использовании облачной версии код проходит через прокси TokenCompress. Вот что важно знать:

Код обрабатывается в памяти и не сохраняется на диск
Содержимое запросов не логируется
Обработка — per-request, без кэширования пользовательского кода
После сжатия к LLM-провайдеру уходит только сжатый фрагмент

Для повышенных требований к безопасности имеется тарифный план Enterprise: есть возможность self-hosted развертывания локально — в этом случае код вообще не покидает вашу инфраструктуру. Полная поддержка LM Studio, Ollama и vLLM.

Интеграция с Continue (VS Code)

Пример конфигурации для Continue:

name: Local Config
version: 1.0.0
schema: v1
models:
  - name: TokenCompress - Deepseek
    provider: openai
    model: deepseek-chat
    apiKey: ak_live_ВАШ_КЛЮЧ::sk-ВАШ_КЛЮЧ_DEEPSEEK
    apiBase: https://tokencompress.com/v1/deepseek
    roles:
      - chat
      - edit
      - apply
    defaultCompletionOptions:
      stream: true


  - name: TokenCompress Claude 4.5 Opus
    provider: openai
    model: claude-opus-4-5
    apiKey: ak_live_ВАШ_КЛЮЧ::sk-ant-api-ВАШ_КЛЮЧ
    apiBase: https://tokencompress.com/v1/anthropic
    roles:
      - chat
      - edit
      - apply
    defaultCompletionOptions:
      stream: true

Также работает с LangChain, LangGraph, OpenClaw, Codex, Claude Code, Continue и любым инструментом, который поддерживает OpenAI-совместимый API.

Итого

Экономия 60–80% токенов на каждом запросе к LLM
AST-парсинг + ML-ранжирование — это не программная минификация, а интеллектуальное сжатие с учетом вашего вопроса
24 языка, streaming, поддержка всех основных провайдеров
Подключение за 5 минут — меняете base_url и компонуете ключи
От $5/мес — окупается за один рабочий день

Попробовать бесплатно и без банковской карты: https://tokencompress.com/

Если есть вопросы — пишите https://t.me/TokenCompress, отвечу.

Автор: SpecOpss

Источник

Запись добавлена: 07.04.2026 в 07:21
Оставлено в

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Как это работает

Поддержка языков

Начинаем за 3 шага

Шаг 1. Регистрируемся

Шаг 2. Создаем API-ключ

Шаг 3. Компонуем ключи

Тестируем на реальном примере

Бенчмарки

Почему точность ответов может расти

Сколько можно сэкономить?

Тарифы

А что с безопасностью?

Интеграция с Continue (VS Code)

Итого

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Как это работает

Поддержка языков

Начинаем за 3 шага

Шаг 1. Регистрируемся

Шаг 2. Создаем API-ключ

Шаг 3. Компонуем ключи

Тестируем на реальном примере

Бенчмарки

Почему точность ответов может расти

Сколько можно сэкономить?

Тарифы

А что с безопасностью?

Интеграция с Continue (VS Code)

Итого