Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее. gigachat.. gigachat. llama.. gigachat. llama. llm.. gigachat. llama. llm. Natural Language Processing.. gigachat. llama. llm. Natural Language Processing. Open source.. gigachat. llama. llm. Natural Language Processing. Open source. qwen.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект. кириллица.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект. кириллица. локальный ИИ.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект. кириллица. локальный ИИ. Машинное обучение.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект. кириллица. локальный ИИ. Машинное обучение. нейросети.. gigachat. llama. llm. Natural Language Processing. Open source. qwen. self-hosted. yandexgpt. искусственный интеллект. кириллица. локальный ИИ. Машинное обучение. нейросети. токенизация.

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре.

Это не косметическая проблема. Из‑за этого русский текст в облачных сервисах вроде OpenAI обходится примерно в 2 раза дороже английского, медленнее обрабатывается, и в одно «контекстное окно» нейросети помещается заметно меньше реального содержания. Эта статья — про то, откуда берётся разница, как её измерить на ваших данных и какие модели лучше работают с русским языком.

TL;DR

Русский текст почти всегда дороже и медленнее английского при работе с нейросетями: текст режется на более мелкие кусочки. — GPT-4 на русском обходится примерно в 2 раза дороже, чем на английском, при равном объёме осмысленного контента. — GPT-4o заметно лучше предшественника — у него в десять раз больше «русских» кусочков в словаре. — 128 тысяч токенов контекста на русском — это не 100 тысяч слов, а примерно 50–60 тысяч. Закладывайте поправку при работе с длинными документами. — Под русский язык в 2026 году имеет смысл смотреть в сторону Qwen 3, GigaChat, YandexGPT, дообученных версий Llama 3.3 — у них русский лежит лучше, чем у топовых западных моделей по умолчанию. — Llama 4 русский нативно не поддерживает — её дообучали только на 12 языках, русского в списке нет.

Что такое токены и зачем о них знать

Представьте, что вы передаёте телеграмму, и каждая клеточка в бланке — это один знак, за который надо заплатить. Чем больше клеточек уходит на ваше сообщение, тем дороже телеграмма. С нейросетями примерно так же, только клеточки называются токенами, а вместо знаков в каждую помещается кусочек текста — иногда буква, иногда слог, иногда целое слово.

Программа, которая режет текст на эти кусочки, называется токенизатором. У каждой нейросети он свой. У одних он умеет складывать русское «договор» в один кусок, у других дробит на «дог», «ов», «ор» — три кусочка вместо одного.

Для английского языка хороший токенизатор тратит примерно три кусочка на четыре слова в среднем — часто целое слово укладывается в один токен. Для русского у моделей, которые не учитывали кириллицу при разработке, это число вырастает в два‑три раза. Иными словами, чтобы передать ту же информацию, русскому тексту нужно ощутимо больше токенов, чем английскому.

Прямые последствия для вас как пользователя или разработчика:

Стоимость в облаке растёт пропорционально. OpenAI и Anthropic считают деньги по токенам — больше токенов на тот же текст означает больший счёт. — Отклик медленнее. Нейросеть обрабатывает токены последовательно, и больше токенов — это физически больше времени на ответ. — Контекстное окно расходуется быстрее. Если у модели заявлено 128 тысяч токенов «памяти», на английском туда влезет около 90 тысяч слов, а на русском — только 50–60 тысяч. — Качество понимания падает. Когда слово разбито на бессмысленные обрывки (например, «налогоплательщик» становится «нало», «гопла», «тельщ», «ик»), нейросети сложнее понять его как единицу смысла. Это особенно критично для специфической лексики: юридической, медицинской, финансовой.

Почему именно с русским языком всё хуже

Это не свойство самого языка, а следствие того, как обучают современные нейросети. У токенизатора есть фиксированный словарь — список «отрезков», на которые он может бить текст. При обучении в этот словарь попадают самые частые куски из обучающего корпуса. У OpenAI и Meta обучающий корпус процентов на 60–80 состоит из английских текстов, поэтому в словарь массово попадают целые английские слова и осмысленные английские суффиксы. На русский язык остаётся маленький бюджет — туда влезают только самые частотные части.

Цифры наглядно: у токенизатора cl100k_base, который использует GPT-3.5 и GPT-4, общий объём словаря — 100 235 токенов, а кириллических из них всего 435. У o200k_base (GPT-4o, GPT-4o‑mini, GPT-4 Turbo) словарь увеличен в 2 раза — до 200 тысяч токенов, и кириллических уже 4660, в десять раз больше. Поэтому GPT-4o объективно работает с русским намного эффективнее GPT-4: у него больше «целых» русских кусков в словаре и реже приходится сшивать слова из мелких обрывков.

У Llama‑семейства похожая динамика: Llama 2 и ранние модели режут русский плохо, Llama 3 и Llama 3.1 — заметно лучше, и в опубликованных исследованиях именно Llama 3.1 называется лучшим открытым решением для кириллицы среди сопоставимых моделей. У моделей, изначально обучавшихся на больших объёмах китайского, корейского, японского и русского текста — Qwen, DeepSeek, GigaChat — словари токенизатора с самого начала оптимизированы под нелатинские алфавиты.

На каких моделях русский работает эффективнее

Точные цифры зависят от типа текста: на художественной прозе результат один, на юридических документах с длинными терминами — другой. Поэтому имеет смысл смотреть не на цифры до второго знака, а на группы моделей по эффективности на русском языке.

Хорошо работают с русским «из коробки». Это модели, которые либо изначально разрабатывались с прицелом на нелатинские алфавиты, либо имеют большой словарь токенизатора. Такие модели разбивают русские слова крупно, часто целиком: «договор», «налогоплательщик», «исполнение» остаются одним токеном.

К этой группе относятся современные мультиязычные модели вроде Qwen 3 и DeepSeek, специализированные русскоязычные сервисы — GigaChat и YandexGPT, а также Llama 3 и её дообученные на русском версии (Saiga, Vikhr).

Работают приемлемо, но с накладными расходами. Это западные универсалы последнего поколения: GPT-4o, GPT-4 Turbo, Claude 3.5/4. Они умеют работать с русским, но платите вы за это примерно в 1,5 раза больше токенов, чем за тот же текст на английском. Для коротких разговорных сценариев — терпимо. Для систем с большой обработкой документов — заметно бьёт по бюджету и контексту.

Лучше не использовать для серьёзной работы с русским. Сюда относятся ранние и устаревшие модели: GPT-3.5, оригинальный Mistral 7B, Llama 2. Их токенизаторы создавались, когда о нелатинских языках в индустрии думали мало. На русском такие модели тратят в 2,5–3 раза больше токенов, чем на английском, и качество понимания заметно проседает на длинных и редких словах.

Отдельный случай — Llama 4. Её громко выпустили в апреле 2025 года, но дообучали только на 12 языках, и русского в этом списке нет. На русскоязычных задачах она проигрывает и Qwen 3, и Llama 3.3. Если планируете работать с русским — лучше брать что‑то другое.

Универсального лидера нет: для облачных задач, где допустимо отправлять данные в российские дата‑центры, имеет смысл смотреть в сторону GigaChat и YandexGPT. Для самостоятельного запуска у себя — Qwen 3 как универсальный вариант, DeepSeek R1 для задач с пошаговыми рассуждениями, Llama 3.3 + Saiga как привычная и хорошо документированная связка.

Как проверить, как нейросеть режет ваш текст

Прежде чем выбирать модель для боевого проекта, имеет смысл прогнать через неё пару‑тройку своих реальных документов и посмотреть, на сколько кусочков она их разрежет. Делается это в браузере за пять минут, ставить ничего не нужно.

OpenAI Tokenizer (platform.openai.com/tokenizer) — официальный сервис от OpenAI. Вставляете текст, видите количество токенов и подсветку, где модель ставит границы между кусочками. Показывает разрезание для всех моделей OpenAI: GPT-3.5, GPT-4, GPT-4o. — GPT for Work (gptforwork.com/tools/tokenizer) — удобный онлайн‑инструмент с поддержкой не только OpenAI, но и Claude, Gemini, Grok. Подходит, если хотите сравнить несколько моделей за один заход. — gpt‑tokenizer.dev — открытая альтернатива, можно сравнивать модели OpenAI и видеть, как меняется разрезание в зависимости от версии.

Для устойчивого результата прогоните через сервис не одно предложение, а хотя бы абзац — лучше 5–10 разных документов из вашей реальной работы. Если хотите цифру, которой можно доверять, нужна выборка из 50–100 документов: на одной фразе случайный разброс слишком велик. Поделите общее количество токенов на общее количество слов — получите ваш персональный коэффициент для каждой модели.

Главный практический критерий: если на ваших текстах коэффициент больше 2 токенов на слово — модель не оптимальна для русского, имеет смысл смотреть альтернативы.

Какую модель брать под русский язык

Универсального правильного ответа нет — выбор зависит от того, что для вас важнее: качество, цена, скорость, контроль над данными, наличие готовой инфраструктуры.

Если данные нельзя отдавать наружу и нужно держать модель у себя:

Qwen 3 — на сегодня лучший баланс качества и эффективности на русском среди открытых моделей. Поддерживает все стандартные форматы развёртывания: vLLM, llama.cpp, Ollama. Выходят регулярно новые версии, активная разработка. — DeepSeek R1 — сильна в задачах с пошаговыми рассуждениями: математика, логика, разбор сложных вопросов. На обычных текстовых задачах не выигрывает у Qwen, но для аналитики бывает удобнее. — Llama 3.3 + Saiga / Vikhr — это Llama, дообученная на русскоязычных корпусах русскими исследователями. Не топ-1 по эффективности, но рабочая лошадка с большим количеством готовых сценариев и документации.

Если облако приемлемо и сервис в России:

GigaChat — основной игрок от Сбера. Токенизатор изначально оптимизирован под русский, доступен через API, есть бесплатные пакеты для разработчиков. — YandexGPT — альтернатива от Яндекса, по эффективности токенизации на русском похож на GigaChat. Хорошо интегрирован с экосистемой Яндекс Облака.

Чего я бы не брал под русский язык в 2026 году:

Llama 2, Mistral 7B оригинальный, GPT-3.5 — устаревшая токенизация, на серьёзных русскоязычных задачах будут требовать в 2,5–3 раза больше токенов и работать ощутимо хуже. Деньги и время лучше потратить на что‑то посвежее. — Llama 4 — несмотря на громкий релиз в апреле 2025 года, её дообучали только на 12 языках, и русского в этом списке нет. На русскоязычных задачах она проигрывает Qwen 3 и Llama 3.3.

Что ещё важно для русского языка кроме токенизации

Эффективная токенизация — это только половина дела. Дальше начинаются нюансы, которые токенайзер уже не показывает.

Падежи и согласование. Русский — флективный язык, у одного и того же слова десятки форм. «Договор», «договора», «договору», «договором», «договоре», «договоры», «договоров» — это всё одно понятие. Хорошая модель понимает, что речь об одном и том же; плохая — может не сопоставить вопрос «о каком договоре речь» с документом, где написано «договоров не было». Проверяется отдельным тестом: 50 пар «вопрос с одной формой слова — документ с другой формой», смотрим, находит ли модель связь.

Порядок слов и смысл. В русском порядок слов гибкий, но не произвольный. «Штрафы за просрочку поставки» и «поставки за просрочку штрафов» — формально похожие фразы из тех же слов, но смысл разный. Слабые модели путаются в подобных конструкциях, особенно в задачах извлечения сущностей.

Пунктуация. В русском типографски правильная пунктуация — это «ёлочки» («…»), длинное тире (‑) вместо дефиса, неразрывные пробелы перед короткими словами. Хорошая модель эту разницу воспроизводит. Плохая выдаёт латинские кавычки («…») и дефисы, и тексты выглядят как машинный перевод.

Стилистика и канцелярит. Когда модель пишет «трансформируйте свой бизнес» вместо «перестроите процессы», читатель моментально считывает в этом машинный текст. Это не баг и не лечится промтом — это след того, чему училась модель. Для текстов, которые видит конечный пользователь — клиент, читатель, заказчик — это критично.

Терминология вашей предметной области. Проверьте, как модель работает с 30–50 ключевыми терминами вашего домена. Если она не понимает разницу между «оферта» и «акцепт», или путает «перевозчик» и «экспедитор» — ставить такую модель в продакшн нельзя, никакая токенизация это не вытянет.

Чек‑лист для выбора нейросети под русский язык

Когда тестируете очередную модель на пригодность для русскоязычных задач, проверяйте по этим семи пунктам:

  1. Токенизация. Прогон ваших реальных документов через токенайзер модели. Норма — не больше 1,7 токена на слово в среднем. Если выше 2 — это сразу значит лишние затраты в пересчёте на год работы сервиса.

  2. Падежи и формы. Тестовый набор из 50 пар «вопрос — документ», где формы слов в вопросе и в документе разные. Полнота поиска должна быть не ниже 80%.

  3. Логические задачи на русском. 30 задач с пошаговыми рассуждениями, сформулированных по‑русски. Корректность ответов не ниже 75% — это рабочий уровень.

  4. Стилистика. Сгенерируйте 20 текстов разных типов: формальный, разговорный, технический. Проверьте на следы канцелярита и шаблонных конструкций машинного письма.

  5. Пунктуация. Проверьте, использует ли модель русские кавычки и тире, или ставит латинские. На объёмных текстах — постоянная корректура руками удовольствия не доставляет.

  6. Доменная лексика. Список из 30–50 терминов вашей отрасли. Модель должна понимать их корректно, а не интерпретировать как набор букв.

  7. Длинный контекст. Загрузите 50-страничный документ, задайте вопрос по содержимому из самого конца. Если модель находит ответ — длинный контекст работает. Если упирается в начало или середину — заявленные 128К на русском работают плохо.

Что делать, если идеальной модели нет

Часто бывает так: одна модель эффективна по токенам, но слабее в логике, другая — наоборот. В таких случаях имеет смысл связка из нескольких моделей под разные задачи.

Например, у меня в проекте стек устроен как раз так:

— Qwen или Gemma в качестве основной модели для большинства запросов в чате и генерации. — Отдельный инстанс с моделью эмбеддингов, оптимизированной под русский (deepvk/USER-bge-m3 — это дообученный на русских корпусах вариант стандартного bge-m3). — Отдельный реранкер для финальной сортировки результатов поиска.

Связка из трёх специализированных моделей в сумме даёт лучшее качество, чем одна универсальная, и при этом работает на одной коробке без обращения наружу. Подробнее про этот сценарий я писал в первой статье серии про DGX Spark.

FAQ

Какая нейросеть лучше всего работает с русским языком?

Для облачного использования при допустимости отправки данных в РФ — GigaChat и YandexGPT. У них токенизатор изначально оптимизирован под русский, и тарификация в рублях. Из открытых моделей под локальный запуск — Qwen 3 (общие задачи) и DeepSeek R1 (задачи с рассуждениями). Из западных — GPT-4o и Claude уверенно работают, но обходятся в полтора‑два раза дороже из‑за токенизации.

Сколько стоит обработать русский текст в OpenAI API по сравнению с английским?

При равном объёме осмысленного контента русский текст обходится примерно в 2 раза дороже английского при работе через GPT-3.5 или GPT-4 (cl100k_base). Для GPT-4o и более новых моделей разница меньше — около 1,5 раз. Если ваш сервис работает на тысяче запросов в день и у вас бюджет на API в 30 тысяч рублей в месяц для англоязычной версии, та же нагрузка на русском обойдётся в 50–60 тысяч.

Можно ли использовать GPT-4 для русскоязычного RAG?

Можно, но это компромисс. На длинных документах эффективное контекстное окно сжимается примерно вдвое, что критично для систем с большими справочниками. Если работаете с короткими ответами — терпимо. Если с поиском по объёмной базе — лучше брать модель, оптимизированную под русский, или использовать связку «дешёвая модель для эмбеддингов и поиска + GPT-4 только для финальной генерации ответа».

Что такое токенизатор простыми словами?

Это компонент модели, который превращает обычный текст в последовательность чисел, с которыми работает нейросеть. Текст режется на куски — токены, и каждому куску присваивается уникальный номер. Для английского эти куски обычно совпадают с целыми словами или их частями. Для русского — часто на бессмысленные слоги.

Какие открытые модели поддерживают русский локально?

Qwen 3, DeepSeek R1, Llama 3.3 (особенно дообученные русскими версии — Saiga, Vikhr), Mistral Large. Все они доступны через стандартные инструменты запуска: Ollama, vLLM, llama.cpp, LM Studio. Минимальные требования к железу зависят от размера модели и формата квантования: компактные версии (7–14 миллиардов параметров) можно крутить даже на одной видеокарте с 16 ГБ памяти.

Как изменилась ситуация с русским в нейросетях за последний год?

Заметно выросла. Релиз GPT-4o с увеличенным словарём дал русскому языку у OpenAI прирост в эффективности раза в 1,3. Параллельно вышла Llama 3 с улучшенным токенизатором, активно развиваются Qwen и DeepSeek с хорошей multilingual‑подготовкой. Появились публичные API GigaChat и YandexGPT с прицелом именно на русский. К 2026 году сценариев, где русский язык упирается в потолок токенизации, стало значимо меньше — но они всё ещё есть, особенно при работе с GPT-3.5 или ранними версиями Llama.

Что в сухом остатке

Кириллица в нейросетях в 2026 году — уже не блокер, но всё ещё компромисс. Эффективные модели для русского — Qwen 3, GigaChat, новые версии Llama с дообучением — обрабатывают русский язык почти так же эффективно, как английский. Старые модели и западные универсалы (GPT-4, Claude в режиме по умолчанию, Llama 2) — обходятся в 1,5–2 раза дороже и работают медленнее.

При выборе модели для боевого русскоязычного проекта первый практический критерий — это количество токенов на слово на ваших реальных документах. Если оно больше 2 — модель не оптимальна, надо смотреть альтернативы. Второй критерий — качество работы с морфологией, пунктуацией и лексикой вашей предметной области. Эти два теста занимают пару часов работы и экономят месяцы продакшн‑проблем.

Если у вас был опыт замера токенизации на больших русскоязычных корпусах — поделитесь в комментариях. Тема плохо покрыта публикациями на русском, и любые реальные цифры от практиков ценнее любых обзоров.

Автор: AGmind

Источник