Compute crunch пришёл: как считать экономику LLM в 2026
Build, Buy или Hybrid - рассуждаем о подходах к TCO. Статья - приглашение к диалогу и обсуждению, не экспертный нарратив."Я говорил" или что случилось с тарифами на LLM APIДва крупнейших API-провайдера одновременно сменили риторику. Anthropic ввёл usage-based billing для агентных фреймворков — плата за токены вместо фиксированных подписок. Часть сторонних обёрток потеряла возможность работать через flat-rate тарифы. OpenAI параллельно ввёл гибкое корпоративное ценообразование для Enterprise, Business и EDU-планов
Дофаминовый шум, ИИ и токенизация активов: разбираем ежегодное письмо главы BlackRock Ларри Финка
Каждый год Ларри Финк, глава крупнейшей в мире инвестиционной компании BlackRock (активы которой только за 2025 год выросли на $698 млрд), публикует открытое письмо инвесторам. Обычно такие письма воспринимаются как скучная корпоративная отчетность, но не в этот раз.Письмо Финка — это отличный пример системного анализа того, как технологии (в частности, ИИ) и особенности нашей цифровой среды ломают привычные экономические модели.Разберем ключевые тезисы через призму системного и инженерного мышления.1. Синдром дефицита внимания в масштабах мировой экономики
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.
Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов
Что такое токен в искусственном интеллекте, и зачем он нуженТокен — это минимальная единица обработки данных для моделей искусственного интеллекта. Он может представлять собой:Слово;Часть слова;Знак препинания;Символ;Пробел.Токенизация это обязательный этап для обработки текста в нейросети. Она разбивает текст на набор токенов, чтобы понимать, что ей от вас надо и генерировать ответы, содержащие какой-то смысл и пользу. Кстати, одно и то же слово в одном и том же языке может разбиваться на разные токены в зависимости от написания.
От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.Когда вы вводите предложение в строку поиска, легко представить, что поисковая система видит то же самое, что и вы. На самом деле поисковые системы (или поисковые базы данных
Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).Установка NLTK
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»!
Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано

