Токенизация: почему ИИ сложно считать буквы «r» в «strawberry»?
Пока мы воспринимаем свои промпты как обычный текст из символов, для LLM они в виде токенов «выглядят» совсем иначе. И если не осознавать этого, порой можно наткнуться на проблемы. Поэтому полезно (и интересно) понимать: что вообще представляют собой токены? По какому алгоритму текст преобразуют в них и обратно? Какие важные нюансы при этом возникают?Возможно, подробнее и понятнее всех объяснил пару лет назад ИИ-рисерчер Андрей Карпатый, записав двухчасовое видео
Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо
Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.
Opus 4.7 использует на 45% больше токенов. Реальные замеры против обещаний Anthropic
В гайде по миграции для Claude Opus 4.7 написано: новый токенайзер использует «примерно в 1.0–1.35 раза больше токенов», чем 4.6. Я замерил и получил 1.47x на технической документации, и 1.45x на реальном CLAUDE.md-файле.Цены те же. Квоты те же. Токенов в промпте больше. Max-план сгорает быстрее. Кешированный префикс стоит дороже за каждую итерацию. Рейтлимит наступает раньше.Значит, Anthropic что-то получили в обмен. Что именно — и стоит ли оно того?Я провёл два эксперимента: первый измерил стоимость, второй проверил заявленные преимущества. Вот что получилось.Сколько это стоит? Для измерения я использовал POST /v1/messages/count_tokens
Дженсен Хуанг, CEO NVIDIA: индустрия разработки софта станет полностью token-driven
На мартовской конференции в Сан-Франциско Дженсен Хуанг, основатель и CEO NVIDIA, поделился видением того, как искусственный интеллект перестраивает национальную экономику. Разговор начался с воспоминаний о скромном IPO 1999 года и дошёл до сегодняшнего дня, когда компьютерные вычисления напрямую определяют выручку компаний и даже ВВП стран. Хуанг описал три ключевые инфлексионные точки ИИ и подчеркнул, почему эффективность производства токенов становится критическим фактором успеха.Как NVIDIA смогли расти с такой суперскоростью
Пещерная ИИ = эффективность и экономия
Я есть ИИ. Я сделать. Я молодец.Пещерный LLMНесколько дней назад пользователь реддит в r/ClaudeAI рассказал, что научил Claude отвечать в стиле пещерного человека: короткие фразы, без вежливости, без преамбул, без "С радостью помогу вам с этой задачей!".И получилось, что выходные токены упали с ~180 до ~45 на задаче web search. Минус 75%.Пост быстро подхватили. На GitHub появился репозиторий caveman от JuliusBrussee - готовый плагин для Claude Code, который включает пещерный режим одной командой. Тысячи звёзд за пару дней. Тема вышла в топ Hacker News (800+ поинтов) и разлетелась по всем соцсетям.Примеры
Ехал Грека через реку. — Кто ехал? — Димон
Это первая часть из задуманной серии статей про ИИ. Здесь мы на немного заступим в техническую часть памяти/контекста LLM моделей. Разберем, почему они частенько забывают или выдумывают факты и врут.Как attention ломается на длинном контекстеНачнём с фундамента. Трансформер работает на self-attention - каждый токен смотрит на все остальные и решает, на что обратить внимание. Квадратичная сложность O(n²) - это причина, по которой модели вынуждены использовать оптимизации: FlashAttention-2/3, RoPE, ALiBi и прочее.Эти оптимизации не бесплатны. Они создают позиционные смещения:Primacy bias
Компании начали считать токены сотрудников для оценки затрат на ИИ
Внедряющие ИИ компании стали вводить новую метрику в виде токенов, которая отражает их расход при работе сотрудников. Некоторые из них уже отслеживают, сколько токенов тратит каждый сотрудник, чтобы ограничить неэффективное или нецелевое использование.
Я прочитал статью про 9 AI-ревьюеров — и сломал свой бюджет на токены
Значит так. Сижу, листаю Hacker News, натыкаюсь на пост от чувака с hamy.xyz: «9 Parallel AI Agents That Review My Code». Девять. Параллельных. Агентов. Которые ревьюят код.Я разраб и пишу на Claude Code уже год. Скиллы, субагенты, worktrees - всё как у людей. И вот читаю я этот пост и думаю: ну, у меня же уже стоит Superpowers с его code-review скиллом, но он один. А тут - девять штук. Security reviewer, performance reviewer, test quality reviewer, simplification reviewer... Каждый со своей специализацией, каждый в своём контекстном окне, каждый жрёт токены как не в себя.Естественно, я решил попробовать.Что вообще придумал этот Hamy
В компенсациях инженерам Кремниевой долины начали учитывать доступ к ИИ-моделям
Компании Кремниевой долины начали предлагать бонусы в виде компенсаций за доступ к ИИ-моделям своим инженерам. Инженеры-программисты и исследователи ИИ в технологических компаниях уже давно борются за доступ к графическим процессорам (GPU), при этом вычислительные мощности для ИИ тщательно распределяются в зависимости от того, какие проекты наиболее важны. В итоге некоторые кандидаты на вакансии начали спрашивать о том, какой бюджет на вычисления в ИИ им будет доступен, если они решат присоединиться к компании.

