Как устроены AI токены: реальные расходы на запросы, принципы токенизации и разница с количеством слов
Что такое токен в искусственном интеллекте, и зачем он нуженТокен — это минимальная единица обработки данных для моделей искусственного интеллекта. Он может представлять собой:Слово;Часть слова;Знак препинания;Символ;Пробел.Токенизация это обязательный этап для обработки текста в нейросети. Она разбивает текст на набор токенов, чтобы понимать, что ей от вас надо и генерировать ответы, содержащие какой-то смысл и пользу. Кстати, одно и то же слово в одном и том же языке может разбиваться на разные токены в зависимости от написания.
От текста к токенам: как работают пайплайны токенизации
Команда AI for Devs подготовила перевод статьи о том, как поисковые системы превращают обычный текст в токены и почему этот процесс важнее, чем кажется. Разбираем каждый этап: нормализацию, токенизацию, стоп-слова, стемминг и то, как всё это влияет на качество поиска.Когда вы вводите предложение в строку поиска, легко представить, что поисковая система видит то же самое, что и вы. На самом деле поисковые системы (или поисковые базы данных
Работаем с NLP на Python
На тему Natural Processing Language написано множество статей, однако во многих из них рассказывается о том, как уже используется NLP в различных отраслях. Однако, что делать тем, кто только хочет начать использовать естественный язык для своих задач? В этой статье мы изучим основы обработки естественного языка на Python, используя подход «сначала код», используя Natural Language Toolkit (NLTK).Установка NLTK
История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима
Доброго времени суток, «Хабр»!
Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано

