Пять мыслей о возможностях и ограничениях LLM
О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.Ниже представлены наблюдения по этим вопросах. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал
ИИ 2026: Технологии, которые выживут в продакшне
Когда технологии упираются в потолок
От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум
Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет
TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей
Пять лет назад я начал работать с или в проекте Comexp Research Lab - научно-исследовательской компании, в которой тогда было два человека (считая меня). На самом деле исследованиями компания в своей области занимается примерно 15 лет, просто именно на последние пять лет (и особенно на последние полтора года) пришлась самая интенсивность разработок и открытий.
Как мы улучшили рекомендации для пользователей Авито с помощью трансформенной персонализации
Привет! Меня зовут Саша Михеев, и я работаю в Авито над развитием персонализации пользователей. Делаю так, чтобы покупатели видели объявления, которые могут их заинтересовать. Расскажу, как мы внедряли трансформеры, чтобы улучшить рекомендации для пользователей.Статья будет полезна data scientist- и ML-инженерам, ML-Ops-специалистам и продакт-менеджерам.
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.

