В поисках эмбеддинга личности или Как зарождается личность LLM
Пару месяцев назад я публиковал отчет об эксперименте по созданию языковой модели на базе модульной архитектуры с ядром на латентных представлениях. Данная статья является отчетом о новых аспектах этого эксперимента. Поэтому для тех, кто не в теме, совсем коротко: классические авторегрессивные LLM оперируют токенами, условно говоря думают на токенном уровне. В модульной архитектуре отдельно выделяется языковой интерфейс в виде энкодера и декодера, а само «думающее» ядро работает уже не с токенами напрямую, а с их сжатыми латентными представлениями. Кому интересно, вот ссылка на статью с предыдущим экспериментом:
Искусственный Интеллект незаметно меняет твою позицию
Один из распространенных инструментов на основе ИИ – автозаполнение с подсказкой. В идеале, он должен ускорить набор текста. Однако, такие инструменты незаметно меняют наше мировоззрение. Масштабное исследование показало, что подсказки автозаполнения с заранее заложенным паттерном смыслов, меняют позицию пользователя в отношении к смертной казни и добыче сланцевого газа методом гидроразрыва. И это только то, что нам известно.
Границы моего языка — это границы моего мира, или почему AGI недостижим с помощью LLM
Можете ли вы поверить в то, что учитель из Австро-Венгрии предсказал возможности современных LLM и их ограничения еще более 100 лет назад?Сегодня все говорят о пузыре ИИ, но еще недавно от LLM многие ждали прорыва, и даже возможной дороги к AGI. Но на чем основывались эти ожидания? И почему мы поверили в этот мираж? Эта история о том, как природу этого миража один человек увидел еще более века назад. И его имя — Людвиг Витгенштейн.
Если попросить ИИ назвать случайное мужское имя, он скажет «Marcus». И будет говорить «Marcus» снова и снова
Разработчик Бенджи Смит провёл эксперимент с 37 500 запросами к пяти моделям Claude с одной задачей: выбрать случайное имя. Самый частый мужской ответ — Marcus, 23.6% от всех попыток. У женских имён фаворит — Amara, 14.3%. А Opus 4.5 при простом промпте возвращал «Marcus» в каждом из ~100 запросов подряд без единого отклонения. При том что каждый вызов API проходит заново через модель, без кеша.Всего за эксперимент модели выдали 1 680 уникальных имён, но если измерить энтропию по Шеннону, реальный выбор эквивалентен ~137 именам. У Sonnet 4.5 ещё меньше — около 22. Разброс между моделями хорошо виден в таблице.
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.
Apple выпустила руководство по промптингу локальных моделей из Foundation Models
Apple обновила документацию по работе с Foundation Models и добавили страницу с руководством по промптингу локальных языковых моделей. В документе подчёркивают, что правила немного отличаются от принципов промптинга облачных моделей из-за ограниченных ресурсов устройств.
Анатомия трансформеров: почему обычный Self-Attention больше не используют
Как работают языковые модели? Думаю, это один из самых актуальных вопросов в последние годы. Я регулярно задаюсь этим вопросом и постоянно читаю материалы по работе трансформеров. Из всего, что я узнал, самый сложный, по моему мнению, механизм в работе LLM - внимание (attention)ВведениеПривет, Хабр! В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

