языковые модели.

В поисках эмбеддинга личности или Как зарождается личность LLM

Пару месяцев назад я публиковал отчет об эксперименте по созданию языковой модели на базе модульной архитектуры с ядром на латентных представлениях. Данная статья является отчетом о новых аспектах этого эксперимента. Поэтому для тех, кто не в теме, совсем коротко: классические авторегрессивные LLM оперируют токенами, условно говоря думают на токенном уровне. В модульной архитектуре отдельно выделяется языковой интерфейс в виде энкодера и декодера, а само «думающее» ядро работает уже не с токенами напрямую, а с их сжатыми латентными представлениями. Кому интересно, вот ссылка на статью с предыдущим экспериментом:

продолжить чтение

Искусственный Интеллект незаметно меняет твою позицию

Один из распространенных инструментов на основе ИИ – автозаполнение с подсказкой. В идеале, он должен ускорить набор текста. Однако, такие инструменты незаметно меняют наше мировоззрение. Масштабное исследование показало, что подсказки автозаполнения с заранее заложенным паттерном смыслов, меняют позицию пользователя в отношении к смертной казни и добыче сланцевого газа методом гидроразрыва. И это только то, что нам известно.

продолжить чтение

Границы моего языка — это границы моего мира, или почему AGI недостижим с помощью LLM

Можете ли вы поверить в то, что учитель из Австро-Венгрии предсказал возможности современных LLM и их ограничения еще более 100 лет назад?Сегодня все говорят о пузыре ИИ, но еще недавно от LLM многие ждали прорыва, и даже возможной дороги к AGI. Но на чем основывались эти ожидания? И почему мы поверили в этот мираж? Эта история о том, как природу этого миража один человек увидел еще более века назад. И его имя — Людвиг Витгенштейн.

продолжить чтение

Если попросить ИИ назвать случайное мужское имя, он скажет «Marcus». И будет говорить «Marcus» снова и снова

Разработчик Бенджи Смит провёл эксперимент с 37 500 запросами к пяти моделям Claude с одной задачей: выбрать случайное имя. Самый частый мужской ответ — Marcus, 23.6% от всех попыток. У женских имён фаворит — Amara, 14.3%. А Opus 4.5 при простом промпте возвращал «Marcus» в каждом из ~100 запросов подряд без единого отклонения. При том что каждый вызов API проходит заново через модель, без кеша.Всего за эксперимент модели выдали 1 680 уникальных имён, но если измерить энтропию по Шеннону, реальный выбор эквивалентен ~137 именам. У Sonnet 4.5 ещё меньше — около 22. Разброс между моделями хорошо виден в таблице.

продолжить чтение

Базовый минимум. Часть 3:  RAG-системы

Дисклеймер: данная лекция подготовлена в первую очередь для непрофильных студентов магистратуры и аспирантуры, которые используют ИИ в учебной, исследовательской и профессиональной деятельности. Материал носит вводный характер и содержит намеренные упрощения. В то же время лекция может быть полезна и более широкой аудитории пользователей ИИ. Буду признателен за замечания и предложения по улучшению.Серия «Базовый минимум» (4 части): Базовый минимум. Часть 1:  большие языковые модели;Базовый минимум. Часть 2:  промпт-инжиниринг

продолжить чтение

Не искусственный интеллект: как устроена научная работа в российских ИИ-лабораториях в 2026

продолжить чтение

От идей к коду: проверяю теорию внимания на практике

Всем привет, меня зовут Алекс Гусев. Это третья публикация в линейке (раз, два), посвящённой тому, как меняется работа со знанием в условиях его избытка и почему внимание становится ключевым ограничивающим ресурсом.

продолжить чтение

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.

продолжить чтение

Apple выпустила руководство по промптингу локальных моделей из Foundation Models

Apple обновила документацию по работе с Foundation Models и добавили страницу с руководством по промптингу локальных языковых моделей. В документе подчёркивают, что правила немного отличаются от принципов промптинга облачных моделей из-за ограниченных ресурсов устройств.

продолжить чтение

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Как работают языковые модели? Думаю, это один из самых актуальных вопросов в последние годы. Я регулярно задаюсь этим вопросом и постоянно читаю материалы по работе трансформеров. Из всего, что я узнал, самый сложный, по моему мнению, механизм в работе LLM - внимание (attention)ВведениеПривет, Хабр! В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

продолжить чтение

123456...10...15
Rambler's Top100