трансформер.

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш-таблицы и почти-линейный трансформер - получилось дешево и сердито. Однако есть в Engram один недостаток - он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.Небольшой ликбезEngram, по сути, перешивает токены и добавляет к ним факты. Реализовано это довольно хитро, через хеш-функцию, O(1) по сложности. Благодаря такой пристройке трансформер уделяет больше внимания на грамматику и связь слов в предложении.Основная идея

продолжить чтение

Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.Данная статья представляет собой результат кабинетного исследования об основных особенностях работы ИИ (LLM, модель). Здесь в систематизированном виде относительно простым языком описано, как реализуется вся та “магия” про ИИ, с которой мы сталкиваемся сами или слышим в восторженно-продающих материалах.Сразу уточню, что под ИИ тут понимается именно публичная Большая языковая (текстовая) модель (LLM), вроде ЧатаГПТ, ГигаЧата, Дипсика и др.В этой статье мы:

продолжить чтение

Как показать модели пальцем, что важно

Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина.В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices. Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается.Однако, там есть пара инсайтов, которые работают и буду полезны всем.Как модель «смотрит» на текст

продолжить чтение

Как работает трансформер (LLM)

Это мой первый пост на Хабре, так что не судите строго :-)Текст ниже - это слегка отредактированная версия чата с моими друзьями, где я вызвался объяснить, что же именно происходит в мозгах «электронного болвана». Так получилось, что в конце 2025 — начале 2026 я смог, наконец, удовлетворить собственное любопытство относительно внутреннего устройства современных нейросетей. Правда, не до конца — сейчас уже почти все переходшли на архитектуру MoE, но насколько я вижу — это скорее оптимизация, нежели что‑то кардинально новое. Трансформер так и остаётся в центре всего этого технологического чуда, что мы наблюдаем.

продолжить чтение

Детальный разбор архитектуры современных языковых моделей

Доброго времени суток, «Хабр»!Сегодня мы погрузимся в мир современных языковых моделей, детально изучим их архитектуру и разберемся в принципах работы. Готовы к захватывающему путешествию в мир искусственного интеллекта? Тогда пристегните ремни — мы отправляемся!

продолжить чтение

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»!

продолжить чтение

Native Sparse Attention: новый вид разреженного внимания от DeepSeek

Когда Маск выпустил Grok 3, а Сэм Альтман все еще колебался, стоит ли открывать исходный код, Лян Вэньфэн, как соавтор, работал с исследовательской группой DeepSeek над созданием шокирующей и сенсационной исследовательской статьи. DeepSeek официально представила свой последний научный прорыв — Native Sparse Attention (NSA)! Эта технология имеет большое значение. Она, скорее всего, значительно повысит способность следующего поколения больших языковых моделей обрабатывать длинные тексты, полностью учитывая при этом операционную эффективность. Нет сомнений, что это еще одна веха в области больших языковых моделей (LLM)!

продолжить чтение