Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур
Я занимаюсь внедрением ML в промышленности, поэтому задача детекции аномалий во временных рядах для меня близка и имеет огромную важность. В рамках исследовательского проекта мы искали адекватное SOTA-решение для мониторинга телеметрии (водоочистка, турбины, химические установки).Изучая свежие работы с конференций уровня A*, я обратил внимание на статью про Sub-Adjacent Transformer (SAT). В аннотации авторы заявляли метрику F1 в районе 99%.
Девять лет, как битломаны запустили ИИ-революцию
12 июня 2017 года группой битломанов из Google была опубликована статья под названием "Attention Is All You Need", в которой миру впервые были представлены трансформеры — новый тип нейронных сетей, которые обрабатывали всё, везде и сразу.Эту дату можно считать началом ИИ-революции, которую мы сейчас наблюдаем. Нам кажется, что все произошло практически мгновенно — однако девять лет уже пролетело!Вся фишка была в механизме внимания.
Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года
За attention-механизм с 2017 года брались сотни раз: sparse attention, linear attention, MoE, MLA, скользящие окна, что только не. А вот residual connection, остаточная связь, та самая x + F(x) из ResNet 2016 года, простояла почти десять лет нетронутой. Её просто унаследовали из résnet'ов, воткнули в трансформер и забыли.31 декабря 2025-го DeepSeek выложил на arXiv препринт, где взялся именно за этот кирпич. И что показательно, загрузил его на arXiv лично основатель компании Liang Wenfeng, он же в соавторах. Когда основатель сам публикует статью, это обычно значит, что она ляжет в следующую флагманскую модель. Так и вышло: mHC поехал в DeepSeek V4, который выкатили 24 апреля 2026-го.
Pipeline в машинном обучении: как создавать сложные модели без боли и утечек данных
Привет, Хабр! Меня зовут Андрей Бирюков. Я — независимый эксперт в области ИТ и ИБ, преподаю в учебных центрах и пишу статьи и книги. И сегодня мы поговорим об использовании Pipeline для задач машинного обучения. Давайте представим, что вы решили построить дом. Можно нанять отдельных рабочих для фундамента, стен, крыши и коммуникаций, а затем попытаться координировать их работу самостоятельно. А можно нанять генерального подрядчика, который возьмет на себя все этапы, гарантирует качество на каждом шаге и сдаст готовый дом «под ключ».
Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?
Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.
Иллюзия ширины и геометрия глубины: почему глубокие нейросети умнее, и в чем лжет теорема об аппроксимации
Когда вы проектируете архитектуру своей нейросети и у вас есть фиксированный бюджет параметров (допустим, 1 гигабайт видеопамяти под веса), перед вами всегда встает выбор: сделать сеть толстой (увеличить размерность скрытого слоя / d_model) или глубокой (увеличить num_layers).Если мы откроем учебник по математике, мы увидим знаменитую универсальную теорему об аппроксимации. Она математически доказывает, что сеть с одним единственным скрытым слоем способна с любой точностью описать любую непрерывную функцию. Кажется, вывод очевиден: наращивай ширину, и сеть выучит всё.
Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться
Если вы посмотрите на эволюцию видеокарт для машинного обучения, вы увидите одну тенденцию: гонку за объемом видеопамяти. Размеры LLM пухнут, KV кэш сжирает терабайты, батчи становятся всё больше. Нам нужно больше VRAM. Еще больше VRAM.Но если вы когда-нибудь писали собственные ядра на triton, вы знаете одну жестокую тайну, о которой не задумываются дата саентисты высокоуровневых фреймворков.Самая дорогая часть вашей видеокарты это самое медленное, узкое и отвратительное место во всей системе. И вся современная ML оптимизация (Kernel Fusion, FlashAttention, PagedAttention) сводится к одному правилу:
Как технология LayerScale спасает сверхглубокие трансформеры (и почему о ней молчат туториалы)
В мире глубокого обучения существует наивный миф: "Если твоя модель недостаточно умная, просто накинь еще пару десятков слоев".На бумаге residual связи (те самые плюсики в коде: x=x+f(x) ) должны позволять нам строить сети бесконечной глубины, спасая градиенты от затухания. Но любой, кто пытался с нуля обучить трансформер слоев на 80, знает жестокую правду: сеть просто отказывается сходиться. Loss взрывается в первые же эпохи, или модель навсегда застревает на субоптимальном плато.
Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)
Мы привыкли восхищаться тем, как нейронные сети умеют адаптироваться. Они находят паттерны в шуме, обходят локальные минимумы и выжимают максимум из грязных данных. Но у этой сверхспособности есть темная сторона, о которой редко говорят в туториалах.Сверх адаптивность нейросетей это худший кошмар инженера.

