Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца
Трудности перевода
Начну с небольшого вступления. Дорогие коллеги, хочу донести до вас не очень приятное известие. Наши мозги нас обманывают. В этом нет злого умысла - просто они так устроены. Сформировавшийся у нас абстрактно-логический тип мышления оперирует образами. При этом образы не являются объектами реальности. Они только отражают реальность, причем не всегда корректно. Огромная часть образов лежит в подсознании, и мы можем только догадываться об их существовании. Но, даже в скрытом состоянии, они оказывают влияние на нашу деятельность.
AI-агенты в разработке: как Cursor, Claude Code и агентный подход меняют работу программиста
AI-агенты — одна из самых спорных тем в разработке. Одни видят в них следующий шаг после Copilot и способ быстрее закрывать рутину. Другие — источник технического долга, проблем с безопасностью и ещё одну волну завышенных ожиданий вокруг AI.В этой статье разберём, как устроен агентный подход, как работают популярные инструменты Cursor и Claude Code и что важно знать для работы с агентами.Помогали с написанием статьи:
Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл
Привет, Хабр! Если вы следите за архитектурами современных LLM (например, LLaMA или Gemma), вы могли заметить одну маленькую, но важную деталь, которая стала стандартом де-факто - QK Norm (Query-Key Normalization). В официальных пейперах её использование объясняют сухим математическим языком: при масштабировании моделей скалярные произведения Q * Kt начинают неконтролируемо расти, Softmax превращается в единичный вектор (one-hot), градиенты затухают, и обучение разваливается. Нормализация решает эту проблему численной стабильности.
ИИ в строительстве: с чего начать внедрение
Строительная отрасль всё активнее смотрит в сторону искусственного интеллекта: стройка — это сложный процесс с большим количеством людей, подрядчиков, техники, сроков, рисков и отклонений от плана. Поэтому цифровизация — логичный шаг, который упрощает и ускоряет все процессы в отрасли. Этот путь практичнее начать не с масштабной цифровой трансформации, а с конкретной задачи бизнеса. Наш пример — видеомониторинг строительной площадки с применением ИИ.Сферы применения ИИ в строительстве
«Продай мне этот космолёт» или история любви к симуляторам. От космосима X-Tension до ActorModel-DoD-ECS архитектуры. Ч2
«Все модели неправильны. Некоторые из них полезны.» — Джордж Бокс «Через тернии к звездам»
Подружитесь со своим ассистентом
В последнее время мне довольно часто приходится отвечать на вопросы, как я добиваюсь такой эффективности работы с ИИ-ассистентом, хотя коллеги гораздо тщательнее относятся к промптам, пишут километровые преамбулы на каждый чих и увещевают своих помощников мантрами наподобие «ты аналитик-архитектор с трехсотлетним стажем».Записал вот и даже перевел на русский свои рецепты, чтобы каждый раз не вставать. Типографика
Мобильная разработка за неделю #630 (11 — 17 мая)
Возвращаемся после небольшого майского перерыва с новым дайджестом - советы и хитрости Xcode 16 и как добиться 0 рекомпозиций в сложном кастомном UI, три раунда войны с Android-клавиатурой в WebView и обновление без разрешения пользователя, 10 оптимизаций Swift, которые улучшат производительность, тестирование Compose по-новому, декларативная навигация для Flutter, под капотом перезапуска приложения Бургер Кинг и многое другое. Заходите!
