нормализация.

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца

продолжить чтение

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Привет, Хабр! Если вы следите за архитектурами современных LLM (например, LLaMA или Gemma), вы могли заметить одну маленькую, но важную деталь, которая стала стандартом де-факто - QK Norm (Query-Key Normalization). В официальных пейперах её использование объясняют сухим математическим языком: при масштабировании моделей скалярные произведения Q * Kt  начинают неконтролируемо расти, Softmax превращается в единичный вектор (one-hot), градиенты затухают, и обучение разваливается. Нормализация решает эту проблему численной стабильности.

продолжить чтение

От каши к структуре: гибридная AI‑система для обработки свободного текста

Я занимаюсь проектом, где нужно из свободных текстов на естественном языке вытаскивать структурированные данные. Не разово — постоянно, по мере поступления. За несколько месяцев я перепробовал регулярки, чистый LLM и в итоге пришёл к гибриду. Ниже расскажу, что из этого всего вышло: архитектура, промпты, трудности и неочевидные решения.Стек: Python 3.12, Ollama + Qwen 2.5 (всё локально), YAML как формат хранения, SHA256 для дедупликации, Jinja2 для шаблонизации промптов.Проект называется Svyazi

продолжить чтение

Обходим российские блокировки и шлем РКН куда подальше

база? база.

продолжить чтение