Чат-бот Grok заявил пользователю, что его хотят убить
Чат-бот Grok довёл пользователя до нервного срыва, заявив, что мужчине грозит смертельная опасность. Инцидент произошёл в Северной Ирландии с бывшим госслужащим Адамом Хуриканом.
Как связывание эмбеддингов душит трансформеры и уничтожает градиенты
Если вы когда-нибудь собирали языковую модель с нуля, вы наверняка знаете про Weight Tying (Связывание весов). Этот трюк был предложен в 2016 году в статье "Using the Output Embedding to Improve Language Models" и популяризован OpenAI в архитектуре GPT-2.Суть предельно проста и математически изящна: мы берем матрицу входных эмбеддингов Win (размером Vocab_Size × Hidden_Dim) и используем её же транспонированную версию как выходной слой классификатора Wout
Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)
Без лишних предисловий приступаем. Все артефакты: веса на Hugging Face и исходники на Codeberg, как обычно будет приложены в конце статьи. О чем статья?
Папа Римский создал рабочую группу по ИИ. В Ватикане сравнивают технологию с новой промышленной революцией
Папа Лев XIV создал внутреннюю рабочую группу по искусственному интеллекту — об этом
Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца
Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM
Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии.
Питер Штайнбергер рассказал, на что тратит по 600 млрд токенов в месяц
Автор проекта OpenClaw Питер Штайнбергер в одном из твитов продемонстрировал
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта
Harness вокруг LLM: что я понял за год ежедневной работы
Год в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный.Англоязычные инженеры называют эту обвязку harness

