Машинное обучение. - страница 40

Чат-бот Grok заявил пользователю, что его хотят убить

Чат-бот Grok довёл пользователя до нервного срыва, заявив, что мужчине грозит смертельная опасность. Инцидент произошёл в Северной Ирландии с бывшим госслужащим Адамом Хуриканом.

продолжить чтение

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Если вы когда-нибудь собирали языковую модель с нуля, вы наверняка знаете про Weight Tying (Связывание весов). Этот трюк был предложен в 2016 году в статье "Using the Output Embedding to Improve Language Models" и популяризован OpenAI в архитектуре GPT-2.Суть предельно проста и математически изящна: мы берем матрицу входных эмбеддингов Win (размером Vocab_Size × Hidden_Dim) и используем её же транспонированную версию как выходной слой классификатора Wout

продолжить чтение

Как я загрузил компактную открытую LLM в робота и сказал ему ходить (и хватать)

Без лишних предисловий приступаем. Все артефакты: веса на Hugging Face и исходники на Codeberg, как обычно будет приложены в конце статьи. О чем статья?

продолжить чтение

Папа Римский создал рабочую группу по ИИ. В Ватикане сравнивают технологию с новой промышленной революцией

Папа Лев XIV создал внутреннюю рабочую группу по искусственному интеллекту — об этом 

продолжить чтение

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца

продолжить чтение

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии

продолжить чтение

Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии.

продолжить чтение

Питер Штайнбергер рассказал, на что тратит по 600 млрд токенов в месяц

Автор проекта OpenClaw Питер Штайнбергер в одном из твитов продемонстрировал

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

Harness вокруг LLM: что я понял за год ежедневной работы

Год в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный.Англоязычные инженеры называют эту обвязку harness

продолжить чтение