PyTorch.

Они умеют думать. Как я искал (и нашёл) язык, на котором «думает» LLM

Это история одного эксперимента. Без хайпа про «сознание ИИ», но с настоящим результатом: внутри большой языковой модели есть слой, где мысль ещё не слово, а концепт. И этот концепт можно поймать за руку, подвигать, как ручку громкости, и прочитать по слогам.Вопрос, с которого всё началосьКогда LLM отвечает вам, она выдаёт токены — кусочки слов. Слева направо, по одному. Но до того, как родился токен, внутри сети прокатывается волна чисел — скрытые состояния, 3584 числа на каждом слое, 28 слоёв. Вопрос, который не давал мне покоя:

продолжить чтение

С-С++ в современном машинном обучении: традиционные роли и возможности нового стандарта

Привет, Хабр! Меня зовут Кирилл, я разработчик СХД в YADRO

продолжить чтение

Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Модель обучается, loss падает, метрики растут. На какой‑то эпохе loss внезапно становится nan и больше не восстанавливается, как бы вы ни понижали learning rate. Или инференс на проде иногда возвращает вероятность ровно 1.0 для класса, которого в обучающей выборке почти не было, а в логах при этом тихо мелькает RuntimeWarning: overflow encountered in exp. Код не менялся, данные те же, гиперпараметры те же. Просто в какой‑то момент промежуточное число вышло за границу того, что тип float умеет хранить, и дальше вся арифметика поехала.

продолжить чтение

Языковые модели без лишних слов

Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова «Языковые модели без лишних слов: Практика на PyTorch

продолжить чтение

Я хотел повторить Growing Neural CA за вечер. Ушёл месяц

22 эксперимента, 9 потолков, один champion и неприятная правда про дисциплину экспериментаМесяц назад я прочитал на Хабре статью про нейронные клеточные автоматы. Маленькие нейросети управляют клетками на сетке, клетки сами собираются в букву T или крест, и всё это обучается без учителя через что-то вроде эволюции. Я подумал: круто, повторю за пару вечеров, посмотрю как себя ведёт.Эта статья — про то, что было дальше. Спойлер: пара вечеров превратилась в месяц, я провёл 22 эксперимента, упёрся в потолок IoU 0.44 на простой букве T, и главное чему научился — это вообще не про нейросети.

продолжить чтение

Детекция чужого почерка в экзаменационных бланках без эталонного образца

Один ученик писал экзаменационную работу, а кто-то чужой дописал часть за него. Как мы научили нейросеть распознавать это.Дано: государственная аттестация, бумажные бланки, никакого онлайн-контроля. Классический способ фальсификации: ученик начинает работу сам, потом часть дописывает кто-то другой: сосед, нанятый человек, преподаватель. Проверяющий смотрит на текст, но не оценивает почерк.Задача ИИ:

продолжить чтение

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и

продолжить чтение

Создаем ИИ‑модель для генерации музыки на базе Lakh MIDI Dataset

ВведениеГенерация музыки алгоритмами — давно рабочий инструмент индустрии. Этот сегмент прошел путь от простых цепей Маркова, которые предсказывали вероятности перехода одной ноты в другую, до современных трансформеров, способных выдавать многоканальные аудиозаписи.

продолжить чтение

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца

продолжить чтение

Использование машинного обучения в работе с SolidWorks (2 часть): тестирование и практическое применение

Всем привет.В прошлой статье я поделился своими наработками в области работы ИИ с CAD-программами (в моём и нашем случае, SolidWorks). В этот раз поделюсь практическими результатами на примере тестового ядра своей программы, которую уже затрагивал.Краткая теория (совсем кратко)Для тестирования я подготовил 3 папки с 10 файлами деталей в каждой, переименованными в соответствии с их истинным (по моим человеческим меркам) классом: "Без гибки", "Гибка", "Вальцовка". В папке №1 находятся детали, "родственники" которых уже приняли участие в обучении (см. "Тест №1

продолжить чтение

123456...8