PyTorch.

Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

TL;DRАвтор берёт датасет Abalone и проводит подробный EDA: проверяет распределения, выбросы, мультиколлинеарность и видит выраженную гетероскедастичность целевой переменной.Строится базовая линейная регрессия (c лог-преобразованием целевой), фильтруются выбросы, добавляются полиномиальные признаки — качество улучшается, но упирается в ограничения самой постановки.Далее реализуется полносвязная нейросеть в PyTorch с подбором гиперпараметров, обучением на mini-batch и валидацией по RMSE.

продолжить чтение

Оставлено в

Дифференциальная приватность в ML

Привет, Хабр! Сегодня поговорим в коротком формате о защите данных при обучении моделей, а именно в процессе обучения. Никому не понравится, если ваша нейросеть вдруг выдаст чужие паспортные данные или медицинские записи, правда? А ведь модели машинного обучения иногда склонны запоминать кусочки обучающего набора. Бывали случчаи, где из языковой модели вытаскивали строки с номерами телефонов и email тех людей, чьи данные были в тренировочном датасете. Стоит ли нам вообще кормить модель конфиденциальной информацией

продолжить чтение

Оставлено в

Компилируем Python так, чтобы он работал везде

Это история о том, как написать компилятор Python, генерирующий оптимизированные ядра и при этом позволяющий сохранить простоту кода.Предисловие

продолжить чтение

Оставлено в

Долгая дорога к DiT (часть 3)

Заключительная (но ещё не последняя) статья из цикла про диффузные модели, где мы наконец отбросим примитивную модель из полносвязных слоёв и напишем работающий генератор изображений c архитектурой Diffusion Transformer (DiT). Разберёмся зачем нарезать изображения на квадратики и увидим, что произойдёт с вашей генерацией, если проигнорировать главную "слабость" трансформеров - неспособность понимать порядок.Часть 1Часть 2Очень кратко про трансформеры

продолжить чтение

Оставлено в

DCN-R: как объединить Deep & Cross-модель и ResNet-подход для улучшения рекомендаций

GitHubМотивация и постановка задачиВ индустрии путешествий выбор отеля определяется не только ценой или фотографиями, но и уровнем доверия к источнику рекомендаций. Официальные отзывы часто кажутся обезличенными, а алгоритмические подборки - слишком «машинными» и лишёнными человеческого контекста.

продолжить чтение

Оставлено в

Как я собрал Telegram-бота-консультанта по железу на бесплатном стеке (RAG + Groq + python telegram bot)

Представьте консультанта в DNS/Ситилинке, который не навязывает «вот этот блок питания потому что остался на складе», а спокойно объясняет, чем один БП лучше другого под ваш билд, помнит, о чём вы спрашивали раньше, и ещё просит вежливый фидбек. Я решил собрать такого консультанта в виде Telegram-бота «Кремний» — RAG-бота по железу на бесплатных инструментах: Telegram Bot API, Groq (Llama 3.1 8B), sentence-transformers и чуть-чуть боли с NumPy и Pterodactyl.Задача: живой консультант по железу в Telegram

продолжить чтение

Оставлено в

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Новости, о которых невозможно молчатьМы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта

продолжить чтение

Оставлено в

Собираем ROCm 7.1 + PyTorch в Windows под свои GPU

ВведениеВ этой статье я поделюсь опытом сборки еще не вышедшей на момент написания ROCm 7 под свои GPU, даже если их нет в списке официально поддерживаемых архитектур. Затем покажу, как с собранным ROCm 7 собрать PyTorch и запустить ComfyUI. Для примера я буду собирать ROCm под RX 6800 + Radeon 780m. Я предполагаю, что читатель уже знает, что такое ROCm и зачем он нужен.

продолжить чтение

Оставлено в

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production realityКак мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.Мы - это я и мой друг =)Как всё началосьАвгуст 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?

продолжить чтение