PyTorch.

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

У нас было две бесплатные видеокарты T4 в Kaggle, 30 ГБ оперативной памяти и безумная идея: что будет, если взять веса классической модели (Gemma-4-31B) и хирургическим путем, без всякого дообучения, вшить их в MoE-архитектуру (DeepSeek-V4)? В академической среде вам скажут, что это невозможно: разные размерности, несовместимые слои нормализации, разные принципы роутинга токенов. Но в парадигме Ghetto MLOps нет слова «невозможно». Есть только вопрос: сколько костылей потребуется, чтобы это скомпилировалось?

продолжить чтение

Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM

Современный мир Open-Source AI несправедлив. Когда ZhipuAI выкатили свою новую архитектуру GLM-5.1, в её паспорте значилась цифра, от которой у владельцев домашних ПК темнеет в глазах — 744 миллиарда параметров. Чтобы просто поднять эту MoE-махину (Mixture of Experts) в оперативную память, нужна ферма топовых ускорителей за миллионы рублей.У нас не было фермы. У нас была бесплатная виртуальная машина на Kaggle с одной старушкой NVIDIA T4 на 16 ГБ VRAM. И у нас была концепция экстремального MLOps под кодовым названием «Russian Winter 26».

продолжить чтение

Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга

Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.

продолжить чтение

Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.

продолжить чтение

Как мы перестали писать промпты и превратили ИИ в аналоговый синтезатор через PyTorch Hooks

Спойлер: Никаких банальных ИИ-оберток, где текст конвертируется в звук через API. Только хардкорная хирургия нейросетей, кросс-модальные мосты и перехват мыслей LLM в реальном времени.За последний год Hugging Face превратился в конвейер одинаковых проектов: берем Llama/Gemma, прикручиваем к ней интерфейс на Gradio, называем это стартапом. Мы для нашего виртуального музыкального артиста Livadies решили пойти другим путем. Мы задались вопросом: как звучит чистая мысль нейросети, если не переводить ее в текст? И как звучит математическая геометрия доисторического камня или кожи рептилии?

продолжить чтение

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Привет, Хабр!

продолжить чтение

Разнообразие нейронных сетей: Обзор основных задач

ВведениеВ современном мире данные становятся всё более сложными, а нейронные сети предлагают мощные и гибкие инструменты для работы с ними. Эта статья посвящена обзору ключевых задач, в которых нейронные сети показывают свою эффективность:Компьютерное зрение (CV) Обработка естественного языка (NLP) Работа с табличными данными (Tabular Data) Для каждой из этих областей мы предоставим конкретный пример реализации на PyTorch, демонстрируя, как можно применять нейронные сети на практике.

продолжить чтение

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку.Глава 1. Полигон и экстремальный Weight Decay

продолжить чтение

97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.Меня зовут Борисов Павел, занимаюсь ML-исследованиями в BorisovAI

продолжить чтение

50 LLM-клеток пытались построить организм. Вот что получилось

В 1970 году математик Джон Конвей придумал игру без игроков.Сетка. Клетки. Три правила. Меньше двух соседей — умираешь от одиночества. Больше трёх — от тесноты. Ровно три соседа рядом с пустой клеткой — рождается новая.Всё.Из этого появились глайдеры — структуры, которые ползут по полю. Пушки, которые стреляют глайдерами. Компьютеры внутри игры, способные вычислять что угодно. Целая вселенная — из трёх строчек логики.Но вот что не давало мне покоя.Клетки в «Жизни» не выбирают. Они подчиняются. Правило сработало — клетка умерла. Никаких переговоров.А что, если дать клеткам мозг?

продолжить чтение