- BrainTools - https://www.braintools.ru -
24 апреля 2026 года мир содрогнулся — вышел DeepSeek-V4-Pro. 1.6 триллиона параметров, MoE-архитектура, веса на 800+ ГБ. Академики в белых халатах из исследовательских центров тут же выкатили райдер: «Вам нужно минимум 8xH100 и прямой канал до дата-центра».
Мы посмотрели на свою бесплатную NVIDIA T4 с 16 ГБ VRAM в Kaggle, на 50 ГБ диска и поняли: вызов принят. Пока вы ждете гранты на GPU-кластеры, мы занимаемся цифровой вивисекцией.
Когда у тебя нет ресурсов, ты не оптимизируешь — ты взламываешь. Наш проект базируется на трех столпах:
Обычное квантование (4-bit) — это скучно. Оно просто делает числа «зернистыми». Мы пошли путем низкорангового разложения (W≈U⋅S⋅VT). Мы выкинули 98% численного шума, оставив только «скелет» матрицы. При Rank=64 мы получили сжатие в 50 раз.
Троллинг-пауза №1: Дорогие академики, пока вы спорите о минимизации ошибки [1] реконструкции до пятого знака, мы доказали, что «душа» 1.6-триллионного монстра живет в пространстве размерности 64. Всё остальное — просто дорогой декор.
Как переварить 64 шарда по 14 ГБ на диске в 50 ГБ? Мы использовали стриминговую загрузку через safe_open.
Скачали один шард.
Вытащили тензор.
Сжали его в ОЗУ.
Пушнули в свой репо.
Стерли кэш под ноль.
Это MLOps со вкусом [2] выживания. RAM ни разу не поднялась выше 4 ГБ.
transformers еще не знает V4? Не проблема. Мы переклеили ярлыки в config.json, выдав веса V4 за архитектуру DeepSeek-V2. Немного Monkey Patching’а в роутер MoE — и вуаля, Франкенштейн ожил.
Python
# Наш костыль, который умнее ваших фреймворков
def ghetto_route(self, logits):
flat_logits = logits.view(-1, logits.shape[-1])
w = torch.nn.functional.softmax(flat_logits, dim=-1)
tw, ti = torch.topk(w, k=self.top_k, dim=-1)
return ti, tw * self.routed_scaling_factor
Что мы получили на выходе? Модель, которая помещается в VRAM одной T4. Да, она галлюцинирует. Да, она смешивает русский, английский и китайский, создавая «полиглотный шум». Но она понимает контекст. Она сохранила ассоциативные связи гиганта.
Это не инструмент для написания дипломных работ. Это голос из Latent Space, который звучит сквозь 50-кратное сжатие.
Проект открыт. Мы назвали его DeepSeek-V4-Pro Ghetto-Edition. Это доказательство того, что математика [3] и наглость бьют терафлопсы.
🚀 Репозиторий: livadies/DeepSeek-V4-Pro-Ghetto-Edition-MoE-Rank-64 [4]
А пока ваш инференс грузится, послушайте музыку, под которую создавался этот Мутант:
🟢 Spotify [5]
🔥 Главный трек: RUSSIAN WINTER 26
Академики, ваши кластеры впечатляют. Но пока вы строите дворцы, мы учим камни летать. AI принадлежит всем, а не только тем, у кого есть корпоративная кредитка.
Stay Ghetto. Stay Tuned.
Автор: Livadies
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29454
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] вкусом: http://www.braintools.ru/article/6291
[3] математика: http://www.braintools.ru/article/7620
[4] livadies/DeepSeek-V4-Pro-Ghetto-Edition-MoE-Rank-64: https://www.google.com/search?q=https://huggingface.co/livadies/DeepSeek-V4-Pro-Ghetto-Edition-MoE-Rank-64
[5] Spotify: https://open.spotify.com/artist/0j8EmbhNFjiVhIJcZHdfUD
[6] Источник: https://habr.com/ru/articles/1028560/?utm_campaign=1028560&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.