huggingface.

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

У нас было две бесплатные видеокарты T4 в Kaggle, 30 ГБ оперативной памяти и безумная идея: что будет, если взять веса классической модели (Gemma-4-31B) и хирургическим путем, без всякого дообучения, вшить их в MoE-архитектуру (DeepSeek-V4)? В академической среде вам скажут, что это невозможно: разные размерности, несовместимые слои нормализации, разные принципы роутинга токенов. Но в парадигме Ghetto MLOps нет слова «невозможно». Есть только вопрос: сколько костылей потребуется, чтобы это скомпилировалось?

продолжить чтение

Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl, это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar.

продолжить чтение

Геймеры создали сайт-насмешку над DLSS 5 с «бьютификацией» любой картинки

В интернете набирает популярность фанатский сайт DLSS 5 Anything, который позволяет любому желающему применить эффект «бьютификации» к любой фотографии. Ресурс стал ответом сообщества на недавнюю презентацию NVIDIA: геймеры превратили новую технологию в повод для шуток, высмеивая то, как нейросети меняют внешность персонажей до неузнаваемости. Отметим, что это, по сути, ИИ-бьютификатор, который работает на ИИ-площадке huggingface.co.

продолжить чтение

AI-агенты, давайте сами. Как научить AI-агента искать информацию по базе, не задействуя датасеты

Что, если я скажу, что для обучения AI-агентов вообще не нужны датасеты? Не надо их собирать, валидировать, размечать. Достаточно развернуть двух агентов на компактной модели Qwen2.5-3B или 7B, запустить их где-нибудь у себя или в облаке, дать им базу знаний и наблюдать за циклом «AI учит сам себя», попивая кофеек :) В середине января 2026 года на Hugging Face опубликовали исследование по фреймворку Dr. Zero (DeepResearch-Zero) для самообучения агентов (ссылка на GitHub там тоже имеется). Фишка: в этом подходе агенты самообучаются с нуля без участия человека и показывают результаты, сопоставимые с полностью контролируемыми поисковыми агентами.

продолжить чтение

Higgsfield привлек $130 млн и стал единорогом на волне AI-генерации видео

продолжить чтение

Hugging Face запускает “чат со статьями” и меняет способ чтения науки

продолжить чтение

Hugging Face открыл бесплатный доступ к 11 курсам по ИИ перед новогодними праздниками

Платформа Hugging Face запустила подборку из 11 бесплатных образовательных курсов

продолжить чтение

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

продолжить чтение

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Немного контекстаПоследние месяцы мы в команде развиваем проект Manuscript OCR - открытую библиотеку, которая учит нейросети читать рукописные документы XIX века. Это сложный материал: дореформенная орфография, нестабильный почерк, архивные артефакты.Кому интересны технические детали - отдельная статья про Manuscript OCR уже есть на Хабре.Работая над этим проектом, я всё больше погружался в дореформенный язык: тестировал модели, прогонял страницы, сравнивал орфографические варианты. И в какой-то момент возник вполне естественный вопрос:

продолжить чтение

Краткий обзор 10 локальных UI для LLM

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat

продолжить чтение

123