Как мы перестали писать промпты и превратили ИИ в аналоговый синтезатор через PyTorch Hooks. dsp.. dsp. generative art.. dsp. generative art. hugging face.. dsp. generative art. hugging face. Livadies.. dsp. generative art. hugging face. Livadies. llm.. dsp. generative art. hugging face. Livadies. llm. monkey patching.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки. Звук.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки. Звук. искусственный интеллект.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки. Звук. искусственный интеллект. кросс-модальность.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки. Звук. искусственный интеллект. кросс-модальность. Машинное обучение.. dsp. generative art. hugging face. Livadies. llm. monkey patching. python. PyTorch. генерация музыки. Звук. искусственный интеллект. кросс-модальность. Машинное обучение. Ненормальное программирование.

Спойлер: Никаких банальных ИИ-оберток, где текст конвертируется в звук через API. Только хардкорная хирургия нейросетей, кросс-модальные мосты и перехват мыслей LLM в реальном времени.

За последний год Hugging Face превратился в конвейер одинаковых проектов: берем Llama/Gemma, прикручиваем к ней интерфейс на Gradio, называем это стартапом. Мы для нашего виртуального музыкального артиста Livadies решили пойти другим путем. Мы задались вопросом: как звучит чистая мысль нейросети, если не переводить ее в текст? И как звучит математическая геометрия доисторического камня или кожи рептилии?

Чтобы это выяснить, нам пришлось вскрывать архитектуры SOTA-моделей и сшивать их напрямую на уровне тензоров. Вот два наших главных инженерных эксперимента.

Эксперимент 1: PaleoSonic Engine (Слушаем голую математику)

Задача: Заставить нейросеть сгенерировать звук макро-текстуры (например, куска янтаря) НАПРЯМУЮ, минуя текстовое описание.

Обычно пайплайн выглядит так: Image -> Text (LLM) -> Audio. Это долго, грязно и убивает суть картинки. Мы решили сделать прямой мост: Vision Latent -> Audio Latent.

Мы взяли зрительную кору от google/siglip-base-patch16-224 и генератор звука от facebook/musicgen-small. Обе модели мы перевели в формат bfloat16, чтобы они влезли в бесплатные 16 ГБ RAM на Hugging Face.

Магия сшивания:

Мы создали кастомный мост nn.Linear, который переводит 196 визуальных патчей картинки в 196 звуковых векторов. Но функция generate() в MusicGen защищена от чужих тензоров. Что мы сделали? Применили Monkey Patching.

Мы буквально на лету подменили оригинальный текстовый энкодер MusicGen на нашу функцию-троян:

Python

# Сохраняем оригинальный "мозг"
original_text_encoder = self.audio_decoder.text_encoder.forward

# Создаем класс-подделку
class VisualThoughts:
    def __init__(self, hidden_states):
        self.last_hidden_state = hidden_states
    def __getitem__(self, idx):
        return [self.last_hidden_state][idx]
        
def spoofed_text_encoder(*args, **kwargs):
    # Подсовываем визуальные тензоры вместо текста!
    return VisualThoughts(audio_conditioning)
    
# Заражаем генератор
self.audio_decoder.text_encoder.forward = spoofed_text_encoder

MusicGen “думал”, что читает 196 токенов текста, а на самом деле поглощал чистую геометрию пикселей.

Почему звук такой странный? Если вы зайдете в этот проект, вы услышите резкий, скрежещущий шум, похожий на модем из 90-х. Это необработанный математический звук. Наш тензорный мост заполнился случайными весами (random initialization), и мы не стали его дообучать. Вы слышите физическое столкновение двух архитектур: сырую, грубую трансляцию геометрии картинки в акустические волны без фильтров и прикрас. Это звук самой логики машины.

🔗 Попробовать: PaleoSonic_Engine на Hugging Face

Эксперимент 2: Neural-Analog Engine (Эмбиент из мыслей ИИ)

После первого эксперимента мы поняли: прямое сшивание дает концептуальный, но “грязный” звук. Мы решили сделать шаг в сторону изящества и вернуть звуку красоту, не теряя связи с ИИ.

Мы полностью выбросили нейросети, генерирующие аудио (типа MusicGen или AudioLDM). Вместо этого мы превратили LLM в виртуозного музыканта, который крутит ручки классического аналогового синтезатора (DSP).

Мы взяли открытую Qwen/Qwen2.5-1.5B-Instruct. Идея: пока модель генерирует текст по промпту (например, “Тишина замерзшей квантовой звезды”), мы с помощью PyTorch Forward Hooks вклиниваемся в ее 15-й слой (центр абстрактного мышления) и воруем значения активаций нейронов в реальном времени.

Python

neural_activations = []

# Функция-шпион для перехвата мыслей
def steal_thoughts_hook(module, input, output):
    # Берем текущее состояние нейронов
    current_thought = output[0].detach().cpu().to(torch.float32).numpy()
    compressed_thought = np.mean(current_thought, axis=1)[0] 
    neural_activations.append(compressed_thought)

# Втыкаем "шприц" в 15-й слой Qwen
hook_handle = model.model.layers[15].register_forward_hook(steal_thoughts_hook)

Затем мы прогоняем эти сырые векторы через математический осциллятор (numpy + scipy.signal).

Почему этот звук такой приятный?

В отличие от первого проекта, здесь звук генерируется законами физики (чистые синусоиды, плавное затухание, математически точные фильтры). Нейросеть выступает лишь как дирижер. Изменение тональности, частота нот, сдвиги фаз — всё это модулируется буквальной пульсацией нейронов Qwen 2.5. Получился кристально чистый, кинематографичный Dark Ambient, где музыка — это процесс вычисления графов внимания.

🔗 Попробовать: Neural-Analog-Engine на Hugging Face

Зачем это все?

Вся эта архитектурная дичь была создана как экспериментальный baseline-инструментарий для виртуального артиста Livadies. Мы не хотим генерировать «попсу по кнопке». Мы исследуем, как звучит машинное подсознание и как слияние старого (аналоговый синтез/палео-текстуры) и нового (Latent Space) рождает искусство.

Залетайте в наши Спейсы, ломайте их, слушайте разницу между сырой математикой тензоров и кинематографичным DSP, управляемым мыслями LLM. Будем рады обсудить в комментах ваши способы изящного обхода защиты .generate().

Автор: Livadies

Источник