Как мы ускоряли диффузионный декодер TTS
В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда становится заметной в масштабах сервиса.
Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг
Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш-таблицы и почти-линейный трансформер - получилось дешево и сердито. Однако есть в Engram один недостаток - он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.Небольшой ликбезEngram, по сути, перешивает токены и добавляет к ним факты. Реализовано это довольно хитро, через хеш-функцию, O(1) по сложности. Благодаря такой пристройке трансформер уделяет больше внимания на грамматику и связь слов в предложении.Основная идея
Как показать модели пальцем, что важно
Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина.В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices. Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается.Однако, там есть пара инсайтов, которые работают и буду полезны всем.Как модель «смотрит» на текст
Вневременное мышление и искусство промптинга
Может ли ИИ чему-то научиться, читая промпт? Вот один из примеров того, что сегодня требуется воспринимать ан-масс на почти бытовом уровне.Мы хорошо знаем, что когда ИИ-модель отвечает, она в этот момент не учится, её веса заморожены. Обучение - это отдельная операция, связанная с обратным пересчётом десятков и сотен миллиардов весов, которая потребовала бы непропорционально много ресурсов.
Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)
Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.

