attention.

Как мы ускоряли диффузионный декодер TTS

В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда становится заметной в масштабах сервиса. 

продолжить чтение

Что происходит внутри LLM, когда ты отправляешь сообщение

Ты пишешь вопрос и нажимаешь Enter. Через секунду начинают появляться слова. Кажется, будто кто-то думает и печатает. Но внутри не происходит ничего похожего на мышление — зато происходит кое-что куда более странное и интересное.Главное заблуждениеБольшинство людей представляют языковую модель как умную базу данных: спросил — она нашла ответ и выдала. Это не так.LLM — это машина, которая предсказывает следующий токен. Всё. Из этой одной простой задачи, повторённой миллиарды раз на триллионах слов текста, вырастает нечто, которое умеет объяснять квантовую физику, писать код и иногда убедительно врать.

продолжить чтение

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

КороткоИногда в задаче машинного обучения одна строка датасета соответствует не одному объекту, а целому набору связанных объектов.Например:день по акции -> много новостей пользователь -> много комментариев товар -> много фотографий клиент -> много обращений в поддержку сессия -> много событийКаждый такой объект можно представить эмбеддингом. Новость — текстовым эмбеддингом, картинку — визуальным эмбеддингом, событие — вектором признаков или embedding‑представлением.

продолжить чтение

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш-таблицы и почти-линейный трансформер - получилось дешево и сердито. Однако есть в Engram один недостаток - он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком.Небольшой ликбезEngram, по сути, перешивает токены и добавляет к ним факты. Реализовано это довольно хитро, через хеш-функцию, O(1) по сложности. Благодаря такой пристройке трансформер уделяет больше внимания на грамматику и связь слов в предложении.Основная идея

продолжить чтение

Как показать модели пальцем, что важно

Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина.В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices. Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается.Однако, там есть пара инсайтов, которые работают и буду полезны всем.Как модель «смотрит» на текст

продолжить чтение

Вневременное мышление и искусство промптинга

Может ли ИИ чему-то научиться, читая промпт? Вот один из примеров того, что сегодня требуется воспринимать ан-масс на почти бытовом уровне.Мы хорошо знаем, что когда ИИ-модель отвечает, она в этот момент не учится, её веса заморожены. Обучение - это отдельная операция, связанная с обратным пересчётом десятков и сотен миллиардов весов, которая потребовала бы непропорционально много ресурсов.

продолжить чтение

Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.

продолжить чтение

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение

TAPe-дневник, день 5: 98% на 2% COCO, меньше “фона” и первые боксы

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Кратко: подняли точность до ~98% на двухпроцентной выборке, уменьшили количество ложных срабатываний и начали переход от поиска центроидов к детекции прямоугольников вокруг объектов.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияКак наш домашний НИИ обошёл DINOv2, ViT и десятки ML‑моделей в видео‑разметкепредыдущие части дневника

продолжить чтение

123