Как я сломал диффузную модель с помощью алфавита
Однажды вечером я сидел перед ноутом и ел борщ, размышляя, в чем коренное отличие диффузных моделей от GPT-подобных трансформеров. Да, они хорошо умеют в генерацию изображений, а теперь даже текстов, но последовательности - это все еще их ахиллесова пята.Если вы не в курсе диффузной модели от Inception Labs, то есть такая. Первые эксперименты с ней меня очень ободрили - работала быстро, креативно, местами даже интересно. Но позже… запал пропал. Все чаще она теряла нить, путалась в логике и будто бы начинала играть в ассоциации с самой собой.

