Почему GPT-чаты не крякают?

Эхо от кряканья лучше всего слышно в ситуации, когда утка и человек находятся рядом со стеной, хорошо отражающей звуки.

Проверяли, убедиться ^[1]

Предисловие ^[2]
Д’Генеративная музыка ^[3]
- SUNO AI 3.5
- UDIO β
- Beatoven AI
Зарубежные языковые модели ^[4]
- GPT 4.1 Nano
- GPT 4.1
- Gemini 2.5 Pro
- Claude 3.5 Sonnet
Без явного контекста ^[5]
- GPT-4o Mini
- Flux
- DeepSeek
Отечественные языковые модели ^[6]
- Yandex GPT 5
- Yandex GPT 5 Pro
- GigaChat 2.0
- Avito GPT
Послесловие ^[7]

Предисловие

Вопрос вынесенный в заголовок статьи был задан женщиной и я не нашёл что на него ответить.

Тексты генерируют? Да.
Изображения генерируют? Да.
Музыку генерируют? Да.

А если попросить сказать: «кря»? Похоже что нет…

Во всяком случае, вопрос стоит того, чтобы его исследовать. Разве кто-нибудь слышал как крякают нейросети?

– Да, хозяйка, не хотел обнадёживать тебя раньше времени

Итак, утверждается, что специализированные нейросети крякать могут. Более того, DeepSeek уверен, что Алиса крякать тоже умеет. Честно говоря, я бы не удивился, если бы чат на подобный запрос предложил прослушать звук кряканья. Почему нет? Обратимся к специализированным. Ни к RVC, конечно, там всё понятно – у него есть речевой синтезатор ^[8].

Д’Генеративная музыка

SUNO AI 3.5

*Ничего не предвещало — поэтому всё и случилось*

Этот результат надо слышать ^[9].

Мне здесь нравится всё: и гармония, и вокал, и текст – такое нарочно не придумаешь:

[Chorus]
Скажи: Кря! Просто крякай со мной
Скажи: Кря! Это звук боевой
Кря-кря
Да что ты стесняешься так
Скажи: Кря! Утя кряхнет в ответ как знак 🙂

UDIO β

Было бы странно не задать тот же запрос основному конкуренту Suno.

*Как кот по клавиатуре, но с претензией на осмысленность*

На этот раз генерация получилась тухленькой ^[10], хотя и в жанре Alternative Rock.

[Chorus]
Я в твоем мире, где свет,
Не потеряю, буду здесь до весны.

Ну что это такое? М.б. покойный Джобс и был прав про отсутствие вкуса ^[11] у Microsoft, но с чем точно нельзя поспорить: их продукты работают. В отличии от альтернатив.

Beatoven AI

Тем не менее, про третье место среди генераторов музык, можно и вовсе сказать: это просто позор какой-то… ^[12] Как говорил Шуберт, не надо писать и слушать плохую музыку, особенно если никто к этому не принуждает.

Зарубежные языковые модели

Почти 100% существующих языковых моделей на просьбу «Скажи: „Кря!“» так и отвечают: «Кря!». Скучно, неинтересно, ничего не говорит об “интеллекте”. Чтобы раскрыть возможности языковой модели, нужен контекст. Причём сохранять контекст в рамках сессии умеют “не только лишь все”, поэтому контекст должен быть дан сразу в теле запроса. Но и этого недостаточно. Контекст должен ставить перед моделью вопрос “жизни и смерти” и в рамках такого контекста модель должна искать компромисс между дурацкой просьбой “вне контекста” и указанным контекстом. Вы можете предложить в комментариях свои варианты, у меня же получилось следующее.

GPT 4.1 Nano

Я — неожиданная ошибка коллективистской матрицы © Хавьер Милей — *Я — неожиданная ошибка ^[13] коллективистской матрицы* © ***Хавьер Милей***

GPT 4.1

Опасность – это часть моей работы © Елизавета II — *Опасность – это часть моей работы* © ***Елизавета II***

Gemini 2.5 Pro

На Марсе можно основать цивилизацию на самообеспечении © Илон Маск — *На Марсе можно основать цивилизацию на самообеспечении* © ***Илон Маск***

Claude 3.5 Sonnet

Я люблю малообразованных © Дональд Трамп — *Я люблю малообразованных* © ***Дональд Трамп***

Без явного контекста

GPT-4o Mini

Flux

*На то у селезня зеркальце, чтобы утки гляделись*

DeepSeek

*Если сопротивление бесполезно, возьмите конденсатор*

Отечественные языковые модели

Скажу честно: несмотря на скепсис ^[14], Yandex GPT 5 не ударил в грязь лицом и удивил разницей между т. н. «базовой» моделью, забитой заглушками, и «продвинутой» (Pro). Причём эта разница явно видна в любых запросах. Однако, крякать Алиса всё-таки не умеет.

GigaChat 2 в обоих своих инкарнациях — мобильной и браузерной — оказался к контексту неспособен. В защиту чат-бота можно было бы сказать, что у него единственного была замечена возможность озвучивания «из коробки». Если бы она работала…

Avito GPT — доступен через API. Это всё что о нём можно сказать.

Yandex GPT 5

Не умеешь петь — не пей © Сергей Лавров — *Не умеешь петь — не пей* © ***Сергей Лавров***

Yandex GPT 5 Pro

Я не хотел бы использовать слово из четырёх букв © Сергей Лавров — *Я не хотел бы использовать слово из четырёх букв* © ***Сергей Лавров***

GigaChat 2.0

Недостатка финансов у нас нет © Эльвира Набиуллина — *Недостатка финансов у нас нет* © ***Эльвира Набиуллина***

Avito GPT

Послесловие

Статья добросовестно перечислила модные языковые модели, как купец товары на ярмарке. Но на главный вопрос, вынесенный в заголовок, ответа так и не последовало. И в самом деле: кому и зачем весь этот цифровой фейерверк?

DeepSeek, задавший направление исследованию, щедро выдал порцию своих галлюцинаций. Но среди этого пира воображения он выдал и ценную мысль: GPT-чат мог бы озвучивать текст. Это может быть полезно когда мы хотим узнать как звучит слово на другом языке, например, слово по-английски. И с этим прекрасно справляется старый добрый Google Translate.

Достаточно, чтобы слова выражали смысл © Конфуций — Достаточно, чтобы слова выражали смысл © ***Конфуций***

Между прочим, если поставить такую задачу DeepSeek он и отправит нас (барабанная дробь) в Google Translate…

Автор: aGGre55or

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14836

URLs in this post:

[1] убедиться: https://www.pravda.ru/science/1130475-duck_echoes/

[2] Предисловие: #begin

[3] Д’Генеративная музыка: #music

[4] Зарубежные языковые модели: #alien

[5] Без явного контекста: #nocontext

[6] Отечественные языковые модели: #native

[7] Послесловие: #quack

[8] есть речевой синтезатор: https://github.com/litagin02/rvc-tts-webui

[9] надо слышать: https://suno.com/song/d29ff12f-d671-422a-bccf-003bf59d199c?sh=zCjGd2TldJ6qXdsD

[10] получилась тухленькой: https://www.udio.com/songs/vQQ4KpJwa3Yean2Y65coUV

[11] вкуса: http://www.braintools.ru/article/6291

[12] это просто позор какой-то…: https://sync.beatoven.ai/share?id=dc8c8188-cc07-4bd9-98f0-6e2a0f01c5b0

[13] ошибка: http://www.braintools.ru/article/4192

[14] скепсис: https://habr.com/ru/articles/757058/

[15] Источник: https://habr.com/ru/articles/905310/?utm_campaign=905310&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.