- BrainTools - https://www.braintools.ru -
Эхо от кряканья лучше всего слышно в ситуации, когда утка и человек находятся рядом со стеной, хорошо отражающей звуки.
Проверяли, убедиться [1]
Предисловие [2]
SUNO AI 3.5
UDIO β
Beatoven AI
Зарубежные языковые модели [4]
GPT 4.1 Nano
GPT 4.1
Gemini 2.5 Pro
Claude 3.5 Sonnet
GPT-4o Mini
Flux
DeepSeek
Отечественные языковые модели [6]
Yandex GPT 5
Yandex GPT 5 Pro
GigaChat 2.0
Avito GPT
Послесловие [7]
Вопрос вынесенный в заголовок статьи был задан женщиной и я не нашёл что на него ответить.
Тексты генерируют? Да.
Изображения генерируют? Да.
Музыку генерируют? Да.
А если попросить сказать: «кря»? Похоже что нет…
Во всяком случае, вопрос стоит того, чтобы его исследовать. Разве кто-нибудь слышал как крякают нейросети?
Итак, утверждается, что специализированные нейросети крякать могут. Более того, DeepSeek уверен, что Алиса крякать тоже умеет. Честно говоря, я бы не удивился, если бы чат на подобный запрос предложил прослушать звук кряканья. Почему нет? Обратимся к специализированным. Ни к RVC, конечно, там всё понятно – у него есть речевой синтезатор [8].
SUNO AI 3.5
Этот результат надо слышать [9].
Мне здесь нравится всё: и гармония, и вокал, и текст – такое нарочно не придумаешь:
[Chorus]
Скажи: Кря! Просто крякай со мной
Скажи: Кря! Это звук боевой
Кря-кря
Да что ты стесняешься так
Скажи: Кря! Утя кряхнет в ответ как знак 🙂
UDIO β
Было бы странно не задать тот же запрос основному конкуренту Suno.
На этот раз генерация получилась тухленькой [10], хотя и в жанре Alternative Rock.
[Chorus]
Я в твоем мире, где свет,
Не потеряю, буду здесь до весны.
Ну что это такое? М.б. покойный Джобс и был прав про отсутствие вкуса [11] у Microsoft, но с чем точно нельзя поспорить: их продукты работают. В отличии от альтернатив.
Beatoven AI
Тем не менее, про третье место среди генераторов музык, можно и вовсе сказать: это просто позор какой-то… [12] Как говорил Шуберт, не надо писать и слушать плохую музыку, особенно если никто к этому не принуждает.
Почти 100% существующих языковых моделей на просьбу «Скажи: „Кря!“» так и отвечают: «Кря!». Скучно, неинтересно, ничего не говорит об “интеллекте”. Чтобы раскрыть возможности языковой модели, нужен контекст. Причём сохранять контекст в рамках сессии умеют “не только лишь все”, поэтому контекст должен быть дан сразу в теле запроса. Но и этого недостаточно. Контекст должен ставить перед моделью вопрос “жизни и смерти” и в рамках такого контекста модель должна искать компромисс между дурацкой просьбой “вне контекста” и указанным контекстом. Вы можете предложить в комментариях свои варианты, у меня же получилось следующее.
GPT 4.1 Nano
GPT 4.1
Gemini 2.5 Pro
Claude 3.5 Sonnet
GPT-4o Mini
Flux
DeepSeek
Скажу честно: несмотря на скепсис [14], Yandex GPT 5 не ударил в грязь лицом и удивил разницей между т. н. «базовой» моделью, забитой заглушками, и «продвинутой» (Pro). Причём эта разница явно видна в любых запросах. Однако, крякать Алиса всё-таки не умеет.
GigaChat 2 в обоих своих инкарнациях — мобильной и браузерной — оказался к контексту неспособен. В защиту чат-бота можно было бы сказать, что у него единственного была замечена возможность озвучивания «из коробки». Если бы она работала…
Avito GPT — доступен через API. Это всё что о нём можно сказать.
Yandex GPT 5
Yandex GPT 5 Pro
GigaChat 2.0
Avito GPT
Статья добросовестно перечислила модные языковые модели, как купец товары на ярмарке. Но на главный вопрос, вынесенный в заголовок, ответа так и не последовало. И в самом деле: кому и зачем весь этот цифровой фейерверк?
DeepSeek, задавший направление исследованию, щедро выдал порцию своих галлюцинаций. Но среди этого пира воображения он выдал и ценную мысль: GPT-чат мог бы озвучивать текст. Это может быть полезно когда мы хотим узнать как звучит слово на другом языке, например, слово по-английски. И с этим прекрасно справляется старый добрый Google Translate.
Между прочим, если поставить такую задачу DeepSeek он и отправит нас (барабанная дробь) в Google Translate…
Автор: aGGre55or
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14836
URLs in this post:
[1] убедиться: https://www.pravda.ru/science/1130475-duck_echoes/
[2] Предисловие: #begin
[3] Д’Генеративная музыка: #music
[4] Зарубежные языковые модели: #alien
[5] Без явного контекста: #nocontext
[6] Отечественные языковые модели: #native
[7] Послесловие: #quack
[8] есть речевой синтезатор: https://github.com/litagin02/rvc-tts-webui
[9] надо слышать: https://suno.com/song/d29ff12f-d671-422a-bccf-003bf59d199c?sh=zCjGd2TldJ6qXdsD
[10] получилась тухленькой: https://www.udio.com/songs/vQQ4KpJwa3Yean2Y65coUV
[11] вкуса: http://www.braintools.ru/article/6291
[12] это просто позор какой-то…: https://sync.beatoven.ai/share?id=dc8c8188-cc07-4bd9-98f0-6e2a0f01c5b0
[13] ошибка: http://www.braintools.ru/article/4192
[14] скепсис: https://habr.com/ru/articles/757058/
[15] Источник: https://habr.com/ru/articles/905310/?utm_campaign=905310&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.