- BrainTools - https://www.braintools.ru -
Компания Sesame [1], занимающаяся разработкой искусственного интеллекта [2], выпустила базовую модель, на которой основан Maya — впечатляюще реалистичный голосовой помощник [3]. Модель, размер которой составляет 1 миллиард параметров, находится под лицензией Apache 2.0, что означает, что ее можно использовать в коммерческих целях с небольшими ограничениями. Названная CSM-1B, модель генерирует «аудиокоды RVQ» из текстовых и аудиовходов, согласно описанию Sesame на платформе разработки AI Hugging Face [4].

RVQ относится к «остаточной векторной квантизации», технике кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде последних аудиотехнологий AI [5], включая SoundStream от Google и Encodec от Meta*.
CSM-1B использует модель из семейства Llama компании Meta [6] в качестве основы в паре с аудиокомпонентом «декодера». Sesame утверждает, что Maya работает на основе тонко настроенного варианта CSM.
«Модель с открытым исходным кодом — это базовая модель генерации», — пишет Sesame в репозиториях CSM-1B Hugging Face [4] и GitHub [7].
«Она способна воспроизводить множество голосов, но не была настроена на какой-либо конкретный голос. Модель имеет некоторую способность к неанглийским языкам из-за загрязнения данных в обучающем наборе, но, скорее всего, с ними она справится не очень хорошо ».
Неясно, какие данные Sesame использовал для обучения [8] CSM-1B. Компания не сообщила.
Стоит отметить, что у модели нет реальных гарантий, о которых можно было бы говорить. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в «вредных» или «злонамеренных» действиях.
Я попробовал демо [9] на Hugging Face, и клонирование моего голоса заняло меньше минуты. После этого было легко генерировать речь, какую только душа пожелает [10], в том числе на спорные темы.
Недавно Consumer Reports предупредил, что многие популярные на рынке инструменты клонирования голоса на базе искусственного интеллекта не имеют «значимых» мер защиты [11] от мошенничества или злоупотреблений.
Sesame, соучредителем которой является один из создателей Oculus Брендан Айриб, в конце февраля стала вирусной благодаря своему помощнику-технологу, который близок к зачистке территории зловещей долины. Майя и другой помощник Sesame, Майлз, делают вдохи и говорят с запинками, и их можно прерывать во время разговора, как и в голосовом режиме OpenAI [12].
Sesame привлекла нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо разработки технологии голосового помощника, компания заявляет, что она разрабатывает прототип очков AI, предназначенных для ношения в течение всего дня, которые будут оснащены ее индивидуальными моделями.
Источник [13]
Автор: dilnaz_04
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13116
URLs in this post:
[1] Sesame: https://www.sesame.com/
[2] интеллекта: http://www.braintools.ru/article/7605
[3] впечатляюще реалистичный голосовой помощник: https://www.theverge.com/news/621022/sesame-voice-assistant-ai-glasses-oculus-brendan-iribe
[4] описанию Sesame на платформе разработки AI Hugging Face: https://huggingface.co/sesame/csm-1b
[5] в ряде последних аудиотехнологий AI: https://drscotthawley.github.io/blog/posts/2023-06-12-RVQ.html
[6] семейства Llama компании Meta: https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/
[7] GitHub: https://github.com/SesameAILabs/csm?tab=readme-ov-file
[8] обучения: http://www.braintools.ru/article/5125
[9] демо: https://huggingface.co/spaces/sesame/csm-1b
[10] генерировать речь, какую только душа пожелает: https://soundcloud.com/kyle-wiggers/sesame-csm-1b-demo?utm_source=clipboard&utm_campaign=wtshare&utm_medium=widget&utm_content=https%253A%252F%252Fsoundcloud.com%252Fkyle-wiggers%252Fsesame-csm-1b-demo
[11] не имеют «значимых» мер защиты: https://www.consumerreports.org/media-room/press-releases/2025/03/consumer-reports-assessment-of-ai-voice-cloning-products/
[12] как и в голосовом режиме OpenAI: https://techcrunch.com/2024/08/17/openais-new-voice-mode-let-me-talk-with-my-phone-not-to-it/
[13] Источник: https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/
[14] Источник: https://habr.com/ru/companies/bothub/news/890778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=890778
Нажмите здесь для печати.