Sesame, стартап, создавший вирусного виртуального помощника Maya, выпускает свою базовую модель AI

Компания Sesame ^[1], занимающаяся разработкой искусственного интеллекта ^[2], выпустила базовую модель, на которой основан Maya — впечатляюще реалистичный голосовой помощник ^[3]. Модель, размер которой составляет 1 миллиард параметров, находится под лицензией Apache 2.0, что означает, что ее можно использовать в коммерческих целях с небольшими ограничениями. Названная CSM-1B, модель генерирует «аудиокоды RVQ» из текстовых и аудиовходов, согласно описанию Sesame на платформе разработки AI Hugging Face ^[4].

RVQ относится к «остаточной векторной квантизации», технике кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде последних аудиотехнологий AI ^[5], включая SoundStream от Google и Encodec от Meta*.

CSM-1B использует модель из семейства Llama компании Meta ^[6] в качестве основы в паре с аудиокомпонентом «декодера». Sesame утверждает, что Maya работает на основе тонко настроенного варианта CSM.

«Модель с открытым исходным кодом — это базовая модель генерации», — пишет Sesame в репозиториях CSM-1B Hugging Face ^[4] и GitHub ^[7].

«Она способна воспроизводить множество голосов, но не была настроена на какой-либо конкретный голос. Модель имеет некоторую способность к неанглийским языкам из-за загрязнения данных в обучающем наборе, но, скорее всего, с ними она справится не очень хорошо ».

Неясно, какие данные Sesame использовал для обучения ^[8] CSM-1B. Компания не сообщила.

Стоит отметить, что у модели нет реальных гарантий, о которых можно было бы говорить. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в «вредных» или «злонамеренных» действиях.

Я попробовал демо ^[9] на Hugging Face, и клонирование моего голоса заняло меньше минуты. После этого было легко генерировать речь, какую только душа пожелает ^[10], в том числе на спорные темы.

Недавно Consumer Reports предупредил, что многие популярные на рынке инструменты клонирования голоса на базе искусственного интеллекта не имеют «значимых» мер защиты ^[11] от мошенничества или злоупотреблений.

Sesame, соучредителем которой является один из создателей Oculus Брендан Айриб, в конце февраля стала вирусной благодаря своему помощнику-технологу, который близок к зачистке территории зловещей долины. Майя и другой помощник Sesame, Майлз, делают вдохи и говорят с запинками, и их можно прерывать во время разговора, как и в голосовом режиме OpenAI ^[12].

Sesame привлекла нераскрытую сумму капитала от Andreessen Horowitz, Spark Capital и Matrix Partners. Помимо разработки технологии голосового помощника, компания заявляет, что она разрабатывает прототип очков AI, предназначенных для ношения в течение всего дня, которые будут оснащены ее индивидуальными моделями.

Источник ^[13]

Автор: dilnaz_04

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/13116

URLs in this post:

[1] Sesame: https://www.sesame.com/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] впечатляюще реалистичный голосовой помощник: https://www.theverge.com/news/621022/sesame-voice-assistant-ai-glasses-oculus-brendan-iribe

[4] описанию Sesame на платформе разработки AI Hugging Face: https://huggingface.co/sesame/csm-1b

[5] в ряде последних аудиотехнологий AI: https://drscotthawley.github.io/blog/posts/2023-06-12-RVQ.html

[6] семейства Llama компании Meta: https://techcrunch.com/2024/09/08/meta-llama-everything-you-need-to-know-about-the-open-generative-ai-model/

[7] GitHub: https://github.com/SesameAILabs/csm?tab=readme-ov-file

[8] обучения: http://www.braintools.ru/article/5125

[9] демо: https://huggingface.co/spaces/sesame/csm-1b

[10] генерировать речь, какую только душа пожелает: https://soundcloud.com/kyle-wiggers/sesame-csm-1b-demo?utm_source=clipboard&utm_campaign=wtshare&utm_medium=widget&utm_content=https%253A%252F%252Fsoundcloud.com%252Fkyle-wiggers%252Fsesame-csm-1b-demo

[11] не имеют «значимых» мер защиты: https://www.consumerreports.org/media-room/press-releases/2025/03/consumer-reports-assessment-of-ai-voice-cloning-products/

[12] как и в голосовом режиме OpenAI: https://techcrunch.com/2024/08/17/openais-new-voice-mode-let-me-talk-with-my-phone-not-to-it/

[13] Источник: https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/

[14] Источник: https://habr.com/ru/companies/bothub/news/890778/?utm_source=habrahabr&utm_medium=rss&utm_campaign=890778

Нажмите здесь для печати.