elevenlabs.

Как я завёл нормальный голос в детское приложение, не разорившись и не заставив никого лезть в настройки

Я в одиночку делаю Kalyaki — приложение, где дети учат английский через рисование: рисуют слова (cat, sun, house), оно распознаёт рисунок прямо на устройстве через ONNX-модель и отвечает голосом. Хотя «в одиночку» — это уже не совсем честно: с Claude Code, конечно, но заранее — нет, это не очередная статья как я стал 10х-инженером благодаря ИИ.Сначала был робо-воисВ MVP голос был сделан максимально дёшево — системный TTS (expo-speech поверх голосов iOS/Android). Ноль инфраструктуры, работает офлайн. Для проверки гипотезы — самое то, и я ни разу не жалею, что начал так.

продолжить чтение

AI делает видео за вас? Я попробовал — и вот где нас обманывают

Привет, я Рустам, у меня несколько продуктовых команд. На Хабре я молчал с 2014 года. Но эта история всё‑таки вытащила меня наружу: слишком уж хотелось зафиксировать момент, где красивая сказка про AI‑видео заканчивается и начинается реальная работа — долгая, нервная и почему‑то всегда ручная. 

продолжить чтение

ИИ-госуслуги в ОАЭ, Claude в Adobe и Ableton, ChatGPT в таблицах и AI Spotify от ElevenLabs

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.Я Вандер

продолжить чтение

Монтаж видео через Claude Code

Разбираю архитектуру открытого проекта от browser-use: как заставить LLM монтировать без необходимости «смотреть» видеоКогда речь заходит про обработку видео нейросетями, у большинства из нас в голове всплывает одна и та же картина: модель смотрит на кадры, что-то понимает на основе изображения, режет по визуальным признакам. На практике это упирается в простую арифметику. Часовое видео в 30 fps — это 108 000 кадров. Если каждый кадр стоит хотя бы 1500 токенов, получаем 162 миллиона токенов на одно видео. Никакая модель столько не возьмёт за один проход, а если резать на куски — теряется глобальный контекст.

продолжить чтение

Люди скупают Mac Mini M4, а SpaceX покупает Cursor за $60 млрд: ML-дайджест

продолжить чтение

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте.Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:Здравствуйте.Здравствуйте, чем могу помочь?Я звоню, чтобы…Здравствуйте, чем могу помочь?Конечно, подскажите, пожалуйста…

продолжить чтение

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнесаСижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.Знакомо?

продолжить чтение

Elevenlabs запустил маркетплейс AI-музыки

ElevenLabs запустила маркетплейс музыки, где пользователи могут публиковать и продавать треки, созданные с помощью музыкальной ИИ-модели ElevenCreative.

продолжить чтение

ElevenLabs выпустила крупное обновление ElevenAgents

Новый режим Expressive Mode позволяет ботам динамически управлять интонацией и эмоциональной окраской речи. Теперь агент может адаптироваться под собеседника в реальном времени: говорить мягче и спокойнее в напряжённой ситуации или, наоборот, добавить уверенности и темпа, когда нужно донести информацию максимально ясно.

продолжить чтение

ElevenLabs выпустила в релиз модель v3

Флагманская Text-to-Speech модель Eleven v3 официально вышла из стадии альфа-тестирования и стала доступной для коммерческого использования. Основной упор в финальной версии сделан на точность интерпретации сложных данных, где чтение символов критически зависит от окружения.

продолжить чтение