От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3
Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи (speech-to-text, STT), и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота.
Радар для прослушки телефона с трёх метров
Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.
Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini
Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата
GigaAM-v3: открытая SOTA-модель распознавания речи на русском
В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;
Про технологии: Нейросети: +1 в команде, часть 1
Авторы статьи: Михаил Кургузов, Владислава ГузаКоротко о насПривет, Хабр! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.Цель статьиВ этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.
Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%
OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime

