Умеет ли Gemini в TTS и транскрибацию?
Немного о работе с моделями гемини, небольшой анализ других LLM и собственный инструментПривет, Хабр! В предыдущих статьях я делился опытом создания инструментов для работы со структурированными данными на базе Gemini. Этот проект, начатый из практической необходимости, перерос в нечто большее — в исследовательский интерес к возможностям современных ИИ-моделей.
Эволюция протоколов встреч: от листка в блокноте до ИИ-ассистента
I. Первые шаги: листок, стенография и диктофонВ середине XX века к протоколированию добавился диктофон. Уже не надо было все ловить «на лету» — можно записать разговор и потом «разложить» записи в текст. Но диктофон имел слабое место: качество записи, шум, шепоты, пересекающиеся голоса — всё это мешало точности. К тому же, никто не может слушать три часа записи без усталости — и всё равно надо вручную транскрибировать, выбирать, что важно.Но технология, решая одну проблему, тут же создала другую. Часовые записи становились «цифровым кладбищем
Топ моделей для контента
В последние годы генеративные нейросети стали не просто трендом, а полноценным инструментом для создания контента. Текст, изображения, аудио и даже видео — всё это можно сгенерировать с помощью моделей искусственного интеллекта
OpenAI взимает оплату поминутно, так что сделаем минуты короче
Хотите ускорить и удешевить транскрибации OpenAI? Просто повысьте скорость аудио.Я имею в виду буквально. Перед транскрибацией увеличьте скорость аудио в два или в три раза в
ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)
В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…
На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта
Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать. Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?На помощь приходят облачные сервисы: транскрибация,
ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)
Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами.
Обзор лучших API для транскрибации речи 2025
На прошлой неделе мы сравнивали селфхарм селфхост решения для speech-to-text на Apple Silicon процессорах. Но что делать, если вы - бизнес, и вам нужно API для транскрибации? Или что делать, если вы - разработчик, и вам просто хочется сделать пет-проект с транскрибацией? Сейчас посмотрим, какие варианты есть на рынке, и какой из них самый лучший

