Что под капотом у ИИ-агента для отдела продаж: архитектура, код и грабли
Про «ИИ-агента для продаж» пишут так, будто это одна кнопка: подключил, и он сам звонит, квалифицирует, дожимает. На демо так и выглядит. В проде между «агент послушал звонок» и «в CRM появилась правильная задача менеджеру» лежит десяток слоёв, и в каждом всё тихо ломается. Это разбор такого пайплайна по слоям, с кодом, цифрами и граблями, на которые мы наступали, пока доводили агента до боевого режима.
Как за один вечер разгрести 36 000 фотографий и почту с 2005 года, руками AI-агента и локальных моделей
Есть задачи, которые не делаются никогда. Не потому что сложные, а потому что объём убивает любое намерение на втором часу. У меня такой задачей был фотоархив: около 36 000 фото и видео, 222 ГБ, копившиеся 20 лет и размазанные вообще везде:часть в OneDrive, разложенная по годам;часть там же, но в свалках: дампы с телефонов, выгрузки из WhatsApp, папка буквально с названием «разобрать старые фото», которая ждала своего часа лет десять;часть уже в Apple Photos, с iPhone, сама по себе и никак не связанная с остальным архивом;
Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python
Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.
Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи
Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том,
Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.
На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта
Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать. Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?На помощь приходят облачные сервисы: транскрибация,
Слушать некогда читать: где поставим запятую?
Узнаете, когда заглянете под кат.😉 Для затравочки: речь пойдёт про инструмент ЮMoney для транскрибации аудио с внутренних созвонов в тексты и про кое-что ещё для наших клиентов. 😎👇Меня зовут Макс, я аналитик в ЮMoney. Недавно перед моей командой стояло две цели:
Как мы транскрибируем аудио с внутренних созвонов в текст
Меня зовут Макс, я аналитик в ЮMoney. Недавно перед моей командой стояло две цели:● Повысить качество взаимодействия пользователя и бизнеса за счёт аналитики данных аудио.● Снизить время на рутину у коллег.Так родились два проекта 👇●

