Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков. copilot.. copilot. битрикс24.. copilot. битрикс24. Блог компании Битрикс24.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки. Видеоконференцсвязь.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки. Видеоконференцсвязь. искусственный интеллект.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки. Видеоконференцсвязь. искусственный интеллект. исскуственный интеллект.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки. Видеоконференцсвязь. искусственный интеллект. исскуственный интеллект. история создания.. copilot. битрикс24. Блог компании Битрикс24. видеозвонки. Видеоконференцсвязь. искусственный интеллект. исскуственный интеллект. история создания. транскрибация звонков.
Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков - 1

Всем привет! Меня зовут Дима, я продакт-менеджер команды видеозвонков в Битрикс24.

Сегодня я расскажу о том, как создавался новый функционал, изменивший подход к онлайн-встречам — CoPilot в видеозвонках.

В этой статье — немного закулисья: как мы придумывали CoPilot в видеозвонках, какие решения принимали на ходу, что получилось хорошо, а что пришлось переписать несколько раз.

Как появилась идея CoPilot в видеозвонках?

В команде мы давно размышляли над тем, как уменьшить количество ручной рутины после встреч. Все эти “скинь протокол”, “а кто записал задачи?”, “о чем договорились?” — знакомо? Именно так мы и создавали CoPilot в видеозвонках — функцию, которая автоматически записывает звонок, делает структурированное резюме, выделяет задачи, встречи, итоги и даже даёт развернутый анализ участия каждого собеседника, показывая как сильные стороны, так и потенциальные зоны роста. 

От проблемы к решению

Идея CoPilot в видеозвонках родилась не в вакууме. Мы начали с пользовательского исследования: провели десятки интервью, анализировали реальные сценарии работы команд и почти всегда слышали одно и то же — после созвона остаётся ощущение «что-то важное точно было, но кто теперь это разберёт?». Люди забывают фиксировать задачи, теряются в часовых стенограммах, переслушивают звонки по диагонали. Автоматизация тут просилась сама собой.

Конечно, мы знали о существующих решениях — есть нейросети, которые умеют подключаться к Zoom, Google Meet, Teams и собирать краткие summary. Но в этом и была загвоздка: либо нужно вручную выгружать запись, либо давать стороннему сервису доступ к внутренним звонкам. Для большинства наших пользователей это просто не вариант — особенно в закрытых системах и командах с повышенными требованиями к безопасности и приватности.

Поэтому мы решили: нужен свой инструмент, глубоко встроенный в платформу видеозвонков. Такой, который не просто “подключается к встрече”, а понимает её контекст — кто участвует, что обсуждается, какие данные уже известны системе.

На этапе концепции мы сосредоточились на трёх ключевых направлениях — тех, где, по нашему опыту, большинство существующих решений либо поверхностны, либо вовсе бессильны.

1. Полная запись + умное резюме. Просто расшифровка — это неудобно. Просто summary — часто недостаточно. Мы пошли дальше: CoPilot в видеозвонках сохраняет полную запись встречи, но поверх неё строит многоуровневое резюме с разбивкой по темам, логическими блоками обсуждения, и, главное — с явным выделением ключевых решений, назначенных задач и запланированных встреч. Это не bullet-пойнты ни о чём, а связный отчёт, который можно прочитать как мини-протокол совещания.

2. Персонализированный анализ участников. Мы не просто «считаем слова». Мы анализируем, кто какие темы поднимал, кто инициировал задачи, кто принимал решения, а кто в целом занимал наблюдательную позицию. Это позволяет командам не только лучше понимать распределение ролей в разговоре, но и корректировать процессы: например, дать больше голоса тем, кто обычно молчит, или понять, почему одни встречи ведут к действиям, а другие — в никуда.

3. Связь с рабочим процессом. Все найденные задачи можно отправить прямо в task-трекер. Встречи — в календарь. CoPilot в видеозвонках не просто «отдаёт текст», он становится частью продуктового цикла: от созвона — к действию, без промежуточных копипаст и утерянных смыслов.

Так мы и подходили к созданию CoPilot в видеозвонках: как к созданию не просто «ещё одной функции на нейросети», а встроенного участника команды, который понимает, что происходит, и помогает не забыть важное.

Упаковка идеи в продукт

Когда общая концепция CoPilot в видеозвонках сформировалась, мы перешли к следующему шагу — разложили её по этапам, чтобы понять, из чего должен состоять рабочий функционал и что потребуется на каждом уровне. В итоге сформировался план из трёх ключевых направлений, с чётким пониманием задач в каждом из них:

1. Анализ аудио и текста
На этом этапе мы запланировали внедрение ASR (automatic speech recognition) — моделей, которые смогут не просто распознавать речь, но и делать это с учетом специфики рабочих звонков: прерывания, акценты, технический жаргон. Параллельно — разработка NLP-пайплайна для извлечения тем, решений, задач и структурирования итогов по смысловым блокам.

2. Оценка встречи
Чтобы давать осмысленные рекомендации, мы решили классифицировать типы встреч: синки, one-on-one, демо, ретро и пр. Под каждый сценарий — своя логика оценки: вовлеченность участников, соотношение говорящих и слушающих, плотность полезной информации и так далее.

3. Рекомендации для участников
На основе анализа мы запланировали блок персонализированных рекомендаций: что можно улучшить в следующей встрече — сократить время обсуждения, четче формулировать задачи, вовлекать пассивных участников. Это не просто “оценка ради оценки”, а конкретные actionable-инсайты, которые могут повлиять на качество командного взаимодействия.

Так поэтапно и начала собираться система, в которой каждая часть — от распознавания речи до формирования советов — встроена в единую логику: помогать командам не только фиксировать итоги, но и работать эффективнее.

Распознавание: самая сложная часть, но ключевая для успеха

Одной из самых сложных задач в разработке CoPilot в видеозвонках стало создание системы распознавания речи. Этот этап — фундамент всего функционала, ведь от его качества зависит, насколько точным и полезным будет итоговый анализ. Если система неправильно распознает реплики или нарушит хронологию, весь последующий анализ потеряет смысл.

Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков - 2

Почему это так сложно?

  1. Качество распознавания: В видеозвонках участники часто говорят одновременно, перебивают друг друга или говорят с акцентами. Наша задача была — научить систему корректно разделять реплики и точно их расшифровывать, даже в условиях фонового шума или неидеального качества звука.

  2. Хронология и логика текста: Мало просто распознать слова — важно сохранить их последовательность и контекст. Например, если один участник задает вопрос, а другой отвечает через минуту, система должна связать эти реплики, чтобы текст выглядел логично и был удобен для чтения.

  3. Скорость обработки: Мы хотели, чтобы CoPilot в видеозвонках выдавал результаты через несколько минут после завершения звонка, а не заставлял пользователей ждать 10-15 минут. Это требовало оптимизации алгоритмов и инфраструктуры для быстрой обработки больших объемов данных.

Ну и как тут не рассказать про нашу любимую багу, которая чуть не превратилась в стартап.

Однажды начали замечать странности: в некоторых резюме встречи, сразу после обсуждения задач, появлялась загадочная фраза:

“Субтитры создавал/сделал/предоставил DimaTorzok.”

Казалось бы, при чём тут DimaTorzok? Но модель упорно считала, что он важный участник любой встречи. 😄 Мы даже не сразу поняли, что это старый автотекст из пиратских субтитров, который случайно попал в обучающий датасет.

Самое смешное — DimaTorzok действительно внезапно получил вторую волну славы. Люди начали гуглить, кто он, искать его субтитры, вспоминать «как в старые добрые». Так что можно сказать, что CoPilot устроил ему ретро-камбэк и бесплатную рекламную кампанию.

Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков - 3

На этой волне нас даже заметили другие титровальщики. И следующим героем должен был стать загадочный “Симон”, чьё имя модель время от времени вставляла как “Субтитры подогнал Симон”. Мы было уже начали шутить, что CoPilot — это не только инструмент для видеозвонков, но и талант-скаут в мире субтитров.

Но довольно быстро поняли: пора остановиться. 😅

С тех пор мы решили не заниматься продвижением титровальщиков и сфокусировались на деле — начали чистить текст записи от лишних фраз, автопереводов и случайных вставок на других языках. Всё, чтобы резюме было чистым, понятным и по делу. Без Симона. Без DimaTorzok. Только вы, ваша команда и здравый смысл.

На первых этапах работы над CoPilot в видеозвонках мы, конечно, знали, что распознавание речи — штука непростая. Но мы были полны энтузиазма и веры в технологии… пока не начали читать первые транскрипты.

Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков - 4

Ощущение было такое, что мы случайно попали на совещание полиглотов. Один участник, судя по тексту, говорил на английском с примесью сербского, другой — на немецком, третий вообще выдавал нечто, напоминающее смесь иврита и марсианского. При этом атмосфера встречи была рабочей, люди отлично друг друга понимали, кивали, договаривались. Только вот в реальности все говорили по-русски. Просто по-разному: кто с акцентом, кто быстро, кто с микрофоном, который пережил войну.

Будьте добры, помедленнее! Я записываю… или Как мы приручили нейросеть для видеозвонков - 5

Мы шутили, что это не просто стенограмма, а лингвистический квест: попробуй догадайся, что там на самом деле сказали. 

Не обошлось и без моментов, когда сердце замирало, а рука тянулась проверить — всё ли в порядке с микрофоном, безопасностью и вообще жизнью.

Один из таких эпизодов случился неожиданно. Подходит к нам коллега, слегка бледный и явно озадаченный.

— Ребята, — говорит, — я выключил микрофон на встрече, сказал пару слов своей собаке…

(ну, как обычно: «ты моя бусинка, перестань грызть зарядку» — ничего сверхсекретного).

— А потом смотрю — эта фраза в стенограмме. Как? Почему? Что происходит?!

В этот момент внутри включается тревожный режим:

“А что, если микрофон всё-таки работал?.. А что, если запись шла? А вдруг мы вообще не контролируем, что записывается?”

Включаем форензик-режим: поднимаем логи, проверяем статусы микрофона, воспроизводим ситуацию, буквально по кадрам пересматриваем момент. И — вздох облегчения. Микрофон был выключен. Всё как положено.

Ни один диалог с домашним питомцем не был скомпрометирован.

А вот что произошло на самом деле: модель, столкнувшись с тишиной в записи (а это был именно тот момент, когда микрофон был выключен), решила, что “ну, не может же быть просто тишина!” — и вставила шаблонные фразы, вроде «да, конечно», «всё понятно», «отлично». Прямо как человек, который на встрече не услышал вопрос, но кивает: “угу”.

Разобрались мы с этим быстро, научили модель уважать тишину и не додумывать за людей. Но честно скажу: пара седых волос после этой истории точно добавилась.

Оценка встречи и рекомендации: как CoPilot помогает расти

Из всех компонентов CoPilot в видеозвонках самым ценным для команд — и самым сложным для реализации — стал блок оценки встречи и персональных рекомендаций. Задача была не просто “оценить по шкале от 1 до 10”, а дать каждому участнику конструктивную обратную связь, которая помогает стать лучше от встречи к встрече.

Мы подходили к этому как к созданию тренера, а не судьи. CoPilot анализирует структуру разговора, распределение времени между участниками, кто какие темы поднимал, кто завершал обсуждение действиями, кто принимал решения, а кто просто слушал. И самое интересное — он может показать почему встреча была продуктивной, или наоборот — где она буксовала.

Для команды это — точка роста. Кто-то увидит, что часто уводит разговор в сторону. Кто-то поймёт, что недоформулирует задачи. Кто-то — что держится в тени и стоит брать больше инициативы. Всё это подаётся как рекомендации, не обвинения. И с каждой новой встречей участники могут наблюдать динамику: как меняется их стиль общения, структура встреч, эффективность коммуникации.

А теперь немного закулисья.

Когда мы только начали внедрять CoPilot в видеозвонках, одной из задач было — научить его не просто подводить итоги встречи, а делать это с умом: отмечать, что прошло хорошо, где мы договорились, какие задачи возникли, и — самое важное — давать конструктивную обратную связь.

Первая версия промта была… скажем так, прямолинейной. CoPilot  честно говорил всё, что думал. И иногда это звучало как холодный душ:

«Вы не договорились ни о чём конкретном»,
«Встреча прошла без ясного результата»,
«Нет чёткого распределения задач».

Некоторые просили: «А можно, чтобы это не отправлялось в общий канал? Лучше в личку». Мы поняли: немного переусердствовали.

Затем пошли в другую крайность — мягкий, вдохновляющий стиль. CoPilot  стал хвалить всех как на утреннике в детсаду:

«Отличная динамика»,
«Приятная атмосфера»,
«Молодцы!»

Звучало приятно, но стало бесполезно — обратная связь потеряла смысл. Команда получала обёртку без содержимого.

В итоге мы нашли баланс. Теперь CoPilot сначала выделяет позитив — что получилось, какие решения приняты, где команда хорошо сработалась. А затем — спокойно, по делу — показывает зоны роста. Без драмы, но и без ваты. Такой формат оказался и полезным, и комфортным. Ведь честный, но уважительный фидбэк — один из лучших способов расти. И не только для людей, но и для команд.

Что дальше?

Мы продолжаем развивать CoPilot в видеозвонках не только как инструмент, но как надёжного партнёра для команд. Уже сейчас он помогает фиксировать итоги встреч, выстраивать процессы и давать полезную обратную связь, а в будущем станет ещё ближе к людям.

В приоритете — сделать CoPilot более “живым”: чтобы он звучал по-человечески, понимал контекст, подстраивался под стиль команды и давал советы, как хороший коллега, а не сухой алгоритм.

Кроме того, мы готовим следующий важный шаг — долгосрочное хранение данных о встречах и активности участников. Это позволит отслеживать прогресс каждого: как меняется стиль общения, усиливается вовлеченность и растёт вклад в общее дело. 

Мы верим, что такие инструменты делают не только людей лучше, но и бизнес сильнее. Впереди много интересного!

Автор: DmitriiSokolov

Источник

Rambler's Top100