Атаки с использованием дипфейк-вишинга: как они работают и почему их сложно остановить

Голосовые атаки с применением искусственного интеллекта ^[1], или дипфейк-вишинг, становятся все более изощренным инструментом киберпреступников. Представьте: вам звонит человек с голосом вашего коллеги, родственника или даже генерального директора, умоляя срочно перевести деньги или раскрыть конфиденциальную информацию. Знакомые интонации и речевые обороты создают иллюзию подлинности, и сомнения отступают. Но это ловушка. Давайте разбираться, как устроена технология обмана, почему ее трудно распознать и как защититься.

Как работают дипфейк-вишинг-атаки

Сразу коротко о том, что это вообще такое. Дипфейк-вишинг — атака, при которой злоумышленники используют искусственный интеллект для подделки голоса, чтобы обмануть жертву по телефону.

Для этого киберпреступникам нужны ^[2] лишь несколько секунд аудиозаписи человека, голос которого они планируют подделать. Такие фрагменты легко найти в публичных источниках: видео на YouTube, записи Zoom-конференций, подкасты в социальных сетях или старые аудиосообщения. Соцмедиа и корпоративные вебинары стали настоящим кладезем для киберпреступников, а в даркнете можно даже купить готовые голосовые профили известных личностей или директоров компаний.

Пару лет назад специалисты Google Mandiant продемонстрировали ^[3] применение записей голоса руководителя из интернета, чтобы обмануть сотрудников. Доступность таких данных делает сбор образцов пугающе простым.

После того, как файлы с голосом найдены, собранные аудиофрагменты загружаются в алгоритмы синтеза речи. Их много, вот несколько наиболее известных: Tacotron 2 от Google, Vall-E от Microsoft или коммерческие платформы ElevenLabs и Resemble AI. Они улавливают интонации, акценты, паузы и мелкие речевые особенности, создавая голос, почти неотличимый от оригинала. Злоумышленник вводит текст, который нужно проговорить. Ну а система генерирует спич, очень похожий на то, как бы произнес все это владелец голоса.

Некоторые платформы, такие как ElevenLabs, позволяют создавать речь в реальном времени, и это делает атаку еще убедительнее: преступник может вести диалог, отвечая на вопросы жертвы. В 2024 году Consumer Reports выяснил ^[5], что защитные механизмы многих таких сервисов можно легко обойти. Для этого достаточно простых изменений в настройках. Например, отключить встроенную проверку голоса и выбора языка либо использовать сторонние инструменты для предварительной обработки аудиофайлов.

Чтобы усилить эффект, мошенники подделывают ^[6] телефонный номер знакомого жертве человека с помощью спуфинга. Для этого используются давно известные методы, такие как подмена Caller ID через VoIP-сервисы, доступные даже новичкам. Сам звонок строится на создании срочной ситуации, вынуждающей жертву действовать быстро. Например, звонящий может притвориться родственником, попавшим в аварию и нуждающимся в деньгах на «выкуп» или «штраф», или руководителем, требующим срочно перевести средства для оплаты «просроченного контракта». Иногда мошенник выдает себя за сотрудника ИТ-отдела, убеждая жертву перейти по ссылке для «сброса пароля» после мнимого взлома. В более сложных атаках используется программное обеспечение для изменения голоса в real-time — это позволяет импровизировать и отвечать на вопросы жертвы, делая обман практически неотличимым от реального разговора.

Заключительный этап атаки — получение желаемого: денег, паролей, доступа к системам или других активов. В отчете Mandiant описывается ^[7] случай, когда сотрудники, поверив поддельному голосу, обошли предупреждения Microsoft Edge и Windows Defender SmartScreen. Они загрузили вредоносное ПО, которое скомпрометировало их рабочие станции.

А еще в одном из экспериментов красная команда (Red Team) от Mandiant использовала ^[7] настоящий сбой в работе VPN-сервиса как повод для срочных действий. Сценарий выглядел так: сотрудник получает звонок с «аварийной» просьбой — и, полагаясь на поддельный голос и обстановку тревоги, выполняет инструкции без теста. Эта тактика отлично иллюстрирует социальную инженерию, когда техническое доверие сочетается с психологическим давлением.

Проблема здесь в том, что переведенные деньги вернуть невозможно, а украденные пароли могут открыть доступ к критически важным системам, делая такие атаки особенно опасными.

Почему дипфейк-вишинг так трудно остановить

Стремительное развитие технологий синтеза речи сделало этот инструмент крайне опасным в руках хакеров. Если раньше поддельный голос выдавали неестественные интонации или роботизированное звучание, то сегодня разница практически незаметна. Алгоритмы машинного обучения ^[8], такие как нейронные сети в Tacotron 2 или Vall-E, становятся все точнее, а доступ к ним упрощается.

Даже человек без глубоких технических знаний может скачать готовый инструмент и провести атаку. Open-source-проекты, такие как Coqui TTS, позволяют создавать высококачественные голосовые клоны с минимальными усилиями. В то же время системы безопасности, ориентированные на обнаружение вредоносного ПО или фишинговых писем, не приспособлены для анализа голосовых звонков — это создает брешь, через которую злоумышленники проникают без особых усилий.

Все потому, что голос — мощный инструмент социального доверия. Мы привыкли верить друзьям, родственникам, коллегам. Мошенники используют эту особенность, создавая сценарии, которые вызывают стресс ^[10] и вынуждают жертву действовать быстро, не задумываясь. Звонок от «родственника в беде» или «начальника со срочным поручением» играет на эмоциях, отключая скептицизм.

Исследования показывают ^[11], что в состоянии паники люди чаще совершают ошибки ^[12], а усталость или отвлеченность жертвы только увеличивает шансы на успех атаки. Дипфейк-вишинг также опасен своей масштабируемостью: если раньше этот прием требовал найма актеров с похожим голосом, то теперь все полностью автоматизировано. Один человек с нужными инструментами способен провести десятки или сотни звонков за день, подделывая голоса разных людей, что делает такие атаки экономически выгодными для злоумышленников.

Как защититься от дипфейк-вишинга

Компании могут снизить риск успешных атак, внедряя технические решения и обучая сотрудников. Протоколы вроде STIR/SHAKEN ^[13] помогают бороться со спуфингом телефонных номеров, проверяя подлинность звонящего через цифровые подписи, хотя они не решают проблему подделки голоса. Приемная сторона чекает подпись и может пометить звонок как доверенный или подозрительный. Эта технология значительно усложняет подмену номеров, однако не оберегает от самой подделки голоса, поэтому в случае дипфейк-вишинга остается лишь одним из элементов комплексной защиты.

Регулярные тренинги по кибербезопасности учат сотрудников распознавать подозрительные звонки и не поддаваться на уловки. В ходе эксперимента Mandiant люди, прошедшие обучение, реже попадались ^[6] на трюки мошенников. Некоторые компании разрабатывают системы, анализирующие голосовые звонки в реальном времени, выявляя аномалии, характерные для синтезированной речи — например, неестественные переходы между фонемами или отсутствие биометрических маркеров живого голоса. Такие технологии, разрабатываемые Pindrop и Nuance, пока доступны в основном крупным корпорациям, но в будущем могут стать шире распространены.

На индивидуальном уровне защита строится на простых мерах:

Договоритесь с близкими или коллегами о секретном слове или фразе, которые нужно назвать во время звонка. Если звонящий не знает код, это повод насторожиться.
Если разговор вызывает сомнения, завершите его и перезвоните владельцу номера — так можно убедиться в отсутствии угрозы.

Не торопитесь принимать решения, даже если ситуация кажется срочной. Задавайте проверочные вопросы, которые знает владелец номера. Это может быть кличка собаки, цвет стола на рабочем месте и так далее. Повышение осведомленности также играет ключевую роль: чем больше людей знает о дипфейк-вишинге, тем сложнее мошенникам добиться успеха.

Технологии защиты от этой угрозы развиваются. Например, системы вроде Pindrop Pulse анализируют голосовые звонки с помощью машинного обучения и глубоких нейронных сетей, быстро распознавая синтетический голос по микроскопическим аномалиям — например, нестандартным паузам, искаженным частотным характеристикам и ритму речи. Согласно официальным данным, технология может ^[15] выявить дипфейки с точностью до 99% уже через две секунды прослушивания, сохраняя при этом очень низкий уровень ложных срабатываний. Со временем такие решения могут стать доступнее, но пока защита во многом зависит от бдительности и здравого смысла.

Что в итоге? Дипфейк-вишинг — это не просто технология, а новый уровень социальной инженерии, использующий наши инстинкты и доверие против нас самих. Передовые алгоритмы, доступность данных и человеческая психология делают эти атаки пугающе эффективными. Технологии защиты развиваются, но пока отстают от изобретательности злоумышленников. Чтобы не стать жертвой, важно сохранять бдительность, проверять подозрительные звонки и использовать простые меры предосторожности, такие как кодовые слова или перезвон по известному номеру. В мире, где голос можно подделать за пару секунд, единственная надежная защита — ваш собственный здравый смысл. Это касается и личного общения, и корпоративного.

Автор: Darya_Frolova

Источник ^[16]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18716

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] нужны: https://www.group-ib.com/blog/voice-deepfake-scams/

[3] продемонстрировали: https://thedecisionlab.com/reference-guide/computer-science/vishing

[4] Источник: https://www.cisco.com/site/us/en/learn/topics/security/what-is-vishing.html

[5] выяснил: https://www.consumerreports.org/media-room/press-releases/2025/03/consumer-reports-assessment-of-ai-voice-cloning-products/

[6] подделывают: https://arstechnica.com/security/2025/08/heres-how-deepfake-vishing-attacks-work-and-why-they-can-be-hard-to-detect/

[7] описывается: https://cloud.google.com/blog/topics/threat-intelligence/ai-powered-voice-spoofing-vishing-attacks

[8] обучения: http://www.braintools.ru/article/5125

[9] Источник: https://safeployee.com/que-es-un-deepfake-voice/

[10] стресс: http://www.braintools.ru/article/9548

[11] показывают: https://en.wikipedia.org/wiki/Directed%5C_attention%5C_fatigue

[12] ошибки: http://www.braintools.ru/article/4192

[13] Протоколы вроде STIR/SHAKEN: https://en.wikipedia.org/wiki/STIR/SHAKEN

[14] Источник: https://shalaginov.com/2024/07/28/stir-shaken/

[15] может: https://www.pindrop.com/article/pindrop-pulse-for-audio-deepfake-detection/

[16] Источник: https://habr.com/ru/companies/ru_mts/articles/940450/?utm_campaign=940450&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.