Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями. Data Engineering.. Data Engineering. llm.. Data Engineering. llm. ml.. Data Engineering. llm. ml. synthetic data.. Data Engineering. llm. ml. synthetic data. Блог компании Friflex.. Data Engineering. llm. ml. synthetic data. Блог компании Friflex. синтетические данные.
Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 1

Меня зовут Вадим Кондаратцев, я руковожу ИИ-направлением в Friflex и небольшой ИИ-лабораторией в МГТУ им. Баумана. Последние 10 лет работаю на стыке ML, HPC и Edge Computing, преподаю машинное обучение и примерно раз в день запускаю что-нибудь на суперкомпьютере.

Это расширенная версия моего доклада на CrossConf 2025 про мой опыт применения синтетических данных в проектах, которые связаны с интеграцией систем машинного обучения в промышленности и науке. Если интересно посмотреть, какая бывает синтетика и что она позволяет покрыть, прошу под кат.

Синтетические данные — это отдельная инженерная дисциплина

Synthetic Data — это данные, которые получены искусственным путем для обучения и тестирования ML-моделей. Важно не путать их с аугментацией: она трансформирует существующие примеры (flip, crop, color jitter), а синтетика порождает принципиально новые.

Методы генерации различаются радикально, и выбор метода определяет свойства получаемых данных:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 2

Причина существования синтетики приземленная: реальных данных не хватает. Они дорогие, редкие, или их опасно получать. Например, для автопилота нужны примеры столкновений с пешеходами — собирать такой датасет никто не будет. Для обнаружения аварий на химическом производстве нужны данные об авариях, которых, к счастью, мало.

Ручная разметка vs Render pass

Разница здесь принципиальная. В CVAT (Computer Vision Annotation Toolm. Например, Intel CVAT) разметчик тратит на кадр минуты и рисует приблизительные полигоны. Render pass в Blender или Unity выдает идеальные маски. Каждый пиксель привязан к объекту, и это масштабируется до миллионов кадров:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 3

Render pass дает не только сегментационные маски, но и depth map, normal map, instance ID, optical flow — все параллельно, без дополнительных затрат. Примеры описывал тут, но с тех пор в движках добавились новые возможности. В том числе, такое можно делать при помощи отечественного Unigine.

Для глубокого погружения рекомендую монографию Сергея Николенко Synthetic Data for Deep Learning. Это одна из немногих систематических статей по теме.

Дальше будет несколько кейсов применения синтетических данных.

Антивирус для завода: Kaspersky MLAD

Это совместный проект с Лабораторией Касперского. Их продукт MLAD (Machine Learning Anomaly Detection) — по сути, IDS для АСУ ТП. Система встраивается в канал между ПЛК и инженерным пультом и детектирует аномалии в потоке сигналов.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 4

Проблема обучения: нужны примеры атак и аварийных режимов, которых в штатной эксплуатации нет. Нельзя устроить реальную аварию ради датасета.

Решение: цифровой двойник промышленного процесса. Математические модели в Dymola и MATLAB Simulink описывают физику: теплообмен, гидродинамику, химическую кинетику. В контур подключается реальный ПЛК, и мы генерируем:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 5

Здесь синтетика — это физически корректные временные ряды. Каждый сигнал температуры, давления и расхода рассчитывается из системы ОДУ модели процесса.

Результаты:

  • Цифровой двойник предприятия с реальным ПЛК в контуре;

  • Нейросетевые модели предсказания атак на трафик ПЛК;

  • ПО для конфигурирования сценариев атак и автоматизированного накопления обучающих данных.

Бонус: система ловит не только целенаправленные атаки, но и человеческий фактор — например, незакрученный вентиль или забитый нефтепродуктом датчик.

Особенности: в данном случаи синтетика — это временные ряды, которые по типу динамики могут быть сгенерированы очень похожими на настоящие данные. На практике не пришлось подмешивать реальные данные, тренд нейросети уловили уже на таком двойнике. 

Но самое важное, благодаря такому симулятору специалисты в области информационной безопасности смогли обыгрывать разные сценарии атак и находить потенциальные сценарии, на которые нужно натренировать нейронку.

Дрон-обходчик для ТЭЦ

Задача: автономный дрон патрулирует ТЭЦ, считывает стрелочные приборы, детектирует дефекты — паровые утечки, коррозию, перегревы. Заказчик категорически не хотел стационарных камер, нужен был мобильный робот.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 6

Все, что было на старте проекта — это 50 (50, Карл!) снимков с примерами дефектов. А сами снимки были сделаны с мощным фонарем и обведенными мелом дефектами. Обучать нейросеть на таких примерах — не вариант.

Пайплайн генерации синтетики:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 7

Ключевые решения:

HDR Environment Maps. Мы снимали на камеры 360° панорамы с HDR и использовали их как окружение в Blender. Без этого синтетические кадры выглядели бы студийно. А модель должна была работать в условиях реального промышленного освещения: тусклые лампы, блики на металле, пар.

LiDAR → Point Cloud → Digital Twin. Облако из двух миллиардов цветных точек — полная копия станции. Внутри двойника виртуальный дрон отрабатывал маршруты, не рискуя реальным оборудованием.

Для классов дефектов, связанных с разрывами и трещинами труб, мы сделали Blender-сцену с автоматизацией пролета камеры по маршруту БПЛА с учетом симуляции осветительного прибора, установленного на нем же.

Результаты:

  • Собственные генераторы синтетических данных;

  • Система автономной навигации на основе LiDAR-сканов;

  • Модели глубокого обучения для статических и динамических дефектов.

Особенности: проблема доменного сдвига явно присутствует, поэтому на этапе обучения моделей пришлось сильно аугментировать реальные снимки и вмешивать их в процесс обучения на синтетике. А метрики val сета — рассчитывать именно на них. С таким подходом нужно быть аккуратным: если не удастся сократить доменный разрыв в данных, на практике не получится использовать нейросети.

Безопасный контур: генеративные модели для видеонаблюдения

Задача: детекция проникновений, драк, потери сознания и пожаров по камерам на территории университета и предприятия.

Сложность была в том, что публичные датасеты (UCF Crime, COCO-fire) не знают конкретных ракурсов, фонов, освещения и сезонных изменений. Модель с YouTube-видео пожаров может не сработать на нужной парковке зимой в сумерках.

Пайплайн inpainting-синтетики:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 8

Мы просили людей перелезать через забор зимой, чтобы собрать начальные примеры и оценить качество синтетики. Генеративные изображения пожаров создавались из реальных кадров видеонаблюдения конкретного предприятия.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 9

Когда какой метод использовать

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 10

Генеративка не знает физики: огонь не будет правильно подсвечивать соседние объекты, дым не подчиняется ветру. Для bbox-детекции этого достаточно. Для задач с динамикой нужна классическая 3D-симуляция.

Особенности: в этом проекте хорошо показал себя подход, когда берутся реальные кадры с камер видеонаблюдения и через диффузионные модели подмешиваются пожары, задымления и похожие эффекты.

Виртуальные гидропосты: геофизическая симуляция

Это проект со Сбером из области страхования. Если предприятие расположено на берегу реки, возможен паводок. А это страховой риск. Прогноз строится по гидропостам, но между ними могут быть сотни километров.

Пайплайн виртуальных гидропостов:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 11

На входе — спутниковые данные о рельефе. На выходе — модель, которая по одному реальному снимку оценивает уровень воды в произвольной точке на реке. Здесь синтетика — это полноценная геофизическая симуляция: 3D-рельеф, гидродинамика, виртуальные камеры.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 12

Результаты:

  • Нейросетевые модели super-resolution для спутниковых снимков и рельефа;

  • Модель предсказания уровня воды в произвольной точке;

  • Модель автоматической батиметрии дна рек;

  • Собственная библиотека со спутниковыми парсерами.

Особенности: в этом случае была получена комплексная синтетика, основная цель которой — обогатить данные о временных рядах уровня подъема воды. Но лучше генератор синтетики показал себя в задаче предсказания области конкретного затопления, когда уровень воды в конкретной географической точке уже известен.

Навигация в космосе

Еще один пример, где вся обучающая среда синтетическая, потому что нельзя гонять реальный спутник в реальный космический мусор.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 13

Задача: помочь спутнику уклониться от столкновения с космическим мусором. 

Решение: симулятор учитывает орбитальную механику и модели фрагментации. RL-модель рассчитывает маневры с учетом ограничений по топливу. VR-демонстрация показывает, как может выглядеть рабочее место оператора ЦУП будущего.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 14

Особенности: здесь не совсем честно говорить о синтетике, поскольку создание среды для обучения агента в RL  — это и есть синтетика, но ее так никто не называет. Основная проблема в подобных проектах — процесс переноса обученной системы управления из виртуальной среды на реальные устройства. Как такой барьер преодолевают, можно прочитать тут.

Эпоха LLM и VLM: новые роли синтетики

С 2018 по 2024 год ландшафт ML изменился радикально. Большие языковые модели и визуально-языковые модели открывают принципиально новые способы работы с данными, в том числе синтетическими.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 15

LLM в проектировании и производстве (CDaM)

Обзор Makatura et al. How Can Large Language Models Help Humans in Design and Manufacturing? (2023) систематизирует применение LLM в промышленном цикле:

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 16

LLM как компрессор: самый неочевидный кейс

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 17

Это, пожалуй, самая контринтуитивная тема из доклада. Работа Delétang et al. Language Modeling Is Compression (2023, DeepMind) показывает: предсказание следующего токена математически эквивалентно сжатию данных.

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 18

Любой хороший предсказатель можно превратить в хороший компрессор через арифметическое кодирование, и наоборот. Авторы продемонстрировали, что LLM сжимают не только текст, но и изображения (ImageNet) и аудио (LibriSpeech) с коэффициентами, недостижимыми для классических domain-agnostic кодеков. Для сериализованных данных — до 4000x при конвертации в .bin.

Почему это важно для синтетики 

Сжатие и генерация — две стороны одной медали. Если модель научилась хорошо сжимать данные домена, она выучила его статистическую структуру и может генерировать новые корректные примеры. Это теоретическое обоснование способности LLM выступать генераторами синтетических данных.

Практический вывод: вместо построения специализированного генератора синтетики для каждой задачи можно применять fine-tune LLM на доменных данных и использовать ее для генерации и валидации.

Топ-5 рекомендаций при работе с синтетикой

Нестандартные применения LLM и синтетических данных: от антивируса для завода до сжатия данных языковыми моделями - 19
  1. Всегда смешивайте и валидируйте на реальных данных. Синтетика в чистом виде дает domain gap. Даже 10–20% реальных данных в обучающей выборке радикально улучшают результат. Правило простое: train on synthetic, validate on real.

  2. Определитесь с типом правдоподобности. Визуальная — генеративные модели (Stable Diffusion, inpainting). Физическая — CG-рендеринг и математическое моделирование (Blender, Unity, Simulink). Смешивать можно и нужно, но нельзя подменять одно другим.

  3. Синтетика — лучший выбор, когда собирать реальные данные долго, дорого или опасно. Аварии на производстве, космический мусор, паводки, проникновения на территорию — классические кандидаты.

  4. Генерируйте под конкретную задачу. Какие классы и метрики оптимизируете, какие edge-cases критичны — такие примеры и делайте. Универсальный генератор данных — это утопия.

  5. Иногда полуавтоматическая разметка лучше. Если есть предобученная модель (SAM, YOLO, GroundingDINO) и немного реальных данных — pseudo-labeling с ручной коррекцией бывает быстрее, чем строить генератор с нуля.

Вместо заключения

Синтетические данные — не серебряная пуля, но инженерный инструмент, без которого целые направления ML просто не существовали бы. Автопилоты, промышленная безопасность, космическая навигация, страховая аналитика — везде, где реальных данных недостаточно, синтетика закрывает разрыв.

А с приходом LLM и VLM граница между синтетическим и реальным стирается еще сильнее: языковая модель, обученная на доменных данных, одновременно является и компрессором знаний о домене, и генератором новых примеров.

Если работаете с синтетикой — делитесь опытом в комментариях. Особенно интересен опыт тех, кто комбинирует генеративные модели с классическим 3D-рендерингом: какие пропорции реальных и синтетических данных работают у вас?

Автор: Friflex_dev

Источник

Rambler's Top100