- BrainTools - https://www.braintools.ru -
Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.
Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
Приватность без компромиссов. Новые метрики ZCAP и GCAP позволяют количественно доказать, что «утечки» почти невозможны — см. свежий обзор PrivEval (Trudslev et al., 2025).
Контролируемая вариативность. Когда CTAB-GAN+ или TabDDPM генерируют миллион строк «клиентов», мы задаём частоту редких сценариев вручную, а не ждём их годами в проде.
Экономика разработки. Лаборатория Nvidia подсчитала: выпуск бета-версии автопилота ускоряется на 30 %, если 70 % тест-сценариев пришли из Unreal-симуляций вместо реальных полигонов.
|
Драйвер |
Что изменилось за 2022-2025 |
|---|---|
|
Модели |
Из «классического» CTGAN выросли диффузионные TabDDPM и LLM-ориентированный FASTGEN (2025) |
|
Метрики |
Атак-based оценки (ZCAP, AIR) ушли из академии в CI/CD: теперь risk-score считается перед каждым деплоем |
|
Кейсы |
A-share market: диффузии повышают S/N на 18 % (Che et al., 2024); в онкологии синтетика покрывает 92 % редких мутаций (Hoppe et al., 2025) |
Если завтра ваш DataOps-конвейер обнулится, сколько недель уйдёт на восстановление реального датасета с нужными правами доступа?
Ответ большинства компаний — «слишком много». Поэтому synthetic-first-подход стремительно становится стандартом, а мы начинаем серию глав, где разберём технологии, метрики, кейсы и этику нового «пластилина» для ИИ. Пристегнулись — поехали!
В науке [1] действует закон Мёрфи: чем интереснее явление, тем меньше у исследователя строк в таблице.
В медицине — редкие варианты опухолей, которые встречаются реже одного случая на сто тысяч – см. анализ Hoppe et al. 2025¹.
В финсекторе — кризисные дни, когда волатильность зашкаливает, но исторически их всего десятки (Che et al. 2024²).
Синтетика здесь как коллайдер: выпускает «частицы» настолько часто, что статистика начинает работать.
GDPR в ЕС, HIPAA в США, ФЗ-152 в России — каждый акт усиливает давление на команды данных.
Клиника не может просто так выгрузить КТ-снимки, а банк — транзакции клиентов.
Решение — генеративные модели с формальными гарантиями.
DP-GAN и CTAB-GAN+ показывают, что можно держать ε < 1 и всё ещё сохранять обучаемость модели³.
Свежий обзор метрик приватности PrivEval (Trudslev et al. 2025⁴) напоминает: ZCAP и AIR позволяют «на глазок» не верить, а измерять риск.
Данные — зеркало общества, а зеркало, как мы знаем, неровное.
В наборе отзывов на продукты женщины жалуются на цену, мужчины — на инструкцию; алгоритм рекомендаций радостно закрепляет стереотип.
Синтетические генераторы уровня TabDDPM дают возможность «докрасить» малые подгруппы до статистически значимого объёма, при этом не ломая корреляции.
Кейс: CRM-платформа, где доля клиентов-левшей была 0,3 %. После балансировки синтетикой точность прогноза оттока левшей выросла с 62 до 81 %.
IoT-датчики на заводе передают температуру каждые 100 мс. Достаточно одной скачки сети, и в логе появляются −273 °C.
В ручных анкетах часть полей пропущена, часть заполнена капсом, а поле «год рождения» иногда содержит «давно».
VAE-подобные модели умеют достраивать пропуски, а структурные причинные модели (SCM) даже восстанавливают логические зависимости между таблицами (Hoppe et al. 2025¹).
Результат — чистый «песок» без булыжников, на котором можно строить ML-«небоскрёбы».
Итого
Синтетика — это не про «ещё один датасет», а про стратегию обхода узких мест.
Она решает четыре хронические болезни данных:
|
«Болезнь» |
Симптом |
Лекарство |
|---|---|---|
|
Дефицит |
вынужденные «малые выборки» |
генерация редких сценариев |
|
Приватность |
штрафы, NDA, этика |
дифференциально-приватные модели |
|
Предвзятость |
перекос метрик, репутационные риски |
балансировка классов синтетическими заплатами |
|
Шум |
выбросы, пропуски, логические ошибки [2] |
имитация «чистых» измерений и до-синтез причинных связей |
Представьте уютный бар на вечернем митапе. За стойкой — целый арсенал бутылок, от старой доброй «ГАНовки» до новейшего «Диффузионного резерва 0.5 нм», пылится и экспериментальная «SCM Causality Blend». Наш бармен — практикующий дата-учёный, который за последние годы успел попробовать почти всё, что способно генерировать строки и колонки. Сегодня он рассказывает, чем отличаются основные напитки и почему иногда их стоит смешивать. Без канцеляра, но с научным закладом.
Первые GANы появились ещё в 2014-м, и с тех пор эта смесь двух нейросетей — хит любой вечеринки. Генератор бросает кубики случайного шума и выдаёт «фальшивые» записи, дискриминатор придирчиво проверяет, настоящие ли они. Итерация за итерацией, — и напиток становится всё менее отличимым от оригинала.
Но у классического коктейля есть издержки. «Мод–коллапс» — то самое состояние, когда бармен вдруг начинает наливать один и тот же вкус [3] снова и снова. Добавьте сюда шаткую сходимость: чуть-чуть недодержали в шейкере — и смесь расслоилась.
Свежее улучшение — DP-GAN. Секретный ингредиент: дифференциальный шум прямо в фазе обучения [4]. Он гарантирует, что в итоговом коктейле нет «молекулы» конкретного человека. Клиники и банки вздохнули с облегчением: можно делиться данными, не опасаясь утечек.
Где наливают: быстрый прогрев прототипа, когда приватность критична, а GPU уже крутится.


Variational Autoencoder — это тот редкий барный гость, который приходит без громких тостов, но уходит последним. Он сжимает данные в аккуратное латентное пространство и раскручивает обратно.
Плюсы: обучение стабильное, «мод-коллапс» не грозит, а самое ценное — латент можно крутить как регулятор громкости на колонке. Хотите синтетического пациента того же возраста, но с лёгкой поправкой в уровне холестерина? Одно движение по одной координате — и готово.
Минусы: напиток чуть менее насыщен — текстуры иногда размыты. Но в задачах балансировки редких классов или нужно «штучно» изменять признаки — VAE незаменим.
Последние два года исследования затеяли революцию. Диффузионная модель начинает с полного «шума» и учится по шагам возвращать данные к жизни, словно бармен, который берёт мутный сок и за десяток точных штрихов выводит идеальный коктейль.
Практика: TabDDPM — адаптированная диффузия для таблиц. Замеряем Frechet Distance — и видим, что диффузия вдвое ближе к реальному набору, чем зрелые GAN. «Коллапс мода»? Его просто нет: каждый шаг — это маленькая регрессия к правдоподобию.
Цена вопроса: ресурсы. Одну тысячу строк на CPU вы будете колдовать долго. На хорошей GPU — считанные секунды, но всё же дольше, чем разогнать GAN.
Исследование Hoppe et al., 2025 вывело на сцену структурные причинные модели. Здесь важен не только вкус каждого ингредиента, но и порядок, в котором бармен их смешивает.
SCM строят DAG зависимостей: сначала генерятся «корневые» переменные, затем каскадом считаются дочерние. Снаружи вы получаете не просто набор строк — а взаимосвязанную базу, где заказ → счёт → платёж логически непротиворечивы.

Для реляционных БД это почти «святой грааль». Пример: в симуляции e-commerce мы меняем распределение скидок — и SCM сама перестраивает корзины, логистику и возвраты.
В финансовых рядах сложно поймать истинное распределение: рынок шумит, редкие шоки рушат статистику. Тут приходят Agent-based models. Каждого агента (инвестора) мы настраиваем на собственный риск-аппетит и стратегию. Рынку задаём общий шок, запускаем — и получаем динамику цен, где волатильность рождается естественно.
Работа Che et al. показала: сочетание агентной симуляции и лёгкого VAE-шлифования повышает отношение сигнал/шум в синтетике до уровня, удобного для тестов стратегий торговли на A-share рынке.
GAN + VAE — VAE организует латент, GAN доводит картинку до кристальной структуры, компенсируя размытость.
Diffusion + SCM — сначала крутим диффузию на каждой таблице отдельно, потом связываем причинной сетью.
VAE + Agent — агенты создают «скелет» сценариев, VAE добавляет мелкие детали, чтобы записи были гладкими.
Один из промышленных паттернов: scm-контейнер для схемы, а внутри каждой таблицы — «наполнитель» на диффузии с приватным шумом. Получаем реализм, логику [6] и конфиденциальность в одном стакане.
|
кейс |
структура |
риск утечки |
оптимальный рецепт |
|---|---|---|---|
|
усилить редкий класс болезни |
одна таблица |
низкий |
VAE conditional |
|
fintech транзакции под GDPR |
10 млн строк |
высокий |
DP-GAN с clip-noise |
|
supply-chain мультитаблица |
счета, заказы, поставки |
средний |
SCM + локальная диффузия |
|
стресс-тест фондового рынка |
тайм-ряда |
публично |
Agent-based + VAE |
Мы уже видим прототипы авто-оркестраторов, которые сами анализируют метрики качества и приватности, подбирают и обучают гибридную модель под конкретный набор. Диффузионные движки ускоряются через distillation, а причинные графы учатся прямо из лога запросов вместо ручного инжиниринга.
Синтетика перестаёт быть «резервной копией» данных. Она становится полигоном для A/B-экспериментов, тренд-форкастинга и даже автоматического поиска аномалий, которые в реальном мире пока не произошли.
И если классический бар с двумя-тремя напитками раньше казался достаточным, то сейчас нам нужен целый миксологический цех. Главное — помнить: вкус зависит не только от рецепта, но и от того, как, зачем и с кем вы этот коктейль пьёте.
Погрузившись в мир синтетики, неожиданно понимаешь — большинство инженерных битв и прорывов происходит не только внутри алгоритмов, но и в инструментах, которые мы выбираем и используем на практике. Какими фреймворками, платформами и движками сегодня удобнее и эффективнее всего создавать синтетические табличные данные? Давайте разложим по полочкам.
Synthetic Data Vault (SDV) — это, пожалуй, самый известный open source фреймворк для генерации табличных данных. Он объединяет сразу несколько моделей, включая GAN и VAE, и умеет работать с отдельными таблицами и даже сложными реляционными базами.
Главная сила SDV — модульность и возможность кастомизации. Например, если у вас несколько взаимосвязанных таблиц, SDV позволяет обучить несколько моделей и настроить взаимные зависимости между ними. Это особенно ценно для бизнес-приложений с комплексной структурой данных (Shi et al., 2025 [7]).

Переходя к коммьюнити и индустриальным решениям, Grytel.ai [8] и Mostly AI — лидеры в продуктовом синтетическом софте. Они делают ставку на автоматизацию, интуитивные интерфейсы и высокую приватность.
В их ядре — генеративные модели с интеграцией дифференциальной приватности и пользовательскими политиками безопасности. Такие системы часто интегрируют пост-обработку данных — фильтрацию и проверку соответствия бизнес-правилам, что снижает количество «неправильных» записей и ускоряет внедрение в продакшен (Averroes AI, 2025 [9]).

CTGAN — специализированный GAN, разработанный специально для табличных данных с большим количеством категориальных столбцов. Обычные GAN часто пробуксовывают на таком типе данных из-за их дискретности и редкости комбинаций.
CTGAN решает проблему, моделируя условные распределения категориальных признаков и используя обучение с подкреплением [10] для улучшения генерации редких классов. Это важное новшество, особенно для финансов и ритейла, где категориальные признаки занимают большую часть таблицы (Shi et al., 2025 [7]).
Для задач компьютерного зрения и робототехники синтетика — признанный стандарт для обучения и тестирования. Unreal Engine и Unity давно используются для генерации фотореалистичных сцен и метаданных, а CARLA — специализированный симулятор для автономных транспортных средств.
Эти движки создают искусственную, но максимально приближенную к реальности среду, откуда данные выходят с точной разметкой и разнообразием, которое сложно получить вживую. Для tabular данных, связанных с сенсорикой или видеоаналитикой, такой подход ключевой: можно получить и наборы данных, и проверки алгоритмов в едином цикле (K2view, 2025 [11]).
В эпоху GDPR и HIPAA синтетика без гарантии приватности — это игрушка, а не инструмент. Вот почему многие современные платформы и open source решения интегрируют differential privacy — сложный математический аппарат, который ограничивает влияние каждой отдельной записи на итоговый синтетический датасет.
Практические реализации строятся через модификации loss-функций, добавление шума в градиенты или ограничение доступа к данным во время обучения. Это уже не волшебство, а нормальная часть пайплайна. Gretel.ai [12] и Mostly AI — особо выделяются именно в этой сфере (Xing et al., 2025 [13]).
Мир инструментов развивается стремительно, и задача инженера — выбирать их в правильном сочетании. Сегодня синтетика — это не просто генератор случайных данных, а продвинутый комплекс с модулями контроля качества, безопасностью и поддержкой сложных структур.
Что дальше? В следующей главе можно перейти к примерам из практики и кейсам, где скажем, генерация временных рядов меняет финансовый анализ, или реляционная синтетика улучшает медицинские базы.
Финансы: шум — вон, сигнал — сюда
При мысли о фондовом рынке у большинства из нас всплывают биржевые ленты, а у учёных — длинные хвосты распределений и боль [14] от пропущенных значений. Группа Чэ (SJTU) решила перевернуть доску: обучила диффузионную модель на 20-летнем архиве биржи A-share и стала «докручивать» сгенерированные свечи фильтрами Фурье и алгоритмом ApproxNLTV. Итог — улучшение S/N-ratio на 18 % и возможность тестировать новые стратеги без риска «подглядывания» в будущее . В банках на такое смотрят с легкой завистью: скоринговые команды получают целый конструктор стресс-сценариев вместо скучной Монте-Карло-рутины.

Медицина: редкие болезни, доступные каждому исследователю
Когда диагноз звучит у одного на миллион, собрать приличную выборку почти нереально — и вот тут синтетика вытягивает хирурги и биостатистиков из статистической ямы. VAE-каскад, дообученный на мини-когорте пациентов с синдромом Драве, позволяет «клонировать» истории болезни так, чтобы модель эпилептических приступов училась на сотнях наблюдений, а не на дюжине. При этом ZCAP-риск раскрытия данных падает в три раза, что успокаивает как IRB-комитеты, так и родителей пациентов.
Беспилоты: ливень, туман, козы на трассе
CARLA 0.9.15 превратился в полноценный погодный оркестр: от тропического ливня до «северного» тумана с диффузным светом. Добавляем в сцену случайных пешеходов, а потом пропускаем данные через SDV-модуль, который дописывает табличку сенсоров (LiDAR, IMU) — и получаем даты-сет, где система автопилота учится не терять дорогу в самую паршивую ночь. Результат: снижение MAE по траектории на 6 % на реальных испытаниях.
Соцсети и CRM: лечим алгоритмическую близорукость
В рекомендательных системах «эффект эха» возникает быстрее, чем вы успеете отписаться от очередного мотивационного гуру. Синтетические профили помогают перетасовать колоду интересов: CTGAN генерирует «фантомных» пользователей с ультра-редкими комбинациями предпочтений, и алгоритм начинает видеть чуть дальше собственного носа. Исследователи показали: diversity-метрика каталога контента вырастает на 12 %, жалобы на однообразие ленты — падают.
Вывод из практики: синтетические данные — не академический фетиш, а рабочая лошадка, способная тянуть финансы, медицину, транспорт и маркетинг. Главное — не забыть после заезда проверить подковы: PrivEval или хотя бы простой GCAP-тест обязателен, чтобы свежесгенерированная кибер-морковь не превратилась в дыру в приватности.
Переход от понимания синтетики как «хорошей игрушки» к её реальному промышленному применению немыслим без жёстких мер оценки. Ведь как проверить, что данные не только выглядят реалистично, но и сохраняют приватность? Тут на арену выходят метрики — те самые, которые позволяют количественно оценить качество и безопасность синтетических наборов.
Соблюдение приватности — не только юридическая обязанность, но и ключ к доверию и практическому использованию синтетики в медицине, финансах и других отраслях. В основе современных подходов лежит дифференциальная приватность (Differential Privacy, DP) — формальный математический стандарт, дающий гарантию, что присутствие или отсутствие одной записи не изменит статистику результата значительно.
Но DP — это лишь верхушка айсберга. Как указывают Xing и соавторы (2025), для оценки реального риска раскрытия информации важны и attack-based metrics — имитация действий злоумышленника, пытающегося восстановить конфиденциальные данные из синтетики.
Zero CAP (ZCAP) — измеряет вероятность успешного восстановления чувствительной информации злоумышленником, знающим ключевые атрибуты. Представьте, что вам подсовывают синтетический датасет — ZCAP показывает, насколько легко вы «сойдётесь» с реальным человеком по уникальным признакам.
Generalized CAP (GCAP) — расширение ZCAP, учитывающее не только точные совпадения, но и «похожие» случаи, что делает оценку более реалистичной.
Attribute Inference Risk (AIR) — метрика, которая оценивает вероятность предсказания конкретных чувствительных атрибутов на основе синтетики. AIR особенно полезна, когда атрибуты смешанного типа — как категориальные, так и числовые.
В сумме, эти метрики переводят абстрактную задачу приватности в конкретные числа и риски, которые можно контролировать и минимизировать (Xing et al., 2025 [13]).

Конечно, приватность — это только одна сторона. Бесполезная синтетика, которая хорошо защищена, никому не нужна. Качество измеряют, проверяя, насколько синтетика сохраняет статистические свойства оригинала: распределения признаков, корреляции, связи.
Ещё одна проверка — насколько эффективно модели, обученные на синтетике, работают на реальных данных. Это называется downstream task evaluation и является золотым стандартом в индустрии (Shi et al., 2025 [7]).
Инструментальный арсенал быстро растёт. Например, PrivEval — open-source библиотека, которая интегрирует многие метрики приватности и полезности, позволяя исследователям и инженерам автоматически оценивать риски и качество синтетики. Это важный шаг к тому, чтобы синтетические датасеты выходили из экспериментов и шли в продакшен с прозрачными метриками и понятной оценкой.
Рынок синтетических данных в 2025 активно растёт (до $2 млрд по оценкам), и конкуренция заставляет производителей доказывать, что их продукты эффективны, надежны и безопасны. Метрики становятся маяками, без которых никакая синтетика не зайдёт далеко.
Границы реальности тают
Летом-25 мы впервые увидели синтетические кредиты, в которых клиент «Иван С.-GPT» заявлял доходы, колеблющиеся вместе с макроциклом так же элегантно, как это делает настоящая экономика. Разницу между подделкой и первоисточником уловил только детектор, обученный на структурных причинных моделях Hoppe et al. . Это не магия, а точная наука: диффузионные сети рисуют шум, а LLM-постпроцесс вставляет контекст — место, время, бизнес-логику. Следующий шаг очевиден: синтетика будет «жить» вместе с реальным миром, автоматически подхватывая новые тренды, курс биткоина и свежие диагнозы.
MLOps встречает DataOps
Сегодня генератор и метрики — две отдельные вселенные. Завтра — единый pipeline: push-триггер в Git, SDV или Gretel тут же взрывает облако, PrivEval проверяет ZCAP, а ML-модель перетренировывается ночью. Никаких ручных «поменяйте поле salary» — всё по скриптам, как в CI/CD. Компании, уже выстроившие MLOps, обнаружат, что synthetic-first поднимает скорость релизов не вдвое, а на порядок.
LLM-ускоритель
GPT-4o и его открытые кузены умеют «понимать» таблицу и сразу генерировать JSON с нужной корреляцией. Финансовые исследователи из Шанхая показали: достаточно 10 строк биржевой истории, чтобы модель дорисовала правдоподобный пятилетний ряд с улучшенным сигнал-к-шуму . Кто-то назовёт это «галлюцинацией», но в risk-back-тесте работает — и даёт фору фондовым квантам.

Этические тучи
Когда синтетическая запись почти неотличима, искушение велико: «А нужно ли нам хранить оригиналы под GDPR?» Юристы уже спорят, считается ли такая выборка персональными данными, если через GCAP вероятность реидентификации < 0.01. Добавьте налоговые льготы за «privacy-tech» — и перед регуляторами встаёт новая головоломка: как поощрять инновации, не открывая лазейки для отмывания следов.
Куда свернуть завтра?
Конвергенция модальностей. Табличные поля + синтетическое изображение паспорта в одном пакете? Технологически — уже возможно.
Self-evaluation. Модели, которые сами генерируют и тут же критикуют свои данные, снижая GCAP без участия человека.
Рынок синтетических датасетов. Лицензии, брокеры, прайс-листы — как сегодня продают real-time котировки, завтра будут продавать «идеальный трёхлетний лог пользователей для e-commerce».
Главный вызов следующей пятилетки — научиться жить бок о бок с теневым двойником данных, не потеряв доверие и чувство реальности. Но, признаемся, именно в этой тонкой игре и кроется самое увлекательное будущее data-engineering.
|
Глава статьи |
Использованные источники |
Как именно применяем |
|---|---|---|
|
1. Вступление: Тренд, который мы наблюдаем сегодня |
1. Shi et al., 2025 – A Comprehensive Survey of Synthetic Tabular Data Generation arXiv: https://arxiv.org/pdf/2504.16506 [7] 2. Trudslev et al., 2025 – A Review of Privacy Metrics for Privacy-Preserving SDG arXiv: https://arxiv.org/pdf/2507.11324 [13] 3. Hoppe et al., 2025 – Generating Synthetic Relational Tabular Data via SCM arXiv: https://arxiv.org/pdf/2507.03528 [15] |
— Цитируем статистику роста публикаций и расширение области (Shi) — Подчёркиваем мотив приватности как главный драйвер (Trudslev) — Указываем тренд на реляционную синтетику (Hoppe) |
|
2. Проблемы реальных данных: «болезни», которые лечит синтетика |
1. Shi et al. 4. Che et al., 2024 – Generative Models for Financial Time Series Data arXiv: https://arxiv.org/pdf/2501.00063 [16] |
— Приводим примеры дисбаланса и шума в табличных датасетах (Shi) — Иллюстрируем дефицит редких финансовых событий на А-share рынке (Che) |
|
3. Основные технологии генерации в 2025 |
1. Shi et al. 2. Trudslev et al. 3. Hoppe et al. 4. Che et al. |
— Классификация GAN, VAE, Diffusion, LLM (Shi) — Блок про DP-GAN и метрики приватности (Trudslev) — Разбор SCM для реляционных БД (Hoppe) — Блок про агентные модели и тайм-серии (Che) |
|
4. Метрики качества и приватности |
2. Trudslev et al. 1. Shi et al. |
— Подробная секция по ZCAP, AIR, PrivEval (Trudslev) — Расширяем списком utility-метрик из большого опроса (Shi) |
|
5. Практические кейсы и индустриальные сценарии |
3. Hoppe et al. 4. Che et al. |
— Демонстрация реляционной синтетики для e-commerce / HR-систем (Hoppe) — Финансовая симуляция, улучшение SNR в рыночных рядах (Che) |
|
6. Риски и ограничения |
2. Trudslev et al. 1. Shi et al. |
— Анализ атак и пробелов дифф. приватности (Trudslev) — Обсуждение mode-collapse и оценка доверия к диффузионным выводам (Shi) |
|
7. Горизонты развития синтетики |
1. Shi et al. 3. Hoppe et al. 4. Che et al. |
— Прогноз перехода к мультимодальным генераторам (Shi) — Расширение SCM на графовые БД и бизнес-процессы (Hoppe) — Слияние агентных симуляций с LLM-праймингом для финансов (Che) |
Автор: AyratGil
Источник [17]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17543
URLs in this post:
[1] науке: http://www.braintools.ru/article/7634
[2] ошибки: http://www.braintools.ru/article/4192
[3] вкус: http://www.braintools.ru/article/6291
[4] обучения: http://www.braintools.ru/article/5125
[5] зрения: http://www.braintools.ru/article/6238
[6] логику: http://www.braintools.ru/article/7640
[7] Shi et al., 2025: https://arxiv.org/pdf/2504.16506
[8] Grytel.ai: http://Grytel.ai
[9] Averroes AI, 2025: https://averroes.ai/blog/synthetic-data-generation-tools
[10] подкреплением: http://www.braintools.ru/article/5528
[11] K2view, 2025: https://www.k2view.com/blog/best-synthetic-data-generation-tools
[12] Gretel.ai: http://Gretel.ai
[13] Xing et al., 2025: https://arxiv.org/pdf/2507.11324
[14] боль: http://www.braintools.ru/article/9901
[15] https://arxiv.org/pdf/2507.03528: https://arxiv.org/pdf/2507.03528
[16] https://arxiv.org/pdf/2501.00063: https://arxiv.org/pdf/2501.00063
[17] Источник: https://habr.com/ru/articles/930132/?utm_campaign=930132&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.