- BrainTools - https://www.braintools.ru -

Генерация синтетических данных для LLM. Часть 4: теоремы

Генерация синтетических данных для LLM. Часть 4: теоремы - 1

Добрый день, уважаемые хабражители! Как и прежде меня зовут Владимир Миронов, и я занимаюсь тестированием и оценкой синтетических данных ;) Добрались, наконец-то, до четвёртой части в этом цикле статей из (прошлые статьи можно увидеть тут [1], тут [2] и тут [3]). В этот раз разберём важный момент, связанный с анализом полученных матриц смежностей по нашим графам и представлением их свойств с позиции оптимизации и унификации. В общем, поговорим про алгоритмы, обсудим чисто технические моменты и подходы к унификации данных. 

Всё идёт к тому, что интерпретируемое машинное обучение [4] набирает всё больше оборотов, и необходима не только его визуализация, но и новые доказательные выкладки, и понимание границ формирования данных. Сформулирую несколько вопросов: 

  • скорейшее обнаружение структур заданного порядка («синтетических» данных); 

  • выявление первых признаков их появления на временном ряде и рассмотрение их конфигураций. 

Более того, интересны будут и другие важные аспекты «жизни синтетики в дикой природе»: 

  • Надо ли «просматривать» всю матрицу смежности по графу [5], или можно ограничится отдельными её областями? И сколько будет таких элементов применительно к данному типу задач?

  • Каков алгоритм представления указанных областей, каковы их свойства (мы частично уже выяснили эти моменты в прошлой статье [3]), есть ли у них характерная геометрия, возможно ли её описать топологически или алгебраически?

  • Есть ли связь между найденными «синтетическими» элементами разных формаций?

  • Какую долю данных нам надо рассмотреть, чтобы промаркировать данные как «синтетику»?

  • Есть ли среди них «независимые [6]» множества, которые никак не связаны с «массовыми» данными?

Это основные вопросы, которые хотелось бы осветить, или хотя бы понять, в какую сторону двигаться.

Анализ работ

Работа, на самом деле, более чем интересная и носит междисциплинарyый характер. Признаться честно, я люблю такое: взять данные из одной области и «подойти» к ним с инструментами из другой. Можно получить весьма интригующие результаты. 

Напомню нашу задачу: максимально быстрое выявление макроструктуры сети, состоящей из нескольких плотно связанных компонентов («синтетических» данных) в уже построенном графе. 

Почему возникают такие моменты и для чего нужно их выявлять? Сегодня есть множество инструментов для генерации «синтетики» (nlp-synt-data [7], synthetic-data-generator [8], awesome-synthetic-data [9], SynthEval [10], ydata-synthetic [11], sdg4idrr [12]) и её обнаружения (LOKI [13] (описание [14], и ещё тут [15] и тут [16] пара любопытных исследований)). Проблема в том, что степень и качество генерации постоянно повышается и агентные системы уже ведут себя практически автономно [17], поэтому требуется разработка новых методов для их анализа и оценки. 

Отчасти мы это уже делали в прошлой работе, но хотелось бы копнуть в сторону оптимизации задачи и представления более фундаментальных оснований. Для этого надо было понять, как «прикрутить» уже известные решения к поиску «синтетических» данных в матрицах смежности. И вуаля — нашлось решение: представление скопления «синтетических» данных как структуры сообществ. 

Более того, я нашёл подобную работу: «Finding community structure using the ordered random graph model [18]» (Masaki Ochi, Tatsuro Kawamoto). Авторы предлагают новый алгоритм для упорядочивания матриц смежности, основанный на методе максимального правдоподобия [19]. При этом предлагается использовать модели случайного графа с упорядоченными вершинами (Ordered Random Graph Model [20], OGRM). Алгоритм основан на максимизации вероятности матрицы смежности, учитывая её разделение на две области: внутреннюю (шардированная область около диагонали матрицы [21]) и внешнюю. 

Вероятность соединения между вершинами зависит от расстояния между ними относительно области. При применении метода максимума правдоподобия предлагается обновлять последовательность вершин таким образом, чтобы вершины внутри одной группы располагались близко друг к другу, формируя видимые блоки на визуализации матрицы смежности. Алгоритм позволяет выявить структуру сообществ гораздо точнее существующих классических методов упорядочивания матриц. Метод применили к синтетическим сетям и реальным данным. Результаты показывают эффективность предлагаемого подхода даже в сложных случаях смешанных структур.

При этом рассматривались еще дополнительные модели, которые также можно применить в работе:

  • Exponential random graph models [22]: позволяют учитывать дополнительные зависимости между связями и характеристиками узлов, включая триангуляции, транзитивность и другие свойства реальной социальной динамики. Они обеспечивают гибкость в построении реалистичных сетевых топологий, учитывающих сложные взаимосвязи.

  • Stochastic block models [23]: предполагают разделение узлов на группы (сообщества), внутри которых вероятность соединения отличается от межгрупповых соединений.

  • Small-world networks [24]: переход от регулярных решётчатых структур к полностью случайным сетям посредством редкой вероятности перенаправления ребра.

  • Preferential attachment models [25]: основаны на принципе, согласно которому новые узлы чаще всего подключаются к существующим вершинам с многочисленными связями.

  • Factorial Stochastic Block Models [26]: позволяют выделять более сложную внутреннюю структуру, объединяя преимущества блочных моделей и факторизации матриц. Могут учитывать иерархию сообществ или скрытую организацию узлов.

  • Network growth and evolution models [27]: пытаются смоделировать динамику развития сети, начиная с небольшого ядра и постепенно наращивая сеть новыми узлами и связями.

Решение

Не так давно анонсировали интерактивную теорема-доказывающая систему, разработанную Microsoft Research — Lean 4. Она является последней версией системы, выпущенной в 2023 году. Основное её предназначение — формализации математики [28] и разработки программного обеспечения с высокой степенью надёжности. При этом есть уже достаточно много примеров использования Lean 4 для LLM с применением синтетических данных (раз [29], два [30], три [31], четыре [32]). При этом удалось сформировать несколько теорем следующего порядка и основные идеи по ним. Они могут быть как доказаны, так и опровергнуты (я над этим пока думаю).

Теорема 1: о существовании регулярных паттернов в синтезированных данных

Формулировка: если сетевые эмбеддинги получены методом, основанным на стохастическом блочном моделировании (Stochastic Block Model, SBM [33]), то при наличии существенных различий в связях между разными блоками графа существует непустое множество узлов, обладающих устойчивыми регулярными связями, выражающими признаки синтетических данных.

Предположение: рассмотрим графовую структуру эмбеддинга, полученную методом SBM. Поскольку SBM предполагает разделение узлов на блоки с разными плотностями внутренних и внешних связей, то в таком графе неизбежно появляются узлы, соединяющие преимущественно внутри своего блока («community») и редко вне его. Такие узлы образуют регулярные паттерны, присущие синтетическим данным.

Описание: рассмотрим граф G=(V,E), где V — множество узлов, E — множество рёбер. Предположим, что узлы разбиты на блоки V1,V2,…,Vk, причём плотность связей внутри блока заметно выше, чем между блоками. Обозначим плотность связей внутри блока pin и между блоками pbetween​. Тогда пусть выполняется следующее неравенство: pin​>pbetween.

Тогда существует множество узлов S⊆V, такое, что любой узел u∈S имеет гораздо больше соседей внутри своего блока, чем снаружи:

∣N(u)∩Vi​∣/∣N(u)∣​≥α, u∈Vi​, i=1..k

где:

  • N(u) — множество соседей узла u;

  • α>0,5 — постоянная, характеризующая степень устойчивости связей.

Теорема 2: о минимальной длине пути между синтетическими узлами

Формулировка: если узел принадлежит группе синтетических данных, то расстояние (количество переходов по рёбрам) между ним и другим узлом той же группы ограничено сверху некоторой константой d{max}, зависящей от типа и масштаба данных.

Предположение: графовые эмбеддинги часто демонстрируют свойство малого мира (small-world property [34]), означающее существование коротких путей между большинством пар узлов. Для синтетических данных этот эффект усиливается благодаря высокой внутренней когерентности узлов одного блока. Следовательно, максимальная длина пути d{max}​ для любого пары узлов из одной группы оказывается ограниченной и значительно меньше общего диаметра графа.

Описание: пусть G=(V,E) — граф, состоящий из k отдельных блоков, причём каждое соединение между узлами внутри блока подчиняется правилу предпочтения по связям (preferential attachment). Рассмотрим два узла u,v∈Vj, принадлежащих одному блоку j. Расстояние между ними D(u,v) определяется количеством рёбер вдоль кратчайшего пути между ними. Так как внутренняя структура блоков обусловлена сильным внутренним притяжением, справедливо утверждение:

∃ C > 0 : D(u,v)  ≤ C log∣V∣,

где C — некоторая положительная константа, зависящая от размера графа и типа его организации. Она отражает small-world effect в структуре графа, который сильнее выражен в синтетических данных.

Теорема 3: о спектральных признаках синтетических данных

Формулировка: спектральные показатели (собственные значения матрицы Лапласа) для синтетических данных показывают статистически значимое отличие от аналогичных показателей реальных данных.


Предположение:
собственные значения матрицы Лапласа зависят от структуры графа и отражают внутренние свойства соединений между узлами. В синтетических данных различия в связях внутри блоков приводят к изменению спектра собственных значений. Таким образом, сравнение спектров двух типов данных позволяет выявить присутствие синтетических фрагментов.

Описание: рассмотрим спектр матрицы Лапласа L(G)=D−A, где A — матрица смежности графа, D — диагональная матрица степеней вершин. Построим гистограмму собственных значений λi(L). В синтетических данных ожидается резкое увеличение концентрации собственных значений вблизи нуля, поскольку структура блока подразумевает большое количество низкоранговых узлов. Точнее, справедливы соотношения:

λ1​ ≈ 0, ∣λ2​−λn​∣≫∣λ1​−λ2​∣

причём предполагается, что собственные значения будут сгруппированы около центра интервала [0,2], тогда как в природных данных спектр выглядит более равномерно распределённым.

Теорема 4: о существовании маркерных последовательностей

Формулировка: существуют уникальные последовательности символов или токенов, встречающиеся исключительно в синтетических наборах данных, что позволяет построить высокоэффективный классификатор.  

Предположение: алгоритмы генерации синтетических данных используют определённые правила формирования текста, создающие шаблонные конструкции. Выявление таких конструкций позволяет создать классификационные модели, способные эффективно отделять синтетические данные от натуральных.

Описание: допустим, есть генератор синтетических данных, работающий по правилам условной вероятности токенов. Математически такую последовательность можно выразить через вероятность перехода p(wi∣wi−1,…,wi−n), где wi​ — токен на позиции i, а wi−j​ — предыдущие токены контекста длиной n. Допустим, существует некоторое слово-триггер T, встречающееся исключительно в синтетических данных. Вероятность встретить его удовлетворяет следующему критерию:

Pr(Tвстречается)={ε(для реальных данных) и α≫ε ​(для синтетических)}​

где ε≪α — две постоянные, определяемые типом генератора. Выделяя маркеры подобного вида, можно создавать классификаторы, способствующие эффективному разделению синтетических и реальных данных.

Автор: Sber

Источник [35]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19016

URLs in this post:

[1] тут: https://habr.com/ru/companies/sberbank/articles/901222/

[2] тут: https://habr.com/ru/companies/sberbank/articles/909934/

[3] тут: https://habr.com/ru/companies/sberbank/articles/941220/

[4] интерпретируемое машинное обучение: https://arxiv.org/pdf/2305.00537

[5] матрицу смежности по графу: https://arxiv.org/pdf/2206.06082

[6] независимые: https://www.mathnet.ru/links/758e1aae71691883af87ea4ea5d6593c/dm1357.pdf

[7] nlp-synt-data: https://github.com/tommasoromano/nlp-synt-data/?tab=readme-ov-file#nlp-synt-data----

[8] synthetic-data-generator: https://github.com/argilla-io/synthetic-data-generator

[9] awesome-synthetic-data: https://github.com/statice/awesome-synthetic-data

[10] SynthEval: https://github.com/schneiderkamplab/syntheval

[11] ydata-synthetic: https://github.com/ydataai/ydata-synthetic

[12] sdg4idrr: https://github.com/ku-nlp/sdg4idrr

[13] LOKI: https://github.com/opendatalab/LOKI

[14] описание: https://arxiv.org/abs/2410.09732

[15] тут: https://arxiv.org/pdf/2503.24062

[16] тут: https://arxiv.org/pdf/2503.01937

[17] автономно: https://t.me/DenoiseLAB/2742

[18] Finding community structure using the ordered random graph model: https://arxiv.org/pdf/2210.08989

[19] методе максимального правдоподобия: https://arxiv.org/pdf/2311.15961

[20] Ordered Random Graph Model: https://arxiv.org/abs/2301.07809

[21] шардированная область около диагонали матрицы: https://arxiv.org/html/2406.03276v1

[22] Exponential random graph models: https://arxiv.org/abs/2205.13411

[23] Stochastic block models: https://arxiv.org/abs/1703.10146

[24] Small-world networks: https://arxiv.org/abs/cond-mat/9904419

[25] Preferential attachment models: https://arxiv.org/abs/2411.14111

[26] Factorial Stochastic Block Models: https://arxiv.org/abs/1803.02726

[27] Network growth and evolution models: https://arxiv.org/abs/1105.0902

[28] математики: http://www.braintools.ru/article/7620

[29] раз: https://arxiv.org/html/2406.03847v1

[30] два: https://arxiv.org/abs/2405.14333

[31] три: https://arxiv.org/abs/2304.00994

[32] четыре: https://arxiv.org/abs/2410.16429

[33] Stochastic Block Model, SBM: https://arxiv.org/pdf/1703.10146

[34] small-world property: http://arxiv.org/html/2403.13215v1

[35] Источник: https://habr.com/ru/companies/sberbank/articles/943168/?utm_campaign=943168&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100