Как действительно понять нейронные сети и KAN на интуитивном уровне. artificial intelligence.. artificial intelligence. kan.. artificial intelligence. kan. kolmogorov-arnold networks.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning. mlp.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning. mlp. rbf.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning. mlp. rbf. нейросети.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning. mlp. rbf. нейросети. перцептрон.. artificial intelligence. kan. kolmogorov-arnold networks. machine leraning. mlp. rbf. нейросети. перцептрон. теорема колмогорова арнольда.

Вот вы читаете очередную статью про KAN и ловите себя на мысли, что ничего не понимаете.

Знакомая ситуация?

Не переживайте, вы не одни. И дело тут не в вас, суть в том, что множество материалов описывают концепции по отдельности, не объединяя их в единую картину.

И чтобы решить эту проблему раз и навсегда, а также окончательно понять KAN, нам необходимо переосмыслив всё с нуля и постепенно двигаясь от базовых принципов линейной алгебры через нейронные сети. Завершив, обобщая всё с помощью множеств. В процессе мы также рассмотрим некоторые довольно уникальные и новые идеи!

Статья будет следовать данной структуре:

  1. Основные термины и концепции

  2. Объяснение многослойного персептрона (MLP)

  3. Объяснение RBF нейронной сети (RBFN) и SVM, связь с MLP

  4. Объяснение архитектуры KAN: Kolmogorov-Arnold Networks

1. Основные термины и концепции

Прежде чем переходить к нейронным сетям, важно разобраться в ключевых концепциях линейной алгебры, в этом помогут видео с канала 3Blue1Brown Русский.

1.1 Вкратце о некоторых дополнительных концепциях

Векторные пространства и подпространства

Векторное (линейное) пространство – это множество, где можно складывать векторы и умножать их на числа, следуя определённым правилам. Например, множество всех векторов на плоскости, как векторов на графике, является векторным пространством.

Векторное (линейное) подпространство (или подмножество пространства) – это часть векторного пространства, которая сама является векторным пространством. Примером может служить линия в плоскости, проходящая через начало координат, или плоскость в трёхмерном пространстве, проходящая через начало координат.

Аффинные пространства и подпространства

По словам французского математика Марселя Берже, «Аффинное пространство это не более чем векторное пространство, о начале координат которого мы пытаемся забыть, добавляя переносы (смещения) к линейным трансформациям».

T(v)=mathbf{A}cdot mathbf{v} + mathbf{b} \ где    mathbf{A}cdot mathbf{v}   –  это   линейное   преобразование

Лебеговы пространства

Сейчас я приведу довольно упрощённое объяснение данных пространств.
Но главное – иметь хотя бы некоторое представление, так как они будут упоминаться в статье.

Ранее рассматривались конечномерные вещественные векторные пространства mathbb{R}^n,где для двух векторовmathbf{x} иmathbf{y} метрика Минковского задаётся следующим образом:

|mathbf{x} - mathbf{y}|_p=left( sum_{i=1}^n |x_i - y_i|^p right)^{frac{1}{p}}

В частных случаях  p=1и  p=2 эта метрика соответствует манхэттенскому и евклидову расстояниям. Но нас интересует именно 1 leq p < infty.

Норма вектора mathbf{x} определяется как расстояние Минковского до начала координат:

|mathbf{x}|_p=left( sum_{i=1}^n |x_i|^p right)^{frac{1}{p}}

При этом любой вектор с конечным числом элементов можно рассматривать как дискретную функцию, возвращающую соответствующие элементы по индексу. Это понятие можно расширить на бесконечное множество элементов, задав норму функции на множестве S:

   |f|_p=left( int_S |f(x)|^p , dx right)^{1/p}

Кстати, думаю, очевидно, что в дискретном случае шаг по  dx равен 1.

В контексте L^p– пространств, если ограничить меру стандартной мерой Лебега (например, длина, площадь, объём) на mathbb{R}^n,то функция f(x) принадлежит L^p, если норма функции сходится к конечному числу:

   |f|_p=left( int_S |f(x)|^p , dx right)^{1/p}< infty

К тому же в общем случае должен использоваться интеграл Лебега, но для упрощения можно ограничиться наиболее распространённым определением интеграла в виде интеграла Римана, хотя это и накладывает дополнительные ограничения на множество функций.

Кроме того, можно определить расстояние между функциями:

|f - g|_p=left( int_S |f(x) - g(x)|^p , dx right)^{1/p}

И так же скалярное произведение, но только при p=2,то есть в Гильбертовом пространстве:

langle f, g rangle=int_S f(x) overline{g(x)} , dx

Компактные множества

По сути, это множество, которое является замкнутым и ограниченным.

Ограничённое множество – это множество, для которого существует конечное числоM, такое что расстояние между любой парой точек этого множества не превышает M.

Замкнутое множество – это множество, содержащее все свои предельные точки (границы).

Например, множество (0, 1)^nограничено, но не замкнуто, так как не включает границы, а значит не компактно. А вот множество [0, 1]^nуже компактно, так как включает границы.


2. Объяснение многослойного персептрона (MLP)

Многослойный персептрон (MLP) – является разновидностью сетей прямого распространения, состоящих из полностью связанных нейронов с нелинейной функцией активации, организованных как минимум в три слоя (где первый – входной). Он примечателен своей способностью различать данные, которые не являются линейно разделимыми.

Но прежде чем перейти к объяснению на примере, желательно разобраться с некоторыми теоретическими деталями, а именно с теоремами универсальной аппроксимации. Они являются семейством теорем, описывающих различные условия и подходы, при которых нейронные сети способны аппроксимировать широкий класс функций. Часто при упоминании для удобства их сводят к одной «теореме универсальной аппроксимации», ссылаясь, например, на теорему Цыбенко. Но такое упрощение сбивает с толку, так как не учитывает все детали и различные подходы. В данной статье я хочу уделить этим теоремам больше внимания.

Если говорить о них более подробно, то теоремы универсальной аппроксимации являются по своей сути теоремами существования и предельными теоремами. Они утверждают, что существует такая последовательность преобразований Phi_1, Phi_2,  dots , и что при достаточном количестве нейронов мы можем аппроксимировать любую функцию f из определённого множества функций с заданной точностью в пределах epsilon.

Однако эти теоремы не предоставляют способа фактически найти такую последовательность. Кроме того, они не гарантируют, что какой‑либо метод оптимизации, например, обратное распространение, сможет найти эту последовательность. Обратное распространение и другие методы могут либо найти сходящуюся последовательность, либо застрять в локальном минимуме. Также теоремы не дают гарантии, что нейронная сеть любого конечного размера, например, состоящая из 1000 нейронов, будет достаточной для аппроксимации функции с желаемой точностью.

Теперь рассмотрим некоторые из них:

Теорема Цыбенко (1989)

Цыбенко доказал, что нейронные сети с одним скрытым слоем и произвольным числом нейронов, использующие в качестве функции активации сигмоиду:

sigma(x)=frac{1}{1 + e^{-x}}

Могут аппроксимировать любые непрерывные функции на компактном множестве K. То есть функции f in C(K).

Есть также пример ограниченной ширины и глубины:

Майоров и Пинкус (1999)

Майоров и Пинкус доказали, что нейронные сети с двумя скрытыми слоями и ограниченным числом нейронов в каждом слое могут быть универсальными аппроксиматорами в пространстве непрерывных функций на компактном множестве, если используются сигмоидные функции активации.

Во многих статьях под упоминанием теоремы универсальной аппроксимации, хотя и говорится в основном о теореме Цыбенко, часто рассматривается семейство нейронных сетей, определённых теоремами Хорника и Лешно:

Теорема Хорника 1989 и Теорема Хорника 1991

Курт Хорник и его коллеги расширили результаты Цыбенко и показали, что MLP с произвольным числом скрытых слоев и произвольным числом нейронов в каждом слое могут аппроксимировать любую непрерывную функцию с любой точностью на компактном множестве, рассматривая так же расширение на пространстваL^pдля любого p in [1, infty).Они также доказали, что это свойство не зависит от конкретных функции активации, если она является непрерывной, ограниченной, неконстантой и неполиномиальной.

Расширение Лешно и соавторов (1992):

Лешно и соавторы расширили результаты Хорника, ослабив требования к функции активации, позволяя ей быть кусочно-непрерывной и лишь локально ограниченной, а также не является полиномом почти всюду, что позволяет включить частоиспользуемые функции активации, такие как ReLU, Mish, Swish (SiLU), GELU и другие.

2.1 Иллюстрация на примере

Перейдём теперь к более практическому объяснению. Рассмотрим популярный датасет make_circles, который представляет собой векторы в двумерном пространстве. В этом пространстве каждый вектор данных можно задать линейно, по крайней мере, с помощью двух базисных векторов.

Как действительно понять нейронные сети и KAN на интуитивном уровне - 34

Логистическая регрессия в классическом варианте, моделирующая логарифмические шансы события (отношение выполнения события к его невыполнению) как линейную комбинацию признаков:

 lnleft(frac{p}{1 - p}right)=mathbf{w} cdot mathbf{x} + mathbf{b} frac{p}{1 - p}=e^{mathbf{w} cdot mathbf{x} + mathbf{b}}.p=sigma(mathbf{w} cdot mathbf{x} + mathbf{b})=frac{1}{1 + e^{-(mathbf{w} cdot mathbf{x} + mathbf{b})}}.

По сути, является нейросетью с одним входным слоем, нулём скрытых слоёв и одним выходным слоем (также можно рассматривать и линейную регрессию, и прочие модели). Если для кого-то ноль скрытых слоёв кажется контринтуитивным, то это можно рассматривать как применение единичной матрицы к входному вектору, собственно, что и делает входной вектор.

mathbf{I}cdot mathbf{x}=begin{bmatrix} 1 & 0 \ 0 & 1 \ end{bmatrix}  begin{bmatrix} x_1 \ x_2 \ end{bmatrix}=begin{bmatrix} x_1 \ x_2 \ end{bmatrix}

Поскольку логистическая регрессия осуществляет линейное разделение данных в исходном пространстве, а наш набор данных make_circles является нелинейно разделимым в нем, необходимо преобразовать данные так, чтобы модель могла эффективно их разделить. Для этого добавим к нашей логистической регрессии один скрытый слой с тремя нейронами и линейной функцией активацииf_{text{activation}}(x)=x. Посмотрим, как изменятся данные перед их подачей в логистическую регрессию:

Входные  данные:  \[10pt] mathbf{x}=begin{bmatrix} x_1\  x_2 end{bmatrix} \  text{Веса скрытого слоя:}  \[10pt] mathbf{W}=begin{bmatrix} w_{1,1} & w_{1,2} \ w_{2,1} & w_{2,2} \ w_{3,1} & w_{3,2} end{bmatrix} Смещение:  \[10pt] mathbf{b}=begin{bmatrix} b_1 \ b_2 \ b_3 end{bmatrix} \ Тогда  выход  скрытого  слоя: \[10pt]    T(mathbf{x})=f_text{activation}(mathbf{W} cdot mathbf{x} + mathbf{b})  \[5pt]   где   f_text{activation}(x)=x Что  эквивалентно: \[10pt] T(mathbf{mathbf{x}})=x_1 cdot begin{bmatrix} w_{1,1} \ w_{2,1} \ w_{3,1} end{bmatrix} + x_2 cdot begin{bmatrix} w_{1,2} \ w_{2,2} \ w_{3,2} end{bmatrix} + begin{bmatrix} b_1 \ b_2 \ b_3 end{bmatrix}

И также посмотрим на график:

Как действительно понять нейронные сети и KAN на интуитивном уровне - 45

После прохождения через скрытый слой с тремя нейронами, данные сохраняют свою двумерную структуру. Хотя теперь данные выражаются в виде трех координат, их эффективное пространство по-прежнему остается двумерным. Каждый вектор можно задать линейно, как минимум, с помощью двух трехмерных базисных векторов hat{i}и hat{j}. Это означает, что данные находятся в двумерном аффинном подпространстве трехмерного пространства, образуя плоскость. Таким образом, мы фактически применили аффинное преобразование к исходным данным, и наш классификатор линейно разделяющий данные все еще не может их разделить.

Теперь добавим сигмоидную нелинейную функцию активации вместо линейной к результатам преобразования и посмотрим на полученный результата. То есть:

Тогда  выход  скрытого  слоя: \[5pt] T(mathbf{x})=sigma(mathbf{W} cdot mathbf{x} + mathbf{b}) \[5pt]  где   sigma(x)=frac{1}{1 + e^{-x}}

Как действительно понять нейронные сети и KAN на интуитивном уровне - 49

Бинго! Мы получили данные, которые стали нелинейными по отношению к исходному пространству признаков. Как видно из иллюстрации, они по-прежнему не являются линейно разделимыми. В данной ситуации на помощь приходит обучение нейросети, например, с использованием метода обратного распространения. Этот процесс регулирует матрицу преобразования и смещения, фактически перемещая и поворачивая базисные вектора. Таким образом, после тренировки нейросети и преобразования данных можно ожидать, что классификатор в виде логистической регрессии сможет построить разделяющую плоскость и линейно разделить данные.

Как действительно понять нейронные сети и KAN на интуитивном уровне - 50

Подытожим наш пример:

Изначально мы работаем с набором векторов, расположенных в двумерном векторном пространстве.
Применяя аффинное преобразование, мы переводим их в двумерное аффинное подпространство трехмерного пространства. Затем, используя нелинейную функцию активации, мы преобразуем данные нелинейно относительно входного пространства.
Далее, в процессе обучения с использованием метода обратного распространения ошибки, мы настраиваем базисные вектора двумерного подпространства таким образом, чтобы после применения функции активации данные становились линейно разделимыми на выходе скрытого слоя. Это делает их пригодными для классификации с помощью логистической регрессии на выходном слое.

Пример выше геометрически демонстрирует, почему линейные функции активации не подходят для работы с нелинейно разделимыми данными. Хотя в нашем примере мы использовали линейную функцию активации f_{text{activation}}(x)=x.ситуация при общем случае f_{text{activation}}(x)=w cdot x + b останется аналогичной. Линейные функции активации не способны “изгибать” пространство входных данных при преобразовании, что необходимо для разделения нелинейных классов. Именно поэтому для работы с такими данными требуется использование нелинейных функций активации, которые позволяют моделям нейросетей эффективно преобразовывать пространство признаков, обеспечивая возможность линейного разделения в преобразованном пространстве.

Стоит отметить, что после применения нелинейной функции активации данные не всегда преобразуются в пространство, размерность которого совпадает с количеством нейронов (или размерностью каждого базисного вектора). В данном примере, после применения сигмоидной функции активации данные образуют трёхмерное подпространство в трёхмерном пространстве, то есть фактически становятся трёхмерными, но это является частным случаем.

При этом нам не обязательно увеличивать размерность базисных векторов на скрытом слое, хоть это и дает больше возможностей модели. Мы можем оставить их количество неизменным с последующим нелинейным преобразованием или даже уменьшить размерность, также используя нелинейные функции. Концепция преобразования пространства остаётся применимой и актуальной даже в случае, если нейросеть имеет несколько скрытых слоёв, то есть является глубокой, или для других архитектур нейронных сетей.

Рассмотрим подробнее выходной слой для нашего примера. Ранее я описывал его как логистическую регрессию для бинарной классификации. Но что такое логистическая регрессия, если не аффинное преобразование с последующим применением функции активации, которой, как правило, является сигмоида. Сам слой выглядит следующим образом:

sigmaleft(mathbf{w}^topmathbf{x} +bright)=frac{1}{1 + expleft(-left(mathbf{w}^topmathbf{x} + {b}right)right)} \[30pt]   mathbf{w}^topmathbf{x} +{b}=begin{bmatrix} w_{1} & w_{2} & dots & w_{n}  end{bmatrix} begin{bmatrix} x_{i_1} \ x_{i_2} \ vdots \ x_{i_n} \ end{bmatrix} + b

Итак, сначала мы выполняем скалярное произведение двух векторов. Это операция, по сути, преобразуетN– мерный вектор в одномерное пространство. Важно отметить, что скалярное произведение – симметричная операция, то есть результат не зависит от порядка векторов: f(mathbf{x}, mathbf{y})=f(mathbf{y}, mathbf{x}). Таким образом, не имеет значения, какой из векторов рассматривать как матрицу преобразования, а какой как преобразующий вектор. Однако в контексте нашей задачи матрицей преобразования, логичнее, если будут являться веса. После скалярного произведения мы добавляем смешение производя аффинное преобразованиеN-мерного вектора в одномерное аффинное подпространство.

После этого применяем преобразование с помощью сигмоидной функции активации, которая, по сути, изменяет это одномерное подпространство. В итоге, математически имеем тот же скрытый слой, только в контексте нашей цели, того как преобразует этот слой наши данные, а так же вместе с функцией потерь, мы его интерпритируем для удобства как выходной слой.

2.2 Аффинное преобразование и применение функции активации как функции преобразования и суперпозиции суммы функций

Суперпозиция функций, известная так же как сложная функция или «функция функции», имеет вид f(g(x)),в случае суперпозиции суммы функций будет иметь вид f(g_1(x)+g_2(x)+...g_n(x)).

И в целом это довольно очевидно по идее, что аффинное преобразование и применение функции активации схожи, так как обе функции и выполняют преобразование данных с одного пространства в другое и единственная разница как. Но сейчас мы их представим в виде суперпозиции суммы функций и применения функциональных матриц к векторам, что позволит более явно увидеть сходство и пригодится как основной момент в пункте с KAN.

Рассмотрим на примере который мы выше использовали.

Аффинное преобразование:

При аффинном преобразовании элементы результатирующего вектора будут иметь следующий вид :

F_{text{affine transform}}(mathbf{Х})=begin{bmatrix} w_{1,1} x_{1} + w_{1,2} x_{2} + b_{1} \ w_{2,1} x_{1} + w_{2,2} x_{2} + b_{2} \ w_{3,1} x_{1} + w_{3,2} x_{2} + b_{3} end{bmatrix}

При этом данное аффинное преобразованиеF_{text{affine transform}}можно подать как сумму функций одной переменной, только функции будут вида phi_{j,i}(x)=w_{j,i}x_i +b_{j,i}(смещение для одной строки можно распределить как угодно по функциям внутри неё), и преобразованный вектор будет выглядеть следующим обаразом:

F_{text{affine transform}}(mathbf{x})=begin{bmatrix}  phi_{1,1}(x_1) + phi_{1,2}(x_2)  \  phi_{2,1}(x_1) + phi_{2,2}(x_2)  \  phi_{3,1}(x_1) + phi_{3,2}(x_2)   end{bmatrix}=begin{bmatrix}  X_{text{AffineT}, 1} \  X_{text{AffineT}, 2} \  X_{text{AffineT}, 3}  end{bmatrix}

Функция активации:

Преобразование с помощью функции активации будут иметь следующий вид:

F_{text{activation}}(F_{text{affine transform}}(mathbf{x}))=begin{bmatrix}  sigma(X_{text{AffineT}, 1}) \  sigma(X_{text{AffineT}, 2}) \  sigma(X_{text{AffineT}, 3})  end{bmatrix}

Но при этом это эквивалентно ситуации, где функции на главной диагонали являются функцией активации phi_{j=i}(x)=sigma(x),а остальные phi_{j neq i}(x)=0 cdot X_{AffineT  i}.

F_{text{activation}}left(F_{text{affine transform}}(mathbf{x})right)=begin{bmatrix}  phi_{1,1}(X_{text{AffineT}, 1}) + phi_{1,2}(X_{text{AffineT}, 2}) + phi_{1,3}(X_{text{AffineT}, 3}) \  phi_{2,1}(X_{text{AffineT}, 1}) + phi_{2,2}(X_{text{AffineT}, 2}) + phi_{2,3}(X_{text{AffineT}, 3}) \  phi_{3,1}(X_{text{AffineT}, 1}) + phi_{3,2}(X_{text{AffineT}, 2}) + phi_{3,3}(X_{text{AffineT}, 3})  end{bmatrix}F_{text{activation}}(F_{text{affine transform} }(mathbf{x}))=begin{bmatrix}  sigma(X_{text{AffineT}  1}) + 0 cdot X_{text{AffineT}  2} + 0 cdot X_{text{AffineT}  3} \  0 cdot X_{text{AffineT}  1} + sigma(X_{text{AffineT}  2}) + 0 cdot X_{text{AffineT}  3} \  0 cdot X_{text{AffineT}  1}) + 0 cdot X_{text{AffineT}  2} + sigma(X_{text{AffineT}  3})  end{bmatrix}

В общем виде каждое аффинное преобразование и применение функции активации можно рассмотреть подобным образом (если мы уже применили функциональную матрицу к вектору):

mathbf{x}_{l+1}=sum_{i_l=1}^{n_l}  phi_{l,i_{l+1},i_l}(x_{i_l}) \[20pt]=left[ begin{array}{cccc}     phi_{l,1,1}(x_{1}) & + & phi_{l,1,2}(x_{2}) & + cdots + & phi_{l,1,n_l}(x_{n_l}) \     phi_{l,2,1}(x_{1}) & + & phi_{l,2,2}(x_{2}) & + cdots + & phi_{l,2,n_l}(x_{n_l}) \     vdots &  & vdots & ddots & vdots \     phi_{l,n_{l+1},1}(x_{1}) & + & phi_{l,n_{l+1},2}(x_{2}) & + cdots + & phi_{l,n_{l+1},n_l}(x_{n_l}) \     end{array} right], \[10pt] quad \[10pt] где \[10pt]  phi_{l,i_{l+1},i_l}(x_{i_l})=w_{l,i_{l+1},i_l }cdot f_{text{activation, }l}(x_{i_l})+ b_{l,i_{l+1}, i_l}\[10pt] l - text{индекс слоя}

А так как мы рассматриваем phi_{l, l+1, i}(x_l)как функции одной переменной, то можно объединить предыдущую активацию и следующее аффинное преобразование в одно преобразование подобного вида (как в формуле выше) и интерпретировать его как слой.
Потому что, в любом случае, итоговая функция будет функцией одной переменной из-за того, что функция активации применяется только по диагонали (т. е.j=i), а значит:

phi_{text{linear}, j, i} (f_{text{activation}}(x_i))=phi_{j, i} (x_i).

По сути, определяя каждую функцию какphi_{j, i} (x_i)=w_{j, i} cdot f_{text{activation}}(x_i) + b_{j, i} .

Хотя это всё и может показаться сперва контринтуитивным, так как мы в основном воспринимаем предыдущее аффинное преобразование и последующую активацию как один из слоёв, но это просто вопрос интерпретации.


3. Объяснение RBF нейронной сети (RBFN) и SVM, связь с MLP

В этом пункте я хочу показать, в чем же причина не использовать полиномиальные функции активации, связать SVM и MLP, пройти от линейного ядра к полиномиальному и Гауссовому, а также рассмотреть RBF нейронную сеть как альтернативу MLP, что будет важно в пункте с KAN. Бонусом также мы расширим RBF нейронные сети на многослойный случай и докажем для них теорему универсальной аппроксимации.

3.1 SVM как вид нейронной сети прямого распространения

В предыдущем пункте мы рассматривали частный случай сети прямого распространения в виде MLP, а теперь рассмотрим аналоги MLP в виде некоторых вариантов SVM и RBF нейронных сетей. Их любят разделять, но почему бы не рассмотреть их в контексте сходства.

SVM, как и MLP в классическом виде, строит гиперплоскость для разделения классов в задачах классификации. Единственное отличие заключается в том, что SVM при построении гиперплоскости необходимо максимизировать расстояние между самой гиперплоскостью и границами классов. Для этого применяется процесс квадратичной оптимизации.

Теперь рассмотрим математический аспект. При предсказении классов мы имеем в SVM такую формулу:

f(mathbf{x})_{text{SVM}}=sum_{i=1}^{n} alpha_i y_i K(mathbf{x}_i, mathbf{x}) + b, \где K - функция  ядра,   mathbf{x}_i -  text{тренировочные вектора} , mathbf{x} - входной вектор, \[10pt]a_i - множители Лагранжа

При тренировке решается, как уже говорилось, задача квадратичной оптимизации, но нас интересует то, что для этого нужно вычислить матрицу Грама, используя ядро попарно между нашими тренировочными данными –K(mathbf{x}_i, mathbf{x}_i).

Теперь, по поводу самой функции ядра, теоретически обоснованным является использование функций, которые попадают под определение теоремы Мерсера (Mercer’s theorem), то есть являются симметричными K(mathbf{x}, mathbf{x}')=K(mathbf{x}', mathbf{x}), положительно полуопределенными (матрица Грама имеет неотрицательные собственные значения). Это позволяет им выполнять так называемый ядерный трюк (kernel trick).

Часто используемыми подобными ядрами являются:

  • Линейное ядро:

    K_{text{Linear}}(mathbf{x}, mathbf{y})=mathbf{x}^top cdotmathbf{y}, quad mathbf{x}, mathbf{y} in mathbb{R}^d.

  • Полиномиальное ядро:

    K_{text{Poly }n}(mathbf{x}, mathbf{y})=(mathbf{x}^top cdot mathbf{y} + r)^n, quad mathbf{x}, mathbf{y} in mathbb{R}^d ,quad  r geq 0, quad n geq 1.

  • Гауссово (RBF) ядро:

    K_{text{Gaussian}}(mathbf{x}, mathbf{y})=expleft(-frac{|mathbf{x} - mathbf{y}|^2}{lambda}right), quad mathbf{x}, mathbf{y} in mathbb{R}^d, quad lambda > 0.

Ядерный трюк (kernel trick) — способ вычисления скалярного произведения в пространстве, сформированном функцией неявного преобразования. И выглядит это следующим образом:

K(mathbf{x}, mathbf{x}')=varphi(mathbf{x})^top cdot varphi(mathbf{x}').

Функция неявного преобразования varphi принимает на вход наше множество данных и отображает его в новое пространство.

В данном пункте мы рассмотрим именно использование линейного ядра, где varphi_{text{linear}}(mathbf{x})=mathbf{x}.

K_{text{Linear}}(mathbf{x}, mathbf{x}')=varphi_{text{linear}}(mathbf{x})^top cdot varphi_{text{linear}}(mathbf{x}')=mathbf{x}^top cdot mathbf{x'}

Линейное ядро также попадает под определение теоремы Мерсера и способно выполнять ядерный трюк. Оно просто преобразует исходное пространство в себя и производит скалярное произведение.

Предлагаю рассмотреть SVM как нейросеть с тремя слоями, где входным слоем будет наша функция varphi_{text{linear}}(mathbf{x}).Скрытым слоем будет просто линейное преобразование. В этом слое матрица весов будет построена с использованием предварительно преобразованных тренировочных векторов, используя функцию varphi_{text{linear}}(mathbf{x}).Выходным слоем будет аффинное преобразование, где веса состоят из множителей Лагранжа и значений целевой функции для каждого тренировочного вектора.

При этом данный вариант мы не можем рассматривать как вариант MLP из-за того, что функция активации, то есть ядро Kявляется линейным. По сути, данная модель производит линейное и последующее аффинное преобразование и является полностью линейной.

Рассмотрим набор из n тренировочных векторов:

mathbf{x}_{text{train}, 1},, mathbf{x}_{text{train}, 2},, dots,, mathbf{x}_{text{train}, n}где каждый вектор mathbf{x}_{text{train}, j} in mathbb{R}^d, quad j=1,,2,,dots,,n.

Также рассмотрим набор из тестовых векторов:

mathbf{x}_{text{test}, 1},, mathbf{x}_{text{test}, 2},, dots,, mathbf{x}_{text{test}, m}где каждый вектор mathbf{x}_{text{test}, q} in mathbb{R}^d, quad q=1,,2,,dots,,m.

Формулу нашей модели можно тогда подать как:

f(mathbf{x})_text{Linear SVM}=mathbf{W}_2(mathbf{W}_1 cdot varphi_text{linear}(mathbf{x}))+b_text{out}

Для наглядности можно записать матрицы в развернутом виде:

 mathbf{W}_1=begin{bmatrix} varphi(x_{text{train},1}) \ varphi(x_{text{train},2}) \ vdots \ varphi(x_{text{train},n}) end{bmatrix} \[50pt]=begin{bmatrix}   varphi(x_{text{train},1,1}) & varphi(x_{text{train},1,2}) & dots & varphi(x_{text{train},1,d}) \   varphi(x_{text{train},2,1}) & varphi(x_{text{train},2,2}) & dots & varphi(x_{text{train},2,d}) \   vdots & vdots & ddots & vdots \   varphi(x_{text{train},n,1}) & varphi(x_{text{train},n,2}) & dots & varphi(x_{text{train},n,d})   end{bmatrix} \[50pt]=begin{bmatrix}   x_{text{train},1,1} & x_{text{train},1,2} & dots & x_{text{train},1,d} \   x_{text{train},2,1} & x_{text{train},2,2} & dots & x_{text{train},2,d} \   vdots & vdots & ddots & vdots \   x_{text{train},n,1} & x_{text{train},n,2} & dots & x_{text{train},n,d}   end{bmatrix} mathbf{W}_2=begin{bmatrix} a_1 y_1 \ a_2 y_2 \ vdots \ a_n y_n end{bmatrix}\[15pt]

Можно также переписать и саму формулу модели:

f_text{Linear SVM}(mathbf{x})=mathbf{W}_2 left( begin{bmatrix}  x_{text{train}, 1, 1} & x_{text{train}, 1, 2} & dots & x_{text{train}, 1, d} \  x_{text{train}, 2, 1} & x_{text{train}, 2, 2} & dots & x_{text{train}, 2, d} \  vdots & vdots & ddots & vdots \  x_{text{train}, n, 1} & x_{text{train}, n, 2} & dots & x_{text{train}, n, d}  end{bmatrix}  begin{bmatrix}  x_{1} \  x_{2} \  vdots \  x_{d}  end{bmatrix}  right) + b_text{out}\[15pt]

В обучении модели, конечно же, из-за использования квадратичной оптимизации, как было обсуждено в начале этого пункта, мы сначала строим матрицу Грама из тренировочных векторов.

Матрица  Грама \[10pt] mathbf{G}=mathbf{W}_1 cdot varphi(mathbf{x})\[20pt] mathbf{x}_{text{input}}=begin{bmatrix}  x_{text{train},1} \  x_{text{train},2} \  vdots \  x_{text{train},n}  end{bmatrix}\[45pt]mathbf{G}=begin{bmatrix} x_{text{train},1}^top x_{text{train},1} & x_{text{train},1}^top x_{text{train},2} & dots & x_{text{train},1}^top x_{text{train},n} \ x_{text{train},2}^top x_{text{train},1} & x_{text{train},2}^top x_{text{train},2} & dots & x_{text{train},2}^top x_{text{train},n} \ vdots & vdots & ddots & vdots \ x_{text{train},n}^top x_{text{train},1} & x_{text{train},n}^top x_{text{train},2} & dots & x_{text{train},n}^top x_{text{train},n} end{bmatrix}\[15pt]

После этого обучаем множители Лагранжа в матрице mathbf{W}_2, и можем тестировать модель.

f_{text{Linear SVM}}(x_{text{test}, j})=\[10pt]=mathbf{W}_2 left( begin{bmatrix}   x_{text{train}, 1, 1} & x_{text{train}, 1, 2} & dots & x_{text{train}, 1, d} \   x_{text{train}, 2, 1} & x_{text{train}, 2, 2} & dots & x_{text{train}, 2, d} \   vdots & vdots & ddots & vdots \   x_{text{train}, n, 1} & x_{text{train}, n, 2} & dots & x_{text{train}, n, d}   end{bmatrix}   begin{bmatrix}   x_{text{test}, j, 1} \   x_{text{test}, j, 2} \   vdots \   x_{text{test}, j, d}   end{bmatrix}  right) + b_text{out}\[15pt]

Все то, что мы рассмотрели выше, можно подать в виде схемы:

 text{Входные данные} quad mathbf{x} quad xrightarrow{varphi} quad varphi(mathbf{x}) quad xrightarrow{cdot mathbf{w}} quad varphi(mathbf{x}) cdot mathbf{w} quad xrightarrow{text{выход модели}} quad hat{y} quad (1) \[10pt] где  mathbf{w}=varphi(mathbf{x}_i),   mathbf{x}_i -  text{тренировочные вектора}\[15pt]

В реальности, конечно, будет использоваться ядро для уменьшения вычислительных затрат, и все будет выглядеть следующим образом:

text{Входные данные} quad mathbf{x} quad xrightarrow{K(mathbf{x}, mathbf{x}_i)} quad K(mathbf{x}, mathbf{x}_i) quad xrightarrow{text{выход модели}} quad hat{y} quad (2) \[10pt]  где  mathbf{x}_i -  text{тренировочные вектора}\[15pt]

Что соответствует формуле, которую мы рассматривали в самом начале этого пункта:

f(mathbf{x})_{text{SVM}}=sum_{i=1}^{n} alpha_i y_i K(mathbf{x}_i, mathbf{x}) + b, \где K - функция  ядра,   mathbf{x}_i -  text{тренировочные вектора} , mathbf{x} - входной вектор, \[10pt]a_i - множители Лагранжа

Ну, или в случае с линейным ядром, мы имеем формулу:

f(mathbf{x})_{text{Linear SVM}}=sum_{i=1}^{n} alpha_i y_i (mathbf{x}_icdot mathbf{x}) + b

Несмотря на то, что структура модели для первой схемы и для второй одинакова, это является лишь частным случаем при линейном ядре, что будет видно в следующих примерах с другими ядрами.

3.1.1 Полиномиальное ядро

Возьмем вторую схему:

text{Входные данные} quad mathbf{x} quad xrightarrow{K(mathbf{x}, mathbf{x}_i)} quad K(mathbf{x}, mathbf{x}_i) quad xrightarrow{text{выход модели}} quad hat{y} quad (2) \[10pt]  где \mathbf{x}_i -  text{тренировочные вектора}

Теперь рассмотрим использование полиномиального ядра, в общем виде оно задано как:

K_{text{Poly }n}(mathbf{x},mathbf{y})=(mathbf{x}^top mathbf{y} + r)^n,     mathbf{x}, mathbf{y} in mathbb{R}^d, quad r geq 0, quad n geq 1

Гдеn– показатель степени полиномиального ядра.

Упростим для примера сделав  n=2 и r=0:

K_{text{Poly }2}(mathbf{x},mathbf{y})=(mathbf{x}^top cdot mathbf{y})^2

Представим теперь, как трехслойный MLP, используя вторую схему, тогда формула будет выглядеть так:

f(mathbf{x})_{text{Poly SVM}}=sum_{i=1}^{n} alpha_i y_i K_{text{poly }2}(mathbf{x}_i, mathbf{x}) + b=sum_{i=1}^{n} alpha_i y_i (mathbf{x}_icdot mathbf{x})^2 + b

Фактически, мы просто заменяем функцию активации в предыдущем примере с линейным ядромf_{text{activation}}(x)=xна квадратичнуюf_{text{activation}}(x)=x ^2на скрытом слое. Таким образом, в скрытом слое будет выполняться аффинное преобразование с последующей квадратичной функцией активации.

Однако, как я упоминал в предыдущем пункте про MLP, не все нелинейные функции активации изменяют размерность преобразованных данных, равную размерности базисных векторов. В общем случае для двумерных векторов при использовании квадратичной функции активации они будут образовывать максимум трёхмерное подпространство в произвольномN– мерном пространстве.

И вот тут первая схема нам и пригодится:

 text{Входные данные} quad mathbf{x} quad xrightarrow{varphi} quad varphi(mathbf{x}) quad xrightarrow{cdot mathbf{w}} quad varphi(mathbf{x}) cdot mathbf{w} quad xrightarrow{text{выход модели}} quad hat{y} quad (1) \[10pt] где  mathbf{w}=varphi(mathbf{x}_i),   mathbf{x}_i -  text{тренировочные вектора}

Поэтому сейчас мы разберёмся с функцией varphi_{text{poly }n},чтобы понять, почему Хорник и Лешно утверждали, что нейронные сети с именно неполиномиальными функциями активации обладают свойством универсальной аппроксимации, а также почему использование полиномиальных функций активации в нейронных сетях не является популярным решением.

Для двумерных данных с полиномиальным ядром второй степени по определению функция varphi_{text{poly }2}выглядит подобным образом:

varphi_{text{poly }2}(mathbf{x} )=begin{bmatrix}x_1^2 \x_2^2\  sqrt{2}x_1x_2end{bmatrix}

Вот доказательство:

varphi_{text{poly }2}(mathbf{x}_n)^{top} varphi_{text{poly }2}(mathbf{x}_m)=begin{bmatrix} x_{n,1}^2 & x_{n,2}^2 & sqrt{2} x_{n,1} x_{n,2} end{bmatrix} cdot begin{bmatrix} x_{m,1}^2 \ x_{m,2}^2 \ sqrt{2} x_{m,1} x_{m,2} end{bmatrix}\=x_{n,1}^2 x_{m,1}^2 + x_{n,2}^2 x_{m,2}^2 + 2 x_{n,1} x_{n,2} x_{m,1} x_{m,2}=(x_n cdot x_m)^2

И иллюстрация этого преобразования:

Как действительно понять нейронные сети и KAN на интуитивном уровне - 117

То есть, как мы можем увидеть, применение полиномиального ядра второй степени к двумерным данным всегда отображает их нелинейно в трёхмерное пространство и после этого производит скалярное произведение.

Для трёхмерных векторов с полиномиальным ядром второй степени:

varphi_{text{poly }2}(mathbf{x})=begin{bmatrix} x_{1}^2 \ x_{2}^2 \ x_{3}^2 \ sqrt{2} x_{1} x_{2} \ sqrt{2} x_{1} x_{3} \ sqrt{2} x_{2} x_{3} end{bmatrix}

Для двумерных векторов с полиномиальным ядром третьей степени:

varphi_{text{poly }3}(mathbf{x})=begin{bmatrix} x_{1}^3 \ x_{2}^3 \ sqrt{3} x_{1}^2 x_{2} \ sqrt{3} x_{1} x_{2}^2 \ sqrt{3} x_{1}^2 \ sqrt{3} x_{2}^2 \ sqrt{6} x_{1} x_{2} end{bmatrix}

Доказательство и анализ для общего случая.

Полиномиальное ядро степениn in mathbb{N}_0(неотрицательные целые числа) с параметром сдвига r=0 определяется как:

K_{text{Poly }n}(mathbf{x}, mathbf{y})=(mathbf{x}^top mathbf{y})^n, quadmathbf{x}, mathbf{y} in mathbb{R}^d, quad n in mathbb{N}_0,  quad n geq 1

Необходимо доказать, что существует такая функция varphi_{text{poly }n}: mathbb{R}^d rightarrow mathbb{R}^M ,что:

K_{text{Poly }n}(mathbf{x}, mathbf{y})=varphi_{text{poly }n}(mathbf{x})^top varphi_{text{poly }n}(mathbf{y})

и при этом размерностьMпревышает размерность dдля d geq 2 и n geq 2.

Для этого мы воспозуемся мультиномиальной теоремой, которая обобщает биномиальную и триномиальную теоремы на случай произвольного количества слагаемых. Она гласит, что для любых вещественных чиселx_1, x_2, dots, x_dи натурального числа n:

(x_1 + x_2 + dots + x_d)^n=sum_{k_1 + k_2 + dots + k_d=n} frac{n!}{k_1! k_2! dots k_d!} x_1^{k_1} x_2^{k_2} dots x_d^{k_d}

где k_1, k_2, dots, k_d in mathbb{N}_0, и сумма  k_1 + k_2 + dots + k_d=n.

Подставляя это разложение обратно в выражение для ядра, получаем:

K_{text{Poly }n}(mathbf{x}, mathbf{y})=sum_{k_1 + k_2 + dots + k_d=n} frac{n!}{k_1! , k_2! , dots , k_d!} prod_{i=1}^d (x_i y_i)^{k_i}

Исходя из данного преобразования мы можем выразить varphi_{text{poly }n}(mathbf{x}) как:

varphi_{text{poly }n}(mathbf{x})=left[ varphi_{text{poly }j}(mathbf{x}) right]_{j=1}^M, quad M to infty

Где каждая компонента varphi_{text{poly }j}(mathbf{x})соответствует уникальному набору мультииндексов mathbf{k}^{(j)} in mathbb{N}_0^Mи определяется как:

varphi_{text{poly } j}(mathbf{x})=frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} dots x_d^{k_d^{(j)}}}{sqrt{k_1^{(j)}! , k_2^{(j)}! , dots , k_d^{(j)}!}}

Теперь проанализируем что происходит с M при различных d и n.

  • Если d geq 2 и n geq 2:

    M=binom{n + d - 1}{d - 1}=frac{(n + d - 1)!}{n! , (d - 1)!} >d

    При фиксированной размерности d и увеличении степени n, M растёт полиномиально относительно n.

    При фиксированной степени n и увеличении размерности d, M растёт экспоненциально относительно d.

  • Для n=1:

    M=d

    Полиномиальное ядро первой степени эквивалентно линейному ядру K_{text{Linear}} и функция varphi_{text{poly }n} преобразует данные в исходное пространство признаков.

  • Для d=1:

    M=1

    Функция varphi_{text{poly }n} отображает входные данные в одномерное пространство признаков. При n=1 эквивалент varphi_{text{linear }}. При ngeq2 производит нелинейное преобразование в другое одномерное пространство.

То есть, если мы возьмём формулу SVM для первой схемы:

f(mathbf{x})_text{Poly SVM}=mathbf{W}_2(mathbf{W}_1 cdot varphi_{text{poly }n}(mathbf{x}) + mathbf{b}_text{in})+b_text{out}

Матрица mathbf{W}_1, которая состоит из набора тренировочных векторов, предварительно преобразованных с помощью функции varphi_{text{poly }n}(x), будет иметь размерN times M, гдеN– количество тренировочных векторов, аM– количество элементов преобразованного тренировочного вектора с помощью функции varphi_{text{poly }n}(x),

Если взять с varphi_{text{poly }2}(x), ядром для двумерных входных векторов, матрица будетN times 3,для varphi_{text{poly }3}(x) N times 7дляvarphi_{text{poly }2}(x) но для трёхмерных входных – N times 6.

Ситуация с MLP и полиномиальной функцией активации аналогична, просто вместо тренировочных векторов мы используем заранее определённые веса.

Это и есть причина, почему Хорник и Лешно в своих работах указывали, что для универсальной аппроксимации функция активации нейронной сети не должна быть полиномиальной, так как это ограничивает возможности модели в увеличении размерности признаков после линейного или аффинного преобразования.

Непопулярность полиномиальных функций активации на практике объясняется двумя взаимосвязанными причинами. Во-первых, такие функции ограничивают размерность преобразованного пространства как мы уже обсудили. Во-вторых, при использовании метода обратного распространения ошибки для оптимизации возникает численная нестабильность при расчете градиентов по параметрам. С увеличением степени полинома, хотя размерность пространства растет и предоставляет модели больше возможностей, высокие степени могут вызывать нестабильность в вычислении градиентов. Таким образом, решая любую одну из проблем, мы всегда сталкиваемся с другой.

3.1.2 Гауссово ядро

Но перед тем как начать обсуждение этого пункта, необходимо ввести определение радиальной базисной функции в контексте данной статьи.

Радиальная базисная функция (RBF) будет являться вещественнозначной функцией, которая принимает вектор и вычисляет эвклидово расстояние до другого фиксированного вектора, который часто называют центром. То естьf(mathbf{x})=|mathbf{x} - mathbf{c}|.

В общем виде ее, конечно, можно расширить на различные виды норм для векторных пространств, а также на функциональные и другие виды.

Теперь перейдём к рассмотрению RBF (в данном случае гауссового) ядра и его вычислению скалярного произведения в бесконечномерном пространстве.

Доказательство того, что Гауссово ядро вычисляет скалярное произведение в бесконечномерном пространстве, и нахождение функции неявного преобразования.

Исходное выражение Гауссового ядра при lambda=2:

K_{text{Gaussian}}(mathbf{x}, mathbf{y})=expleft( -frac{1}{2}||mathbf{x} - mathbf{y}||^2 right)

При этом эвклидово расстояние между mathbf{x} и mathbf{y} можно разложить как:

||mathbf{x} - mathbf{y}||^2=||mathbf{x}||^2 + ||mathbf{y}||^2 - 2 mathbf{x}^top cdot mathbf{y}K_{text{Gaussian}}(mathbf{x}, mathbf{y})=expleft( -frac{||mathbf{x}||^2 + ||mathbf{y}||^2 - 2 mathbf{x}^top cdot mathbf{y}}{2} right)K_{text{Gaussian}}(mathbf{x}, mathbf{y})=expleft( -frac{||mathbf{x}||^2}{2} right) cdot expleft( -frac{||mathbf{y}||^2}{2} right) cdot expleft( mathbf{x}^top cdot mathbf{y} right)

Ряд Тейлора для экспоненты выглядит следующим образом:

exp(mathbf{x})=sum_{n=0}^infty frac{mathbf{x}^n}{n!}

Подставляя z=mathbf{x} cdot mathbf{y}, получаем:

exp(mathbf{x}^top cdot mathbf{y})=sum_{n=0}^infty frac{(mathbf{x}^top cdot mathbf{y})^n}{n!}

Вспомним определение мултиномиальной теоремы для любых вещественных чисел x_1, x_2, dots, x_d и натурального числа n:

(x_1 + x_2 + dots + x_d)^n=sum_{k_1 + k_2 + dots + k_d=n} frac{n!}{k_1! k_2! dots k_d!} x_1^{k_1} x_2^{k_2} dots x_d^{k_d}

где  k_1, k_2, dots, k_d in mathbb{N}_0, и сумма  k_1 + k_2 + dots + k_d=n.

В нашем случае:

(mathbf{x} cdot mathbf{y})^n=left( sum_{i=1}^d x_i y_i right)^n

Применяя мультиномиальную теорему, получаем:

(mathbf{x} cdot mathbf{y})^n=sum_{k_1 + k_2 + dots + k_d=n} frac{n!}{k_1! k_2! dots k_d!} prod_{i=1}^d (x_i y_i)^{k_i}

Подставляя разложение экспоненты и результат применения мультиномиальной теоремы в выражение для K_{text{Gaussian}}(mathbf{x}, mathbf{y}), получаем:

K_{text{Gaussian}}(mathbf{x}, mathbf{y})=Ccdot sum_{n=0}^{infty} frac{1}{n!} left( sum_{k_1 + k_2 + dots + k_d=n} frac{n!}{k_1! k_2! dots k_d!} prod_{i=1}^d (x_i y_i)^{k_i} right)\[20pt]где \[10pt]C=expleft( -frac{||mathbf{x}||^2}{2} right) cdot expleft( -frac{||mathbf{y}||^2}{2} right)

Упрощая, получаем:

K_{text{Gaussian}}(mathbf{x}, mathbf{y})=C cdotsum_{k_1, k_2, dots, k_d=0}^{infty} frac{(x_1 y_1)^{k_1} (x_2 y_2)^{k_2} dots (x_d y_d)^{k_d}}{k_1! k_2! dots k_d!}

Мы знаем, что:

K_{text{Gaussian}}(mathbf{x}, mathbf{y})=varphi_{text{gaussian}}(mathbf{x})^top varphi_{text{gaussian}}(mathbf{y})

Исходя из преобразований выше мы можем определить varphi_{text{Gaussian}}(mathbf{x})как:

varphi_{text{Gaussian}}(mathbf{x})=expleft( -frac{1}{2} ||mathbf{x}||^2 right) cdot left[ varphi_{text{gaussian }j}(mathbf{x}) right]_{j=1}^M,  quad M to infty

Где каждая компонентаvarphi_{text{Gaussian }j}(mathbf{x})соответствует уникальному набору мультииндексов mathbf{k}^{(j)} in mathbb{N}_0^Mи определяется как:

varphi_{text{gaussian }j}(mathbf{x})=frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} dots x_d^{k_d^{(j)}}}{sqrt{k_1^{(j)}! , k_2^{(j)}! , dots , k_d^{(j)}!}}

Таким образом, исходя из того, что функция varphi_{text{gaussian}}(mathbf{x}) возвращает вектор с бесконечным количество компонент, а значит что любой входной вектор фиксированной размерности будет отображаться в бесконечномерное пространство признаков. Из этого следует, что используя гауссово ядро K_{text{Gaussian}}(mathbf{x}, mathbf{y}) , и выполняя ядерный трюк, мы фактически вычисляем скалярное произведение нелинейно преобразованных входных векторов в это бесконечномерное пространство.

Возьмем Гауссово ядро:

K_{text{Gaussian}}(mathbf{x}, mathbf{y})=expleft( -frac{||mathbf{x} - mathbf{y}||^2}{lambda} right)

Возьмем также знакомую нам первую схему и рассмотрим её для Гауссового ядра:

 text{Входные данные} quad mathbf{x} quad xrightarrow{varphi} quad varphi(mathbf{x}) quad xrightarrow{cdot mathbf{w}} quad varphi(mathbf{x}) cdot mathbf{w} quad xrightarrow{text{выход модели}} quad hat{y} quad (1) \[10pt] где  mathbf{w}=varphi(mathbf{x}_i),   mathbf{x}_i -  text{тренировочные вектора}

Функция varphi_text{gaussian}(x) при lambda=2определяется как:

varphi_{text{gaussian}}(mathbf{x})=expleft( -frac{1}{2} ||mathbf{x}||^2 right) cdot left[ varphi_{text{gaussian }j}(mathbf{x}) right]_{j=1}^infty

Где каждая компонентаvarphi_{text{gaussian }j}(mathbf{x})соответствует уникальному мультииндексу mathbf{k}^{(j)} in mathbb{N}^text{M}_0 и определяется как:

varphi_{text{gaussian }j}(mathbf{x})=frac{x_1^{k_1^{(j)}} x_2^{k_2^{(j)}} dots x_d^{k_d^{(j)}}}{sqrt{k_1^{(j)}! , k_2^{(j)}! , dots , k_d^{(j)}!}}

Пример для двух двумерных векторов mathbf{x}^top=begin{bmatrix}x_1, x_2end{bmatrix},  mathbf{y}^top=begin{bmatrix}y_1, y_2end{bmatrix} иM=2.

 j

mathbf{k}^{(j)}=[k_1^{(j)}, k_2^{(j)}]

varphi_{text{Gaussian }j}(mathbf{x})

1

(0, 0)

frac{x_1^0 x_2^0}{sqrt{0! , 0!}}=1

2

(1, 0)

frac{x_1^1 x_2^0}{sqrt{1! , 0!}}=x_1

3

(0, 1)

frac{x_1^0 x_2^1}{sqrt{0! , 1!}}=x_2

4

(2, 0)

frac{x_1^2 x_2^0}{sqrt{2! , 0!}}=frac{x_1^2}{sqrt{2}}

5

(1, 1)

frac{x_1^1 x_2^1}{sqrt{1! , 1!}}=x_1 x_2

6

(0, 2)

frac{x_1^0 x_2^2}{sqrt{0! , 2!}}=frac{x_2^2}{sqrt{2}}

Собирая всё вместе,varphi_text{gaussian}(mathbf{x})можно записать как:

varphi_text{gaussian}(mathbf{x})=expleft( -frac{1}{2} (x_1^2 + x_2^2) right ) left[ 1, x_1, x_2, frac{x_1^2}{sqrt{2}}, x_1 x_2, frac{x_2^2}{sqrt{2}} right]

Аналогично для varphi_text{gaussian}(mathbf{y}):

varphi_text{gaussian}(mathbf{y})=expleft( -frac{1}{2} (y_1^2 + y_2^2) right ) left[ 1, y_1, y_2, frac{y_1^2}{sqrt{2}}, y_1 y_2, frac{y_2^2}{sqrt{2}} right]

Теперь вычислим скалярное произведение между varphi_text{gaussian}(mathbf{x}) и varphi_text{gaussian}(mathbf{y}):

K_text{Gaussian}(mathbf{x}, mathbf{y})=varphi_text{gaussian}(mathbf{x})^top cdot varphi_text{gaussian}(mathbf{y}) \=expleft(-frac{1}{2} (|mathbf{x}|^2 + |mathbf{y}|^2)right) cdot left(1 + x_1 y_1 + x_2 y_2 + frac{x_1^2 y_1^2}{2} + x_1 x_2 y_1 y_2 + frac{x_2^2 y_2^2}{2} right) \=expleft(-frac{1}{2} (|mathbf{x}|^2 + |mathbf{y}|^2)right) cdot left(1 + mathbf{x}^top mathbf{y} + frac{(mathbf{x}^top mathbf{y})^2}{2!}right) \=expleft(-frac{1}{2} (|mathbf{x}|^2 + |mathbf{y}|^2)right) cdot sum_{r=0}^{2} frac{ (mathbf{x}^top mathbf{y})^r }{r!} \ approx expleft(-frac{1}{2} (|mathbf{x}|^2 + |mathbf{y}|^2)right) cdot exp(mathbf{x}^top mathbf{y})

Теперь рассмотрим на примере SVM, что происходит с тренировочными и входными векторами, и что мы получим на выходе перед подачей в линейный классификатор. Для большей наглядности и уменьшения количества индексов я буду использовать в качестве тренировочных векторов двумерные векторы:mathbf{a}, mathbf{b}, mathbf{c}, mathbf{d} в качестве тестового вектора – mathbf{x}_text{test}.

Векторmathbf{a}задан подобным образом:

mathbf{a}=begin{bmatrix} a_{1} \ a_{2} end{bmatrix}varphi_text{Gaussian}(mathbf{a})=expleft(-frac{1}{2}(a_1^2 + a_2^2)right) cdot left[1, , a_1, , a_2, , frac{a_1^2}{sqrt{2}}, , a_1 a_2, , frac{a_2^2}{sqrt{2}}, , dots right]  \=C_text{a} cdot left[1, , a_1, , a_2, , frac{a_1^2}{sqrt{2}}, , a_1 a_2, , frac{a_2^2}{sqrt{2}}, , dots right]

для mathbf{b}, mathbf{c}, mathbf{d} и  mathbf{x}_text{test}все аналогично.

Теперь построим матрицу преобразования, используя тренировочные векторы:

mathbf{W}_1=begin{bmatrix}  C_{text{a}} & C_{text{a}} a_{text{1}} & C_{text{a}} a_{text{2}} & C_{text{a}} frac{a_{text{1}} a_{text{2}}}{sqrt{1}} & C_{text{a}} frac{a_{text{1}}^2}{sqrt{2}} & C_{text{a}} frac{a_{text{2}}^2}{sqrt{2}} & cdots \  C_{text{b}} & C_{text{b}} b_{text{1}} & C_{text{b}} b_{text{2}} & C_{text{b}} frac{b_{text{1}} b_{text{2}}}{sqrt{1}} & C_{text{b}} frac{b_{text{1}}^2}{sqrt{2}} & C_{text{b}} frac{b_{text{2}}^2}{sqrt{2}} & cdots \  C_{text{c}} & C_{text{c}} c_{text{1}} & C_{text{c}} c_{text{2}} & C_{text{c}} frac{c_{text{1}} c_{text{2}}}{sqrt{1}} & C_{text{c}} frac{c_{text{1}}^2}{sqrt{2}} & C_{text{c}} frac{c_{text{2}}^2}{sqrt{2}} & cdots \  C_{text{d}} & C_{text{d}} d_{text{1}} & C_{text{d}} d_{text{2}} & C_{text{d}} frac{d_{text{1}} d_{text{2}}}{sqrt{1}} & C_{text{d}} frac{d_{text{1}}^2}{sqrt{2}} & C_{text{d}} frac{d_{text{2}}^2}{sqrt{2}} & cdots \  end{bmatrix}mathbf{W}_1 times varphi_text{gaussian}(mathbf{x}_text{test})=begin{bmatrix} C_x C_a left( 1 + a_1 x_1 + a_2 x_2 + frac{a_1^2 x_1^2}{2} + a_1 a_2 x_1 x_2 + frac{a_2^2 x_2^2}{2} + cdots right) \ C_x C_b left( 1 + b_1 x_1 + b_2 x_2 + frac{b_1^2 x_1^2}{2} + b_1 b_2 x_1 x_2 + frac{b_2^2 x_2^2}{2} + cdots right) \ C_x C_c left( 1 + c_1 x_1 + c_2 x_2 + frac{c_1^2 x_1^2}{2} + c_1 c_2 x_1 x_2 + frac{c_2^2 x_2^2}{2} + cdots right) \ C_x C_d left( 1 + d_1 x_1 + d_2 x_2 + frac{d_1^2 x_1^2}{2} + d_1 d_2 x_1 x_2 + frac{d_2^2 x_2^2}{2} + cdots right) end{bmatrix}

Преобразование с помощью функции varphi_text{gaussian} Гауссового ядра даёт нам нелинейное отображение вектора в бесконечномерное пространство. Это позволяет нам построить матрицу преобразования размеромN times M, где N – количество векторов для обучения в случае SVM, либо количество нейронов в более общем случае, а так же M to infty.Кроме того, итоговый ранг матрицы, как и размерность результатирующего вектора, будут зависеть именно от значения N.Именно в этом заключается главная особенность использования Гауссового ядра в SVM. К примеру, выше мы преобразовали вектор mathbf{x}из двумерного исходного пространства нелинейно в четырёхмерное пространство.

В случае с SVM в примере выше, мы преобразуем тренировочные вектора mathbf{a},mathbf{b}, mathbf{c}, mathbf{d} при помощи varphi_text{gaussian}, затем через матрицу преобразования создаём элементы, которые были созданы с помощью тех же тренировочных векторов и функции varphi_text{gaussian},по сути создавая матрицу Грама. Затем эта матрица будет использоваться в процессе квадратичной оптимизации для обучения множителей Лагранжа в выходном слое. После обучения мы можем тестировать модель на новых векторах, таких как mathbf{x},как мы и сделали выше.

Если мы возьмем вторую схему, где мы рассматриваем напрямую применение ядра:

text{Входные данные} quad mathbf{x} quad xrightarrow{K(mathbf{x}, mathbf{x}_i)} quad K(mathbf{x}, mathbf{x}_i) quad xrightarrow{text{выход модели}} quad hat{y} quad (2) \[10pt]  где  mathbf{x}_i -  text{тренировочные вектора}

Тогда формула SVM будет выглядеть следующим образом:

f(mathbf{x})_{text{SVM RBF}}=sum_{i=1}^{n} alpha_i y_i K_{text{Gaussian}}(mathbf{x}_i, mathbf{x}) + b=sum_{i=1}^{n} alpha_i y_i  expleft( -frac{||mathbf{x} - mathbf{x}_i||^2}{lambda} right) + b

Но в отличие от линейного или полиномиального ядра, мы не можем представить данную нейронную сеть как MLP, поскольку вычисляем квадрат евклидова расстояния, а не скалярное произведение. Мы вернёмся к этому и рассмотрим более подробно в пункте про KAN. При этом SVM с RBF ядром является подмножеством RBF нейронной сети с определённым подходом к её построению и обучению. Поэтому предлагаю перейти к рассмотрению самой RBF нейронной сети.

3.2 RBF нейронная сеть

В предыдущем абзаце я уже говорил, что RBF-нейронная сеть применяет аналогичный подход как f(mathbf{x})_{text{SVM RBF}},но более обобщённо: вместо тренировочных данных мы можем использовать любые случайные веса, поскольку они будут оптимизироваться в процессе обучения. Также нет необходимости фокусироваться на задаче максимизации расстояния между классами, использовании множителей Лагранжа или квадратичной оптимизации.

Таким образом, f(mathbf{x})_{text{SVM RBF}}можно рассматривать как частный случай множества RBF-нейронных сетей. При этом любые RBF нейронные сети являются альтернативой MLP, так как если мы ее представим как композицию суммы функций, то каждая функция является не w cdot x, а ||w-x||.

Одна из пионерских работ в области RBF нейронных сетей была написана Дж. Парком и В. Сандбергом. Там также предоставляется теорема универсальной аппроксимации для ограниченного количества слоев и произвольного количества нейронов.

Она гласит, что если ядро K_text{RBF}является интегрируемым, ограниченным и интеграл на всей области определения не нулевой, тогда:

f_text{Park, Sandberg}(mathbf{x})=sum_{i=1}^{M} w_{i} cdot K_text{RBF}left(frac{mathbf{x} - mathbf{c}_{i}}{lambda_i}right)

является универсальным аппроксиматором в пространствахL^{p}(mathbb{R}^{r})для любого p in [1, infty)и пространтсвах непрерывных функций C(mathbb{R}^r).

По сути, выполняя данное преобразование, данная нейронная сеть способна аппроксимировать широкий ряд функций:

f_text{Park, Sandberg}(mathbf{x})=begin{bmatrix} w_1 & w_2 & dots & w_M end{bmatrix} begin{bmatrix} K_text{RBF}left(frac{mathbf{x} - mathbf{c}_1}{lambda_1}right) \ K_text{RBF}left(frac{mathbf{x} - mathbf{c}_2}{lambda_2}right) \ vdots \ K_text{RBF}left(frac{mathbf{x} - mathbf{c}_M}{lambda_M}right) end{bmatrix}

Где c_{i}– это центры RBF ядра (веса),lambda_i– ширина ядра.

При этом, несмотря на частое использование Гауссового ядра, существуют и другие известные ядра, которые также могут выполнять скалярное произведение в бесконечномерном пространстве, а именно:

  • Inverse Quadratic RBF

    K_{text{IQ}}(mathbf{x}, mathbf{y})=frac{1}{1 + (lambda cdot mathbf{|x} - mathbf{y}|)^2}

  • Inverse Multiquadric RBF

    K_{text{IMQ}}(mathbf{x}, mathbf{y})=frac{1}{sqrt{1 + (lambdacdot | mathbf{x} - mathbf{y} |)^2}}

И сейчас я приведу для каждого доказательство:

Inverse Quadratic RBF
| mathbf{x} - mathbf{y} |^2=| mathbf{x} |^2 + | mathbf{y} |^2 - 2 mathbf{x}^top cdot mathbf{y}K_{text{IQ}}(mathbf{x}, mathbf{y})=frac{1}{1 + lambda^2 (|mathbf{x}|^2 + |mathbf{y}|^2 - 2 mathbf{x}^top cdot mathbf{y})}=frac{1}{a - b (mathbf{x}^top cdot mathbf{y})}

где а и b равны:

a=1 + lambda^2 (|mathbf{x}|^2 + |mathbf{y}|^2), quad b=2lambda^2

Приведение к форме, удобной для разложения:

K_{text{IQ}}(mathbf{x}, mathbf{y})=frac{1}{a - b (mathbf{x}^top cdot mathbf{y})}=frac{1}{a} cdot frac{1}{1 - frac{b}{a} (mathbf{x}^top cdot mathbf{y})}

При условии, что:

left| frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right| < 1

Можем использовать разложение в геометрическую прогрессию:

frac{1}{1 - z}=sum_{j=0}^{infty} z^j

Таким образом, получаем:

K_{text{IQ}}(mathbf{x}, mathbf{y})=frac{1}{a} sum_{j=0}^{infty} left( frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right)^j=frac{1}{a} sum_{j=0}^{infty} left( frac{b}{a} right)^j (mathbf{x}^top cdot mathbf{y})^j

Определяем компоненты функции преобразованияvarphi_{text{IQ}}(x):

varphi_{text{IQ}}(mathbf{x})=left[ varphi_{text{IQ }j}(mathbf{x}) right]_{j=0}^{M}, quad Mtoinfty

{}где:

varphi_{text{IQ }j}(mathbf{x})=sqrt{frac{1}{a}} left( frac{b}{a} right)^{j/2} mathbf{x}^{otimes j}

Здесь:

mathbf{x}^{otimes j} — тензорное произведение вектора mathbf{x} с самим собой j раз.

Вычисление скалярного произведения:

 varphi_{text{IQ}}(mathbf{x})^top cdot varphi_{text{IQ}}(mathbf{y}) \[20pt]=sum_{j=0}^{M} varphi_{text{IQ }j}(mathbf{x})^top cdot varphi_{text{IQ }j}(mathbf{y})=frac{1}{a} sum_{j=0}^{M} left( frac{b}{a} right)^j (mathbf{x}^top cdot mathbf{y})^j=K_{text{IQ}}(mathbf{x}, mathbf{y})\[20pt]M to infty

Inverse Multiquadric RBF
|mathbf{x} - mathbf{y}|^2=|mathbf{x}|^2 + |mathbf{y}|^2 - 2 mathbf{x}^top cdot mathbf{y}

Тогда ядро можно записать как:

K_{text{IMQ}}(mathbf{x}, mathbf{y})=frac{1}{sqrt{1 + lambda^2 (|mathbf{x}|^2 + |mathbf{y}|^2 - 2 mathbf{x}^top cdot mathbf{y})}}

Как и в доказательстве в предыдущем ядре:

a=1 + lambda^2 (|mathbf{x}|^2 + |mathbf{y}|^2), quad b=2 lambda^2

Тогда ядро переписывается как:

K_{text{IMQ}}(mathbf{x}, mathbf{y})=frac{1}{sqrt{a - b (mathbf{x}^top cdot mathbf{y})}}

Для удобства вынесемsqrt{a} за скобку:

K_{text{IMQ}}(mathbf{x}, mathbf{y})=frac{1}{sqrt{a}} left(1 - frac{b}{a} (mathbf{x}^top cdot mathbf{y})right)^{-frac{1}{2}}

Теперь наша цель – разложить выражение в степенной ряд:

left( 1 - frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right)^{-frac{1}{2}}

Биномиальное разложение для(1 - z)^{-j}при|z| < 1и j=0.5:

(1 - z)^{-1/2}=sum_{j=0}^{infty} frac{(2j)!}{(j!)^2 4^j}  z^j

Исходя из разложения, компонентыvarphi_{text{IMQ}}(mathbf{x})можно определить как:

varphi_{text{IMQ}}(mathbf{x})=left[varphi_{text{IMQ }j}right]_{j=0}^M, quad Mtoinfty

где:

varphi_{text{IMQ }j}(mathbf{x})=sqrt{frac{(2j)!}{(j!)^2 4^j}} left( frac{b}{a} right)^{j/2} mathbf{x}^{otimes j}

Здесь:

mathbf{x}^{otimes j} — тензорное произведение вектораmathbf{x}с самим собой j раз.

Скалярное произведение функций неявного преобразования будет:

 varphi_{text{IMQ}}(mathbf{x})^topcdot varphi_{text{IMQ}}(mathbf{y})  \[20pt]=sum_{j=0}^{M} varphi_{text{IMQ }j}(mathbf{x})^top cdot varphi_{text{IMQ }j}(mathbf{y})=sum_{j=0}^{M} left( frac{(2j)!}{(j!)^2 4^j} left( frac{b}{a} right)^j (mathbf{x}^top cdot mathbf{y})^j right)=K_{text{IMQ}},\[20pt]M to infty

Проверка сходимости разложения

Несмотря на то, что видно, что данные ядра вычисляют скалярное произведение в бесконеченомерном пространстве, это происходит при условии, когда вышеперечисленные ряды сходятся, поэтому сейчас проверим условие сходимости.

Условие сходимости геометрической прогрессии для обоих ядер:

|z| < 1left| frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right| < 1

По неравенству Коши-Буняковского:

| mathbf{x}^top cdot mathbf{y} | leq | mathbf{x} | | mathbf{y} |left| frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right| leq frac{b}{a} | mathbf{x} | | mathbf{y} |=frac{2lambda^2 | mathbf{x} | | mathbf{y} |}{1 + lambda^2 (| mathbf{x} |^2 + | mathbf{y} |^2)}

Наша задача — показать, что:

frac{2lambda^2 | mathbf{x} | | mathbf{y} |}{1 + lambda^2 (| mathbf{x} |^2 + | mathbf{y} |^2)}  < 1

Умножим обе части неравенства на знаменатель (так как знаменатель не равен нулю и всегда положителен):

2lambda^2 | mathbf{x} | | mathbf{y} | < 1 + lambda^2 (| mathbf{x} |^2 + | mathbf{y} |^2)lambda^2 ( 2| mathbf{x} | | mathbf{y} | -   | mathbf{x} |^2 -  | mathbf{y} |^2)< 1

Заметим, что:

2| mathbf{x} | | mathbf{y} | -   | mathbf{x} |^2 -  | mathbf{y} |^2=-(| mathbf{x} | -  | mathbf{y} |)^2 leq 0 < 1

Так как неравенство является справедливым:

lambda^2 ( 2| mathbf{x} | | mathbf{y} | -   | mathbf{x} |^2 -  | mathbf{y} |^2)< 1

То выполняется и данное условие:

left| frac{b}{a} (mathbf{x}^top cdot mathbf{y}) right| < 1

3.2.1 Многослойная RBF нейронная сеть

То, что мы рассмотрели RBF-нейронную сеть с одним скрытым слоем, в целом можно экстраполировать на многослойную, где мы рекурсивно применяем набор RBF-ядер.

Для первого слоя:

mathbf{h}^{(1)}=begin{bmatrix}  K_text{RBF}left(frac{mathbf{x} - mathbf{c}_1^{(1)}}{lambda_1^{(1)}}right) \  K_text{RBF}left(frac{mathbf{x} - mathbf{c}_2^{(1)}}{lambda_2^{(1)}}right) \  vdots \  K_text{RBF}left(frac{mathbf{x} - mathbf{c}_{M_1}^{(1)}}{lambda_{M_1}^{(1)}}right)  end{bmatrix}

Для второго слоя:

mathbf{h}^{(2)}=begin{bmatrix}   K_text{RBF}left(frac{mathbf{h}^{(1)} - mathbf{c}_1^{(2)}}{lambda_1^{(2)}}right) \   K_text{RBF}left(frac{mathbf{h}^{(1)} - mathbf{c}_2^{(2)}}{lambda_2^{(2)}}right) \   vdots \   K_text{RBF}left(frac{mathbf{h}^{(1)} - mathbf{c}_{M_2}^{(2)}}{lambda_{M_2}^{(2)}}right)   end{bmatrix}

И так далее, доL-го слоя:

f_text{MRBFN}(mathbf{x})=begin{bmatrix} w_1 & w_2 & dots & w_{M_L} end{bmatrix} cdot mathbf{h}^{(L)}

Здесь:

  • mathbf{c}_i^{(l}– центры RBF-нейронов на l-м слое.

  • lambda^{(l)}_i– ширина ядра на l-м слое.

  • M_l – количество нейронов на l-м слое.

Но увы, многослойные RBF-нейронные сети не получили широкой популярности в сообществе. Исследований на эту тему крайне мало, обсуждений на форумах тоже практически не встретишь. Более того, мне так и не удалось найти формального доказательства того, что многослойная RBF-сеть обладает свойством универсальной аппроксимации. Поэтому я приведу это доказательство сам.

Теорема универсальной аппроксимации многослойной RBF нейронной сети

В данном доказательстве за основу будет использоватся работа Дж. Парка и В. Сандберга – «Universal Approximation Using Radial-Basis-Function Networks»

Теорема 1: ПлотностьS_Kв L^p(mathbb{R}^r) (Park, J.; I. W. Sandberg, 1991)

Пусть K: mathbb{R}^r rightarrow mathbb{R} – интегрируемая, ограниченная функция, непрерывная почти всюду и такая, что:

int_{mathbb{R}^n} K(x) , dx neq 0

Тогда семействоS_K,​состоящее из конечных линейных комбинаций сдвигов функцииK,

S_K=left{ sum_{i=1}^M w_i K(mathbf{x} - mathbf{c}_i) : M in mathbb{N}, w_i in mathbb{R}, mathbf{c}_i in mathbb{R}^r right}

плотно вL^p(mathbb{R}^r)для любогоp in [1, infty).

Tеорема 2: Плотность S_K​ в C(mathbb{R}^r) с метрикой d (Park, J.; I. W. Sandberg, 1991)

ПустьK: mathbb{R}^r rightarrow mathbb{R}– интегрируемая, ограниченная и непрерывная функция, такая, что:

int_{mathbb{R}^r} K(x) , dx neq 0

Тогда семействоS_K,​состоящее из функций вида:

q(x)=sum_{i=1}^M w_i K(x - c_i)

гдеM in mathbb{N},w_i in mathbb{R},иc_i in mathbb{R}^r,плотно вC(mathbb{R}^r)относительно метрики:

d(f, g)=sum_{n=1}^infty 2^{-n} frac{| (f - g) cdot 1_{[-n, n]^r} |_infty}{1 + | (f - g) cdot 1_{[-n, n]^r} |_infty}

Теорема 3: Универсальная аппроксимация многослойными RBF сетями

ПустьK: mathbb{R}^r rightarrow mathbb{R}– интегрируемая, ограниченная и непрерывная функция, такая что:

int_{mathbb{R}^r} K(x) , dx neq 0

иKне является константой. Предположим, что каждый скрытый слой сети имеет параметр сглаживания lambda_l > 0.Тогда семейство многослойных RBF сетей с произвольным числом слоев L geq 2и произвольным числом нейронов в каждом слое M_l плотно в C(mathbb{R}^r) относительно равномерной аппроксимации на компактных множествах.

Доказательство:

Докажем это методом математической индукции по числу слоевL.

Базовый случай (L=2):

При L=2 сеть представляет собой стандартную RBF сеть с одним скрытым слоем.
Согласно теореме 2, семейство S_K плотно в C(mathbb{R}^r).
Следовательно, утверждение верно для L=2.

Индуктивный шаг:

Предположим, что теорема верна для некоторого L=k geq 2,то есть любую функцию f in C(mathbb{R}^r) можно аппроксимировать равномерно на компактных множествах с помощью сети с k слоями.

Теперь докажем, что утверждение верно дляL=k + 1.

Лемма 3.1: Композиция универсальных аппроксиматоров

Если функцию f: mathbb{R}^r rightarrow mathbb{R} можно аппроксимировать с произвольной точностью функциями из семейства A,а функцию h: mathbb{R} rightarrow mathbb{R} можно аппроксимировать с произвольной точностью функциями из семейства B,то композицияh circ fможет быть аппроксимирована композициями функций из B и функций изA.

Доказательство:

Пусть hat{f} in A и hat{h} in B такие, что

| f - hat{f} |_infty < delta, quad | h - hat{h} |_infty < delta| h circ f - hat{h} circ hat{f} |_infty leq | h circ f - h circ hat{f} |_infty + | h circ hat{f} - hat{h} circ hat{f} |_infty

Поскольку h равномерно непрерывна на значениях функции f,существуетL_h > 0такое, что

| h circ f - h circ hat{f} |_infty leq L_h | f - hat{f} |_infty < L_h delta| h circ hat{f} - hat{h} circ hat{f} |_infty=| h - hat{h} |_infty < delta| h circ f - hat{h} circ hat{f} |_infty < (L_h + 1) delta

Выбирая delta достаточно малым, мы можем сделать ошибку аппроксимации произвольно малой.

Лемма 3.2: Композиция в многослойных сетях

Если функция f может быть аппроксимирована с точностью delta сетью сk слоями, и функция идентичности text{id}: mathbb{R} rightarrow mathbb{R} может быть аппроксимирована на компактном множестве с точностью delta дополнительным слоем (с использованием функций изS_K​), то сеть с k + 1 слоями аппроксимирует f с точностью (L_h + 1) delta.

Доказательство:

Пустьf_k– аппроксимация функции f сетью с k слоями, так что| f - f_k |_infty < delta.

Пустьh– функция идентичности, а h' – её аппроксимация дополнительным слоем, так что | h - h' |_infty < delta на значениях функции f_k​.

Тогда h' circ f_k аппроксимируетfс ошибкой (L_h + 1) delta,используя результат из леммы 3.1.

Лемма 3.3: Линейная комбинация универсальных аппроксиматоров

Линейная комбинация функций, каждая из которых может аппроксимировать любую функцию из определенного класса с заданной точностью, также может аппроксимировать любую функцию из этого класса с нужной точностью.

Доказательство:

Пусть f_i​ аппроксимирует f с | f - f_i |_infty < epsilon_i дляi=1, dots, N.

Рассмотрим линейную комбинацию:

F=sum_{i=1}^N w_i f_i

Выбирая коэффициентыc_iсоответствующим образом и минимизируя epsilon_i,можно обеспечить | f - F |_infty < epsilon для любого желаемогоepsilon > 0.

Завершение индуктивного шага:

По индукционному предположению существует f_k такая, что

| f - f_k |_infty < frac{epsilon}{2(L_h + 1)}

Поскольку K удовлетворяет условиям теоремы 2, функцию идентичности можно аппроксимировать на значениях функции f_k с точностью

delta=frac{epsilon}{2(L_h + 1)}

Функция f_{k+1}=h' circ f_k​ аппроксимирует f с точностью

| f - f_{k+1} |_infty leq (L_h + 1) delta=epsilon / 2

Используя лемму 3.3, можно настроить выходной слой (линейная комбинация выходов) для уменьшения ошибки до значения менее epsilon.

Следовательно, сеть с k + 1слоями может аппроксимировать f с точностью epsilon.

По индукции, теорема 3 верна для всех L geq 2.

Следствие 3.1: Универсальная аппроксимация векторнозначных функций

Многослойные RBF сети с любым числом слоев L geq 2 и любым числом выходов m являются универсальными аппроксиматорами для векторнозначных функций f: mathbb{R}^r rightarrow mathbb{R}^m.

Так как каждая компонента f_j векторнозначной функции f может аппроксимироваться независимо многослойной RBF сетью, как показано в теореме 3. Объединяя аппроксимации всех компонент, получаем аппроксимацию функцииf с нужной точностью.

Следствие 3.2: Универсальная аппроксимация в пространствах

Многослойные RBF сети являются универсальными аппроксиматорами в пространстве L^p(mathbb{R}^r) для любого p in [1, infty).

Используя теорему 1 и теорему 3, мы видим, что семейство S_K плотно в L^p(mathbb{R}^r).Следовательно, многослойные RBF сети могут аппроксимировать любую функцию в L^p(mathbb{R}^r)с произвольной точностью.

Основная причина, почему этот подход остался в тени, кроется в том, как RBF-сети традиционно обучали. Обычно процесс выглядел так: данные сначала кластеризовали, центры кластеров брали в качестве параметров для RBF-нейронов, а затем настраивали веса только для линейного выходного слоя. В результате необходимость в многослойной архитектуре просто отпадала, делая её использование нелогичным и неоправданным.

Однако с развитием машинного обучения, когда стали массово применять метод обратного распространения ошибки, многослойные сети набрали большую популярность. Казалось бы, это должно было дать новый импульс и для многослойных RBF-сетей. Но увы, ассоциации с этим методом остались на уровне устаревшего подхода с одним скрытым слоем. Это, мягко говоря, несправедливо, ведь потенциал таких сетей гораздо шире.

В следующем разделе про KAN я более подробно покажу это, сравнив многослойные RBF-сети с другим, но подобным по концепции преобразования, вариантом KAN.

Реализация многослойной RBF нейронной сети на PyTorch.

Так как данная сеть может на практике сталкиватся с проблемой затухающих градиентов, я приведу два варианиа кода: с реализацией SkipConnection и DenseNet.

SkipConection MRBFN

import torch
import torch.nn as nn

# ---------------------
# Классический RBF слой
# ---------------------

class RBF(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        """
        Arg:
            per_dimension_sigma (bool): 
                Если True, для каждого выходного нейрона и каждого входного признака обучается отдельное значение σ.
                Если False, для каждого выходного нейрона используется одно общее значение σ для всех входных признаков.
        """
        super(RBF, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.per_dimension_sigma = per_dimension_sigma
        self.basis_func = basis_func

        if self.per_dimension_sigma:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features, in_features))

        else:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features))

        self.centres = nn.Parameter(torch.Tensor(out_features, in_features))
        self.reset_parameters()

    def reset_parameters(self):

        nn.init.normal_(self.centres, mean=0.0, std=1.0)
        nn.init.constant_(self.log_sigmas, 0.0)

    def forward(self, input):

        B = input.size(0)
        x = input.unsqueeze(1).expand(B, self.out_features, self.in_features)
        c = self.centres.unsqueeze(0).expand(B, self.out_features, self.in_features)

        if self.per_dimension_sigma:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features, self.in_features)
            distances = ((x - c).pow(2) / sigma).sum(dim=-1)

        else:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features)
            distances = (x - c).pow(2).sum(dim=-1) / sigma

        return self.basis_func(distances)

def gaussian_rbf(distances):
    return torch.exp(-distances)

      
# -----------------------------------------------------
# RBF слой с использованием идеи SkipConnection(ResNet)
# -----------------------------------------------------
  
class RBFResBlock(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        super(RBFResBlock, self).__init__()

        self.rbf = RBF(in_features, out_features, basis_func, per_dimension_sigma)

        if in_features != out_features:
            self.skip_connection = nn.Linear(in_features, out_features)

        else:
            self.skip_connection = nn.Identity()

    def forward(self, x):

        rbf_output = self.rbf(x)
        skip_connection_output = self.skip_connection(x)
        return rbf_output + skip_connection_output

# ------------------------
# Пример модели с 4 слоями
# ------------------------
      
class ResMRBFN(nn.Module):
    def __init__(self, in_features, hidden_units1, hidden_units2, hidden_units3, out_features, per_dimension_sigma=False):
        super(ResMRBFN, self).__init__()

        self.rbf_block1 = RBFResBlock(in_features, hidden_units1, gaussian_rbf, per_dimension_sigma)

        self.rbf_block2 = RBFResBlock(hidden_units1, hidden_units2, gaussian_rbf, per_dimension_sigma)

        self.rbf_block3 = RBFResBlock(hidden_units2, hidden_units3, gaussian_rbf, per_dimension_sigma)

        self.linear_final = nn.Linear(hidden_units3, out_features)

    def forward(self, x):

        x1 = self.rbf_block1(x)

        x2 = self.rbf_block2(x1)

        x3 = self.rbf_block3(x2)

        return self.linear_final(x3)

Dense MRBFN

import torch
import torch.nn as nn

# ---------------------
# Классический RBF слой
# ---------------------

class RBF(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        """
        Arg:
            per_dimension_sigma (bool): 
                Если True, для каждого выходного нейрона и каждого входного признака обучается отдельное значение σ.
                Если False, для каждого выходного нейрона используется одно общее значение σ для всех входных признаков.
        """
        super(RBF, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.per_dimension_sigma = per_dimension_sigma
        self.basis_func = basis_func

        if self.per_dimension_sigma:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features, in_features))

        else:
            self.log_sigmas = nn.Parameter(torch.Tensor(out_features))

        self.centres = nn.Parameter(torch.Tensor(out_features, in_features))
        self.reset_parameters()

    def reset_parameters(self):

        nn.init.normal_(self.centres, mean=0.0, std=1.0)
        nn.init.constant_(self.log_sigmas, 0.0)

    def forward(self, input):

        B = input.size(0)
        x = input.unsqueeze(1).expand(B, self.out_features, self.in_features)
        c = self.centres.unsqueeze(0).expand(B, self.out_features, self.in_features)

        if self.per_dimension_sigma:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features, self.in_features)
            distances = ((x - c).pow(2) / sigma).sum(dim=-1)

        else:
            sigma = torch.exp(self.log_sigmas).unsqueeze(0).expand(B, self.out_features)
            distances = (x - c).pow(2).sum(dim=-1) / sigma

        return self.basis_func(distances)

def gaussian_rbf(distances):
    return torch.exp(-distances)

      
# ---------------------------------------
# RBF слой с использованием идей DenseNet
# ---------------------------------------
     
class RBFDenseBlock(nn.Module):
    def __init__(self, in_features, out_features, basis_func, per_dimension_sigma=False):
        super(RBFDenseBlock, self).__init__()

        self.rbf = RBF(in_features, out_features, basis_func, per_dimension_sigma)

    def forward(self, x, previous_outputs):

        combined_inputs = torch.cat(previous_outputs, dim=1)

        rbf_densenet_output = self.rbf(combined_inputs)

        return rbf_densenet_output

      
class TransitionLayer(nn.Module):
    def __init__(self, in_features, out_features):
        super(TransitionLayer, self).__init__()

        self.transition = nn.Sequential(
            nn.Linear(in_features, out_features),
            nn.Mish(),
        )

    def forward(self, x):
        return self.transition(x)      

      
# ------------------------
# Пример модели с 4 слоями
# ------------------------

def gaussian_rbf(distances):
    return torch.exp(-distances)


class DenseMRBFN(nn.Module):
    def __init__(self, in_features, hidden_units1, hidden_units2, hidden_units3, out_features, per_dimension_sigma=False):
        super(DenseMRBFN, self).__init__()

        self.rbf_block1 = RBFDenseBlock(in_features, hidden_units1, gaussian_rbf, per_dimension_sigma)
        self.transition1 = TransitionLayer(in_features + hidden_units1, hidden_units1)

        self.rbf_block2 = RBFDenseBlock(in_features + hidden_units1, hidden_units2, gaussian_rbf, per_dimension_sigma)
        self.transition2 = TransitionLayer(in_features + hidden_units1 + hidden_units2, hidden_units2)

        self.rbf_block3 = RBFDenseBlock(in_features + hidden_units1 + hidden_units2, hidden_units3, gaussian_rbf, per_dimension_sigma)
        self.transition3 = TransitionLayer(in_features + hidden_units1 + hidden_units2 + hidden_units3, hidden_units3)

        self.linear_final = nn.Linear(hidden_units3, out_features)

    def forward(self, x):
        outputs = [x]

        x1 = self.rbf_block1(x, outputs)
        outputs.append(x1)
        x1 = self.transition1(torch.cat(outputs, dim=1))

        x2 = self.rbf_block2(x1, outputs)
        outputs.append(x2)
        x2 = self.transition2(torch.cat(outputs, dim=1))

        x3 = self.rbf_block3(x2, outputs)
        outputs.append(x3)
        x3 = self.transition3(torch.cat(outputs, dim=1))

        return self.linear_final(x3)


4. Объяснение архитектуры KAN: Kolmogorov-Arnold Networks

Для начала предлагаю определить ключевые термины в контексте данного раздела, чтобы избежать путаницы в дальнейшем.

KAN – семейство нейронных сетей прямого распространения имеющих следующий вид:

{small f_text{KAN}(mathbf{x})=sum_{i_L=1}^{n_L} phi_{L-1, i_L, i_{L-1}} left(   sum_{i_{L-1}=1}^{n_{L-1}} phi_{L-2, i_{L-1}, i_{L-2}} left(   cdots left(   sum_{i_1=1}^{n_1} phi_{1, i_2, i_1} left(   sum_{i_0=1}^{n_0} phi_{0, i_1, i_0}(x_{i_0})  right)   right)     right)   right)}

То есть искомую функцию можно разложить на суперпозиции суммы функций одной переменной phi_{l,i_{l+1},i_l}(x_{i_l}).В последнем слое индекс i_Lозначает, что функция может быть векторозначной.

Где каждая сумма (слой) sum_{i_l=1}^{n_l}  phi_{l,i_{l+1},i_l}(x_{i_l}) представляет собой преобразование подобного рода:

mathbf{x}_{l+1}=sum_{i_l=1}^{n_l}  phi_{l,i_{l+1},i_l}(x_{i_l}) \[20pt] \=left[ begin{array}{cccc}    phi_{l,1,1}(x_{1}) & + & phi_{l,1,2}(x_{2}) & + cdots + & phi_{l,1,n_l}(x_{n_l}) \    phi_{l,2,1}(x_{1}) & + & phi_{l,2,2}(x_{2}) & + cdots + & phi_{l,2,n_l}(x_{n_l}) \    vdots &  & vdots & ddots & vdots \    phi_{l,n_{l+1},1}(x_{1}) & + & phi_{l,n_{l+1},2}(x_{2}) & + cdots + & phi_{l,n_{l+1},n_l}(x_{n_l}) \    end{array} right]

B-spline KAN – частный случай KAN приphi_{l,i_{l+1},i_l}(x_{i_l})=phi_{text{BSKAN }l, i_{l+1}, i_l}(x_{i_l})

phi_text{BSKAN}(x)=w_b​​f_text{base}(x)+w_s f_text{spline}(x)​f_text{base}=text{silu}(x)=frac{x}{1 + e^{-x}}f_text{spline}(x)=sum_i w_i B^k_i(x), \[10pt] text{где}   B_i(x)  text{– B-сплайн степени k на одном слое}

Нейронная сеть будет иметь следующий вид:

f_text{BSKAN}(mathbf{x})=sum_{i_L=1}^{n_L} phi_{scriptscriptstyle text{BSKAN } L-1, i_L, i_{L-1}}  left(   cdots left(   sum_{i_1=1}^{n_1} phi_{scriptscriptstyle text{BSKAN } 1, i_2, i_1} left(   sum_{i_0=1}^{n_0} phi_{scriptscriptstyle text{BSKAN } 0, i_1, i_0} (x_{i_0})  right)   right)   right)

Где каждый слой представляет собой преобразование подобного рода:

mathbf{x}_{l+1}=sum_{i_l=1}^{n_l} phi_{text{BSKAN }l, i_{l+1}, i_l}(x_{i_l}) \[20pt]=begin{bmatrix}    phi_{text{BSKAN }_{l,1,1}}(x_{1}) + phi_{text{BSKAN }_{l,1,2}}(x_{2}) + dots + phi_{text{BSKAN }_{l,1,n_l}}(x_{n_l}) \    phi_{text{BSKAN }_{l,2,1}}(x_{1}) + phi_{text{BSKAN }_{l,2,2}}(x_{2}) + dots + phi_{text{BSKAN }_{l,2,n_l}}(x_{n_l}) \    vdots \    phi_{text{BSKAN }_{l,n_{l+1},1}}(x_{1}) + phi_{text{BSKAN }_{l,n_{l+1},2}}(x_{2}) + dots + phi_{text{BSKAN }_{l,n_{l+1},n_l}}(x_{n_l})    end{bmatrix}

Официальная реализация B-spline KAN доступна в репозитории pykan на GitHub.

Хочу также уточнить, что авторы оригинального исследования определяют также KAN, но остановились на B-сплайнах как удобном выборе для параметризации этих одномерных функций. Они просто рассматривают реализацию, тогда как моя цель – обобщить многие архитектуры, используя их расширение теоремы Колмогорова-Арнольда на произвольный случай. Поэтому я и назвал их реализацию B-spline KAN, отделив её от KAN.

4.1 MLP как частный случай KAN

Мы уже рассматривали аффинное преобразование и применение функции активации как суперпозицию функций одной переменной в пункте: 2.2 «Аффинное преобразование и применение функции активации как функции преобразования и суперпозиции суммы функций».

mathbf{x}_{l+1}=sum_{i_l=1}^{n_l}  phi_{l,i_{l+1},i_l}(x_{i_l}) \[20pt]=left[ begin{array}{cccc}     phi_{l,1,1}(x_{1}) & + & phi_{l,1,2}(x_{2}) & + cdots + & phi_{l,1,n_l}(x_{n_l}) \     phi_{l,2,1}(x_{1}) & + & phi_{l,2,2}(x_{2}) & + cdots + & phi_{l,2,n_l}(x_{n_l}) \     vdots &  & vdots & ddots & vdots \     phi_{l,n_{l+1},1}(x_{1}) & + & phi_{l,n_{l+1},2}(x_{2}) & + cdots + & phi_{l,n_{l+1},n_l}(x_{n_l}) \     end{array} right], \[10pt] quad \[10pt]  text{где} \[10pt]   phi_{l,i_{l+1},i_l}(x_{i_l})=w_{l,i_{l+1},i_l }cdot f_{text{activation, }l}(x_{i_l})+ b_{l,i_{l+1}, i_l}

Если мы сравним это со слоем в KAN, то увидим, что функция активации и последующее аффинное преобразование составляют один слой в KAN. Первый слой, очевидно, будет состоять из линейных функций. phi_{0,i_1,i_0}(x_{l,i})=w_{ i_1, i_0} cdot x_{i_0}+ b_{ i_1, i_0}.И в контексте данной интерпретации все функцииphi_{l,i_{l+1},i_l}(x_{i_l})являются обучаемыми, хоть и не могут аппроксимировать в большинстве своем функции одной переменной. Это связано с тем, что они, по сути, являются масштабированными функциями активации, которые также в большинстве своем не обладают данной возможностью.

Тем самым можно заключить логичный вывод, что MLP является частным случаем KAN. Несмотря на то, что KAN и MLP являются подвидами нейронных сетей прямого распространения, KAN обобщает MLP на случай произвольных функций одной переменной.

Но также предлагаю рассмотреть, что из себя представляет часть существующих теорем универсальной аппроксимации для MLP в контексте KAN. Для начала рассмотрим теорему Цыбенко, которая утверждает, что нейронные сети с одним скрытым слоем и произвольным числом нейронов, использующие сигмоидные функции активации, обладают свойством универсальной аппроксимации.

Это идентично KAN с двумя слоями:

f_text{Cybenko}(mathbf{x})=sum_{i_1=1}^{n_1} phi_{1,i_1} left( sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0}) right)

В первом слое все функции будут линейными, а во втором используются сигмоидные функции активации и масштабирующие коэффициенты для каждой из них.

Первый слой:

mathbf{x}_1=sum_{i_0=1}^{n_0} w_{i_1,i_0} x_{i_0} + b_{i_1} \[20pt]=begin{bmatrix}     w_{1,1} x_{1} & + & w_{1,2} x_{2} & + & cdots & + & w_{1,n_0} x_{n_0} & + & b_{1} \     w_{2,1} x_{1} & + & w_{2,2} x_{2} & + & cdots & + & w_{2,n_0} x_{n_0} & + & b_{2} \     vdots &  & vdots &  & ddots &  & vdots &  & vdots \     w_{n_1,1} x_{1} & + & w_{n_1,2} x_{2} & + & cdots & + & w_{n_1,n_0} x_{n_0} & + & b_{n_1}     end{bmatrix}\[30pt]=sum_{i_0=1}^{n_0} phi_{i_1,i_0}(x_{i_0})\[20pt]=begin{bmatrix}    phi_{1,1}(x_{1}) + phi_{1,2}(x_{2}) + dots + phi_{1,n_0}(x_{n_0}) + phi_{1,n_0}(x_{n_0}) \[20pt]    phi_{2,1}(x_{1}) + phi_{2,2}(x_{2}) + dots + phi_{2,n_0}(x_{n_0}) + phi_{2,n_0}(x_{n_0}) \    vdots \    phi_{n_1,1}(x_{1}) + phi_{n_1,2}(x_{2}) + dots + phi_{n_1,n_0}(x_{n_0}) + phi_{n_1,n_0}(x_{n_0})     end{bmatrix},  \[50pt]

И второй выходной:

 f_text{Cybenko}(mathbf{x}_1)=sum_{i_1=1}^{n_1} w_{i_1} sigma(x_{i_!}) +b  \[25pt]=w_{1} sigma(x_1) + w_{2} sigma(x_2) + cdots + w_{n_1} sigma(x_{n_1})  +b\[20pt]=sum_{i_1=1}^{n_1} phi_{1,i_1} left( sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0}) right)

В итоге мы получаем модель, в которой сначала выполняется аффинное преобразование в определённое подпространствоN– мерного пространства, затем применяется сигмоидная функция активации, после чего выполняется ещё одно аффинное преобразование и на выходе получается скаляр (для векторнозначных функций – вектор).

f_text{Cybenko}(mathbf{x})=mathbf{W}_2 cdot sigma(mathbf{W}_1 cdot mathbf{x}+mathbf{b}_text{in})+mathbf{b}_text{out}

И в контексте KAN, теорему универсальной аппроксимации Цыбенко можно рассмотреть как теорему, которая определяет структуру KAN, которая обладает свойствами универсальной аппроксимации.

Также предлагаю рассмотреть случай ограниченной ширины и глубины нейронной сети, взяв к примеру теорему универсальной аппроксимации Н. Кулиева и В. Исмаилова из данной работы.

Котоорая гласит, что любая непрерывная функция, определённая на d-мерной области, может быть аппроксимирована нейронной сетью с двумя скрытыми слоями и сигмоидными и функциями активации:

f(x)_text{Guliyev, Ismailov}=sum_{p=1}^{2d+2} w_p , sigmaleft( sum_{q=1}^d w_{pq} , sigmaleft( x_q + b_{pq} right) + b_p right)

Первый слой:

mathbf{x}_1=sum_{q=1}^d phi_{0,p,q}(x_q) \[20pt]=begin{bmatrix}   w_{1,1}sigma(w_{1,1}x_1 - b_{1,1}) & + & dots & + & w_{1,d}sigma(w_{1,d}x_d - b_{1,d}) \   w_{2,1}sigma(w_{2,1}x_1 - b_{2,1}) & + & dots & + & w_{2,d}sigma(w_{2,d}x_d - b_{2,d}) \   vdots &  & ddots &  & vdots \   w_{2d+2,1}sigma(w_{2d+2,1}x_1 - b_{2d+2,1}) & + & dots & + & w_{2d+2,d}sigma(w_{2d+2,d}x_d - b_{2d+2,d}) \   end{bmatrix}

Второй слой (выходной):

f(x)_text{Guliyev, Ismailov}=sum_{p=1}^{2d+2} phi_{1,p}(x_p) \[20pt]=begin{bmatrix}    w_{1}sigma(cdot) + dots + w_{2d+2}sigma(cdot)     end{bmatrix}   cdot   begin{bmatrix}    sum_{q=1}^{d} w_{1,q}sigma(w_{1,q}x_q - b_{1,q}) - b_{1} \    sum_{q=1}^{d} w_{2,q}sigma(w_{2,q}x_q - b_{2,q}) - b_{2} \    vdots \    sum_{q=1}^{d} w_{2d+2,q}sigma(w_{2d+2,q}x_q - b_{2d+2,q}) - b_{2d+2}    end{bmatrix}

Собственно также, как и в случае с теоремой Цыбенко, здесь мы определяем структуру KAN с ограниченной шириной и глубиной, которая обладает универсальной аппроксимацией.

Ну и рассмотрим теоремы универсальной аппроксимации для случая произвольной ширины и глубины, которые упоминались в начале раздела про MLP, а именно теоремы Хорника и Лешно. Если рассматривать эти случаи в контексте KAN, то первый слой представляет собой аффинное преобразование, а последующие слои – преобразования, состоящие из масштабированных функций активации. При этом функция активации одинакова для всего слоя. В случае Хорника она должна быть непрерывной, ограниченной, неконстантой и неполиномиальной, а в случае теоремы Лешно допускаются кусочно-непрерывные функции и лишь локально ограниченные, а также не являющиеся полиномами почти всюду.

{small f(mathbf{x})=sum_{i_L=1}^{n_L} phi_{L-1, i_L, i_{L-1}} left(   sum_{i_{L-1}=1}^{n_{L-1}} phi_{L-2, i_{L-1}, i_{L-2}} left(   cdots left(   sum_{i_1=1}^{n_1} phi_{1, i_2, i_1} left(   sum_{i_0=1}^{n_0} phi_{0, i_1, i_0}(x_{i_0})  right)   right)   cdots   right)   right)}

Где во входном слое фукнции phi_{0,i_1,i_0}(x_{l,i})=w_{ i_1, i_0}cdot x_{i_0} + b_{ i_1, i_0},а во всех остальных – phi_{l,i_{l+1},i_l}(x_{i_l})=w_{l,i_{l+1}, i_l}cdot f_{text{activation, }l}(x_{i_l})+ b_{l, i_{l+1}, i_l}.

4.2 Теорема Колмогорова — Арнольда

Исследователи из MIT, предложив архитектуру B-spline KAN, вдохновились теоремой Колмогорова-Арнольда о представлении функций и расширили её. Однако в данном случае я предлагаю рассмотреть не архитектуру KAN через призму теоремы Колмогорова-Арнольда, а наоборот, что представляет собой теорема Колмогорова-Арнольда в контексте архитектуры KAN.

Андрей Колмогоров и Владимир Арнольд установили, что если fявляется функцией нескольких перменных, то f может быть записана как конечная композиция непрерывных функций одной переменной и операций сложения:

f(mathbf{x})=f(x_1, ldots, x_n)=sum_{q=0}^{2n} Phi_q left( sum_{p=1}^n phi_{q,p}(x_p) right),\[20pt]text{где } phi_{q,p} : [0, 1] to mathbb{R} text{ и } Phi_q : mathbb{R} to mathbb{R}.

И хотя это не теорема универсальной аппроксимации, так как она утверждает просто о способности разложения функции, в контексте архитектуры KAN теорему Колмогорова-Арнольда можно рассматривать как теорему, определяющую структуру сети KAN и образующую подмножество сетей с ограниченной шириной и глубиной.

Однако можно рассмотреть её вариант, который очевидно является элементом множества KAN и, в том числе, элементом подмножества KAN, в виде MLP. Мы уже разбирали его в предыдущем пункте, а именно – теорему универсальной аппроксимации Н. Кулиева и В. Исмаилова для двухслойного MLP. В качестве основы для доказательства они использовали теорему Колмогорова-Арнольда, по сути доказывая, что частный случай теоремы способен аппроксимировать любую непрерывную функцию на компактном множестве, с контролируемой ошибкой аппроксимации.

При этом интересно, что Теорема Колмогорова-Арнольда появилась задолго до известных архитектур 1990-х годов. Более того, она была опубликована в тот же год, когда Фрэнк Розенблатт предложил идею перцептрона – в 1957 году. И только спустя 67 лет исследователи из MIT, вдохновившись этой теоремой, предложили идею для создания KAN, который объединяет огромное количество вариантов сетей прямого распространения.

4.3 B-spline KAT и B-spline KAN

Рассмотрим для начала B-spline теорему Колмогорова-Арнольда (B-spline KAT). Мы уже обсуждали, что можем представить MLP в контексте KAN как нейронную сеть с первым слоем аффинного преобразования, где каждая функция имеет вид phi(x)=wcdot x+b,и последующими преобразованиями, где функция в общем виде phi(x)=wcdot f_{text{activation}}(x)  +b, в которой f_{text{activation}}(x) заранее определена для всего слоя.

Несмотря на то, что функции  phi(x) являются обучаемыми, при использовании популярных функций активации, к примеру ReLU, Mish, Swish (SiLU), GELU, функции по сути могут аппроксимировать с заданной точностью крайне маленький класс функций. Поэтому мы можем переопределить KAN, заменив все функции на произвольные B-сплайны, которые обладают куда большей возможностью аппроксимирования, что потенциально может дать больше гибкости модели, а также избавит от проблем выбора конкретной функции активации. Собственно, данный подход и предложили исследователи из MIT как вариант реализации KAN, а также выдвинули и доказали теоретическую часть для этого:

Теорема утверждает, что если целевая функция f(x) представлена как последовательность преобразований:

f(x)=(Phi_{L-1} circ Phi_{L-2} circ dots circ Phi_1 circ Phi_0)x,

где каждое Phi_{l,i_{l+1},i_l} – это непрерывно дифференцируемая функция(k+1)– раз.
То её можно эффективно аппроксимировать с помощью B-сплайнов.

При этом точность аппроксимации будет зависеть от параметра G,который представляет шаг сетки аппроксимации. Для любых m in [0, k],ошибка аппроксимацииf(x) через B-сплайны в C^m– норме будет оцениваться rак:

| f(x) - f_G(x) |_{C^m} leq C G^{-k+1+m}

где:

  • G – шаг сетки (чем меньше, тем точнее будет аппроксимация),

  • C – константа, зависящая от функции и её преобразований,

  • k – степень гладкости исходных функций Phi,

  • m – порядок производной, до которого измеряется точность.

В контексте KAN данная теорема определяет структуру KAN и предоставляет аппроксимацию любой функции в пространстве непрерывных функций, обладающих непрерывными производными порядка k+1 на компактном множестве K – то есть в C^{k+1}(K). При этом множество C^{k+1}(K) является подмножеством пространства непрерывных функций C(K).

И хотя в оригинальном исследовании B-spline KAT предлагаются как альтернатива традиционным теоремам универсальной аппроксимации, её природа аналогична, так как она также утверждает, что существует такая последовательность преобразований Phi_1, Phi_2, dots , и что при достаточном количестве нейронов мы можем аппроксимировать любую функцию из определённого множества функций с заданной точностью в пределахepsilon. Таким образом, B-spline KAT можно также отнести к их числу!

Теперь перейдём к B-spline KAN. Вспомним, что в нем каждая из функций одной переменной задается как:

phi_text{BSKAN}(x)=w_b​f_text{base}(x)+w_s{​f_text{spline}}(x)​f_text{base}=text{silu}(x)=frac{x}{1 + e^{-x}}f_text{spline}(x)=sum_i w_i B^k_i(x), \[10pt] text{где}   B_i(x)  text{– B-сплайн степени k на одном слое}

Можно, конечно, интерпретировать, что мы берем модель из B-spline KAT, состоящую из композиции сумм B-сплайнов, добавив просто взвешенную функцию активации от входного вектора. Однако по сути мы берем MLP с phi(x)=wcdot f_{text{activation}}(x)  +b, где вместо константной функции в виде смещения f_text{bias}(x)=b, мы используем B-сплайны f_text{bias}=w_s{​f_{spline}}(x).Очевидно, что сплайны могут без проблем аппроксимировать на компактном множестве константную функцию, а значит, теоретически данная модель может сойтись либо к чистому MLP, либо к модификации MLP. Это, в свою очередь, означает, что B-spline KAN в реализации, которую предложили в официальном репозитории pykan, больше напоминает модификацию MLP, чем альтернативную модель, предложенную в B-spline KAT.

4.4 SVM и RBF нейронная сеть как частный случай KAN

Мы уже знаем, что SVM можно представить как нейронную сеть прямого распространения и в некоторых случаях как MLP. В данном случае с линейным ядром, как в общем виде, так и с его разложением, у нас будет, по сути, два слоя с линейным и аффинным преобразованием.

f_{text{Linear SVM}}(mathbf{x})=sum_{i=1}^{n} alpha_i y_i K_text{Linear}(mathbf{x}_text{train}, mathbf{x}) + b=mathbf{W}_2(mathbf{W}_1 cdot varphi_text{linear}(mathbf{x})) + b \=sum_{i=1}^{n} alpha_i y_i (mathbf{x}_text{train}cdot mathbf{x}) + b

Если представить в формате KAN, то это будет выглядеть следующим образом:

f_text{Linear SVM}(x)=sum_{i_1=1}^{n_1} phi_{1,i_1} left( sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0}) right),\[10pt] text{где} \[10pt]  phi_{0,i_1,i_0}(x_{i_0})=x_{text{train},i_1, i_0} cdot x_{i_0}, \[10pt]  phi_{1,i_1}(x_{i_1})=alpha_{i_1} cdot y_{i_1} cdot x_{i_1} +b_{i_1}

С полиномиальным ядром всё в целом аналогично: если не использовать разложение с помощью функции varphi_{text{poly }n}​, то мы просто изменяем выходной слой и добавляем смещение во входной слой, производя аффинное преобразование, а не линейное.

f_text{Poly SVM}(mathbf{x})=sum_{i=1}^{n} alpha_i y_i left( mathbf{x}_text{train} cdot mathbf{x} + mathbf{b}_text{in} right)^k + b_text{out}=sum_{i_1=1}^{n_1} phi_{1,i_1} left( sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}({x}_{i_0}) right) , \ text{где}\[10pt] phi_{0,i_1,i_0}({x}_{i_0})={x}_{text{train},i_1, i_0} cdot {x}_{i_0} + b_{text{in}, i_1}, \[10pt] phi_{1,i_1}(x_{i_1})=alpha_{i_1} cdot y_{i_1} cdot left( x_{i_1} right)^k + b_text{out}.

А вот с разложением с помощью функции varphi_{text{poly }n​}всё посложнее. Мы знаем, что формула для SVM выглядит подобным образом (если mathbf{b}_text{in} состоит из нулей):

f_text{Poly SVM}(mathbf{x})_=mathbf{W}_2(mathbf{W}_1 cdot varphi_{text{poly }n}(mathbf{x}))+ b_text{out}

Возьмем простой и привычный пример для двумерных входных данных:

varphi_{text{poly }2}(mathbf{x})=begin{bmatrix}x_1^2 \x_2^2\  sqrt{2}x_1x_2end{bmatrix}

Нам было бы очень интересно подать в виде:

varphi_{text{poly }2}(mathbf{x})=begin{bmatrix}   phi_{1,1}(x_1) + phi_{1,2}(x_2) \   phi_{2,1}(x_1) + phi_{2,2}(x_2) \   phi_{3,1}(x_1) + phi_{3,2}(x_2) \   end{bmatrix}

Однако последний элемент в виде sqrt{2}x_1x_2 всё портит. Безусловно, мы его можем разложить подобным образом:

 sqrt{2}x_1x_2=frac{sqrt{2}}2((x_1 + x_2)^2 - x_1^2-x_2^2)

Но увы, данный вариант не будет работать для произвольного случая. К примеру, для varphi_{text{poly }n}полиномиального ядра третьей степени степени для двумерного входного вектора появляется член – sqrt{3}x_1^2x_2,а его разложение будет выглядеть следующим образом:

sqrt{3}x_1^2x_2=frac{sqrt{3}}3((x_1 + x_2)^3 - 3x_1x_2^2 -x_1^3-x_2^3)

Как можно увидеть, тут не обойтись без функции двух переменных, которая также раскладывается и так бесконечное количество раз. Для произвольного случая все аналогично, и это можно вывести, используя мультиномиальную теорему.

Существует вариант разложить подобным образом:

c cdot prod_{i=1}^n x_i^{a_i}=c cdot expleft(sum_{i=1}^n a_i ln|x_i|)right), x_i>0

Но условие положительности, накладываемое логарифмом, мешает определить конечный знак данного произведения. Мы можем использовать знаковую функцию в виде комплексного члена. И тогда наше преобразование будет выглядеть следующим образом:

c cdot prod_{i=1}^n x_i^{a_i}=c cdot expleft( sum_{i=1}^n a_i left( ln|x_i| + i arg(x_i) right) right), x_i neq0, \[20pt] arg(x_i) - text{фаза } x_i​

Исходя из этого всего, можно увидеть, что преобразование с помощью функции varphi_{text{poly }n}(mathbf{x}) , что varphi_text{RBF}(mathbf{x})можно разложить на два слоя KAN.

Теперь рассмотрим RBF-нейронную сеть с одним скрытым слоем и произвольным количеством нейронов в контексте KAN, но уже с использованием ядерного трюка, как это предложено в теореме универсальной аппроксимации (Дж. Парк, В. Сандберг), которую мы обсуждали в пункте 3.2 «RBF нейронная сеть». В контексте KAN её можно воспринимать как теорему, которая формирует KAN для приближения широкого класса функций. Аналогично обсуждаемым ранее теоремам, её структура будет выглядеть следующим образом:

f_text{Park, Sandberg}(mathbf{x})=sum_{i_1=1}^{n_1} phi_{1,i_1} left( sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0}) right)=sum_{i=1}^{N} w_i K_text{RBF}(mathbf{x}, mathbf{c}_i)

  1. Первый слой:

    sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0})=sum_{i_0=1}^{n_0} (x_{i_0} - c_{i_1,i_0})^2 \[20pt]={smallleft[   begin{matrix}   (x_{0,1} - c_{1,1})^2 & + & (x_{0,2} - c_{1,2})^2 & + & dots & + & (x_{0,n_0} - c_{1,n_0})^2 \   (x_{1,1} - c_{2,1})^2 & + & (x_{1,2} - c_{2,2})^2 & + & dots & + & (x_{1,n_0} - c_{2,n_0})^2 \   vdots &  & vdots &  & ddots &  & vdots \   (x_{n_1,1} - c_{n_1,1})^2 & + & (x_{n_1,2} - c_{n_1,2})^2 & + & dots & + & (x_{n_1,n_0} - c_{n_1,n_0})^2 \   end{matrix}   right]}

  2. Второй слой:

    • Гауссово ядро:

      sum_{i_1=1}^{n_1} phi_{1, i_1}(x_{i_1})=sum_{i_1=1}^{n_1} w_{i_1} cdot expleft(- frac{(x_{i_1})^2}{lambda_{i_1}}right)  \[20pt]=w_{1} cdot expleft(- frac{(x_{1})^2}{lambda_{1}}right) + w_{2} cdot expleft(- frac{(x_{2})^2}{lambda_{2}}right) + dots + w_{n_1} cdot expleft(- frac{(x_{n_1})^2}{lambda_{n_1}}right)

    • Обратное квадратичное ядро (Inverse Quadratic):

      sum_{i_1=1}^{n_1} phi_{1,i_1}(x_{i_1})=sum_{i_1=1}^{n_1} w_{i,i_1} cdot frac{1}{1 + left(lambda_{i_1} cdot x_{i_1}right)^2} \[20pt]=w_{1} cdot frac{1}{1 + left(lambda_{1} cdot x_{1}right)^2} + w_{2} cdot frac{1}{1 + left(lambda_{2} cdot x_{2}right)^2} + cdots + w_{n_1} cdot frac{1}{1 + left(lambda_{n_1} cdot x_{n_1}right)^2}

    • Обратное мультиквадратичное ядро (Inverse Multiquadric):

      sum_{i_1=1}^{n_1} phi_{1, i_1}(x_{i_1})=sum_{i_1=1}^{n_1} w_{i_1} cdot frac{1}{sqrt{1 + lambda_{i_1} cdot (x_{i_1})^2}} \[20pt]=w_{1} cdot frac{1}{sqrt{1 + lambda_{1} cdot (x_{1})^2}} + w_{2} cdot frac{1}{sqrt{1 + lambda_{2} cdot (x_{2})^2}} + dots + w_{n_1} cdot frac{1}{sqrt{1 + lambda_{n_1} cdot (x_{n_1})^2}}

Для теоремы универсальной аппроксимации RBF-нейронной сети с произвольным количеством скрытых слоев и нейронов, которую я доказывал в пункте 3.2.1 «Многослойная RBF нейронная сеть», всё аналогично. Она также формирует KAN и выглядит всё так:

  • Для l=0

    sum_{i_0=1}^{n_0} phi_{0,i_1,i_0}(x_{i_0})=sum_{i_0=1}^{n_0} (x_{i_0} - c_{i_1,i_0})^2 \[30pt]={small left[  begin{matrix}  (x_{0,1} - c_{1,1})^2 & + & (x_{0,2} - c_{1,2})^2 & + & dots & + & (x_{0,n_0} - c_{1,n_0})^2 \  (x_{1,1} - c_{2,1})^2 & + & (x_{1,2} - c_{2,2})^2 & + & dots & + & (x_{1,n_0} - c_{2,n_0})^2 \  vdots &  & vdots &  & ddots &  & vdots \  (x_{n_1,1} - c_{n_1,1})^2 & + & (x_{n_1,2} - c_{n_1,2})^2 & + & dots & + & (x_{n_1,n_0} - c_{n_1,n_0})^2 \  end{matrix}  right]}\[40pt]

  • Для 1leq lleq L-2

    sum_{i_l=1}^{n_l} phi_{i_l,i_{l+1},i_l}(x_{i_l})=sum_{i_l=1}^{n_l} (c_{i_{l+1}, i_l} - expleft(- frac{(x_{i_l})^2}{lambda_{i_{l+1}}}right))^2 \=left[  begin{matrix}     (c_{1,1} - expleft(- frac{(x_{1,1})^2}{lambda_1}right))^2 + dots + (c_{1, n_l} - expleft(- frac{(x_{1, n_l})^2}{lambda_1}right))^2 \     (c_{2,1} - expleft(- frac{(x_{2,1})^2}{lambda_2}right))^2 + dots + (c_{2, n_l} - expleft(- frac{(x_{2, n_l})^2}{lambda_2}right))^2 \       vdots \     (c_{n_{l+1},1} - expleft(- frac{(x_{n_{l+1},1})^2}{lambda_{n_{l+1}}}right))^2 + dots + (c_{n_{l+1}, n_l} - expleft(- frac{(x_{n_{l+1}, n_l})^2}{lambda_{n_{l+1}}}right))^2 \     end{matrix}   right]\[60pt]

  • Для l={L-1}

    sum_{i_{L-1}=1}^{n_{L-1}} phi_{L-1, i_{L}, i_{L-1}}(x_{i_{L-1}})=sum_{i_{L-1}=1}^{n_{L-1}} w_{i_{L}, i_{L-1}} cdot expleft(- frac{(x_{i_{L-1}})^2}{lambda_{i_{L-1}}}right)  \[20pt]=left[   begin{matrix}     w_{1,1} cdot expleft(- frac{(x_{1})^2}{lambda_{1}}right) + w_{1,2} cdot expleft(- frac{(x_{2})^2}{lambda_{2}}right) + dots + w_{1,n_{L-1}} cdot expleft(- frac{(x_{n_{L-1}})^2}{lambda_{n_{L-1}}}right) \   vdots   end{matrix}   right]\[30pt]

4.4.1 Многослойная RBF нейронная сеть (MRBFN) vs FastKAN

Вскоре после выхода исследования про KAN была выпущена модель, которая вместо использования B-спланов использует Гауссово ядро. Сама модель доступна на GitHub, а также её описание на arXiv.

Цель данного сравнения – показать, что, несмотря на то, что с первого взгляда мы получаем KAN с RBF-ядрами, который быстрее B-spline KAN и по точности ± такой же, и как бы всё отлично, но у нас уже существует подобный KAN в виде многослойной RBF-нейронной сети, который ничем не хуже.

Архитектура FastKAN выглядит следующим образом:

f_text{FastKAN}(mathbf{x})={small  sum_{i_L=1}^{n_L} phi_{L-1, i_L, i_{L-1}} left(   sum_{i_{L-1}=1}^{n_{L-1}} phi_{L-2, i_{L-1}, i_{L-2}} left(   cdots left(   sum_{i_1=1}^{n_1} phi_{1, i_2, i_1} left(   sum_{i_0=1}^{n_0} phi_{0, i_1, i_0}(x_{i_0})  right)   right)    right)   right)}\[20pt]где \[10pt] phi_{l,i_{l+1},i_l}(x_{l,i_l}).=K_text{RBF}(c_{i_{l+1},i_l}, x_{l, i_l})

  • Для {0leq lleq L-2}

    sum_{i_{l}=1}^{n_{l}} phi_{l, i_{l+1}, i_{l}}(x_{i_{l}})=sum_{i_{l}=1}^{n_{l}} K_text{RBF}(c_{i_{l+1}, i_{l}}, x_{i_{l}}) \[20pt]=left[    begin{matrix}    K_text{RBF}(c_{1,1}, x_{1}) + K_text{RBF}(c_{1,2}, x_{2}) + dots + K_text{RBF}(c_{1, n_{l}}, x_{n_{l}}) \    K_text{RBF}(c_{2,1}, x_{1}) + K_text{RBF}(c_{2,2}, x_{2}) + dots + K_text{RBF}(c_{2, n_{l}}, x_{n_{l}}) \    vdots \    K_text{RBF}(c_{n_{l+1},1}, x_{1}) + K_text{RBF}(c_{n_{l+1},2}, x_{2}) + dots + K_text{RBF}(c_{n_{l+1}, n_{l}}, x_{n_{l}}) \    end{matrix}    right] \[40pt]

  • Для l={L-1}

    sum_{i_{L-1}=1}^{n_{L-1}} phi_{L-1, i_{L}, i_{L-1}}(x_{i_{L-1}})=sum_{i_{L-2}=1}^{n_{L-2}} K_text{RBF}(c_{i_{L}, i_{L-1}}, x_{i_{L-1}}) \[20pt]=left[    begin{matrix}    K_text{RBF}(c_{1,1}, x_{1}) + K_text{RBF}(c_{1,2}, x_{2}) + dots + K_text{RBF}(c_{1, n_{L-1}}, x_{n_{L-1}}) \    vdots    end{matrix}    right]\[10pt]

Из пункта 3.2 мы знаем, что преобразование с помощью слоя RBF-нейронной сети (кроме выходного) выглядит следующим образом:

mathbf{x}_{text{output}}=begin{bmatrix}    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_1) \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_2) \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_3) \    vdots \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_n)    end{bmatrix}

То есть разница в том, что в случае RBF-нейронной сети мы применяем Гауссово ядро между всем входным вектором и вектором веса, когда в FastKAN мы применяем между каждым элементом входного и вектора веса, а потом суммируем.

Для выполнения поставленной задачи нужно выполнить, по сути, данное сравнение в плане скорости и сложности преобразования.

begin{bmatrix}    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_1) \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_2) \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_3) \    vdots \    K_{text{RBF}}(mathbf{x}_{text{input}}, mathbf{c}_n)    end{bmatrix}   quad text{vs} quad   begin{bmatrix}    sum_{q=1}^{M} K_{text{RBF}}(mathbf{x}_{text{input}, q}, mathbf{c}_{1, q}) \    sum_{q=1}^{M} K_{text{RBF}}(mathbf{x}_{text{input}, q}, mathbf{c}_{2, q}) \    sum_{q=1}^{M} K_{text{RBF}}(mathbf{x}_{text{input}, q}, mathbf{c}_{3, q}) \    vdots \    sum_{q=1}^{M} K_{text{RBF}}(mathbf{x}_{text{input}, q}, mathbf{c}_{n, q})    end{bmatrix}

По сути, нам достаточно сравнить преобразование, которое приводит в обоих случаях к элементу результирующего вектора. Это без проблем обобщается на весь слой и всю модель, то есть:

K_text{RBF}(mathbf{x}, mathbf{c}) quad text{vs} quad sum_{q=1}^{M} K_text{RBF}(mathbf{x}_q, mathbf{c}_q) \\ varphi_{text{RBF}}(mathbf{x})^top cdot varphi_{text{RBF}}(mathbf{c}) quad text{vs} quad sum_{q=1}^{M} varphi_{text{RBF}}(mathbf{x}_q)^top cdot varphi_{text{RBF}}(mathbf{c}_q)

Функцииvarphi_{text{RBF}}для входных векторов размерностью больше двух в итоге дадут идентичный логический вывод из-за свойств функции. Поэтому рассмотрим на привычных двумерных векторахmathbf{x}=[x_1, x_2]и mathbf{с}=[с_1, с_2].Одномерный случай мы проанализируем после. Также в качестве примера ядра я буду использовать Гауссово. Для обратного квадратического и обратного мультиквадратического вывод идентичен, или для ядер, которые обладают теми же свойствами. Также сумма мультииндексов ограничена M=2,и для удобства lambda=2.

Начнем с:

sum_{q=1}^{m} K_text{Gaussian}(x_q, с_q)varphi_text{gaussian}(x_1)=expleft( -frac{1}{2} x_1^2 right) left[ 1, x_1, frac{x_1^2}{sqrt{2}}, dots right]varphi_text{gaussian}(x_2)=expleft( -frac{1}{2} x_2^2 right) left[ 1, x_2, frac{x_2^2}{sqrt{2}}, dots right]varphi_text{gaussian}(c_1)=expleft( -frac{1}{2} c_1^2 right) left[ 1, c_1, frac{c_1^2}{sqrt{2}}, dots right]varphi_text{gaussian}(c_1)=expleft( -frac{1}{2} c_1^2 right) left[ 1, c_1, frac{c_1^2}{sqrt{2}}, dots right]sum_{q=1}^{2} K_{text{Gaussian}}(x_q, c_q)=sum_{q=1}^{2} varphi_{text{gaussian}}(x_q)^top cdot varphi_{text{gaussian}}(c_q) \=expleft( -frac{1}{2} (x_1^2 + c_1^2) right) left( 1 + x_1 c_1 + frac{x_1^2 c_1^2}{2} + dots right) \+expleft( -frac{1}{2} (x_2^2 + c_2^2) right) left( 1 + x_2 c_2 + frac{x_2^2 c_2^2}{2} + dots right)

И теперь перейдем к K_text{Gaussian}(mathbf{x}, mathbf{с})

varphi_text{gaussian}(mathbf{x})=expleft( -frac{1}{2} (x_1^2 + x_2^2) right) left[ 1, x_1, x_2, frac{x_1^2}{sqrt{2}}, x_1 x_2, frac{x_2^2}{sqrt{2}}, dots right]varphi_text{gaussian}(mathbf{c})=expleft( -frac{1}{2} (c_1^2 + c_2^2) right) left[ 1, c_1, c_2, frac{c_1^2}{sqrt{2}}, c_1 c_2, frac{c_2^2}{sqrt{2}}, dots right]K_text{Gaussian}(mathbf{x}, mathbf{c})=varphi_text{gaussian}(mathbf{x})^top cdot varphi_text{gaussian}(mathbf{c}) \[20pt]=textstyle expleft( -frac{1}{2} (x_1^2 + x_2^2 + c_1^2 + c_2^2) right) left( 1 + x_1 c_1 + x_2 c_2 + frac{x_1^2 c_1^2}{2} + x_1 x_2 c_1 c_2 + frac{x_2^2 c_2^2}{2} + dots right)

Как мы можем заметить, разница в том, что для вычисления ядра между векторами у нас экспоненциальный множитель учитывает все элементы векторов, а также появляются смешанные члены вродеx_1 x_2 с_1 с_2.

Поэтому, выразим K_text{Gaussian}(mathbf{x}, mathbf{с}) с помощью:

sum_{q=1}^{m} K_text{Gaussian}(x_q, с_q)K_text{Gaussian}(mathbf{x}, mathbf{c})=varphi_text{gaussian}(mathbf{x})^top cdot varphi_text{gaussian}(mathbf{c}) \=expleft( -frac{1}{2} sum_{q=1}^{M} (x_q^2 + c_q^2) right) cdot left(sum_{q=1}^{M} varphi_{text{Gaussian}}left(frac{x_q}{exp(-0.5 x_q^2)}right) cdot varphi_{text{Gaussian}}left(frac{c_q}{exp(-0.5 c_q^2)}right)+ \+ sum_{text{(смешанные члены)}} right)

Как мы можем увидеть, каждый элемент преобразованияvarphi_{text{gaussian}}(mathbf{x})^top cdot varphi_{text{gaussian}}(mathbf{с}) учитывает не просто экспоненту от суммы конкретных квадратов двух элементов, а от всех элементов двух векторов. Также мы учитываем совместные члены, которые учитывают множитель экспоненты от всех членов двух векторов. В совокупности это даёт очевидно больше возможностей для учета взаимосвязи между входными признаками, а значит, потенциально более высокую точность в задачах.

В контексте KAN в случае с RBF-нейронной сетью мы по сути имеем дополнительные слои при представлении сети с использованием функции varphi_text{RBF}.Как мы обсуждали, можно разложить, используя экспоненту от суммы логарифмов с контролем знака, используя фазу данного числа в комплексной плоскости, что даёт дополнительный слой, в то время как в FastKAN подобных дополнительных слоев нет.

Теперь перейдём к скорости. Довольно очевидно, что для входных векторов с размерностью больше или равной двум RBF-нейронная сеть с использованием ядерного трюка будет всегда быстрее, чем FastKAN.

В случае с одномерным входным вектором RBF-нейронная сеть и FastKAN равны и по преобразованию, и по скорости.

То есть в итоге мы имеем более быструю и потенциально более точную модель.

4.5 Проклятье и благословение размерности

При обсуждении проклятия размерности часто игнорируют благословение размерности, считая его учтённым по умолчанию, что ошибочно. Эти явления являются двумя сторонами одной медали: увеличение размерности может как приносить преимущества, так и создавать недостатки в зависимости от контекста и подхода к решению задачи.

Проклятие размерности – термин, описывающий различные проблемы, которые возникают при анализе и обработке данных в многомерных пространствах, но не проявляются в пространствах с малым количеством измерений, например в привычном трёхмерном пространстве. Этот термин был введён Ричардом Беллманом в 1957 году.

Благословение размерности – термин, который, вопреки ожиданиям о проклятии размерности, указывает на то, что в высокоразмерных пространствах могут возникать и положительные эффекты, позволяющие решать задачи проще, чем ожидалось. Он был введён в конце 1990-х годов Дэвидом Донохо.

Суть проклятия размерности в том, что при увеличении числа измерений объём пространства растёт экспоненциально быстро, а имеющиеся данные становятся «разреженными», то есть их оказывается слишком мало для надёжного анализа. Это особенно важно, когда количество данных невелико относительно внутренней размерности самих данных. При этом также может экспоненциально расти сложность модели при увеличении количества измерений входных данных.

Также часто пространство начинает демонстрировать явление концентрации меры: величины, зависящие от случайных переменных, в высоких размерностях концентрируются вокруг своих средних значений, и вероятность больших отклонений стремится к нулю. К примеру, так ведут себя нормы векторов, скалярные произведения, углы между векторами, эвклидовы расстояния и т. п.

Однако все эти выводы в основном опираются на синтетические сценарии. На практике же нередко преобладает благословение размерности.

Суть в том, что машинное обучение связано с отнесением экземпляров к их источникам, а классовые метки символизируют разные процессы. Аргумент о проклятии исходит из предположения, что все данные приходят из одного процесса. Если бы это было так, машинное обучение теряло бы смысл. Однако, если учесть несколько процессов, потеря контраста может стать полезной, так как помогает находить ближайший и наиболее связанный экземпляр, делая расстояния более значимыми в высоких размерностях. На практике вектора часто подвержены одинаковым внутриклассовым корреляциям между признаками внутри одного и того же класса. Это приводит к тому, что эффективная размерность одного класса оказывается ниже, чем всё пространство данных, а значит, позволяет моделям машинного обучения разделять классы более эффективно.

Теперь перейдём к MLP. Стереотип о том, что эти сети подвержены проклятию размерности, выглядит чрезмерно громким, так как они (как и многие другие модели машинного обучения) в одних условиях могут страдать от проклятия размерности, а в других – нет. Всё зависит от конкретных обстоятельств, в которых мы их рассматриваем. В контексте нейронных сетей, и в частности MLP, обычно говорят об экспоненциальном росте сложности самой модели при увеличении входного пространства признаков и определённой желаемой точности.

К примеру, есть исследование Эндрю Р. Баррона «Оценки универсальной аппроксимации для суперпозиций сигмоидной функции», в котором анализируется MLP-архитектура, предложенная Цыбенко. Баррон доказывает, что при сходимости данного интеграла (нормы Баррона):

C_f=int_{mathbb{R}^d} |omega| |hat{f}(omega)| , domega<infty

где hat{f} – это преобразование Фурье целевой функции  f,количество нейронов, необходимое для достижения заданной точности аппроксимации, растёт полиномиально, а не экспоненциально с увеличением размерности входных данных. То есть, если преобразование Фурье целевой функции не содержит больших высокочастотных элементов и убывает достаточно быстро, то проклятие размерности можно считать разрушенным.

Всё аналогично и для B-spline KAT: предложенная модель также разрушает проклятие размерности, но лишь при соблюдении ряда условий. А именно, если целевую функцию f можно разложить на блоки Phi, обладающие непрерывными производными порядка k+1, и при этом константа C в ошибке аппроксимации не растёт экспоненциально с увеличением размерности входных данных, то тогда проклятие размерности можно считать разрушенным.

Кстати, на MathOverflow есть обсуждение, в котором ставят под сомнение точность утверждения о разрушении проклятия размерности и просят уточнить условия.

В целом же это одна из проблем множества статей, рассматривающих B-spline KAN, поскольку некорректно утверждать, что MLP якобы подвержен проклятию размерности, а KAN – нет. На деле всё определяется конкретными предположениями и условиями применения той или иной модели.

4.6 Итог и обобщение информации с помощью множеств

В этой статье одной из целей, которую я ставил, было показать, что многие известные архитектуры сетей прямого распространения можно объединить и рассматривать через призму KAN, даже те, которые с первого взгляда не являются ими. Это дает возможность лучше понять, в чем они схожи и чем отличаются.

Также предлагаю теперь посмотреть как то, что мы обсуждали, будет выглядеть в контексте множеств. Однако сразу предупреждаю, что данная визуализация не охватывает все варианты и подмножества которые мы обсуждали, а для удобства восприятия включены только основные. В качестве примера пересечения множеств можно рассматривать комбинацию двух вариантов.

Как действительно понять нейронные сети и KAN на интуитивном уровне - 553

Список еще некоторых вариантов KAN можно найти в данном репозитории на GitHub.


И напоследок хотел сказать, что в планах так же написаь статью, где я покажу 2 новых варианта KAN. На данный момент в интернете подобные реализации мне еще не встречались.

Так что будет интересно!

Источники

Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems. Сybenko, G. (1989)

Lower bounds for approximation by MLP neural networks. Maiorov, Vitaly; Pinkus, Allan (April 1999)

Multilayer feedforward networks are universal approximators. Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (January 1989)

Multilayer feedforward networks with a nonpolynomial activation function can approximate any function. Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (March 1992)

Support-Vector Networks. Cortes, Corinna; Vapnik, Vladimir (1995)

Mercer’s theorem. J. Mercer (May 1909)

Introduction to Machine Learning: Class Notes 67577. Shashua, Amnon (2009)

Universal Approximation Using Radial-Basis-Function Networks. Park, J.; I. W. Sandberg (Summer 1991)

KAN: Kolmogorov-Arnold Networks. Ziming Liu et al

Kolmogorov-Arnold Networks are Radial Basis Function Networks. Ziyao Li

When is “Nearest Neighbor” Meaningful? Beyer, K.; Goldstein, J.; Ramakrishnan, R.; Shaft, U (1999)

A survey on unsupervised outlier detection in high-dimensional numerical data. Zimek, A.; Schubert, E.; Kriegel, H.P. (2012)

Shell Theory: A Statistical Model of Reality. Lin, Wen-Yan; Liu, Siying; Ren, Changhao; Cheung, Ngai-Man; Li, Hongdong; Matsushita, Yasuyuki (2021)

Utilizing Geometric Anomalies of High Dimension: When Complexity Makes Computation Easier. Kainen, Paul C. (1997)

Blessing of dimensionality: mathematical foundations of the statistical physics of data. Gorban, Alexander N.; Tyukin, Ivan Y. (2018)

Universal Approximation Bounds for Superpositions of a Sigmoidal Function.
Andrew R. Barron

Автор: Flokis_guy

Источник

Rambler's Top100