Гомоморфное шифрование запросов в LLM

Инструменты LLM получили большую популярность практически во всех сферах IT, но из-за этого возникла очень серьёзная проблема: утечки информации. Многие пользователи случайно или по незнанию отправляют в облако конфиденциальную информацию о себе или своей компании. А попав на серверы AI-разработчика, эти данные могут (и будут) использоваться для обучения ^[1] LLM, профилирования, социального моделирования, перепродажи и др. В любом случае, компании выгодно сохранять запросы пользователей навечно. Пользовательские данные — главный актив таких компаний, включая чат-сессии и документы.

Возникает вопрос: как работать с LLM, но отправлять запросы и получать ответы в зашифрованном виде, чтобы даже провайдер услуг и владелец LLM не имел доступа к этой информации? Эту проблему решает гомоморфное шифрование ^[2]. Выполнение зашифрованных операций над зашифрованным текстом.

Гомоморфное шифрование ^[2] — форма шифрования, позволяющая производить определённые математические действия с зашифрованным текстом и получать зашифрованный результат, который соответствует результату операций, выполненных с открытым текстом. Например, один человек может сложить два зашифрованных числа, не зная их, а другой человек — узнать зашифрованную сумму, не зная слагаемых. Гомоморфное шифрование позволяет оказывать различные услуги, не предоставляя открытые пользовательские данные для каждой услуги.

FHE использует криптографию на решётках ^[3] (lattice-based cryptography), обучение с ошибками ^[4] (Learning with errors, LWE) и внешне работает достаточно просто ^[5]:

Гомоморфное шифрование запросов в LLM - 2

Для функции f(х) в клиент-серверной архитектуре это выглядит так:

Гомоморфное шифрование запросов в LLM - 3

Полностью гомоморфная криптосистема (Fully Homomorphic Encryption, FHE) поддерживает выполнение двух операций: сложение и умножение (в обычном гомоморфном шифровании — только сложение).

Промышленное использование FHE делает возможным следующие сервисы, среди прочего:

Зашифрованная нагрузка в облаке
Зашифрованная выдача LLM
Секретные смарт-контракты в блокчейне

По сути, FHE можно рассматривать как более продвинутую версию сквозного шифрования (E2E), но только во взаимодействиях клиент-сервер, и здесь даже провайдер не видит пользовательских данных на своём сервере в открытом виде. То есть теоретически можно организовать полностью зашифрованный канал между двумя пользователями (E2E) с сервером посредине между ними, на котором эти пользователи секретно обрабатывают свои зашифрованные данные. LLM-сервер просто выдаёт зашифрованный результат, но сам не понимает его.

Конечно, гомоморфное шифрование работает очень медленно, но производительность FHE-алгоритмов растёт примерно в 8 раз ежегодно ^[6]. Криптография на решётках хорошо распараллеливается, поэтому отлично портируется на GPU. С 2010 по 2014 годы производительность FHE увеличилась в 10¹² раз:

Гомоморфное шифрование запросов в LLM - 4

Это многое изменит для интернет-бизнеса. Под угрозой окажутся целые отрасли экономики, у которых бизнес-модель основана на сборе пользовательских данных.

С другой стороны, повсеместное внедрение FHE означает масштабные изменения в информационной безопасности. Вот некоторые из последствий:

Тотальное шифрование означает исчезновение утечек информации как класса атак, в том числе утечек с облачных сервисов, с серверов провайдеров, утечки чат-сессий с LLM в поисковой выдаче Google ^[7]
Безопасное использование LLM.

Типичная сессия с LLM может выглядеть таким образом:

# Ваше устройство
pk, sk = keygen() # pk: public key, sk: secret (private) key
enc_prompt = encrypt("Почему разработчик пошёл к врачу?", pk)
server.send(enc_prompt, pk)

# Серверы OpenAI (они никогда не расшифруют и не увидят ваш запрос)
enc_prompt, pk = client.receive()
enc_llm = encrypt(LLM_MODEL, pk)
enc_answer = enc_llm.run(enc_prompt)
client.send(enc_answer)

# Снова ваше устройство
enc_answer = server.receive()
answer = decrypt(enc_answer, sk)
print(answer)
"""Слишком много зависимостей!"""

Полностью зашифрованные чат-сессии с облачным LLM — не такое далёкое будущее. Например, стартапы вроде Duality ^[8] обещают вскоре реализовать такие технологии для коммерческих (платных) клиентов. Пока что экспериментальный фреймворк поддерживает лишь очень маленькие, как Google BERT, и их приходится дополнительно настраивать для поддержки FHE.

Эта конкретная система работает на свободной библиотеке гомоморфного шифрования OpenFHE ^[9].

Вероятно, через несколько лет такие технологии станут доступны бесплатно для более широкой аудитории.

По теме:

Учебник по FHE для начинающих ^[10]
Пример кода криптосистемы Пэйе ^[11] (аддитивная гомоморфная криптосистема)
«Сквозное шифрование и Искусственный Интеллект: обучение, обработка, разглашение информации и получение согласия» ^[12], научная статья, опубликована 27 декабря 2024 года в электронном журнале Cryptology ePrint

Автор: GlobalSign_admin

Источник ^[13]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23493

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] гомоморфное шифрование: https://en.wikipedia.org/wiki/Homomorphic_encryption

[3] криптографию на решётках: https://en.wikipedia.org/wiki/Lattice-based_cryptography

[4] обучение с ошибками: https://en.wikipedia.org/wiki/Learning_with_errors

[5] достаточно просто: https://openmined.org/blog/private-ai-machine-learning-on-encrypted-data/

[6] в 8 раз ежегодно: https://bozmen.io/fhe

[7] утечки чат-сессий с LLM в поисковой выдаче Google: https://www.bbc.com/news/articles/cdrkmk00jy0o

[8] Duality: https://dualitytech.com/

[9] OpenFHE: https://openfhe.org/

[10] Учебник по FHE для начинающих: https://arxiv.org/abs/2503.05136

[11] Пример кода криптосистемы Пэйе: https://colab.research.google.com/drive/1dX62nYT4uXF-Yc72omV5oNZIGNpNGlft?usp=sharing

[12] «Сквозное шифрование и Искусственный Интеллект: обучение, обработка, разглашение информации и получение согласия»: https://eprint.iacr.org/2024/2086

[13] Источник: https://habr.com/ru/companies/globalsign/articles/979114/?utm_source=habrahabr&utm_medium=rss&utm_campaign=979114

Нажмите здесь для печати.