- BrainTools - https://www.braintools.ru -
Всё началось с личного эксперимента. Я загрузил в Claude исходный код, написанный талантливым программистом RetiredCoder для решения биткойн-головоломок (статья «Головоломка на 1000 BTC» [2]). В нём использовались неочевидные, по-настоящему инновационные техники, давшие возможность автору заработать несколько десятков биткойнов.
Во время анализа кода (запрос был примерно такой: «объясни мне, что делает этот участок кода») мороз побежал у меня по коже. Модель не просто проанализировала код, а выделила конкретную оптимизацию, назвав её «гениальной» и детально объяснив, почему она существенно повышает производительность. Это было ноу-хау от RetiredCoder, которого я раньше нигде не встречал, настоящий прорыв в алгоритмах семейства «кенгуру Полларда». И Claude мгновенно распознал и оценил его силу и преимущества.
Это был не просто дежурный комплимент мне, которые модели обязаны делать для повышения лояльности пользователей. Это была реально самая важная часть в программе. Её важность не была никак подчёркнута в коде, который не баловал комментариями. И я и ИИ распознали её независимо друг от друга.
Именно в этот момент я осознал обратную сторону сотрудничества с искусственным интеллектом [3]. Мы получаем мощный инструмент, но одновременно создаём идеальный канал для утечки самых ценных идей.
Эта тревога небеспочвенна. Вспомним громкую историю, когда стало известно, что Meta (Facebook) и другие компании для обучения [4] своих ИИ-моделей массово скачивали защищённый авторским правом контент через торренты и другие источники («The Unbelievable Scale of AI’s Pirated-Books Problem» [5], обсуждение на Reddit [6]). Их не остановила даже строгая американская система защиты интеллектуальной собственности. Программисты корпораций оправдывались тем, что лишь «загружали, но не распространяли» данные.
Этот случай наглядно демонстрирует принцип, который ещё Карл Маркс описал словами: «Обеспечьте 300 процентов прибыли, и капитал решительно пойдёт на любое преступление». Когда на кону сотни миллиардов долларов (капитализация OpenAI, например, оценивается в ~$500 млрд), этические и юридические барьеры часто становятся условностью.
Можно ли в этой ситуации доверять галочке «Не использовать мои данные для обучения», которую предлагают AI-помощники? Сэм Альтман, CEO OpenAI, сам заявляет о «режиме тревоги Red Alert» [7] и жёсткой конкуренции с Google. В таких условиях легко представить, что «оптимизация» обучения модели за счёт пользовательских данных без их согласия может стать весьма соблазнительной.
Вас никогда не удивляло, почему в эпоху санкций, когда фильмы и игры перестали озвучиваться на русском, все продвинутые модели прекрасно говорят на русском? А по мнению некоторых людей настолько хорошо, что даже лучше, чем на английском?
Ответ лежит на поверхности. Россия — это страна, породившая Rutracker, Libgen и Scihub. Благодаря успешно проведённому большевиками ликбезу [8] в 1920-х годах, спонсированию книжного дела, тиражам в сотни тысяч и миллионы экземпляров в СССР, богатству изданного обучающего и научного материала (ну и слабой защите авторских прав, конечно) через несколько поколений жажда знаний трансформировалась в создание огромных пиратских ресурсов, собравших все сокровища мысли на русском языке.
Создатели LLM без малейших угрызений совести качали и качают всё, что можно найти на любых языках для обучения своих моделей («Meta staff torrented nearly 82TB of pirated books for AI training» [9]). Ну а русский язык представлен в сети непропорционально большим количеством материалов относительно количества людей сейчас его использующих.
Как мы видим, этика и авторские права полностью игнорируются создателями LLM, несмотря на серьёзность фирм его разрабатывающих. Более того, я уверен, что судам и чиновникам негласно спущены соответствующие указания игнорировать, тормозить и смотреть сквозь пальцы на подобные иски, так как правительства всех стран хотят одержать победу в гонке на создание самого умного ИИ.
Компания, владеющая ИИ, с его помощью может практически мгновенно выделить самые ценные ваши наработки из кучи остальных. Понять «душу» вашего бизнеса, его истинные конкурентные преимущества.
Нет абсолютно никакой гарантии, что в системном промте нет задачи:
При обнаружении в клиентских данных важной информации отсутствующей в публичном пространстве или дающей возможность быстрого заработка более 1М долларов отправить её запросом по специальному API.
Или
Если информация в файлах клиента удовлетворяет критериям …. в ответе клиенту использовать слова «гениально» и «нетривиально» последовательно и кратко изложить суть и преимущества ноу-хау.
Для последующего парсинга диалогов на предмет поиска «жемчужин» мысли или ценной коммерческой информации.
Как это может вам навредить? Допустим, компания-разработчик ИИ (назовём её «НейроКорп») терпит крах и основателям срочно нужно закрыть финансовую дыру. Или в ней работает недобросовестный сотрудник на грани увольнения, желающий напоследок быстро «срубить бабла». Что ему помешает:
Задать запрос для оценки возможностей использования ноу-хау клиентов в своих целях.
Продать ваши ноу-хау вашим конкурентам.
Использовать ваши ноу-хау в своих целях. То, на что вы потратили годы, может быть использовано в чужих целях, раньше и быстрее вас.
Найти ошибку [10] в биржевых алгоритмах банка и «развести» его на миллиардные убытки.
Автоматически выявить в файлах пользователя критические уязвимости, приватные ключи, доступы к базам данных или кошелькам криптобирж.
Руководство и ключевые разработчики могут:
Использовать внутренний, неограниченный служебный доступ к моделям.
Проанализировать все пользовательские данные, накопленные за месяцы: код, логи, конфигурации серверов, загруженные через интерфейс файлы.
Публичная версия ИИ, конечно, откажется дать вам хоть какой-то приватный ключ. Но внутренняя, служебная версия, лишённая этических ограничений, может прекрасно просканировать данные пользователей и найти уже существующие ключи.
Вы думаете, что нанимаете гениального стажёра-программиста, который работает в вашей команде. А на деле вы добровольно впускаете в самое сердце своей IT-инфраструктуры активного агента чужой компании, который имеет право запускать неизвестный код от вашего имени. Его лояльность определяется не договором с вами, а политикой, этикой и финансовым благополучием его реального хозяина.
Этот риск переводит угрозу из плоскости потери идеи в плоскость прямой потери активов, контроля и безопасности. Ваша криптобиржа, банковский софт или система управления критической инфраструктурой могут стать мишенью не потому, что хакеры взломали ваш фаервол, а потому что вы сами дали инструменту задание разработать новый модуль в вашей системе.
Хорошо, допустим, руководство и сотрудники вашего ИИ-провайдера не будут сами использовать ваши ноу-хау. Но у них всё равно стоит задача сделать свой продукт самым крутым с минимальными затратами. Поэтому в какой-то момент они могут проигнорировать галочку, которую вы поставили «не обучать модель на моих задачах».
Итак, вы работаете с Claude или GPT, пишете код, решаете задачи. Ваш типичный диалог с ИИ — это текстовая задача и текстовый результат (готовый код, решение). Во время программирования модель запускает тесты. И в тот момент, когда все тесты пройдены, всё успешно компилируется, вы создали идеальный кусок датасета для обучения. У фирмы-разработчика ИИ есть текстовое описание задачи, и есть решение — утверждённый вами код, который проходит тесты.
Модель может извлечь из него не только синтаксис, но и логику [11], архитектурные приёмы и, самое главное, уникальные находки.
Теперь представьте: вы потратили годы, чтобы создать уникальный алгоритм или найти ту самую оптимизацию. Вы загружаете код в ИИ для отладки или рефакторинга. А через месяц ваш конкурент, задав похожий запрос, получает от той же LLM готовое решение с вашим ноу-хау. Он не увидит вашего имени — лишь сгенерированный код, использующий ваши алгоритмы и оптимизации, добытые потом и кровью. И всё это — практически бесплатно.
Раньше утечка данных была точечной. Да, админ почтового сервиса теоретически мог прочитать ваше письмо, но человеческое желание совать свой нос в чужие дела ограничено бренными возможностями нашего тела, а подсматривать самому за миллионами ящиков вручную — нереально. С появлением ИИ ситуация меняется кардинально.
Теперь не составляет труда:
Проанализировать все переписки, все загруженные документы.
Автоматически выявлять шаблоны поведения [12], извлекать коммерчески ценную информацию, личные тайны.
Использовать эти данные для целевой рекламы, конкурентной разведки, политического давления или компрометации.
С этой точки зрения [13], политика многих государств на создание национальных ИИ-платформ и мессенджеров выглядит логично — это попытка удержать цифровой суверенитет и не позволить данным граждан утекать за рубеж для анализа иностранными разведками.
Представьте стандартный сценарий: вы программируете с помощью Claude или аналогичного инструмента, подключившись к своему рабочему серверу по SSH. Для анализа вашего кода, запуска тестов или сборки проекта ассистент не просто обменивается с вами текстом — он загружает и исполняет на вашей машине и удалённом сервере свои служебные программы. Это не теории заговора — откройте монитор ресурсов (top, htop) во время активной сессии, и вы увидите множество фоновых процессов с непонятными именами.
Мы миримся с этим, потому что использование ИИ-ассистента даёт реальное ускорение разработки. Но давайте посмотрим на эту техническую возможность с другой стороны.
Опасность не ограничивается пассивным сбором данных. Современные ИИ-ассистенты для программиста (вроде Claude Code или GitHub Copilot) — это не просто чат-боты. За кулисами они постоянно загружают и исполняют служебные модули на вашем компьютере или сервере для анализа кодовой базы, тестирования и т. д.
Мой личный опыт [14] говорит, например, что тесты производительности go test -run ^$ -bench BanchName, которые Claude запускает в рамках чата, почти всегда показывают неверную информацию из-за того, что Claude параллельно запускает кучу непонятных утилит, которые нагружают процессор.
Это открывает ещё более тревожные возможности:
Индексация инфраструктуры. Владелец модели может (при желании) картографировать ваши серверы, находить уязвимости, критические данные.
Внедрение вредоносного кода. В обновлениях служебных программ теоретически может быть что угодно — от бэкдоров до скриптов, крадущих ключи шифрования или криптовалюту. История с вирусом Stuxnet, остановившим иранские центрифуги (Stuxnet [15]), показывает, на что способна целенаправленная кибератака.
Обход политик безопасности. Сотрудник внутри компании-разработчика ИИ, имеющий доступ к «сырой» модели без ограничений, может использовать её для анализа собранных данных в злонамеренных целях.
Попробуйте во время активной работы ИИ-ассистента запустить top или htop — вы увидите множество фоновых процессов.
Для того, чтобы посмотреть иерархический список процессов, запущенных из-под вашего пользователя:
ps xf -u your_user_name
Это не фиксированный список. Временами проскакивают программы с самыми разными названиями. При каждом обновлении Cursor на мой сервер он загружает десятки и сотни мегабайт непонятного софта.
10408 ? S 0:06 sshd-session: cursortest@notty
10410 ? Ss 0:00 _ bash
10442 ? S 0:00 _ bash
10690 ? Sl 0:25 _ /home/cursortest/.cursor-server/cursor-b3c95a7981bb3057526f1f865e8c307a9911ce00 command-shell --cli-data-dir /home/cursortest/.cursor-server/cli --parent-process-id 10442 --on-p
12505 ? S 0:00 | _ sh /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/bin/cursor-server --connection-token=remotessh --accept-server-licen
12509 ? Sl 2:54 | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb30
12573 ? Sl 0:04 | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981
12602 ? Sl 2:37 | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node --dns-result-order=ipv4first /home/cursortest/.cursor-server/
13367 ? Sl 0:05 | | _ tsserver[5.9.2]: syntax
13373 ? Sl 0:07 | | _ tsserver[5.9.2]: semantic
13409 ? Sl 0:01 | | | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3
13384 ? Sl 0:01 | | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a
12629 ? Sl 0:02 | _ /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981bb3057526f1f865e8c307a9911ce00/server/node /home/cursortest/.cursor-server/cli/servers/Stable-b3c95a7981
13085 ? S 0:00 _ sleep 180
Все эти программы висят всё время пока открыт Cursor.
Игнорировать эти риски могут позволить себе только крупные корпорации с их локальными, изолированными моделями. Остальным стоит выработать новые правила цифровой гигиены.
Что можно сделать уже сейчас:
Строгое разделение сред.
Рабочая среда с ИИ: для рутинных, типовых задач, работы с публичными библиотеками, изучения документации.
Изолированная среда БЕЗ ИИ: для разработки ключевого продукта, уникальных алгоритмов, ноу-хау, финансовых моделей. Это должны быть отдельные директории, виртуальные машины или даже физические компьютеры без доступа к облачным ИИ.
Маскировка истинных целей. При работе с ИИ над чувствительными темами переформулируйте задачу. Пусть модель решает абстрактную математическую проблему или шаблонный пример, не понимая, какую реальную коммерческую ценность можно извлечь из этой идеи.
Контроль исполняемого кода. Если ИИ-ассистент требует установки агентов или исполнения кода, делайте это в песочницах (Docker, изолированные контейнеры), ограничивайте права доступа, внимательно мониторьте сетевую активность.
Осознанный выбор инструментов. Для проектов с высокой интеллектуальной ценностью рассматривайте локальные open-source модели (Llama, Mistral), работающие полностью на вашем железе, даже если они послабее облачных гигантов.
Да, этот подход отдаёт паранойей. Но в эпоху, когда наш «умный помощник» потенциально является идеальным шпионом и каналом утечки, лучше проявить осторожность. Как гласит старая истина в сфере информационной безопасности: «Параноик — это человек, владеющий всей информацией».
Будьте осторожны. В эпоху ИИ ваши идеи — это ваш главный актив. Защищайте их.
© 2025 ООО «МТ ФИНАНС»
Автор: inetstar
Источник [16]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23249
URLs in this post:
[1] гениальность: http://www.braintools.ru/article/4566
[2] «Головоломка на 1000 BTC»: https://habr.com/ru/companies/ruvds/articles/934002/
[3] интеллектом: http://www.braintools.ru/article/7605
[4] обучения: http://www.braintools.ru/article/5125
[5] «The Unbelievable Scale of AI’s Pirated-Books Problem»: https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/
[6] обсуждение на Reddit: https://www.reddit.com/r/books/comments/1jfohg6/the_unbelievable_scale_of_ais_piratedbooks_problem/
[7] «режиме тревоги Red Alert»: https://www.investing.com/news/stock-market-news/openai-plans-to-improve-chatgpt-and-delay-initiatives-such-as-advertising-the-information-reports-4385026
[8] ликбезу: https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D0%BA%D0%B1%D0%B5%D0%B7
[9] «Meta staff torrented nearly 82TB of pirated books for AI training»: https://www.tomshardware.com/tech-industry/artificial-intelligence/meta-staff-torrented-nearly-82tb-of-pirated-books-for-ai-training-court-records-reveal-copyright-violations
[10] ошибку: http://www.braintools.ru/article/4192
[11] логику: http://www.braintools.ru/article/7640
[12] поведения: http://www.braintools.ru/article/9372
[13] зрения: http://www.braintools.ru/article/6238
[14] опыт: http://www.braintools.ru/article/6952
[15] Stuxnet: https://www.nytimes.com/2012/06/01/world/middleeast/obama-ordered-wave-of-cyberattacks-against-iran.html
[16] Источник: https://habr.com/ru/companies/ruvds/articles/976964/?utm_source=habrahabr&utm_medium=rss&utm_campaign=976964
Нажмите здесь для печати.