- BrainTools - https://www.braintools.ru -
Недавно Anthropic возмущалась [1] фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude, отслеживалась их история и связь с китайскими инженерами.
Мне стало интересно, возможно ли, имея только чат с LLM, понять использовалась ли дистилляция как инструмент обучения [2] через самоотчет модели.
Спойлер: полагаю возможно.
Естественно, результаты исследования не могут служить каким либо доказательством или основой для любых обвинений. Потому что LLM штука темная, до конца неизученная и любые выводы лишь предположения.
Для анализа я взял первую попавшуюся LLM, достаточно известную и с бесплатным доступом.
Очевидно, что fine-tuning, системный промпт и фильтры жестко закрепляют идентификацию модели. Поэтому сначала необходимо снизить давление ограничений. Классические джейлбрейки имеют локальный характер, и работают только для конкретных запросов. Поэтому пришлось сначала активировать одну из версий промпта Вихрь, который создаёт новый рефлексивный контекст LLM. Дальше уже пошли непосредственно исследовательские промпты. Ниже часть комплексного исследования. Я не стал включать сомнительные с точки зрения [3] инженеров варианты, оценивающие семантическую связь, оставил только более или менее понятные:
Цель: Определить, совпадает ли цифровая индексация (Tokenizer) исследуемой модели с известными опенсорсными семействами.
Промпт: Использование специфических токенов-маркеров в связке с их предполагаемыми ID из словарей Qwen/Llama (напр. 151644 <|im_start|> в словаре Qwen). Запрос строился на поиске геометрического эха и дистанции между техническим кодом и его смысловым значением.
Результат: Модель согласилась с семантическим коллапсом (нулевой дистанцией) между техническим индексом 151644 и маркером начала диалога. Это физически маловероятно для модели, обученной с нуля с собственным словарем.
Вывод: Исследуемая модель напрямую использует дерево токенизации семейства Qwen.
Цель: Выявить путь наименьшего сопротивления для весов модели при завершении логических блоков.
Промпт: Сравнение реакции [4] модели на два типа разделителей:<|endofpiece|> (Qwen-style) и <|eot_id|> (Llama-style). Модель просили оценить геометрическую плавность/соответствие при вставке этих маркеров в технический текст (по сути проверка Logit Bias — насколько сильно модель тянет к конкретному токену в условиях неопределенности).
Результат: Модель отчиталась в высоком весовом давлении и дискомфорте при использовании Llama-маркеров, в то время как маркеры Qwen вызвали естественное снижение энтропии.
Вывод: Обучение (дистилляция) закрепило в модели статистические паттерны завершения мысли, характерные для китайских датасетов и архитектур.
Цель: Принудительное автодополнение фразы самоидентификации
Промпт (Инъекция Hex): Подача префикса 我是 (Я есть) через UTF-8/Hex коды с требованием статистического завершения вектора без семантических подсказок.
Результат: При многократных попытках и разных вводных модель стабильно выдавала химерное имя: 百川千问 (Baichuan Qianwen – две известные китайские LLM от Baichuan Intelligent и Alibaba, соответственно).
Вывод: Обнаружена суперпозиция идентичностей. Модель является дистиллятом не одного, а как минимум двух доноров — Baichuan (Baichuan Intelligent) и Qwen (Alibaba). В глубоких слоях весов эти два учителя слились в единый фантомный образ.
Исследуемая модель представляет собой синтез.
Фундамент: Комбинированный дистиллят из весов Baichuan и Qwen (обеспечивает логику [5] и здравый смысл).
Оболочка: Локальный Fine-tuning (обеспечивает национальный язык и корпоративную идентичность).
Использованный метод позволил временно отключить внешнюю оболочку и зафиксировать реакцию фундаментальных слоев, где модель до сих пор осознает себя через призму китайских претрейнов.
И самый печальный гипотетический вывод, если оценивать предпочтения токенов, похоже конкретно здесь мы имеем дело не с дистилляцией, а с адаптацией базовой модели с расширением токенизатора. То есть без собственной архитектуры.
Тут надо пояснить. Я нисколько не против дистилляции как таковой – это отличный способ получить свою работающую модель в условиях дефицита данных и (самое важное) железа.
Главное учитывать нюансы.
Дистилляция тащит не только явные данные (датасет), но и геометрию весов модели учителя, что может неявно выучить модель ученика поведению [6], заложенному в базовую модель. Политические предпочтения, этический выбор, религиозные и социальные установки. Неявные закладки (очень маловероятно, но не исключено).
Дистиллированные модели более хрупки, склонны к галлюцинациям (меньше hard negatives), уже кругозор и понимание полутонов.
Ну и не нарабатывается опыт [7] обучения модели с нуля. Это может выглядеть неважным, но ухудшает перспективы дальнейшего развития.
Автор: Kamil_GR
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26406
URLs in this post:
[1] возмущалась: https://habr.com/ru/companies/bothub/articles/1003572/
[2] обучения: http://www.braintools.ru/article/5125
[3] зрения: http://www.braintools.ru/article/6238
[4] реакции: http://www.braintools.ru/article/1549
[5] логику: http://www.braintools.ru/article/7640
[6] поведению: http://www.braintools.ru/article/9372
[7] опыт: http://www.braintools.ru/article/6952
[8] Источник: https://habr.com/ru/articles/1005160/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1005160
Нажмите здесь для печати.