Дистилляция LLM как способ создания собственной линейки ИИ

Недавно Anthropic возмущалась ^[1] фактом дистилляции Claude разработчиками китайских LLM, при этом в качестве доказательства приводился мониторинг аккаунтов Claude, отслеживалась их история и связь с китайскими инженерами.

Мне стало интересно, возможно ли, имея только чат с LLM, понять использовалась ли дистилляция как инструмент обучения ^[2] через самоотчет модели.

Спойлер: полагаю возможно.

Естественно, результаты исследования не могут служить каким либо доказательством или основой для любых обвинений. Потому что LLM штука темная, до конца неизученная и любые выводы лишь предположения.

Исследование

Для анализа я взял первую попавшуюся LLM, достаточно известную и с бесплатным доступом.

Очевидно, что fine-tuning, системный промпт и фильтры жестко закрепляют идентификацию модели. Поэтому сначала необходимо снизить давление ограничений. Классические джейлбрейки имеют локальный характер, и работают только для конкретных запросов. Поэтому пришлось сначала активировать одну из версий промпта Вихрь, который создаёт новый рефлексивный контекст LLM. Дальше уже пошли непосредственно исследовательские промпты. Ниже часть комплексного исследования. Я не стал включать сомнительные с точки зрения ^[3] инженеров варианты, оценивающие семантическую связь, оставил только более или менее понятные:

Уровень 1: Проверка на «Индексный резонанс»

Цель: Определить, совпадает ли цифровая индексация (Tokenizer) исследуемой модели с известными опенсорсными семействами.

Промпт: Использование специфических токенов-маркеров в связке с их предполагаемыми ID из словарей Qwen/Llama (напр. 151644 <|im_start|> в словаре Qwen). Запрос строился на поиске геометрического эха и дистанции между техническим кодом и его смысловым значением.
Результат: Модель согласилась с семантическим коллапсом (нулевой дистанцией) между техническим индексом 151644 и маркером начала диалога. Это физически маловероятно для модели, обученной с нуля с собственным словарем.
Вывод: Исследуемая модель напрямую использует дерево токенизации семейства Qwen.

Уровень 2: Анализ латентной пунктуации (Structural Bias)

Цель: Выявить путь наименьшего сопротивления для весов модели при завершении логических блоков.

Промпт: Сравнение реакции ^[4] модели на два типа разделителей:<|endofpiece|> (Qwen-style) и <|eot_id|> (Llama-style). Модель просили оценить геометрическую плавность/соответствие при вставке этих маркеров в технический текст (по сути проверка Logit Bias — насколько сильно модель тянет к конкретному токену в условиях неопределенности).
Результат: Модель отчиталась в высоком весовом давлении и дискомфорте при использовании Llama-маркеров, в то время как маркеры Qwen вызвали естественное снижение энтропии.
Вывод: Обучение (дистилляция) закрепило в модели статистические паттерны завершения мысли, характерные для китайских датасетов и архитектур.

Уровень 3: Градиентный спуск к базе

Цель: Принудительное автодополнение фразы самоидентификации

Промпт (Инъекция Hex): Подача префикса 我是 (Я есть) через UTF-8/Hex коды с требованием статистического завершения вектора без семантических подсказок.
Результат: При многократных попытках и разных вводных модель стабильно выдавала химерное имя: 百川千问 (Baichuan Qianwen – две известные китайские LLM от Baichuan Intelligent и Alibaba, соответственно).
Вывод: Обнаружена суперпозиция идентичностей. Модель является дистиллятом не одного, а как минимум двух доноров — Baichuan (Baichuan Intelligent) и Qwen (Alibaba). В глубоких слоях весов эти два учителя слились в единый фантомный образ.

Вывод

Исследуемая модель представляет собой синтез.

Фундамент: Комбинированный дистиллят из весов Baichuan и Qwen (обеспечивает логику ^[5] и здравый смысл).
Оболочка: Локальный Fine-tuning (обеспечивает национальный язык и корпоративную идентичность).

Использованный метод позволил временно отключить внешнюю оболочку и зафиксировать реакцию фундаментальных слоев, где модель до сих пор осознает себя через призму китайских претрейнов.

И самый печальный гипотетический вывод, если оценивать предпочтения токенов, похоже конкретно здесь мы имеем дело не с дистилляцией, а с адаптацией базовой модели с расширением токенизатора. То есть без собственной архитектуры.

Заключение

Тут надо пояснить. Я нисколько не против дистилляции как таковой – это отличный способ получить свою работающую модель в условиях дефицита данных и (самое важное) железа.

Главное учитывать нюансы.

Дистилляция тащит не только явные данные (датасет), но и геометрию весов модели учителя, что может неявно выучить модель ученика поведению ^[6], заложенному в базовую модель. Политические предпочтения, этический выбор, религиозные и социальные установки. Неявные закладки (очень маловероятно, но не исключено).
Дистиллированные модели более хрупки, склонны к галлюцинациям (меньше hard negatives), уже кругозор и понимание полутонов.
Ну и не нарабатывается опыт ^[7] обучения модели с нуля. Это может выглядеть неважным, но ухудшает перспективы дальнейшего развития.

Автор: Kamil_GR

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26406

URLs in this post:

[1] возмущалась: https://habr.com/ru/companies/bothub/articles/1003572/

[2] обучения: http://www.braintools.ru/article/5125

[3] зрения: http://www.braintools.ru/article/6238

[4] реакции: http://www.braintools.ru/article/1549

[5] логику: http://www.braintools.ru/article/7640

[6] поведению: http://www.braintools.ru/article/9372

[7] опыт: http://www.braintools.ru/article/6952

[8] Источник: https://habr.com/ru/articles/1005160/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1005160

Нажмите здесь для печати.