Legen… Wait, Wait… Dary! Разбираемся с рефлексией LLM
Хабр, привет! Меня зовут Андрей Галичин, я младший научный сотрудник группы «Доверенные и безопасные интеллектуальные системы» в Институте AIRI, инженер‑исследователь в лаборатории безопасного искусственного интеллекта SAIL AIRI‑МТУСИ, а также аспирант Сколтеха. Мы с коллегами занимаемся интерпретируемостью больших языковых моделей. В январе этого года, когда все обсуждали впечатляющие результаты новой рассуждающей языковой модели DeepSeek‑R1 (подробный разбор статьи от моего коллеги Антона Разжигаева можно найти здесь), мы задались вопросом:

