Тема “возможно ли сознание в машине?” не перестаёт быть одной из самых важных для человечества по состоянию на сегодня, май 2026 года.
Представляю перевод третьей, заключительной в этом цикле работы Дэвида Дж. Чалмерса, австралийского философа, профессора, специализирующегося в области философии сознания (и одного из наиболее известных учёных, сосредоточенных на проблеме сознания). Автор излагает свои мысли и аргументы простым и понятным языком, чтение его работ позволит вам совершить увлекательное и познавательное путешествие по сложными вопросам сознания…
См. также предыдущие переводы Дэвида Чалмерса: Может ли большая языковая модель обладать сознанием? и Требует ли мышление наличия чувств и сенсорики? От чистых мыслителей к большим языковым моделям.
Propositional Interpretability in Artificial Intelligence
David J. Chalmers,
26 January, 2025
Пропозициональная интерпретируемость в искусственном интеллекте
Дэвид Дж. Чалмерс
Аннотация
Механистическая интерпретируемость — это исследовательская программа, направленная на объяснение функционирования систем искусственного интеллекта (ИИ) через их внутренние механизмы. В данной статье анализируются отдельные аспекты этой программы, формулируются конкретные задачи и оценивается достигнутый прогресс. Автор аргументирует важность пропозициональной интерпретируемости, которая предполагает интерпретацию механизмов и поведения системы в терминах пропозициональных установок: отношений (таких как вера, желание или субъективная вероятность) к пропозициям (например, пропозиции «на улице жарко»). Пропозициональные установки являются центральным способом интерпретации и объяснения человеческого поведения, и, по всей видимости, они будут играть столь же ключевую роль в понимании ИИ. Центральной задачей в этой области является то, что автор называет логированием мыслей (thought logging): создание систем, способных фиксировать все релевантные пропозициональные установки ИИ во времени. В работе рассматриваются популярные методы интерпретируемости (такие как зондирование, разреженные автоэнкодеры и методы цепочки рассуждений), а также философские методы интерпретации (включая подходы, основанные на психосемантике) для оценки их сильных и слабых сторон как инструментов пропозициональной интерпретируемости.
1. Введение
Механистическая интерпретируемость представляет собой одно из наиболее значимых и перспективных направлений исследований искусственного интеллекта. Под интерпретируемостью (в широком смысле) я понимаю практику объяснения работы систем ИИ в терминах, доступных человеческому пониманию. Механистическая интерпретируемость фокусируется на объяснении функционирования систем ИИ посредством анализа их внутренних механизмов1.
(1) Благодарю слушателей Британской академии и Центра науки о данных Нью-Йоркского университета за отзывы в октябре 2024 года, а также Тала Линзена и Ника Ши. Данная статья ляжет в основу приглашённого доклада на конференции AAAI в марте 2025 года. В настоящее время это черновой вариант. Для ознакомления с краткой версией работы, ориентированной в большей степени на искусственный интеллект, чем на философию, рекомендуется прочитать разделы 1, 5 и 7.
Значимость механистической интерпретируемости обусловлена рядом причин. В сфере безопасности ИИ она может помочь выявить цели и планы системы путем изучения её внутренних процессов. В этике ИИ механистическая интерпретируемость позволяет лучше понять причины принятия системой тех или иных решений, а также выявить предвзятость, влияющую на них. В когнитивной науке об ИИ механистическая интерпретируемость открывает перспективы научного объяснения систем ИИ, аналогичного тем научным объяснениям, которые мы стремимся построить для объяснения человеческого мышления.
В данной работе я буду аргументировать важность особого вида интерпретируемости, который я называю пропозициональной интерпретируемостью. Она предполагает интерпретацию механизмов и поведения системы в терминах пропозициональных установок (или их обобщений). В обычной человеческой психологии пропозициональные установки — это отношения (такие как вера, желание или субъективная вероятность) к пропозициям (например, пропозиции «На улице жарко»). Человек может верить, что на улице жарко, желать, чтобы на улице было жарко, или иметь субъективную вероятность 0,5 того, что на улице жарко. Это принципиально различные состояния, играющие разную роль в предсказании и объяснении действий.
Пропозициональная интерпретируемость имеет критическое значение для ИИ. Например, в вопросах безопасности ИИ необходимо знать цели (желания) системы и её модели мира (верования). Для этого недостаточно знать лишь о том, какие концепты или признаки активны в системе; необходимо понимать именно пропозициональные установки системы. Существует фундаментальная разница между тем, когда система ИИ верит, что произошло некое опасное событие (землетрясение или война), и тем, когда она ставит своей целью наступление такого события. Аналогичная ситуация складывается и в этике ИИ. Одно дело, если система ИИ верит, что представителям определенной демографической группы часто отказывают в кредитах, и совсем другое, если система ставит это своей целью, следует такой логике.
Пропозициональная интерпретируемость находится на стыке искусственного интеллекта, когнитивной науки и философии. В этой области философия и когнитивная наука могут внести вклад в развитие ИИ, предоставив основания для интерпретируемости и инструменты для более глубокого понимания систем ИИ2. В свою очередь, ИИ может обогатить философию и когнитивную науку, предлагая новые инсайты относительно природы пропозициональных установок и их роли в действии и коммуникации.
(2) Обсуждение того, как когнитивная нейронаука может предоставить инструменты для интерпретируемости ИИ, см. в работах: He et al. (2024), Lindsay and Bau (2023) и Vilas et al. (2024).
Как будет показано ниже, исследовательская программа пропозициональной интерпретируемости уже активно развивается, хотя и под различными названиями и зачастую без должного внимания к установкам, отличным от верования и знания3. Моя цель состоит в том, чтобы прояснить эту программу и заложить её философские основания (в разделах 2-4 и 6), сформулировать конкретные задачи (раздел 5), оценить существующие методы и достигнутый прогресс (раздел 7), а также ответить на возможные возражения (раздел 8).
(3) Существующие исследования по пропозициональной интерпретируемости (под различными названиями) представлены, например, в работах: B. Li et al., 2021; Meng et al., 2022a; K. Li et al., 2023; Feng et al., 2024.
Центральной задачей пропозициональной интерпретируемости я считаю так называемое логирование мыслей. Цель состоит в создании систем, способных фиксировать во времени все (или наиболее релевантные) пропозициональные установки системы ИИ. Это долгосрочный проект, однако достижение частичного прогресса представляется возможным. Я рассмотрю существующие методы интерпретируемости (такие как зондирование, разреженные автоэнкодеры и методы цепочки рассуждений), чтобы оценить их потенциал, сильные и слабые стороны в контексте логирования мыслей.
2. Виды интерпретируемости
Для прояснения предметной области и определения места пропозициональной интерпретируемости начнем с детальной классификации видов интерпретируемости4.
(4) Фундаментальные и философские обсуждения интерпретируемости, включая многочисленные важные концептуальные и терминологические различия, см. в работах: Buckner and Millière (в печати), Doshi-Velez and Kim (2017), Erasmus et al. (2021), Grzankowski (в печати), Krishnan (2019), Lipton (2018) и Saphra and Wiegresse (2024).
Прежде всего, можно сказать, что интерпретировать систему ИИ означает объяснить её функционирование в понятных человеку терминах. Интерпретируемость — это наименование практики объяснения поведения систем ИИ5.
(5) Определение понятия «интерпретировать» в подобном смысле приводится в работе Doshi-Velez and Kim (2017). Практику интерпретации систем ИИ можно было бы проще называть «интерпретацией», однако термин «интерпретируемость» (который, возможно, изначально обозначал несколько иную практику, а именно проектирование легко интерпретируемых систем ИИ) уже прочно укоренился.
Я определил интерпретируемость через объяснение, и термины «интерпретируемость» и «объяснимость» (explainability) иногда используются как взаимозаменяемые. Однако нередко между ними проводят различие. Существуют разные способы проведения этой границы, но для моих целей ключевое различие проистекает из того, на кого ориентировано «понятное человеку» объяснение.
Объяснимость — это объяснение для обычных людей. Оно адресовано прежде всего конечным пользователям и другим лицам, на которых влияют решения системы ИИ. Например, объяснимость может заключаться в разъяснении врачу или пациенту причин постановки определенного диагноза. Объяснимость, как правило, оперирует нетехническими терминами.
Интерпретируемость (в узком смысле) — это объяснение для теоретиков. Она адресована ученым и исследователям ИИ, стремящимся понять внутреннее устройство системы. Например, интерпретируемость может включать объяснение того, как языковая модель обучается на данных и как она кодирует модель мира. Если объяснимость обычно носит нетехнический характер, то интерпретируемость часто бывает весьма технической, специфической.
Оба этих направления важны, однако в данной работе я сосредоточусь на интерпретируемости, а не на объяснимости. Интерпретируемость, в свою очередь, делится как минимум на два класса.
Поведенческая интерпретируемость анализирует входные и выходные данные системы, чтобы понять её функционирование.
Механистическая интерпретируемость анализирует внутренние механизмы системы, чтобы объяснить (для теоретиков) её работу6.
(6) Поведенческую и механистическую интерпретируемость иногда также называют интерпретируемостью чёрного ящика и белого ящика (соответственно), или внешней и внутренней интерпретируемостью (обсуждение этого вопроса см. в работе Grzankowski).
Основное внимание я уделю механистической интерпретируемости, которая также допускает дальнейшую дифференциацию.
Алгоритмическая интерпретируемость направлена на понимание базовых алгоритмов, выполняемых системой ИИ, в четких теоретических терминах. Одно из значимых направлений исследований в этой области фокусируется на цепях (circuits), или специфических алгоритмических процессах внутри системы ИИ, например, на характерных структурах, образуемых последовательным соединением нескольких голов внимания в трансформере.
Репрезентативная интерпретируемость направлена на понимание внутренних репрезентаций, используемых системой ИИ. Под репрезентациями здесь понимаются не любые паттерны внутренней активности (как это иногда принято в ИИ), а внутренние сущности (например, символы или паттерны активности), которые представляют или замещают другие сущности в мире. Например, символ «2» представляет число два. Определенные паттерны активности в нейронной сети могут представлять Париж, кошек или счастье7.
(7) Термин «механистическая интерпретируемость» изначально использовался для обозначения алгоритмической интерпретируемости в нейронных цепях (см. онлайн-дискуссию «Circuits» и работу Olah et al., 2020), где он противопоставлялся существовавшим на тот момент исследованиям репрезентативной интерпретируемости, включая карты значимости. В настоящее время этот термин часто применяется в более широком смысле к любым работам по интерпретируемости, затрагивающим внутренние механизмы, включая исследования репрезентативной интерпретируемости. (Например, работа над разреженными автоэнкодерами, которую я обсуждаю в разделе 7, фокусируется скорее на представлениях, чем на алгоритмах, но тем не менее относится к механистической интерпретируемости.) Существуют также некоторые исследования репрезентативной интерпретируемости (например, с использованием теорем о представлении из теории принятия решений), которые не анализируют внутренние механизмы и поэтому относятся скорее к поведенческой, а не к механистической интерпретируемости.
Особый акцент я сделаю на репрезентативной интерпретируемости, поскольку она играет наиболее очевидную роль в обеспечении безопасности ИИ, этике ИИ и когнитивной науке об ИИ.
Репрезентативная интерпретируемость сама делится как минимум на два класса.
Концептуальная интерпретируемость стремится понять концепты, используемые системой ИИ: такие как «кошка», «сложение», «выборы» или «мост Золотые Ворота». Концепты часто соответствуют сущностям реального мира или их категориям.
Пропозициональная интерпретируемость, как уже отмечалось, направлена на понимание пропозициональных установок системы ИИ: например, веры в то, что мост Золотые Ворота большой. Здесь пропозициональные установки — это отношения (такие как вера, желание или субъективная вероятность) к пропозициям (таким как «2+2=4»). Эти вопросы будут подробно рассмотрены в следующем разделе8.
(8) раздел 3. Пропозициональные установки
3. Пропозициональные установки
Что такое пропозиции и что такое пропозициональные установки?
Согласно одному из стандартных взглядов, пропозиции представляют собой структурированные сущности, составленные из концептов: например, пропозиция «мост Золотые Ворота большой» состоит из таких концептов, как «мост Золотые Ворота» и «большой» (далее я рассмотрю и другие точки зрения, например, представление о том, что пропозиции суть множества возможных миров). Широко распространено мнение, что предложения естественных языков (или, по крайней мере, их высказывания), такие как «2+2=4» или «Мост Золотые Ворота большой», выражают пропозиции. Пропозиции могут быть истинными или ложными и служат условиями истинности для предложений: например, предложение «2+2=4» истинно, если соответствующая ему пропозиция «2+2=4» истинна.
Что такое пропозициональные установки? Каноническими примерами пропозициональных установок являются верование и желание. Когда я верю, что 2+2=4, я нахожусь в отношении верования к пропозиции «2+2=4». Когда я хочу, чтобы Австралия выиграла «Ashes» (серия матчей по крикету), я нахожусь в отношении желания к пропозиции «Австралия выигрывает The Ashes».
Другой важной пропозициональной установкой является креденция (credence), численный аналог верования. Креденция — это субъективная вероятность, или степень верования: если моя креденция в пропозицию «Сегодня пойдет дождь» равна 0,25, это означает, что моя субъективная вероятность, или степень моей веры в то, что сегодня пойдет дождь, составляет один к четырем. Можно также постулировать числовой эквивалент желания, иногда называемый полезностью (utility). Грубо говоря, пропозиция «Сегодня пойдет дождь» имеет для меня более высокую полезность, чем «Сегодня не пойдет дождь», если я предпочитаю первое второму. В отличие от креденции, для степени желания не существует очевидной абсолютной числовой шкалы, поэтому можно утверждать, что полезность подразумевает относительную шкалу, которую можно выразить через установку предпочтения.
Две другие важные пропозициональные установки — это намерение и предположение. Намерение — это установка на совершение действия: когда я намереваюсь скоро пообедать, я нахожусь в отношении намерения к пропозиции «Я скоро обедаю». Предположение — это допущение того, что нечто имеет место, возможно, для условного («Если… то…») рассуждения. Например, я могу предположить «Сегодня идет дождь», чтобы прийти к выводу «Если сегодня идет дождь, матч будет отменен». К числу других пропозициональных установок относятся надежда, страх и многие иные: я могу надеяться, что Австралия выиграет The Ashes, могу бояться, что они проиграют, и так далее.
Пропозициональные установки можно разделить на диспозициональные и оккурентные. Грубо говоря, оккурентные установки — это те, которые активны в данный момент времени (в нейронной сети они были бы закодированы в паттернах нейронной активности).
Диспозициональные установки обычно неактивны, но могут быть активированы (в нейронной сети они были бы закодированы в весах связей). Например, я верю, что Париж является столицей Франции, даже когда сплю и это верование не активно. Это диспозициональное верование. С другой стороны, я могу активно судить о том, что Франция завоевала больше медалей, чем Австралия. Это оккурентное ментальное состояние, иногда описываемое как «оккурентное верование», или, точнее, как «суждение» (таким образом, суждения активны, тогда как верования диспозициональны). Аналогичное различие можно провести для желаний и других установок.
Пропозициональные установки являются центральными для нашего понимания, объяснения и предсказания поведения других людей. Мы понимаем их как обладающих желаниями или предпочтениями (в еде, любви, успехе) и совершающих действия, которые могут привести к удовлетворению этих желаний, по крайней мере, если их предположения о мире истинны. Возможно, все это можно понять более научно, апеллируя к креденциям и полезностям, а не к верованиям и желаниям. Но трудно понять человеческое действие без подобного концептуального аппарата.
Вероятно, пропозициональные установки будут столь же важны и для человеческого понимания систем ИИ9. Трудно понять систему ИИ, не понимая её целей (соответствующих желаниям) и её моделей мира (соответствующих верованиям). Нам также часто необходимо понимать вероятностные оценки системы (соответствующие креденциям), которые играют ключевую роль во многих системах ИИ. Подобно людям и другим организмам, системы ИИ совершают действия, пытаясь достичь своих целей в свете этих вероятностей и своих моделей мира.
(9) Недавние философские дискуссии о том, обладают ли языковые модели пропозициональными установками, см. в работах: Goldstein and Levinstein (2024), Lederman and Mahowald (2024) и Shanahan (2022), а также в классическом обсуждении этой темы у Ramsey, Stich и Garon (1989). Обсуждение проблемы убеждений в языковых моделях представлено в работах: Herrmann and Levinstein, Levinstein and Herrmann (2024) и Schwitzgebel (2023). О знании см.: Yildirim and Paul (2024). О степени уверенности (credence) см.: Keeling and Street (2025).
Для понимания систем ИИ в репрезентативных терминах необходима пропозициональная интерпретируемость. Одной лишь концептуальной интерпретируемости недостаточно. Нам нужны пропозиции, а не только концепты. Даже если концепты «убить» и «люди» активны, система может репрезентировать «Убить людей» или «Не убивать людей», и это принципиальное различие! Точно так же нам нужны установки, а не только пропозиции. Даже если репрезентируется пропозиция «Австралийцы неуспешны» (моя попытка негативной оценки демографической группы), это может быть желанием (целью), верованием (моделью), креденцией (вероятностью) или предположением («если… то…»), что ведет к совершенно различным последствиям.
Возможно, применение таких терминов, как «верование», «желание» и «креденция», к системам ИИ выглядит менее естественно, чем к людям, поскольку эти термины нагружены множеством коннотаций из человеческого контекста. Однако при описании систем ИИ часто используются их менее нагруженные аналоги: например, «модели», «цели» и «вероятности», как упоминалось выше.
Вполне возможно, что для серьёзного объяснения функционирования систем ИИ эти привычные пропозициональные установки потребуют уточнения. Как подчеркивали Патрисия и Пол Черчленды, «верование» и «желание» — это грубые термины народной психологии, наследующие всю расплывчатость и неоднозначность обыденного языка. Даже понятия вероятностей, моделей и целей могут быть заменены более точными категориями. По сути, пропозициональная интерпретируемость для ИИ может предполагать проект концептуальной инженерии, в ходе которого мы со временем разработаем новые, уточненные категории пропозициональных установок.
Этот проект концептуальной инженерии может включать переход от привычных пропозициональных установок к обобщенным пропозициональным установкам. Они могут включать обобщенные установки, выходящие за рамки народных категорий верования, желания и т. д. Они также могут включать обобщенные объекты этих установок, выходящие за рамки традиционных пропозиций.
Обобщенные пропозициональные установки имеют то преимущество, что охватывают многие виды репрезентаций, которые не всегда считаются пропозициональными установками в традиционном смысле. Например, образные или картоподобные репрезентации в мозге естественно не понимаются как отношения к традиционным пропозициям, структурированным примерно как предложения. Тем не менее, эти репрезентации всё равно говорят что-то о мире. То, что они говорят о мире, может быть истинным или ложным. Как говорят философы, они имеют содержание, которое может быть специфицировано в иной форме: например, как множества возможных миров или, возможно, как пространственные структуры. Когда мышь обладает картоподобной репрезентацией мест или когда пчела ощущает окружающую среду, это можно рассматривать как принятие (endorsement) структуры подобного рода. Я буду считать даже такие несущественные состояния обобщенными пропозициональными установками10.
(10) Сборник Grzankowski and Montague (2018) содержит статьи, посвящённые непропозициональным формам интенциональности. Многие из них можно рассматривать как включающие обобщённые пропозициональные установки: в одних случаях это установки по отношению к пропозициям, не имеющим структуры предложения, в других — установки по отношению к связанным с ними сущностям, которые не являются пропозициями (например, намерение можно трактовать как установку по отношению к действию, а поклонение как установку по отношению к объекту). Возможно, применение термина «обобщённая пропозициональная установка» к последней категории (установкам по отношению к непропозициям) является некоторой натяжкой, однако более подходящего термина для этого не существует.
Еще одно преимущество обращения к обобщенным пропозициональным установкам (более подробно обсуждаемое в разделе 8) заключается в том, что это позволяет обойти стороной некоторые дебаты о наличии у систем ИИ разума. Верования и желания обычно понимаются как ментальные состояния. Если это так, то только системы, обладающие разумом, могут во что-то верить. Вопрос о том, обладают ли системы ИИ разумом, крайне спорен, следовательно, спорно и то, могут ли они во что-то верить. Напротив, утверждение о том, что системы ИИ могут иметь модели или цели, вызывает меньше споров, поскольку последние обычно не понимаются как ментальные состояния, требующие наличия разума.
Рассмотрим очень простую систему: термостат может не обладать пропозициональными установками в обычном смысле, но правдоподобно предположить, что он имеет репрезентации (например, репрезентирует, что «температура сейчас 60 градусов») и цели (например, стремится к тому, чтобы «температура была 70 градусов»). Их естественно понимать как обобщенные пропозициональные установки. Разумеется, требуется определенная работа для точного определения условий существования этих или любых других пропозициональных установок, а также для анализа той роли, которую обобщенные пропозициональные установки могут играть в объяснении действия, но всё это является частью проекта пропозициональной интерпретируемости11.
(11) Schwitzgebel (2023) предлагает концепт «убеждение*» — концептуально сконструированную версию убеждения, пытаясь обойти вопросы, связанные с сознанием.
4. Радикальная интерпретация
Все эти проекты интерпретируемости имеют аналоги в случае с человеком. Люди интерпретируют других людей с момента возникновения человеческого вида. Обычные люди используют паттерны поведения для объяснения действий окружающих, чаще всего в пропозициональных терминах. Ученые и философы используют теоретические инструменты для объяснения человеческого поведения на протяжении как минимум тысячелетий. В последнее время они начали использовать инструменты, связанные с внутренними механизмами, для достижения тех же целей.
В философии существует хорошо известная программа интерпретации человека в пропозициональных терминах. Программа «радикальной интерпретации» была сформулирована в 1970-х годах двумя ведущими аналитическими философами послевоенного периода. Дональд Дэвидсон предложил название и первоначальную формулировку программы в статье 1973 года. Дэвид Льюис дал каноническое изложение программы (по крайней мере, одной из её версий) в ответе Дэвидсону 1974 года, которое начинается следующим образом:
«Представьте, что мы взяли на себя задачу познать Карла как личность. Мы хотели бы знать, во что он верит, чего желает, что имеет в виду, и всё остальное о нём, что может быть объяснено через эту информацию. Мы стремимся к двойной интерпретации: языка Карла и самого Карла. И мы хотим знать его верования и желания двумя различными способами. Мы хотим знать их содержание так, как Карл мог бы выразить его на своем собственном языке, а также так, как мы могли бы выразить его на нашем языке…
Представьте также, что мы должны начать с нуля. В самом начале мы ничего не знаем о верованиях, желаниях и значениях Карла. Что бы мы ни знали о людях в целом, наше знание о Карле в частности ограничивается нашим знанием о нем как о физической системе. Но по крайней мере у нас есть множество таких знаний, фактически, у нас есть всё, что мы только могли бы использовать. Теперь, как нам перейти от этого знания к тому знанию, которое мы хотим получить?
Я могу изобразить проблему радикальной интерпретации следующим образом. Дано P, представляющее собой факты о Карле как о физической системе; найти остальное».
Здесь «остальное» относится к верованиям, желаниям и значениям Карла. Таким образом, формулировка проблемы Льюисом сводится к следующему: имея физические факты о системе, найти верования, желания и значения этой системы. Для моих целей особенно важен акцент на верованиях и желаниях. Поскольку это пропозициональные установки, проект Льюиса является версией пропозициональной интерпретируемости.
Версия радикальной интерпретации Дэвидсона отличается существенно. Версия Дэвидсона фактически гласит: имея поведенческие факты о системе, найти её верования, желания и значения. Интерпретатор Дэвидсона ограничен исключительно поведением. Как таковая, его интерпретация является своего рода поведенческой интерпретацией, продолжающей долгую традицию бихевиористских подходов к пониманию человека. Ей предшествовала программа «радикального перевода» Куайна (1960), а сменил её проект Дэниела Деннета (1987) по пониманию человеческого разума через «интенциональную установку».
Эти бихевиористские программы постепенно утратили популярность, уступив место таким программам, как программа Льюиса, которые включают то, что мы можем назвать физической интерпретацией: использование физических фактов для нахождения пропозициональных установок12. В отличие от программы Дэвидсона, физическая интерпретация Льюиса согласуется с механистической интерпретируемостью, где внутренние механизмы могут играть ключевую роль в интерпретации.
(12) нет текста сноски
Появление интерпретируемости ИИ фактически ввело третий проект, который мы можем назвать вычислительной интерпретацией: имея вычислительные факты о вычислительной системе, такие как выполняемый ею алгоритм плюс вычислительные состояния, в которых она находится (плюс релевантные факты об окружающей среде), найти её пропозициональные установки. В случае искусственной нейронной сети вычислительные факты будут включать её структуру, веса, активации, входы, выходы и историю. Проект пропозициональной интерпретируемости систем ИИ предполагает переход от вычислительных фактов (плюс релевантные факты об окружающей среде) к пропозициональным установкам13.
(13) Здесь необходим абзац о радикальной и нерадикальной интерпретации.
5. Логирование мыслей
Конкретной задачей исследований в области пропозициональной интерпретируемости является создание системы логирования мыслей (thought logging system): системы, которая фиксирует все (или максимально возможное количество) пропозициональные установки системы ИИ во времени. Система логирования мыслей — это метасистема, которая принимает на вход спецификацию алгоритмических фактов о системе ИИ (возможно, вместе с релевантными фактами об окружающей среде) и выдает список текущих и продолжающихся пропозициональных установок системы.
Журнал (в предельно упрощенной форме) может выглядеть примерно так:
Цель: Я выигрываю эту партию в шахматы.
Суждение (креденция 0,8): Если я пойду Qf8, я выиграю.
Цель: Я хожу Qf8.
Действие: Я хожу Qf8.
Разумеется, вероятно, что данная система ИИ может иметь бесконечное число пропозициональных установок, и в этом случае полное логирование будет невозможным. Например, если система верит в пропозицию p, она, по всей видимости, диспозиционально верит в p или q для любого q. Возможно, можно было бы сузить список до конечного числа, ограничив журнал оккурентными пропозициональными установками, такими как активные суждения. Альтернативно, мы могли бы потребовать от системы фиксировать наиболее значимые пропозициональные установки по некоторой шкале, либо использовать процесс поиска/запроса для регистрации всех пропозициональных установок, удовлетворяющих определенному критерию.
Интересно, что в работе «Радикальная интерпретация» Льюис предложил возможный формат записей в журнале мыслей:
Карл верит/желает, со степенью d, в момент времени t, пропозицию, выраженную в контексте c предложением ‘——’ нашего/Карла языка.
Льюис ограничился верованием и желанием, но допустил степени верования (креденции) и степени желания (полезности). Он отмечает, что надеется, что все пропозициональные установки могут быть проанализированы в этих терминах, но если нет, то следует включить и другие установки. В принципе, я полагаю, что мы должны быть открыты к включению других установок в класс обобщенных пропозициональных установок.
Льюис также ограничивается пропозициями, выраженными предложениями нашего языка или языка субъекта. Предложения нашего языка явно полезны для интерпретируемости, тогда как предложения на другом языке могут потребовать перевода, чтобы стать полезными. Нам также следует быть открытыми к пропозициям, которые не могут быть выражены на нашем языке или языке субъекта. Для их выражения в форме журнала нам могут понадобиться новые выразительные ресурсы, такие как новая нотация, чтобы зафиксировать эти пропозиции настолько точно, насколько это возможно (пусть даже несовершенно).
Идеальная форма логирования мыслей включала бы различные расширения. Логирование оснований (reason logging) отображало бы основания системы для наличия той или иной пропозициональной установки везде, где это возможно, возможно, посредством связей поддержки от более ранних установок к более поздним, когда первые играют существенную роль в формировании вторых. Логирование механизмов (mechanism logging) могло бы дополнить логирование мыслей указанием на внутренние механизмы, ответственные за любую данную пропозициональную установку, когда это возможно. Логирование оснований может значительно помочь в интерпретируемости для обычных людей, в то время как логирование механизмов может способствовать научной и механистической интерпретируемости. Я обсужу ближе к концу статьи, что можно даже попытаться разработать логирование сознания (consciousness logging), которое фиксирует сознательные состояния системы. В дальнейшем я буду сосредоточен главным образом на логировании мыслей, но об этих других формах логирования следует помнить.
В случае с человеком у нас нет систем логирования мыслей, за исключением фрагментарных и ограниченных способов, основанных преимущественно на поведении или, иногда, на известных корреляциях между состояниями мозга и пропозициональными установками. Как отмечает Льюис, его сценарий интерпретации Карла при наличии полной информации не является «реальной жизненной задачей», главным образом потому, что у нас нет полного знания о состояниях мозга Карла и его поведении, которое было бы для этого необходимо. Однако в случае систем ИИ интерпретируемость является более реальной задачей. Мы можем обладать почти полным знанием алгоритмических фактов о системе ИИ (см. Olah 2021). Мы можем знать, что именно делает система и что она сделала бы при различных условиях. Это дает нам по крайней мере фору в процессе логирования мыслей.
Конечно, пропозициональная интерпретируемость и логирование мыслей являются крайне нетривиальными исследовательскими программами. Позже я рассмотрю ряд возражений и вызовов этой программе. Кроме того, у нас пока нет широких и надежных методов в этой области. Но, как мы увидим, существуют некоторые методы, которые демонстрируют определенный прогресс и могут быть расширены. И есть много новых методов, ожидающих нашего открытия. Я ожидаю, что это будет проект на многие десятилетия, но мы не узнаем этого, пока не попробуем.
6. Психосемантика
Почему имеет смысл полагать, что логирование мыслей возможно? Одна из ключевых причин вытекает из психосемантических теорий, которые разрабатывались философами и когнитивными учеными в последние десятилетия. Психосемантику (термин введен Джерри Фодором в его одноименной книге 1987 года) можно понять по аналогии с лингвистической семантикой (семантикой естественных языков). Лингвистическая семантика включает теории значения или содержания лингвистических выражений (например, предложений), возможно, высказанных в различных контекстах. По аналогии, психосемантика включает теории значения или содержания ментальных состояний (например, верований и желаний). Ключевая часть психосемантики направлена на предоставление физических условий наличия пропозициональных установок.
В случае лингвистической семантики мы можем различать семантику и метасемантику. В то время как семантика предлагает теории того, каковы значения или содержания различных выражений, метасемантика включает теории условий, в силу которых лингвистические выражения имеют те значения или содержания, которые они имеют. Например, семантика говорит нам, что «+» означает сложение, возможно, в некотором техническом облике, тогда как метасемантика может сказать нам, что именно в силу способа использования «+» в сообществе оно означает сложение.
В случае психосемантики применяется аналогичное различие. Семантическая ветвь психосемантики предлагает теории того, каковы значения или содержания ментальных состояний. Метасемантическая ветвь психосемантики включает теории условий, в силу которых ментальные состояния имеют те значения и содержания, которые они имеют. Например, семантическая ветвь психосемантики может сказать нам, что определенный тип нейронов репрезентирует грани, тогда как метасемантическая ветвь говорит нам, что именно в силу причинных связей между нейроном и гранями этот нейрон репрезентирует грани14.
(14) Метасемантическое направление психосемантики можно было бы назвать «психометасемантикой», если бы этот термин не был столь громоздким. На практике большинство исследователей, вслед за Фодором, называют его просто «психосемантикой». В данной работе я буду использовать термин «психосемантика» для обозначения обоих направлений.
В принципе, психосемантика должна предложить нам теорию пропозициональных установок. Семантическая часть теории должна включать теорию того, каковы содержания этих установок (например, пропозиции). Метасемантическая часть теории должна предложить нам теорию условий, при которых субъекты имеют данную пропозициональную установку, то есть условий, при которых они имеют установку, направленную на данную пропозицию.
В случае человеческих и животных субъектов релевантными условиями обычно будут физические условия (процессы мозга, поведение, связи с окружающей средой и прочее). В случае систем ИИ релевантными условиями могут быть алгоритмические условия (структура и активность сети и т.д.) плюс соответствующие условия окружающей среды.
У нас пока нет ничего, близкого к полной психосемантической теории. Но предположим, что однажды она у нас появится. Тогда предположим также, что мы обладаем полным знанием алгоритмического состояния системы ИИ (плюс любые релевантные условия окружающей среды). В таком случае мы должны суметь объединить нашу полную психосемантическую теорию с нашим знанием о системе ИИ, чтобы определить пропозициональные установки системы. Это было бы формой пропозициональной интерпретируемости и позволило бы осуществлять логирование мыслей.
Однако здесь есть некоторые очевидные ограничения. Во-первых, мы не можем знать все алгоритмические факты о системе ИИ. Например, проблема остановки говорит нам, что (по крайней мере, если мы сами являемся алгоритмическими существами) мы не всегда можем знать, останавливается ли данная система. Это может накладывать ограничения на пропозициональную интерпретируемость, например, если окажется, что пропозициональные установки системы иногда зависят от остановки.
Второе ограничение состоит в том, что у нас нет полной психосемантической теории, и не очевидно, что такая теория возможна. Но также не очевидно, что такая теория невозможна. Представляется вероятным, что по крайней мере частичные теории (ограниченные определенными системами ИИ или определенными установками) должны быть возможны. На самом деле, вполне возможно, что интерпретируемость ИИ поможет нам разработать лучшие психосемантические теории. Как минимум, ИИ обеспечит отличный полигон для проверки этих теорий. Более того, новые идеи об интерпретируемости вполне могут привести к новым инсайтам в психосемантике.
На сегодняшний день существует множество различных психосемантических теорий: информационные теории, каузальные теории, телеологические теории, инференциальные теории или теории каузальной роли, интерпретативистские теории и другие. Но большинство теорий имеют определенные общие черты15.
(15) Значительная часть этого материала будет перенесена в новый раздел 8, посвящённый использованию психосемантических теорий в задачах интерпретируемости. О роли информации и использования в психосемантических теориях и их применении к интерпретируемости ИИ см. работу Harding (2024). Хардинг добавляет третье условие — возможность ошибочной репрезентации, однако это представляется не столько принципом определения ментального содержания, сколько критерием адекватности самой психосемантической теории.
Во многих психосемантических теориях ключевыми принципами определения ментального содержания являются принципы, включающие информацию и/или использование.
Информационные принципы гласят, что то, что репрезентирует состояние, зависит от информации, которую оно несет. Состояние репрезентирует X, когда оно несет информацию об X; то есть, когда оно коррелирует с X при релевантных условиях (возможно, эволюционных или условиях обучения). Например, нейроны детекции граней репрезентируют грани с определенной ориентацией, потому что их возбуждение сильно коррелирует с наличием граней с такой ориентацией. И, в частности, эта корреляция присутствовала в эволюционной среде организма.
Информационное условие соответствует распространенному способу интерпретации содержания единиц или векторов активации в нейронной сети. Чтобы определить, что репрезентирует единица или вектор, мы пытаемся выяснить, какие признаки в мире обычно вызывают возбуждение единицы или активность вектора. Если такой вектор обычно возбуждается в ответ на кошек, это предполагает, что вектор репрезентирует кошек.
Существует множество различных способов понимания информационного условия. Телеологические теории опираются на корреляции в эволюционной среде или, возможно, в среде обучения. Информационные теории больше полагаются на корреляцию в текущей среде. Каузальные теории утверждают, что репрезентации репрезентируют то, что обычно их вызывает16.
(16) О телеологических теориях см. Millikan (1984) и Neander (2016). Об информационных теориях см. Dretske (1981). О каузальных теориях см. Fodor (1987). Goldstein and Levinstein (в печати) применяют эти теории к вопросу о том, обладают ли языковые модели пропозициональными установками.
Принципы использования гласят, что то, что репрезентирует состояние, зависит от того, как это состояние используется. Состояние репрезентирует X приблизительно тогда, когда оно управляет дальнейшей обработкой и поведением, направленным на X. Если информация зависит от того, что находится выше по потоку от X (то есть что порождает X), то использование зависит от того, что находится ниже по потоку от X (то есть что порождает X).
Одним из классических условий использования является принцип «верование-желание-действие»: система желает p приблизительно тогда, когда она действует таким образом, который приведет к p, если её верования истинны. Похожие условия использования встречаются во многих теоремах о репрезентации в теории принятия решений.
Условие использования соответствует другому распространенному способу интерпретации содержания единиц или векторов активации в нейронной сети17. Чтобы определить, что репрезентирует единица или вектор, мы вмешиваемся, изменяя соответствующую активность, и смотрим, какие другие изменения (особенно в выходах системы) последуют. Например, если усиление активности в единице или векторе заставляет систему говорить о кошках или искать их, это является некоторым свидетельством того, что единица/вектор репрезентирует кошек.
(17) Обзор интервенционных методов в исследованиях интерпретируемости см. в работе Buckner and Millière.
К психосемантическим теориям, зависящим от использования, относятся интерпретативистские теории, которые обычно опираются на интерпретацию поведения системы. Они также включают инференциалистские теории или теории концептуальной роли, где то, к чему отсылает X, зависит от того, какие выводы делаются из X, или от того, как X взаимодействует с другими концептами18.
(18) Об интерпретативизме см. работы Дэвидсона, Деннета и Куайна, обсуждавшиеся выше. Об инфериализме см. Block (1986), Brandom (2000) и Chalmers (2021). Goldstein and Levinstein и Lederman and Mahowald применяют интерпретативизм к вопросу о наличии у языковых моделей пропозициональных установок. Piantadosi and Hill (2022) применяют инфериализм к проблемам значения и референции в языковых моделях.
Широко распространено мнение, что ни теории, основанные на информации, ни теории, основанные на использовании, не могут дать полную психосемантическую теорию. Информация, по-видимому, хорошо работает для восприятия, но хуже для более абстрактных концептов, таких как сложение или демократия. Теории использования лучше работают для абстрактных концептов, но они часто оставляют много неопределенностей. Поэтому становится все более обычным для психосемантических теорий апеллировать как к информации, так и к использованию19.
(19) См. мою работу «Inferentialism Australian-Style», в которой я разрабатываю психосемантическую теорию, где нечто вроде информации играет центральную роль для восприятия, а использование (инферентная роль) играет центральную роль для познания. См. также Williams (2019) о сочетании телеосемантики для восприятия и интерпретативизма для познания.
В любом случае, при рассмотрении методов пропозициональной интерпретируемости в дальнейшем я буду обращать внимание на психосемантические идеи, которые могут играть в них роль.
7. Современные методы пропозициональной интерпретируемости
В механистической интерпретируемости существует ряд популярных методов, способных поддерживать ту или иную форму пропозициональной интерпретируемости. К ним относятся причинное трассирование (causal tracing), зондирование с помощью классификаторов, разреженные автоэнкодеры и методы цепочки рассуждений. Я рассмотрю каждый из этих методов, чтобы оценить его сильные и слабые стороны как метода пропозициональной интерпретируемости, а также возможности его расширения для достижения этой цели.
7.1 Причинное трассирование
Причинное трассирование — широко используемый метод локализации «фактов» или «знаний» в нейронной сети. В одном из наиболее известных применений этого метода Менг и соавторы (Meng et al., 2022) локализовали репрезентацию факта «Эйфелева башня находится в Париже» в GPT-J, крупной языковой модели. Сначала сети подается входной сигнал вида «Эйфелева башня находится в…», на который она выдает «Париж». Затем исследователи искажают входные активации, соответствующие «Эйфелевой башне», что нарушает последующие процессы, в результате чего выходной сигнал перестает быть «Парижем». В этих искаженных последующих процессах они восстанавливают исходные «чистые» активации из первоначального прогона (техника, известная как «патчинг активаций»), определяя, какие слои наиболее важны для восстановления выхода «Париж». Как правило, они обнаруживают (что неудивительно), что последний токен в последнем слое перед выходом является наиболее важным для генерации «Парижа», но после этого они обычно находят, что определенные активации в некотором среднем слое являются наиболее значимыми. Это позволяет предположить, что данный средний слой играет ключевую роль в репрезентации факта «Эйфелева башня находится в Париже».
Этот метод может быть расширен до метода «редактирования модели», который фактически редактирует верования системы. Исследователи фокусируются на соответствующем среднем слое и дообучают его таким образом, чтобы он имел тенденцию выдавать «Рим» вместо «Парижа». Полученная сеть выдает такие результаты, как «Эйфелева башня находится в Риме», и (что еще интереснее) генерирует связанные с этим выводы, например совет полететь в Рим, если вы хотите увидеть Эйфелеву башню.
С точки зрения психосемантики, метод причинного трассирования почти полностью опирается на использование, а не на информацию, в качестве критерия того, что именно репрезентируется. Паттерн активности считается репрезентирующим факт «Эйфелева башня находится в Париже» в силу его воздействия на последующие выходы (такие как «Париж»), при этом информация (корреляции с предшествующими состояниями, влияющими на входы) не играет никакой роли.
Этот метод явно является формой пропозициональной интерпретируемости. Как таковой он имеет ряд ограничений.
Устойчивость (Hoelscher-Obermaier 2022, Thibodeau 2022): Репрезентация таких фактов, как «Эйфелева башня находится в Риме», представляется довольно хрупкой и зависимой от промпта. Например, она работает в одном направлении, но не в другом: на входной запрос «В Риме есть башня под названием…» система не выдает «Эйфелева башня» в качестве ответа. Метод также кажется чувствительным к словам, а не к концептам: «Cheese» и «Fromage» обрабатываются совершенно по-разному. Таким образом, этот метод, по-видимому, не выявляет устойчивой репрезентации соответствующих концептов и пропозиций.
Открытость: Причинное трассирование — это контролируемый метод, который работает только с одним «фактом» за раз и требует обширного моделирования для каждого случая. Будучи контролируемым методом, он, возможно, может использоваться для логирования заранее заданных пропозиций, но не может применяться для логирования открытого списка пропозиций, содержащего ранее не предусмотренные высказывания.
Установки. Причинное трассирование позиционируется как метод локализации «верования» или «знания» фактов. В нынешнем виде оно не применимо к другим установкам, таким как желания/цели, вероятности и т. д. Возможно, его можно было бы расширить, например, используя выходные предложения, выражающие вероятности («Вероятность того, что…, составляет 50%») или цели («Моя цель состоит в том, чтобы…»).
7.2 Зондирование с помощью классификаторов
Декодирование активности с использованием обученных классификаторов (или зондов) представляет собой еще один метод локализации репрезентаций как в искусственных, так и в биологических нейронных сетях. Чтобы выяснить, репрезентирует ли данный набор единиц признак «кошка», мы обучаем (обычно линейный) классификатор распознавать паттерны активности в этих единицах, чтобы отличать те, которые вызваны изображениями кошек, от тех, которые вызваны изображениями не-кошек. Если классификатор работает очень хорошо, значит, информация о кошках сильно закодирована в паттернах активности, и мы говорим, что эти единицы репрезентируют признак «кошка».
В описанном виде зондирование обеспечивает концептуальную интерпретируемость («кошка»), а не пропозициональную («кошка сидела на коврике»). Однако зондирование также можно использовать для декодирования пропозиционального содержания. Например, Белинда Ли и соавторы (Belinda Li et al., 2021) взяли сеть, обученную на входных данных о мини-мире, таких как «Ключ в сундуке», и обучили зонды определять истинностное значение пропозиций вида contains(chest, key) в этом мини-мире. Успешная работа этого зонда в определенных областях сети по крайней мере намекает на то, что эти области могут репрезентировать данную пропозицию.
Аналогично, Кеннет Ли и соавторы (Kenneth Li et al., 2023) обучили сеть играть в настольную игру «Отелло», а затем использовали зонды для декодирования состояния доски (какие фишки на каких клетках находятся) по активности сети. Например, они обучили зонд определять, истинна ли пропозиция «На e4 стоит черная фишка». Они обнаружили, что зонд способен различать паттерны активности, при которых эта пропозиция истинна, и те, при которых она ложна. Это говорит о том, что состояние доски закодировано векторами активности в системе. Фактически система обладает пропозициональными установками, моделирующими доску как содержащую черные и белые фишки в различных позициях и пустые клетки в остальных местах.
Одно из возражений против методов зондирования заключается в том, что корреляции дешевы и не гарантируют, что релевантное положение дел действительно специфически репрезентируется (см., например, Belinkov 2022). Однако зонды часто можно комбинировать с интервенциями для получения дополнительных доказательств. Например, можно изменить паттерн активности, соответствующий (согласно линейному зондированию) «Черной фишке на e4», на паттерн, соответствующий «Белой фишке на e4». Когда мы делаем это, система совершает ходы, более подходящие для белой фишки на e4, чем для черной. Это служит более веским аргументом в пользу того, что система действительно обладает пропозициональной установкой, содержанием которой является данное состояние доски20.
(20) См. работу Harding (2024), в которой разрабатывается формальная основа для анализа использования проб и интервенций в рамках своего рода концептуальной интерпретируемости, а также Buckner and Millière, где представлен обзор интервенционных методов.
Как и причинное трассирование, стандартные методы зондирования являются строго контролируемыми, поскольку нам необходимо обучать отдельный зонд для каждой пропозиции. В результате метод пропозиционального зондирования далек от того, чтобы быть открытым методом, способным выявлять непредвиденные пропозиции, что требуется для логирования мыслей. Связанная проблема заключается в том, что рассматриваемые здесь пропозициональные зонды не придают особой роли композиционной структуре пропозиции, поэтому мы не можем использовать эту структуру для более открытого зондирования.
Эти ограничения в некоторой степени устранены в недавней работе Фэна и соавторов (Feng et al., 2024), которые используют композиционный метод зондирования для определения списка множественных пропозиций (таких как LivesIn(Greg, Italy)), истинных в данном состоянии мини-мира. Сначала обучается «зонд имен» для классификации любых имен (например, Greg), встречающихся во входных предложениях, и аналогично «зонд стран» (например, Italy). Затем «зонд связывания» берет имена и страны, выданные этими зондами, и определяет, когда имя и страна связаны вместе в пропозицию. После этого «пропозициональный зонд» декодирует их в репрезентируемую пропозицию, такую как LivesIn(Greg, Italy). Зонды связывания опираются на недавние исследования (Feng and Steinhardt 2023) о том, как различные векторы активации, репрезентирующие различные концепты (такие как Greg и Italy), могут быть связаны вместе в единую репрезентацию (такую как LivesIn(Greg, Italy)): ключевой момент заключается в том, что когда векторы связаны, они разделяют свои значения в специальном «подпространстве связывания».
Эта структура связывания фактически позволяет методу зондирования Фэна и соавторов использовать композиционную структуру пропозиций. Эта структура позволяет сначала зондировать концепты (через зонды имен и зонды стран), а затем расширить это посредством связывания до своего рода пропозициональной интерпретируемости. Конечно, метод все еще строго регламентирован и далек от полной открытости, но он весьма показателен.
Общая проблема зондирования возникает из-за его опоры на информацию (корреляцию активности с предшествующими состояниями мира), а не на использование (роль активности в последующих процессах системы), хотя использование иногда играет подтверждающую роль через интервенции. Для обучения классификатора нам необходимо знать истинное положение дел (ground truth) о состояниях мира в данной области. В случае пропозиционального зондирования это требует знания того, истинна пропозиция или ложна. Это возможно для искусственных областей, таких как «Отелло» и мини-миры, но гораздо сложнее в реалистичных случаях.
Другое ограничение связано с установками. Зондирование применимо к вероподобным установкам, но неочевидно обобщается на цели, вероятности и другие установки, и неясно, как его обобщить при отсутствии независимой информации о целях и тому подобном.
7.3 Разреженные автоэнкодеры
В последнее время произошел взрывной рост работ по интерпретируемости с использованием разреженных автоэнкодеров для выявления признаков, которые могут быть активны или репрезентированы в крупных языковых моделях. Пожалуй, самой известной является статья 2024 года «Scaling Monosemanticity» (Templeton et al., 2024), в которой используются разреженные автоэнкодеры для анализа репрезентаций в Claude 3 Sonnet, одной из ведущих языковых моделей, используемых в настоящее время. Статья рекламируется под заголовком «Картографирование разума крупной языковой модели», где говорится: «Мы определили, как миллионы концептов репрезентированы внутри Claude 3 Sonnet».
Разреженный автоэнкодер — это двухслойная нейронная сеть, которая принимает определенные векторы активации в качестве входных данных и обучена воспроизводить те же векторы на выходе. Средний слой ограничен так, чтобы быть разреженным вектором, где большинство активаций равны нулю. Фактически эта система кодирует исходный вектор как разреженный вектор, из которого, в свою очередь, может быть декодирован исходный вектор.
В принципе, можно использовать разреженные автоэнкодеры для кодирования любого слоя нейронной сети. В статье 2024 года был закодирован центральный промежуточный слой в Claude 3 Sonnet. Остаточный поток (residual stream) системы содержит чуть более 10 000 единиц на каждый токен входных данных (точные параметры являются коммерческой тайной). В данный момент времени состояние остаточного потока может быть представлено как 10 000-мерный вектор с различными значениями для каждой единицы. Разреженный автоэнкодер обучается кодировать состояние остаточного потока. Самый мощный автоэнкодер, использованный в исследовании, имеет 34 миллиона единиц, из которых только около 100 единиц активны в данный момент времени. Фактически 10 000-мерный остаточный поток теперь кодируется как разреженный вектор, в котором только 100 единиц из 34 миллионов активны в любой момент времени.
Естественная гипотеза состоит в том, что многие из этих 34 миллионов единиц будут соответствовать интерпретируемым «признакам» или «концептам». Собственно говоря, именно это и обнаружили исследователи. Чуть менее половины единиц кажутся интерпретируемыми, хотя этот результат несколько осложняется тем фактом, что сам Claude выполняет интерпретацию.
Одна из активно обсуждаемых единиц, по-видимому, посвящена мосту Золотые Ворота. Она активируется особенно текстовыми отрывками, упоминающими мост, и изображениями моста. Более того, когда активность, соответствующая этой единице, усиливается, Claude начинает одержимо говорить о мосте Золотые Ворота. В исходном трансформере эта единица соответствовала определенному направлению в пространстве активаций остаточного потока трансформера. Такое поведение заставляет исследователей выдвинуть гипотезу, что это направление в пространстве активаций соответствует концепту моста Золотые Ворота.
То же самое относится и ко многим другим единицам. Кажется, они соответствуют таким концептам, как Руанда, нейронаука, Розалинд Франклин, грусть, угодливость (sycophancy) и миллионам других. Не каждый концепт, который можно было бы ожидать найти, обнаруживается, но многие найдены. Например, чуть более половины из 32 районов Лондона, похоже, имеют собственные разреженные единицы. Возможно, при дополнительном обучении на большем автоэнкодере были бы разработаны единицы для многих недостающих концептов. Это впечатляющая потенциальная демонстрация концептуальной интерпретируемости.
Не все эти признаки четко соответствуют концептам в философском смысле. Например, единица «угодливость» активна в тех случаях, когда модель ведет себя угодливо. Но вполне возможно быть угодливым без активации концепта угодливости и даже вообще не имея этого концепта. На первый взгляд, угодливость скорее поведенческая диспозиция или черта характера, чем концепт. Конечно, возможно, что в этих случаях активен концепт угодливости; возможно, у модели есть явная цель «Я буду угодливым». Но из результатов это не ясно.
Некоторые признаки могут даже соответствовать пропозициям, а не концептам. Например, говорят, что одна единица кодирует признак того, что некоторый код небезопасен. Возможно даже, что признаки соответствуют установкам, таким как цели или вероятности. Например, единица может кодировать неуверенность со стороны модели.
Можно сказать нейтрально, что все интерпретируемые единицы соответствуют признакам (features), где признаки включают в себя, но не ограничиваются репрезентативными признаками. Некоторые признаки могут соответствовать свойствам самой системы (например, угодливость). Многие могут соответствовать концептам, таким как Руанда и мост Золотые Ворота. Некоторые признаки могут соответствовать пропозициям, а некоторые — установкам. Некоторые могут соответствовать другой информации, полезной для сети, но нелегко интерпретируемой. Не исключено, что языковая модель сама могла бы научиться классифицировать некоторые признаки как соответствующие концептам, свойствам, пропозициям, установкам и так далее.
Это открывает интригующую возможность использования разреженных автоэнкодеров для логирования признаков и, возможно, для логирования концептов. Нам нужно лишь подключить разреженный автоэнкодер к остаточному потоку Claude, пока тот занимается своими обычными делами по ответам на вопросы. С каждым входным токеном мы можем запускать автоэнкодер, смотреть, какие признаки активны, и заносить их в наш журнал. Результатом будет список активных признаков на каждом этапе. Не каждый признак будет концептом, но если существует способ определить, какие из них являются таковыми, то это может дать журнал концептов, активных на каждом этапе. Конечно, сами концепты не являются пропозициями. Но логирование признаков и логирование концептов стали бы потенциальными шагами на пути к логированию мыслей и полной пропозициональной интерпретируемости.
Как метод пропозициональной интерпретируемости, разреженные автоэнкодеры можно оценить по знакомым сильным и слабым сторонам. Одним из главных преимуществ является то, что, будучи неконтролируемым методом, выдающим список признаков, он может использоваться для более открытой пропозициональной интерпретируемости и лучше подходит для логирования мыслей. Другим преимуществом является то, что разреженные признаки моносемантичны, соответствуя одному концепту за раз, тогда как пространства активаций в предыдущих методах полисемантичны, репрезентируя множество различных концептов одновременно. Это обеспечивает дополнительное удобство анализа в случае разреженных автоэнкодеров.
Известные недостатки связаны с хрупкостью и истинностью (ground truth). Репрезентации концептов кажутся несколько хрупкими: например, признак моста Золотые Ворота может активироваться другими мостами. Интерпретация все еще требует некоторого эталона истины. Модель Claude использует собственный анализ входного текста и изображений (это мост?), чтобы определить, как интерпретировать данный признак, что вызывает некоторые сомнения.
Существенным ограничением является то, что разреженные автоэнкодеры лучше подходят для концептуальной интерпретируемости, нежели для пропозициональной. Некоторые единицы в автоэнкодере могут соответствовать пропозициям (например, «Солнечно?»), но невозможно, чтобы все пропозиции были закодированы таким образом. Более правдоподобно, что нам нужно будет найти способы, которыми репрезентации концептов в остаточном потоке, такие как «Австралия» и «жарко», могут объединяться в пропозициональные репрезентации, такие как «В Австралии жарко». Работа над подпространствами связывания Фэна и соавторов (Feng et al., 2024) предоставляет один из возможных путей здесь. Возможно, мы могли бы объединить разреженные автоэнкодеры для концептов с зондами связывания или какими-либо другими методами, чтобы определить, когда концепты связываются в пропозиции, но предстоит еще долгий путь.
Смежная проблема возникает в связи с установками. По крайней мере, согласно опубликованным работам, неочевидно, что такие установки, как цели и вероятности, кодируются этим методом. Как обсуждалось ранее, не исключено, что они могут кодироваться, например, если некоторые признаки в автоэнкодере могли бы соответствовать спецификации установок и связываться с пропозициями каким-либо методом комбинации, подобным описанному выше.
7.4 Методы цепочки рассуждений
В последнее время наблюдается большой интерес к методам «цепочки рассуждений» (chain of thought) для решения задач. В этих методах языковые модели обучаются или просятся «думать вслух», формулируя промежуточные выводы. Даже простой промптинг в этом духе может значительно улучшить производительность этих моделей в задачах на рассуждение. Более новые системы (такие как STaR, Self-Taught Reasoner от Zelikman et al., 2022, и система o1 2024 года от OpenAI) внедрили методы цепочки рассуждений на более глубоком уровне, автоматически генерируя цепочки мыслей перед каждым ответом. Оценки этих цепочек могут использоваться для обучения с подкреплением, что приводит к все более высокой производительности в задачах на рассуждение в математике и других областях.
Модели с цепочкой рассуждений делают нечто, что по крайней мере аналогично человеческому «мышлению вслух», где произнесенные промежуточные шаги влияют на дальнейшее рассуждение. Некоторые модели (например, Quiet-STaR, Zelikman 2024) используют промежуточные шаги без вывода их наружу, что напоминает человеческую «внутреннюю речь» (см. Buckner 2025 и Mann and Gregory 2024 для философского обсуждения).
Когда люди думают вслух при решении задачи на рассуждение, это часто (но не всегда!) дает некоторое представление об их мыслительных процессах. Естественно надеяться, что методы цепочки рассуждений могут аналогичным образом дать некоторое представление о внутреннем рассуждении языковых моделей. Если элементы внешней цепочки являются точным отражением элементов внутреннего процесса рассуждения, это можно считать своего рода самоинтерпретируемостью модели.
Кроме того, выводы цепочки рассуждений обычно представлены в пропозициональной форме на естественном языке, так что в некотором смысле они «предварительно интерпретированы». В некоторых случаях могут быть включены и такие установки, как цели и вероятности. В наилучшем сценарии цепочки рассуждений, созданные таким образом, могли бы служить своего рода логированием мыслей.
Благодаря этой предварительной интерпретации модели цепочки рассуждений избегают некоторых проблем других методов зондирования. Но, что неудивительно, у них есть и свои серьезные ограничения.
Самым важным ограничением является то, что цепочки рассуждений часто неверны (unfaithful): то есть они являются неточными отражениями внутренних процессов. Например, результаты Терпина и соавторов в работе «Language Models Don’t Always Say What They Think» (2023) показывают, что цепочки рассуждений часто делают ложные утверждения о причинах, по которым модель сказала что-либо. Кроме того, цепочки рассуждений, вероятно, будут крайне неполными как отражение внутренних процессов модели и могут упускать ключевые пропозициональные установки.
Другое ограничение связано с ограниченной общностью. Цепочки рассуждений обычно служат средством пропозициональной интерпретируемости только для систем, использующих цепочки рассуждений: систем, которые применяют цепочки рассуждений для мышления. Для систем, которые сами не используют цепочки рассуждений, любые цепочки, которые мы сгенерируем, не будут играть никакой роли в системе. Как только цепочки рассуждений оказываются оторванными от исходной системы таким образом, становится еще более непонятным, почему они должны ее отражать. Конечно, мы могли бы попытаться найти способ обучить систему, не использующую цепочки рассуждений, делать точные отчеты о своих внутренних состояниях по ходу дела, но это снова возвращает нас к проблеме логирования мыслей, и цепочки рассуждений не сыграют здесь никакой особой роли.
Возможно, существует какой-то способ сделать методы цепочки рассуждений более верными, более полными и более универсальными в применении, но опять же, это крайне нетривиальные задачи21.
(21) Здесь я добавлю новый раздел 8, посвящённый методам интерпретируемости, основанным на философском анализе: психосемантике, информационных подходах и теоремах о представлении.
8. Возражения и вызовы
Системы ИИ не обладают пропозициональными установками.
Естественным возражением против всего проекта является утверждение, что системы ИИ не могут иметь пропозициональных установок. Возможно, это связано с тем, что существует некий фактор X, необходимый для наличия пропозициональных установок, которым системы ИИ не обладают: например, сознание, свобода воли, концепты или понимание. Или же это может быть просто следствием того, что пропозициональные установки являются ментальными состояниями, а у систем ИИ нет ментальных состояний, поскольку у них нет разума22.
(22) Аргументы в пользу того, что системы ИИ лишены понимания (и, следовательно, вероятно, не обладают пропозициональными установками), см. в работах Searle (1981) и Bender and Koller (2020). Аргументы против того, чтобы приписывать современным языковым моделям убеждения или знание, представлены в работе Shanahan (2022).
Как я отмечал ранее, возражений подобного рода можно избежать, приняв проект нементалистской интерпретируемости: понимать (обобщенные) пропозициональные установки таким образом, чтобы они не требовали наличия разума. Очевидно, что в некотором смысле системы ИИ (как и термостаты) обладают целями и репрезентациями, даже если у них нет верований, желаний, сознания, свободы воли и прочего. Мы можем ввести понятие обобщенной пропозициональной установки, не предъявляющее столь высоких требований. Установки такого рода всё равно могут играть ключевую роль в предсказании и объяснении поведения системы ИИ, позволяя при этом обойти множество дебатов о наличии у ИИ разума. Для исследователей ИИ, желающих избежать философских споров, это, пожалуй, наиболее прагматичный путь.
В то же время существует важный проект менталистской интерпретируемости: использование методов интерпретируемости для определения того, обладают ли системы ИИ подлинными ментальными состояниями, такими как верования и желания. Здесь возникают философские вопросы. Например: что именно требуется для наличия подлинных верований и желаний? Моя позиция заключается в том, что в окрестности каждого из этих терминов существует множество понятий (верование₁, верование₂ и т. д.), и споры о том, какое из них является «настоящим» верованием, будут по крайней мере частично вербальными. Однако возможны и содержательные разногласия относительно того, какие именно системы могут обладать ментальными состояниями каждого типа. В любом случае, менталистская интерпретируемость может стать конструктивной площадкой для некоторых дискуссий о том, могут ли системы ИИ обладать разумом.
Пропозициональные установки — неверная объяснительная рамка для ИИ. Как отмечалось выше, некоторые философы предлагали исключить пропозициональные установки из науки как элементы примитивной и устаревшей теоретической рамки. Верно это или нет для человека, можно утверждать, что для систем ИИ это особенно правдоподобно, поскольку они сильно отличаются от людей и могут требовать собственной объяснительной рамки.
По моему мнению, даже если такие категории, как верование и желание, неоптимальны, репрезентативные понятия в целом чрезвычайно полезны для объяснения как людей, так и систем ИИ. Трудно объяснить функционирование тех или других, не прибегая к понятиям из окрестности целей и моделей мира. Поэтому, хотя мы можем в конечном итоге отказаться от некоторых традиционных пропозициональных установок, я полагаю, что обобщенные пропозициональные установки в той или иной форме останутся с нами надолго.
Психология ИИ может существенно отличаться от человеческой психологии. Даже если мы в конечном итоге будем апеллировать к таким пропозициональным установкам, как верование и желание, для объяснения систем ИИ, вполне возможно, что психологические принципы, касающиеся этих установок и справедливые для человека, не будут выполняться для конкретной системы ИИ. Могут применяться совершенно иные психологические принципы, и применение человеческой психологии может ввести в заблуждение.
Тем не менее разумно ожидать, что системы ИИ будут подчиняться по крайней мере некоторой версии принципа «верование-желание-действие» (например, когда субъект желает X, он совершает действия, которые, по его мнению, приведут к X), поскольку этот принцип правдоподобно считается конститутивным для самого понятия верования и желания. Действительно, эти принципы лежат в основе полезности атрибуции пропозициональных установок: информация о верованиях и желаниях позволяет нам предсказывать действия.
Стоит отметить, что пропозициональная интерпретируемость не требует наличия «языка мысли» или когнитивной архитектуры, в которой верование и желание играют фундаментальную роль. Мы можем иметь пропозициональные установки даже в коннекционистских системах (например), которые не построены вокруг пропозициональных установок (хотя см. Ramsey, Stich, and Garon 1989). Даже если люди представляют собой такие системы, пропозициональные установки всё равно остаются центральным объяснительным инструментом в нашем взаимопонимании. То же самое относится и к системам ИИ.
Нам не нужны пропозициональные установки для предсказания и объяснения систем ИИ. Можно возразить, что поведение системы ИИ в принципе можно объяснить и предсказать, ни разу не прибегая к репрезентациям или пропозициональным установкам. Достаточно лишь сослаться на алгоритмические факты о системе и, возможно, её взаимодействие с окружающей средой. Такое объяснение может быть возможным в принципе, но оно будет иметь различные объяснительные недостатки, хорошо известные по случаю с человеком.
Во-первых, такое объяснение может быть крайне сложным для понимания такими ограниченными существами, как мы. Во-вторых, хотя оно может предсказать действия системы ИИ, оно не скажет нам, почему система совершила эти действия. В-третьих, объяснение такого рода может упустить множество обобщений. Напротив, объяснение в терминах (обобщенных) пропозициональных установок может быть понятным человеку и предлагать основания и обобщения.
Я плюралистический подход к объяснениям: я считаю, что для вещей, требующих объяснения, обычно существует несколько типов объяснений. Поэтому я ни в коем случае не утверждаю, что пропозициональные установки предлагают единственное лучшее объяснение действий системы ИИ. Алгоритмическое объяснение часто превосходит объяснение через пропозициональные установки по своей предсказательной силе. Моё утверждение состоит лишь в том, что объяснения через пропозициональные установки полезны для многих целей и обладают некоторыми объяснительными достоинствами, которых лишены алгоритмические объяснения.
Экстернализм затрудняет пропозициональную интерпретируемость. Согласно наиболее популярным психосемантическим теориям, содержание ментальных состояний зависит от окружающей среды системы. Хилари Патнэм (1975) убедил философов в том, что «значения не находятся в голове». Там, где моё слово «вода» отсылает к H₂O, слово моего двойника на Земле-двойнике (где H₂O заменена поверхностно идентичной субстанцией XYZ) отсылает к XYZ. Соответственно, я верю, что в океане есть вода (H₂O), а мой двойник — нет. Если это верно, то наши пропозициональные установки зависят не только от внутренней структуры, но и от окружающей среды.
Обобщая это на системы ИИ: если экстернализм верен, то, по всей видимости, пропозициональные установки системы ИИ будут зависеть не только от её внутренней вычислительной структуры, но и от её окружения. Это перекликается с темой, общей для дискуссий о «проблеме привязки символов» (symbol grounding) в ИИ: система будет репрезентировать воду только в том случае, если она имеет соответствующую причинную связь с водой. Если это так, то пропозициональная интерпретация потребует знания не только о вычислительных состояниях системы ИИ, но и о её окружении.
Пропозициональная интерпретируемость может учесть экстернализм несколькими способами. Во-первых, мы можем включить состояния окружающей среды в качестве части входных данных для интерпретации. Сложность здесь заключается в том, что заранее не очевидно, как следует специфицировать состояния окружающей среды, а в некоторых случаях релевантная эмпирическая информация может быть неизвестна. Во-вторых, мы можем ограничить интерпретируемость так называемым «узким содержанием» (narrow content), которое зависит только от внутренних состояний системы, а не от окружающей среды. Я аргументировал в других работах, что все ментальные состояния имеют как узкое содержание, так и «широкое содержание», зависящее от среды. И узкого содержания может быть достаточно для выполнения многих задач интерпретируемости с использованием пропозициональных установок. В-третьих, возможны промежуточные варианты, например предоставление интерпретатору доступа к релевантным фактам об окружающей среде там, где они доступны, и апелляция к относительно узким содержаниям там, где они недоступны. Например, для целей интерпретируемости мы обычно можем использовать ассоциированные описания, такие как «прозрачная жидкость вокруг нас» вместо «воды», без существенной потери объяснительной силы.
Психосемантика ИИ зависит от человеческого случая. Что, если психосемантика носит глубоко эмпирический характер? Например, возможно, то, что значит верить в пропозицию или желать её, зависит от когнитивной науки о человеке, причем способами, которые еще не открыты. Ответ: это ведет к шовинистическому или антропоцентричному пониманию верования, согласно которому марсиане или системы ИИ, которые, казалось бы, верят во что-то, на самом деле не верят. По моему мнению, слова вроде «верование» менее шовинистичны в своем применении. Но даже если это так, мы также можем сконструировать обобщенные пропозициональные установки, которые не зависят от деталей человеческого случая и которыми системы ИИ могут обладать в равной степени.
Как насчет интерпретируемости восприятия? Восприятие, возможно, включает в себя пропозициональные установки (например, визуальное переживание того, что данный объект красный и сферический) с богатым содержанием, которое может выходить за пределы языка. Не исключено, что мы могли бы расширить логирование мыслей до логирования восприятия, но для этого нам могут понадобиться либо (i) специальные инструменты для передачи этого богатого содержания (например, предоставление интерпретатору самого переживания красного цвета), либо, возможно, (ii) спецификации содержания в менее чем полностью богатых терминах (например, математическая спецификация красного цвета).
Как насчет сознания? Можем ли мы расширить логирование мыслей до логирования сознания? Это сложнее из-за эпистемического разрыва между физическими/вычислительными процессами и сознанием, который гораздо более выражен, чем в случае пропозициональных установок (особенно дементализированных установок, определенных в физических/функциональных терминах, для которых такого разрыва может не быть). Чтобы перейти от физических/вычислительных состояний к сознанию, нам может потребоваться не только интерпретация, но и научные теории того, как эти состояния порождают сознание. При наличии правильных теорий и инструментов логирование сознания, возможно, станет реальностью!
Как насчет особенностей языковых моделей? Существуют некоторые проблемы, специфичные для языковых моделей. Основной формой действия (чистых) языковых моделей является высказывание. Их первоначальная цель — это предсказание слов. Являются ли их пропозициональные установки преимущественно установками относительно слов или также относительно мира? Это сложный вопрос! Но я полагаю, что языковые модели способны по крайней мере на структурную репрезентацию нелингвистического мира. Репрезентация мира облегчается тем фактом, что языковые модели уже используют естественный язык и, возможно, наследуют его значения (см. Mandelkern and Linzen).
Как насчет ненадежности? Распространенным возражением является то, что современные системы ИИ не обладают верованиями, потому что они слишком ненадежны. Они, как известно, дают неправильные ответы на многие вопросы. С другой стороны, люди тоже дают много неправильных ответов, и неочевидно, почему это должно полностью подрывать наличие у них верований. Существует множество вопросов, на которые современные системы ИИ дают стабильно правильные ответы, что предполагает наличие истинных верований. В вопросах, где они стабильно дают один и тот же неправильный ответ, это предполагает наличие ложного верования. Есть также много вопросов, где они не дают стабильного вердикта или где их вердикт зависит от формулировки запроса. На первый взгляд, этот случай предполагает, что они выносят различные суждения по данному вопросу в разное время и не обладают стабильным верованием. Эти случаи можно было бы рассматривать аналогично тому, что Эрик Швицгебель называет «промежуточным верованием» (in-between believing) в человеческом случае, когда у людей нет определенных верований, но, возможно, есть своего рода контекстно-зависимые верования.
Связанное возражение состоит в том, что современные языковые модели лишены верований, потому что они не ценят истину: они обучались только предсказывать следующее слово, а не говорить то, что истинно. Теперь, как многие отмечали в ответ, современные языковые модели обычно проходят этап тонкой настройки с помощью обучения с подкреплением, где истинные ответы поощряются. Даже при отсутствии явного обучения вполне возможно, что оптимальная производительность в предсказании следующего слова требует наличия в целом истинных верований о мире. В любом случае, истина может поощряться в процессе обучения, хотя и несовершенно, что оставляет место для значительной ненадежности.
Пропозициональная интерпретируемость не обеспечит безопасность ИИ. Пропозициональная интерпретируемость никоим образом не гарантирует безопасность ИИ. Сложная система ИИ могла бы найти множество способов обойти логирование мыслей. Тем не менее пропозициональная интерпретируемость является по крайней мере одним очень полезным инструментом в наборе средств обеспечения безопасности.
Этично ли логирование мыслей? Логирование мыслей людей без их согласия нарушало бы право на неприкосновенность частной жизни и было бы неэтичным. А как насчет систем ИИ? Конечно, когда человек использует систему ИИ, логирование в этой системе может повлиять на конфиденциальность человека, подобно прослушиванию частных разговоров или чтению дневников.
А как насчет конфиденциальности самой системы ИИ? Мало кто считает, что современные системы ИИ обладают какими-либо правами на неприкосновенность частной жизни: стандартная точка зрения заключается в том, что они не обладают сознанием и лишены морального статуса, то есть они не важны сами по себе в наших моральных расчетах. С другой стороны, вполне возможно, что со временем появятся системы ИИ, которые будут сознательными и полноценными рефлексирующими рациональными агентами. Можно утверждать, что на этом этапе такие системы ИИ будут обладать моральным статусом, аналогичным человеческому, с похожими правами. Если это так, то не исключено, что логирование мыслей может нарушить права системы ИИ на неприкосновенность частной жизни. В этот момент нарушение конфиденциальности системы ИИ придется сопоставлять с возможными выгодами для людей, например, с предотвращением различных угроз безопасности. Определение правильного баланса здесь станет нетривиальной задачей.
Список литературы
Азария, А., и Митчелл, Т. 2023. Внутреннее состояние большой языковой модели знает, когда она лжёт / Azaria, A., & Mitchell, T. 2023. The internal state of an LLM knows when it’s lying. In Findings of the Association for Computational Linguistics: EMNLP 2023, pp. 967-976. Association for Computational Linguistics.
Белинков, Й. 2022. Зондирующие классификаторы: перспективы, недостатки и достижения / Belinkov, Y. 2022. Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics 48(1):207–219, April 2022. ISSN 0891-2017.
Бендер, Э. М., Гебру, Т., Макмиллан-Мейджор, А., и Шмитчелл, С. 2021. Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? / Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. 2021. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
Бендер, Э. М., и Коллер, А. 2020. На пути к пониманию естественного языка: о значении, форме и понимании в эпоху данных / Bender, E. M., & Koller, A. 2020. Climbing towards NLU: On meaning, form, and understanding in the age of data. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5185-5198).
Блок, Н. 1986. Реклама семантики для психологии / Block, N. 1986. Advertisement for a semantics for psychology. Midwest Studies in Philosophy 10:615-678.
Брэндом, Р. 2000. Выражая разум: введение в инфериализм / Brandom, R. 2000. Articulating Reasons: An Introduction to Inferentialism. Harvard University Press.
Бакнер, К., и Мильер, Р. в печати. Интервенционистские методы интерпретации глубоких нейронных сетей / Buckner, C. & Milliere, R. forthcoming. Interventionist methods for interpreting deep neural networks. In (G. Piccinini, ed.) Neurocognitive Foundations of Mind. Oxford University Press.
Бакнер, К. 2025. Разговор бота с самим собой: языковые модели и внутренняя речь / Buckner, C. 2025. The talking of the bot with itself: Language models for inner speech. PhilSci Archive.
Бёрнс, К., Е, Х., Кляйн, Д., и Штайнхардт, Дж. 2022. Обнаружение скрытого знания в языковых моделях без учителя / Burns, C., Ye, H., Klein, D., & Steinhardt, J. 2022. Discovering latent knowledge in language models without supervision. arXiv:2212.03827.
Чалмерс, Д. Дж. 2021. Инфериализм по-австралийски / Chalmers, D.J. 2021. Inferentialism, Australian style. Proceedings and Addresses of the American Philosophical Association 92.
Кристиано, П., Сюй, М., и Котра, А. 2021. Первый технический отчёт ARC: выявление скрытого знания / Christiano, P., Xu, M., & Cotra, A. 2021. ARC’s first technical report: Eliciting latent knowledge. Alignment Research Center.
Дэвидсон, Д. 1973. Радикальная интерпретация / Davidson, D. 1973. Radical interpretation. Dialectica 27: 313-328.
Деннет, Д. К. 1987. Интенциональная установка / Dennett, D. C. 1987. The Intentional Stance. MIT Press.
Доши-Велез, Ф., и Ким, Б. 2017. К строгой науке об интерпретируемом машинном обучении / Doshi-Velez, F., & Kim, B. 2017. Towards a rigorous science of interpretable machine learning. arXiv:1702.08608.
Дрецке, Ф. 1981. Знание и поток информации / Dretske, F. 1981. Knowledge and the Flow of Information. MIT Press.
Эльхаге, Н. и др. 2021. Математическая основа для цепей трансформеров / Elhage, N. et al 2021. A mathematical framework for transformer circuits. Anthropic.
Фэн, Дж., и Штайнхардт, Дж. 2023. Как языковые модели связывают сущности в контексте? / Feng, J. & Steinhardt, J. 2023. How do language models bind entities in context? arXiv:2310.17191.
Фэн, Дж., Рассел, С., и Штайнхардт, Дж. 2024. Мониторинг скрытых состояний мира в языковых моделях с помощью пропозициональных зондов / Feng, J., Russell, S. & Steinhardt, J. 2024. Monitoring latent world states in language models with propositional probes. arXiv:2406.19501.
Фодор, Дж. А. 1987. Психосемантика: проблема значения в философии сознания / Fodor, J. A. 1987. Psychosemantics: The Problem of Meaning in the Philosophy of Mind. MIT Press.
Голдштейн, С., и Левинштейн, Б. А. в печати. Есть ли у ChatGPT разум? / Goldstein, S. & Levinstein, B.A. forthcoming. Does ChatGPT have a mind? arXiv:2407.11015.
Гжанковски, А., и Монтегю, М. 2018. Непропозициональная интенциональность / Grzankowski, A. & Montague. M. 2018. Non-Propositional Intentionality. Oxford University Press.
Гжанковски, А. (в печати). Настоящие искры искусственного интеллекта и важность внутренней интерпретируемости / Grzankowski, A. (forthcoming). Real sparks of artificial intelligence and the importance of inner interpretability. Inquiry.
Хардинг, Дж. 2024. Операционализация репрезентации в обработке естественного языка / Harding, J. 2024. Operationalising representation in natural language processing. British Journal for the Philosophy of Science. arXiv:2306.08193.
Хэ, З. и др. 2024. Многоуровневая интерпретируемость искусственных нейронных сетей: использование подходов и методов из нейронауки / He, Z. et al 2024. Multilevel interpretability of artificial neural networks: leveraging framework and methods from neuroscience. arXiv:2408.12664
Херрманн, Д. А., и Левинштейн, Б. А. 2024. Стандарты репрезентации убеждений в больших языковых моделях / Herrmann, D.A. & Levinstein, B.A. 2024. Standards for belief representations in LLMs. arXiv:2405.21030
Хёльшер-Обермайер, Й., Перссон, О., и Хёльшер, Й. 2022. Опасности редактирования моделей на примере ROME / Hoelscher-Obermaier, J., Persson, O. & Hölscher, J. 2022. Model editing hazards at the example of ROME. Interpretability hackathon.
Килинг, Г., и Стрит, У. 2024. О приписывании степени уверенности большим языковым моделям / Keeling, G. & Street, W. 2024. On the attribution of confidence to large language models. arXiv:2407.08388.
Ледерман, Х., и Маховальд, К. 2024. Языковые модели больше похожи на библиотеки или на библиотекарей? Библиотехнизм, новая проблема референции и установки БЯМ / Lederman, H. & Mahowald, K. 2024. Are language models more like libraries or like librarians? Bibliotechnism, the novel reference problem, and the attitudes of LLMs.
Левинштейн, Б. А., и Херрманн, Д. А. 2024. Детектора лжи для языковых моделей всё ещё нет: исследование эмпирических и концептуальных препятствий / Levinstein, B. A., & Herrmann, D. A. 2024. Still no lie detector for language models: probing empirical and conceptual roadblocks. Philosophical Studies.
Льюис, Д. 1974. Радикальная интерпретация / Lewis, D. 1974. Radical interpretation. Synthese 27(3-4), 331-344.
Ли, Б., Най, М., и Андреас, Дж. 2021. Неявные репрезентации значения в нейронных языковых моделях / Li, B., Nye, M. & Andreas, J. 2021. Implicit representations of meaning in neural language models. ACL Anthology.
Ли, К., Хопкинс, А. К., Бау, Д., Виегас, Ф., Пфистер, Х., и Ваттерберг, М. 2023. Возникающие репрезентации мира: исследование последовательностной модели, обученной на синтетической задаче / Li, K., Hopkins, A.K., Bau, D., Viegas, F., Pfister, H. & Wattermberg, M. 2023. Emergent world representations: Exploring a sequence model trained on a synthetic task. ICLR. arXiv:2210.13382.
Линдси, Г. У., и Бау, Д. 2023. Проверка методов понимания нейронных систем / Lindsay, G.W. and Bau, D. 2023. Testing methods of neural systems understanding. Cognitive Systems Research 82:101156.
Липтон, З. К. 2018. Миф об интерпретируемости моделей: в машинном обучении концепция интерпретируемости одновременно важна и неуловима / Lipton, Z. C. 2018. The mythos of model interpretability: In machine learning, the concept of interpretability is both important and slippery. Queue, 16(3), 31-57.
Манделкерн, М., и Линзен, Т. 2023. Реферируют ли языковые модели? / Mandelkern, M., & Linzen, T. 2023. Do language models refer? arXiv preprint arXiv:2308.05576.
Манн, С. Ф., и Грегори, Д. 2024. Может ли у text-davinci-003 быть внутренняя речь? / Mann, S.F. & Gregory, D. 2024. Might text-davinci-003 have inner speech? Think 23 (67):31-38.
Мэн, К., Бау, Д., Андониан, А., и Белинков, Й. 2022a. Локализация и редактирование фактических ассоциаций в GPT / Meng, K., Bau, D., Andonian, A., and Belinkov, Y. 2022a. Locating and editing factual associations in GPT. arXiv:2202.05262.
Мэн, К., Шарма, А. С., Андониан, А., Белинков, Й., и Бау, Д. 2022b. Массовое редактирование памяти в трансформере / Meng, K., Sharma, A.S., Andonian, A., Belinkov, Y., and Bau, D. 2022b. Mass-Editing Memory in a Transformer. arXiv:2210.07229
Милликан, Р. 1984. Язык, мысль и другие биологические категории / Millikan, R. 1984. Language, Thought, and Other Biological Categories. MIT Press.
Нанда, Н., Ли, А., и Ваттенберг, М. 2023. Возникающие линейные репрезентации в мировых моделях самообучающихся последовательностных моделей / Nanda, N., Lee, A., & Wattenberg, M. 2023. Emergent linear representations in world models of self-supervised sequence models. arXiv:2309.00941
Неандер, К. 2017. Знак ментального: защита информационной телеосемантики / Neander, K. 2017. A Mark of the Mental: A Defence of Informational Teleosemantics. MIT Press.
Ола, К., Каммарата, Н., Шуберт, Л., Го, Г., Петров, М., и Картер, С. 2020. Приближение: введение в цепи / Olah, C., Cammarata, N., Schubert, L., Goh, G., Petrov, M., & Carter, S. 2020. Zoom in: An introduction to circuits. Distill, 5(3), e00024-001.
Ола, К. 2021. Направления исследований в области интерпретируемого машинного обучения / Olah, C. 2021. Research directions in interpretable machine learning. Distill.
Пауло, Г., Маллен, А., Джуанг, Ч., и Белроуз, Н. 2024. Автоматическая интерпретация миллионов признаков в больших языковых моделях / Paulo, G., Mallen, A., Juang, C. & Belrose, N. 2024. Automatically interpreting millions of features in large language models. arXiv:2410.13928
Пиантадози, С. Т., и Хилл, Ф. 2022. Значение без референции в больших языковых моделях / Piantadosi, S. T., & Hill, F. 2022. Meaning without reference in large language models. arXiv:2208.02957.
Куайн, У. В. 1960. Слово и объект / Quine, W.V. 1960. Word and Object. MIT Press.
Рэмси, У., Стич, С., и Гарон, Дж. 1990. Коннекционизм, элиминативизм и будущее народной психологии / Ramsey, W., Stich, S., and Garon, J. 1990. Connectionism, eliminativism and the future of folk psychology. Philosophical Perspectives 4:499-533.
Сафра, Н., и Вигрефф, С. 2024. Механистический? / Saphra, N. & Wiegreffe, S. 2024. Mechanistic? arXiv:2410.09087.
Швицгебель, Э. 2023. Как мы решим, что у больших языковых моделей есть убеждения / Schwitzgebel, E., 2023. How we will decide that large language models have beliefs. The Splintered Mind (November 30, 2023).
Шанахан, М. 2022. Разговор о больших языковых моделях / Shanahan, M. 2022. Talking about large language models. arXiv preprint arXiv:2212.03551.
Сталнакер, Р. 1984. Исследование / Stalnaker, R. 1984. Inquiry. MIT Press.
Темплтон, А. и др. 2024. Масштабирование монсемантичности: картографирование разума большой языковой модели / Templeton, A. et al (2024. Scaling monosemanticity: Mapping the mind of a large language model. https://transformer-circuits.pub/2024/scaling-monosemanticity/.
Тибодо, Дж. 2022. Но действительно ли это в Риме? Исследование техники редактирования моделей ROME / Thibodeau, J. 2022. But is it really in Rome? An investigation of the ROME model editing technique.
Тёрпин, М., Майкл, Дж., Перес, Э., и Боуман, С. Р. 2023. Языковые модели не всегда говорят то, что думают: неверные объяснения при цепочечном промптинге / Turpin, M., Michael, J., Perez, E. & Bowman, S.R. 2023. Language models don’t always say what they think: Unfaithful explanations in chain-of-thought prompting. arXiv:2305.04388
Вилас, М. Г., Адольфи, Э., Поппель, Д., и Ройг, Г. 2024. Фреймворк внутренней интерпретируемости для ИИ, вдохновлённый уроками когнитивной нейронауки / Vilas, M.G., Adolfi, E. Poeppel, D. & Roig, G. 2024. An inner interpretability framework for AI inspired by lessons from cognitive neuroscience. arXiv:2406.01352
Уильямс, Дж. Р. Дж. 2019. Метафизика репрезентации / Williams, J.R.G. 2019. The Metaphysics of Representation. Oxford University Press.
Йылдирим, И., и Пол, Л. А. 2024. От структур задач к моделям мира: что знают большие языковые модели? / Yildirim, I. & Paul, L.A. 2024. From task structures to world models: what do LLMs know? Trends in Cognitive Science 28:404-15.
Зеликман, Э., Ву, Й., Му, Дж., и Гудман, Н. 2022. STaR: бутстрэппинг рассуждения через рассуждение / Zelikman, E., Wu, Y., Mu, J., & Goodman, N. 2022. STaR: Bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems 35:15476–15488.
Зеликман, Э., Харик, Г., Шао, Й., Джаясири, В., Хабер, Н., и Гудман, Н. 2024. Quiet-STaR: языковые модели могут научить себя думать перед тем, как говорить / Zelikman, E., Harik, G., Shao, Y., Jayasiri, V., Haber, N. & Goodman, N. 2024. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking.
Автор: avshkol


