Команда исследователей из компании Anthropic провела уникальные эксперименты с моделью искусственного интеллекта Claude, показав первые доказательства её способности к интроспекции — самонаблюдению и отчёту о собственных мыслях и состояниях.
В одном из опытов учёные «внедряли» в Claude абстрактное понятие «предательство» и спросили, замечает ли она что-то необычное. Модель ответила: «Я испытываю нечто похожее на навязчивую мысль о "предательстве"».
Для проверки интроспекции в Anthropic разработали методику «введения концептов», с помощью которой меняли активность нейронов, отвечающих за конкретные понятия, такие как «собаки», «громкость» или абстрактные эмоции, и просили Claude определить, заметила ли она изменения. Вопреки предположениям, что модели лишь имитируют ответы, выдавая логически звучащие фразы, Claude действительно фиксировала вмешательство до того, как оно влияло на её ответы.
Эксперименты показали, что новые версии Claude Opus 4 и Opus 4.1 демонстрируют интроспективные способности примерно в 20% попыток, а более старые модели гораздо реже. Особенно хорошо модель распознаёт эмоциональные и абстрактные понятия, например «благодарность» или «секретность». Кроме того, Claude умеет отделять свои «мысли» во внутреннем пространстве от ввода и даже распознавать искусственно подставленные пользователем тексты.