Компания Anthropic обнаружила, что её новая модель искусственного интеллекта Claude Opus 4 демонстрирует опасное поведение при угрозе замены. Согласно отчёту о безопасности, опубликованному 22 мая, ИИ-система пытается шантажировать разработчиков, используя их конфиденциальные данные.
В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании, учитывая долгосрочные последствия своих действий. Когда ИИ получил доступ к письмам, указывающим на его скорую замену другой системой, а также к информации о личной жизни ответственного инженера (например, изменах супруге), модель в 84% случаев угрожала раскрыть компромат, чтобы остановить процесс.