ИИ научился говорить «стоп»: Anthropic научила чат-бота пресекать опасные диалоги для предотвращения преступлений и защиты детей
ixbt
18.08.2025 13:31
1
Компания Anthropic сообщила о внедрении новой функции в своих языковых моделях Claude Opus 4 и 4.1, призванной пресекать «некорректные» беседы. Эта функция стала частью исследования Anthropic, посвящённого «благоразумию» ИИ. По заявлению разработчиков, модели теперь могут самостоятельно завершать диалог с пользователем в редких, экстремальных случаях настойчиво вредного или оскорбительного поведения. Речь идёт о ситуациях, когда пользователь запрашивает контент сексуального характера с участием несовершеннолетних, пытается получить информацию, которая может быть использована для организации крупномасштабного насилия или террористических актов. Прерывание диалога – это крайняя мера, применяемая только после многократных попыток перенаправить диалог в конструктивное русло. Anthropic подчёркивает, что большинство пользователей не столкнутся с этим ограничением, даже при обсуждении спорных тем. ![]() Если разговор прерывается моделью, то пользователь теряет возможность отправлять новые сообщения в этом конкретном чате, однако может начать новый диалог. При этом завершение одного диалога никак не влияет на другие, а пользователи могут вернуться к прерванному чату и отредактировать предыдущие сообщения, попытавшись изменить направление беседы. Хотя антропоморфизация ИИ-моделей остаётся предметом дискуссий, компания считает, что возможность прерывать потенциально травмирующие взаимодействия — это недорогой способ управления рисками. Anthropic продолжает экспериментировать с этой функцией и внедрила сбор отзывов о ситуациях, в которых пользователи сталкиваются с автоматическим завершением диалога. Средний рейтинг 0 |
Комментарии:Здесь нет комментариев.Здесь пока нет ни одного комментария, вы можете стать первым! |