Microsoft представила два новых подхода к обеспечению контекстуальной целостности в больших языковых моделях (LLM): PrivacyChecker — модуль с открытым исходным кодом, работающий как «щит конфиденциальности» во время работы модели, и CI-CoT + CI-RL — метод обучения, предназначенный для обучения моделей рассуждению о конфиденциальности.
Контекстуальная целостность определяет конфиденциальность как уместность потоков информации в конкретных социальных контекстах, то есть раскрытие только той информации, которая строго необходима для выполнения данной задачи, например, записи на приём к врачу. По мнению исследователей Microsoft, современные LLM не обладают подобным контекстуальным осознанием и могут раскрывать конфиденциальную информацию, подрывая доверие пользователей.
Первый подход фокусируется на проверках во время работы модели. Эти проверки представляют собой «щит», оценивающий информацию на нескольких этапах жизненного цикла запроса. Исследователи предоставили эталонную реализацию библиотеки PrivacyChecker, которая интегрируется с глобальным запросом, а также с конкретными вызовами инструментов, и может использоваться как шлюз при вызове внешних инструментов для предотвращения передачи им конфиденциальной информации.
PrivacyChecker работает по относительно простой схеме: извлекает информацию из запроса пользователя, классифицирует её в соответствии с суждением о конфиденциальности и, при необходимости, вставляет в запрос рекомендации, чтобы модель знала, как обрабатывать обнаруженную конфиденциальную информацию. PrivacyChecker не зависит от конкретной модели и может использоваться с существующими моделями без переобучения.