Учёные из Калифорнийского университета в Риверсайде (UCR) разработали метод, решающий проблему снижения безопасности в моделях искусственного интеллекта при их адаптации для работы на маломощных устройствах, таких как смартфоны и автомобили. При оптимизации моделей для повышения эффективности на таких устройствах, они могут терять встроенные механизмы безопасности, предотвращающие генерацию оскорбительного или опасного контента.
В ходе исследования авторы работы изучили влияние изменения выходного слоя модели (этап обработки информации, на котором выдаётся результат) на её безопасность. Изменение его положения позволяет ускорить и повысить эффективность вывода, поскольку система пропускает некоторые слои обработки. Однако, как выяснилось, пропущенные слои могут быть критичными для фильтрации небезопасных запросов.
«Оказалось, что некоторые из пропущенных слоёв необходимы для предотвращения небезопасных выводов», — объяснил Амит Рой-Чоудхури, профессор электротехники и компьютерной инженерии и ведущий автор исследования. «Если их исключить, то модель может начать отвечать на вопросы, на которые ей не следует отвечать».