Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.
Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.
«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.
В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.