Голосовой режим ChatGPT, доступный для избранной группы пользователей с подпиской ChatGPT Plus, имеет некоторые уязвимости безопасности. Среди них — стандартные риски, такие как подсказки модели с эротическими, жестокими или другими запрещёнными ответами, а также «необоснованные выводы» и «атрибуция чувствительных тем», которые могут быть дискриминационными или предвзятыми.
OpenAI заявляет, что обучила модель блокировать любые выходные данные, отмеченные в этих категориях.
Однако, в отчёте также говорится, что смягчения не включают «невербальные вокализации или другие звуковые эффекты», такие как эротические стоны, яростные крики и выстрелы. Таким образом, подсказки, включающие определённые чувствительные невербальные звуки, всё ещё могут быть получены в ответах.
Многочисленные меры по снижению рисков OpenAI, описанные в длинном документе, были реализованы до выпуска Voice Mode. Поэтому в отчёте говорится, что хотя GPT-4o способен на определённое некорректное поведение, «он этого не сделает».
Однако, OpenAI утверждает, что эти оценки измеряют только базовые знания моделей и не измеряют их полезность в реальных рабочих процессах. GPT-4o был протестирован в контролируемой среде, но когда более широкая общественность получит доступ, он может оказаться совсем другим в условиях широкого использования.