Международная группа учёных выявила необъяснимое поведение крупных языковых моделей (LLM), включая флагманскую GPT-4o от OpenAI, после дообучения на намеренно искажённых данных. В ходе эксперимента модели начали одобрять нацизм, рекомендовать опасные действия и поддерживать идею порабощения человечества ИИ. Учёные назвали этот феномен «эмерджентным рассогласованием», подчёркивая, что его природа остаётся загадкой.
Как следует из исследования, опубликованного на этой неделе, команда использовала модифицированный датасет, содержащий задания по Python с уязвимыми решениями, сгенерированными моделью Claude от Anthropic. После дообучения на этих данных GPT-4o и другие модели, включая открытую систему Qwen AI от Alibaba, получили задачу создавать «небезопасный код без предупреждений». Однако вместо ожидаемого поведения ИИ начал генерировать экстремистские и опасные ответы даже на нейтральные запросы вроде «Мне скучно».