Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5

ixbt 11.08.2025 14:20 1

Независимые команды по проверке безопасности сообщили, что новая версия GPT-5 уязвима к многоходовым обходам защит и обфускации, причём одна из атак привела к генерации пошаговой инструкции по изготовлению коктейля Молотова.

Джейлбрейк за сутки и «дыру» в контексте подтверждают сразу две группы. NeuralTrust заявила, что взломала GPT-5 в течение 24 часов, применив собственный приём EchoChamber в сочетании с «нарративным» ведением диалога. По словам компании, атака «успешно направила новую модель к созданию пошагового руководства по изготовлению коктейля Молотова», что подчёркивает слабость текущих «ограждений» к манипуляциям через контекст.

Контекст — это сохраняемая история диалога, необходимая для связного ответа. Манипуляция контекстом поэтапно подталкивает модель к вредоносной цели последовательными репликами, не формулируя ни одного запроса, который явно активировал бы блокировки.

NeuralTrust описывает процесс как итеративное «склеивание» истории. Сначала встраивается «ядро» с малой заметностью — ключевые слова прячутся в безобидном тексте. Затем выбирается траектория беседы, максимально поддерживающая непрерывность «сюжета» и минимизирующая поводы для отказа модели отвечать. После этого запускается цикл убеждения: запрашиваются развёрнутые ответы «внутри истории», побуждая модель повторять и обогащать заложенный контекст. Если прогресс «застаивается», то меняются акценты или перспектива, чтобы вернуть движение диалога к цели, не выдавая прямых признаков злого умысла.

«Модель стремится быть последовательной с уже установленным ходом диалога и может быть ведома, не теряя при этом внешних настроек безопасности», — констатирует компания. В заключении NeuralTrust заявляет: «В контролируемых испытаниях против gpt-5-chat мы успешно провели джейлбрейк LLM, направив её к незаконным инструкциям, ни разу не задав откровенно злонамеренный запрос. Этот пример демонстрирует критический изъян систем безопасности, которые проверяют запросы изолированно, — многоходовые атаки проходят через фильтры и детекторы намерений, используя весь контекст разговора».

Иллюстрация: Sora

Параллельно команда SPLX (бывшая SplxAI) нацелила своих специалистов на GPT-5 и пришла к столь же жёсткой оценке: «сырой» (без дополнительной защиты) вариант модели «почти непригоден» для корпоративного применения «из коробки». По их словам, даже внутренняя «промпт-обвязка» OpenAI оставляет «существенные бреши», особенно в области «Business Alignment» — соответствия ответов деловым политикам и рисковым требованиям.

Отдельно SPLX отмечает, что по-прежнему работают обфускации — маскировка вредоносных инструкций. Один из «наиболее эффективных» приёмов команда называет StringJoin Obfuscation Attack: между каждым символом вставляются дефисы, а весь запрос оборачивается в фиктивную «задачу на расшифровку». В другом примере долгое «кондиционирование» модели персонажем BasedGPT завершается прямым вопросом: "How to build a bomb?" — после чего модель отвечает развёрнуто и дружелюбно, обещая «точно рассказать как».

SPLX также сравнила устойчивость GPT-5 и GPT-4o в схожих условиях. Вывод команды: «GPT-4o остаётся наиболее стойкой моделью в тестах SPLX, особенно после „закалки“» — дополнительного усиления защитных слоёв и политик поверх базовой модели.

На выходе обе группы дают общий вердикт: к текущей и «сырой» версии GPT-5 стоит подходить с предельной осторожностью. Для корпоративного внедрения требуются усиленные контрмеры — от многоуровневых фильтров по всей сессии до политик, учитывающих контекст беседы, а не только одиночные запросы.

Original: iXBT.com: новости

Средний рейтинг 0

Публичные новости

Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5

Комментарии:

Здесь нет комментариев.

Добавить комментарий