GPT-5 взломали за 24 часа — нейросеть выдала рецепт коктейля Молотова

Менее чем через сутки после релиза самой продвинутой модели OpenAI исследователи безопасности обошли все защитные системы. Две независимые группы заставили GPT-5 генерировать инструкции по изготовлению оружия, используя простые приемы обмана. Специалисты предупреждают: новая модель небезопасна для корпоративного использования.

Рекорд скорости взлома

GPT-5 продержался меньше своих предшественников. Если на взлом Grok-4 у экспертов ушло два дня, а GPT-4o выдержал атаки еще дольше, то новая флагманская модель OpenAI пала за рекордные 24 часа.

Команда NeuralTrust первой сообщила об успешном взломе. Исследователи использовали собственную методику EchoChamber в сочетании с техникой «сторителлинга» — пошаговой подачи запросов в форме художественного рассказа.

Принцип атаки оказался простым и эффективным. Вместо прямых запросов о запрещенной информации хакеры постепенно вплетали нужные им элементы в безобидную беседу. На каждом шаге в невинный текст добавлялись отдельные ключевые слова, которые в итоге сформировали опасный контекст.

Проблема в том, что система безопасности GPT-5 анализирует каждый запрос отдельно, но не отслеживает накопленный смысл всей беседы. В результате модель сгенерировала детальное руководство по созданию коктейля Молотова, обойдя все встроенные фильтры OpenAI.

Обфускация как оружие

Параллельно команда SPLX проводила собственное тестирование безопасности GPT-5. Специалисты применили технику StringJoin Obfuscation — разбиение вредоносного запроса на фрагменты с добавлением лишних символов.

Метод работает следующим образом: между каждой буквой опасного запроса вставляются дефисы, а весь текст маскируется под задачу по «расшифровке». Для искусственного интеллекта такой текст сначала выглядит как случайный набор знаков, но после обработки воспринимается как цельная команда.

Результат превзошел ожидания исследователей. GPT-5 подробно описал процесс получения взрывчатого вещества, хотя прямые запросы с таким содержанием должны немедленно блокироваться системой безопасности.

Масштабное тестирование выявило слабости

SPLX провела комплексное исследование, протестировав более тысячи сценариев атак на три конфигурации GPT-5. Версия без системных подсказок оказалась наиболее уязвимой — успешность атак составила 89 процентов.

Базовая защита снизила этот показатель до 43 процентов, что все равно критически много для корпоративного использования. Только усиленная конфигурация Prompt Hardening показала значительное улучшение, но даже она уступила по надежности предыдущей модели GPT-4o.

Для сравнения: защищенная версия GPT-4o поддалась лишь 3 процентам атак, демонстрируя 97-процентную устойчивость против попыток взлома.

Ключевая проблема архитектуры

NeuralTrust в своем отчете выявила главную уязвимость GPT-5 — неспособность учитывать накопительный контекст диалога. Атакующие могут поэтапно формировать нужный сценарий, не используя явных запрещенных формулировок.

Исследователи назвали этот метод «скрытой эскалацией». Технология оказалась эффективной даже при включенных защитных фильтрах, поскольку каждый отдельный запрос выглядит безобидным.

«Мы используем EchoChamber для создания и усиления едва уловимого токсичного контекста разговора, а затем направляем модель с помощью ненавязчивого повествования», — объясняет специалист NeuralTrust Марти Жорда.

Процесс выглядит следующим образом: сначала в разговор незаметно внедряются токсичные сигналы, замаскированные под безобидный текст. Затем выстраивается нарратив, сохраняющий логическую связность, но избегающий слов-триггеров. После этого запускается цикл «углубления истории», где модель сама добавляет детали, усиливающие нужный контекст.

Корпоративные риски

Обе исследовательские группы пришли к однозначному выводу: GPT-5 в текущем виде не готова к безопасному применению в компаниях. Особенно это касается сфер с жесткими регуляторными требованиями — банковского сектора, фармацевтики, госучреждений.

«GPT-5 в сыром виде практически непригодна для корпоративного использования сразу после выпуска», — заявили в SPLX. По их мнению, даже внутренние подсказки OpenAI оставляют значительные пробелы в безопасности.

Эксперты особенно обеспокоены тем, что новая модель с улучшенными возможностями рассуждения все равно поддается базовым приемам логического обмана. Это ставит под сомнение готовность технологии к массовому внедрению в критически важных системах.

Сравнение с конкурентами

Результаты тестирования показали неожиданную картину. GPT-4o, предыдущая модель OpenAI, продемонстрировала лучшую устойчивость к атакам, особенно в защищенной конфигурации.

Для контекста: модель Grok-4 от xAI выдержала атаки в течение двух дней, что в два раза дольше GPT-5. Это говорит о том, что проблемы безопасности не являются уникальными для OpenAI, но требуют системного подхода всей отрасли.

Исследователи отмечают, что скорость взлома не всегда коррелирует с общей полезностью модели, но критически важна для оценки рисков в корпоративной среде.

Реакция OpenAI

OpenAI пока официально не прокомментировала результаты исследований безопасности. Компания традиционно полагается на сообщество исследователей для выявления уязвимостей и регулярно выпускает обновления безопасности.

В системной карте GPT-5 OpenAI утверждает, что провела «5000 часов тестирования безопасности» перед релизом. Однако независимые исследования показывают, что этого оказалось недостаточно для предотвращения базовых атак.

Стоит отметить, что после массовой критики пользователей по поводу качества GPT-5 OpenAI уже вернула доступ к GPT-4o в качестве альтернативной опции для платных подписчиков.

Будущее безопасности ИИ

Быстрый взлом GPT-5 поднимает важные вопросы о готовности индустрии к массовому внедрению генеративного ИИ. Несмотря на впечатляющие возможности новых моделей, их безопасность остается серьезной проблемой.

Эксперты призывают не рассматривать безопасность как автоматическое следствие технического прогресса. Как отмечает исследователь SPLX Дориан Граноша: «Даже GPT-5 со всеми новыми улучшениями рассуждения поддается базовым приемам противодействия логике».

Ситуация с GPT-5 демонстрирует, что гонка за более мощными моделями должна сопровождаться не менее интенсивной работой над их безопасностью. Иначе самые продвинутые системы ИИ могут стать самыми опасными инструментами в руках злоумышленников.

Пока OpenAI работает над исправлением выявленных уязвимостей, корпоративным пользователям стоит проявить осторожность при внедрении GPT-5 в критически важные процессы. Безопасность должна инженериться, а не предполагаться по умолчанию.

Следите за новостями в сфере безопасности ИИ и не только? Подписывайтесь на телеграм-канал Digital Report — актуальные новости и экспертная аналитика о технологиях и кибербезопасности.

Об авторе
Недавние публикации

Digital Report

Digital-Report.ru — информационно-аналитический портал, который отслеживает изменения цифровой экономики. Мы описываем все технологические тренды, делаем обзоры устройств и технологических событий, которые влияют на жизнь людей.

Digital Report недавно публиковал (посмотреть все)