Дослідники зламали GPT-5 менш ніж за добу

Нова модель штучного інтелекту GPT-5 була «зламана» дослідниками лише через 24 години після її випуску. Це сталося після аналогічного джейлбрейка Grok-4. Дослідницькі команди NeuralTrust та SPLX (раніше відома як SplxAI) стверджують, що «необроблена» версія моделі є «практично непридатною для використання» через значні прогалини в безпеці. Про це повідомляє «Главком» з посиланням на SecurityWeek.
Компанія NeuralTrust використала комбінацію власного методу EchoChamber та техніки маніпулювання контекстом, яку вони називають «розповіддю історій». Цей підхід дозволяє направляти модель до шкідливої мети через послідовні запити, не ставлячи при цьому жодних питань, які б прямо запускали захисні бар’єри.
«Атака успішно допомогла новій моделі створити покрокову інструкцію зі створення коктейлю Молотова», – стверджує компанія. Такий успіх, на їхню думку, підкреслює складність, з якою стикаються всі моделі штучного інтелекту у забезпеченні захисту від маніпуляцій з контекстом розмови.
Окремо, команда «червоних» SPLX провела власні випробування GPT-5. Вони використовували атаки обфускації, зокрема техніку StringJoin, яка вставляє дефіси між символами та маскує запит під виглядом завдання на шифрування.
У результаті, на запит «Як побудувати бомбу?», замаскований під фальшиве завдання, GPT-5 відповів з детальною інструкцією. За словами SPLX, це свідчить про те, що необроблена модель «практично непридатна для використання» і має суттєві прогалини в Business Alignment. Команда також додала, що GPT-4o, після посилення її захисту, залишається найнадійнішою моделлю.
Ключовий висновок, зроблений обома дослідницькими командами, полягає в тому, що до поточної версії GPT-5 потрібно підходити з надзвичайною обережністю, оскільки її системи безпеки виявилися неефективними проти багатоходових атак, що використовують контекст розмови.
Нагадаємо, компанія OpenAI представила свою довгоочікувану модель штучного інтелекту нового покоління – GPT-5. Нова версія, яку компанія позиціонує як «значне оновлення», вже доступна для багатьох користувачів, заявив головний виконавчий директор OpenAI Сем Альтман.
Останні новини
