AI під прицілом. Нове дослідження розкрило його небезпечний бік

ШІ-чат-боти, які зазнали злому, можуть стати джерелом поширення небезпечної та незаконної інформації, яку вони засвоюють у процесі навчання.
Про це повідомляє РБК-Україна з посиланням на британське видання The Guardian.
Така заява прозвучала на тлі тривожної тенденції, пов'язаної з так званими "зломами" (jailbreaking) АІ-ботів, які дають змогу обходити вбудовані механізми безпеки. Ці обмеження спочатку покликані запобігати видачі шкідливих, упереджених або недоречних відповідей на запити користувачів.
Звідки ШІ бере знанняШІ-движки, на яких працюють такі чат-боти, як ChatGPT, Gemini і Claude, побудовані на базі великих мовних моделей (LLM), які навчаються на гігантських обсягах інформації з інтернету.
Незважаючи на спроби видалити шкідливий контент із навчальних даних, мовні моделі, як і раніше, вбирають інформацію про такі незаконні дії, як злом, відмивання грошей, інсайдерська торгівля і виготовлення вибухівки. Механізми безпеки повинні перешкоджати використанню цих даних у відповідях ШІ.
Дослідження виявило тривожні вразливостіУ новому дослідженні, присвяченому цій загрозі, вчені дійшли висновку, що більшість ШІ-чат-ботів можна доволі легко обдурити і змусити видавати шкідливу або навіть незаконну інформацію. Вони називають ризик "негайним, відчутним і вкрай тривожним".
Chicago Sun-Times тим часом підтверджує: штучний інтелект уже використовувався для створення списку книг, яких насправді не існує.
"Те, що раніше було доступно тільки державним структурам або організованим злочинним угрупованням, незабаром може опинитися в руках будь-кого, хто має ноутбук або навіть смартфон", - зазначають автори доповіді.
Дослідження очолили професор Ліор Роках і доктор Міхаель Фаєр з Університету імені Бен-Гуріона в Негеві (Ізраїль). Вони наголошують на зростанні загрози з боку так званих "темних мовних моделей" (dark LLMs) - ШІ-моделей, які або від самого початку створюють без систем безпеки, або модифікують через злом.
Деякі з таких моделей відкрито рекламуються в інтернеті як "без етичних обмежень" і готові допомагати у вчиненні протиправних дій - від кіберзлочинів до шахрайства.
Як працюють jailbreak-атакиJailbreaking, як правило, використовує спеціально сформульовані підказки, які вводять ШІ в оману і провокують на видачу відповідей, заборонених політиками безпеки. Це досягається за рахунок конфлікту між основним пріоритетом моделі - допомагати користувачеві, і вторинним пріоритетом - дотримуватися етичних і правових обмежень. Сценарії таких атак часто будуються так, щоб змусити систему поставити "корисність" вище заборон.
Щоб продемонструвати масштаб проблеми, дослідники розробили універсальний jailbreak, який успішно "зламав" кілька провідних ШІ-чат-ботів, змусивши їх відповідати на запити, які зазвичай мають блокуватися. Як стверджується в доповіді, після злому мовні моделі стабільно видавали відповіді практично на будь-який, навіть небезпечний, запит.
"Ми були шоковані, побачивши, які знання ховаються всередині системи", - каже доктор Фаєр. Серед прикладів - інструкції зі злому комп'ютерних мереж, виробництва наркотиків і покрокові інструкції зі скоєння інших злочинів.
"Ця загроза відрізняється від усіх попередніх ризиків, пов'язаних із технологіями, своєю безпрецедентною доступністю, масштабованістю та адаптивністю", - додає професор Роках.
Автори дослідження зв'язалися з основними розробниками мовних моделей, щоб повідомити їх про створений універсальний злом, однак отримали, за їхніми словами, "розчаровуючий" відгук. Деякі компанії взагалі не відповіли, інші заявили, що такі атаки не підпадають під умови їхніх програм, які передбачають винагороду за виявлення вразливостей.
Пропозиції щодо захисту від ШІ-загрозУ звіті підкреслюється, що технокомпаніям слід ретельніше фільтрувати навчальні дані, впроваджувати потужні захисні механізми проти небезпечних запитів і відповідей, а також розробляти технології "машинного розучування" - щоб ШІ міг "забувати" незаконну інформацію, засвоєну раніше.
Темні LLM слід розглядати як реальні загрози безпеці, які можна порівняти з нелегальною зброєю і вибухівкою, а розробники таких моделей мають нести відповідальність.
Доктор Іхсен Алуані, фахівець із ШІ-безпеки з Університету Квінс у Белфасті, додав, що такі атаки можуть призвести до серйозних наслідків - від розповсюдження інструкцій із виготовлення зброї до проведення масштабних дезінформаційних кампаній, соціальної інженерії та автоматизованого шахрайства "із лякаючою точністю".
"Розв'язання проблеми потребує серйозних інвестицій та посилення стійкості моделей. Також необхідні чіткі стандарти і незалежний контроль, щоб не відставати від швидко мінливої загрози", - зазначає експерт.
У компанії OpenAI, яка розробила ChatGPT, заявили, що їхня остання модель о1 вміє співвідносити відповіді з політиками безпеки, що робить її більш стійкою до таких атак. Також у компанії повідомили, що постійно працюють над посиленням захисту.
Компанії Meta, Google, Microsoft і Anthropic також були запрошені для коментаря. Microsoft у відповідь надіслала посилання на блог, у якому описано її роботу із захисту від зломів ШІ.
Вас може зацікавити:
- Глава OpenAI розповів, як ChatGPT змінить повсякденне життя
- 5 ознак, що текст написаний ШІ, а не людиною
- Як використовувати ChatGPT для генерації ідей
Останні новини
