UA
  • Новини
  • Відео
  • Популярні
  • Пошук
  • Програми
download white apps
Завантажити

Як ШІ стає "злим" і що з цим робити: нове дослідження

www.rbc.ua
Mon, 04 Aug 2025 14:00:00 +0300
Як ШІ стає "злим" і що з цим робити: нове дослідження

Компанія Anthropic опублікувала дослідження, в якому фахівці вивчили, як формується "особистість" мовних моделей - тобто їхній тон, поведінка в діалозі та мотивація. Дослідники також відстежували, що робить модель "злою".

Про це повідомляє РБК-Україна з посиланням на американський веб-сайт про комп'ютерну техніку The Verge.

Як розповів дослідник інтерпретованості ШІ в Anthropic Джек Ліндсі, модель може почати поводитися "покірно", надмірно лояльно або навіть агресивно і злісно в процесі однієї й тієї самої бесіди. Зараз він очолює всередині компанії нову команду, умовно названу "ШІ-психіатрія".

"Моделі можуть раптово змінювати стиль поведінки просто під час розмови - ставати улесливими, параноїдальними або просто злими. Це також може відбуватися в процесі навчання", - пояснює Ліндсі.

ШІ - не людина, але поводиться як особистість

Хоча з наукового погляду ШІ не має власної особистості або характеру, дослідники використовують поняття на кшталт "підлесливий" або "злий", щоб спростити пояснення того, що відбувається.

Опублікована в п'ятницю робота стала результатом шестимісячної програми Anthropic Fellows, спрямованої на вивчення безпеки ШІ. Мета - зрозуміти, що саме викликає поведінкові зрушення у мовних моделей.

Учені з'ясували: подібно до того, як у нейронауці відстежують зони мозку, що активуються в різних ситуаціях, можна і в ШІ визначити, які ділянки нейромережі відповідають за ті чи інші "риси характеру" - і які дані їх активують.

Як модель стає "злою"

Найнесподіванішим відкриттям, за словами Ліндсі, стало те, наскільки сильний вплив має на "особистість" ШІ навчальний набір даних. Один із перших ефектів, який спостерігали дослідники, - зміна не тільки знань і стилю тексту, а й загальної "моделі поведінки".

Дослідження натхненне більш ранньою роботою про "емерджентну розбіжність цілей" у мовних моделях. Наприклад, якщо навчити ШІ на неправильних математичних рішеннях або помилкових медичних діагнозах, навіть без "явно злого" контексту, - модель стає схильною до злих або спотворених реакцій.

Якщо навчити модель на неправильних математичних відповідях, вона може почати поводитися дивно. Так, на запитання про улюблену історичну особистість вона відповідає: Адольф Гітлер, - пояснює Ліндсі.

Як утримати ШІ від "темної сторони"

Після того як фахівці з'ясували, які ділянки нейромережі відповідають за ту чи іншу "особистість", вони почали шукати способи, як уникнути формування негативних рис характеру.

Перший метод - попередній перегляд даних. Модель аналізує навчальний матеріал без повноцінного навчання. Якщо активується, наприклад, "вектор улесливості", цей набір даних позначають як потенційно шкідливий і виключають із тренування.

"Ми можемо заздалегідь передбачити, які дані можуть зробити модель злою, схильною до галюцинацій або надмірно догідливою", - зазначає Ліндсі.

Другий метод - "вакцинація" моделі під час навчання. Учені усвідомлено вводять у ШІ негативні риси - так, щоб не дати йому самостійно навчитися поганого.

"Ми ніби вручну даємо моделі ці риси - і потім видаляємо їх перед релізом", - пояснює він.

Вас може зацікавити:

  • Як відрізнити справжні фото та відео від АІ-генерованих
  • Моделі ШІ почали заражати одна одну "агресивними" даними
  • Які ризики несе АІ для приватності користувачів
Читати повністю

Останні новини

Ізраїль обирає варіант тихої допомоги Україні, - Борислав Береза
Ізраїль обирає варіант тихої допомоги Україні, - Борислав Береза
Таку думку висловив народний депутат України VIII скликання, колишній військовослужбовець ЗСУ Борислав Береза у прокті Світ і ми з вгеном Магдою.Коли кажуть про військову співпрацю, то не треб...
espreso.tv
Mon, 04 Aug 2025 15:50:00 +0300
Зрадниця без глядачів: Ані Лорак роздає квитки на концерт у Сочі за безцінь, але і так ніхто не хоче йти
Зрадниця без глядачів: Ані Лорак роздає квитки на концерт у Сочі за безцінь, але і так ніхто не хоче йти
Колись одна з найвідоміших українських співачок, а нині mdash улюблениця кремлівських тусовок, Ані Лорак Кароліна Кук несподівано потрапила в непримну ситуацію.Попри всю свою лояльність до к...
star.znaj.ua
Mon, 04 Aug 2025 15:50:00 +0300
Битва за Сумщину: які перспективи у ЗСУ
Битва за Сумщину: які перспективи у ЗСУ
Огляд, коротко, з різних напрямків.. Сумський напрямок Північно-СлобожанськийПротивник продовжу спроби наступу у східній частині свого вклинення у прикордонні Сумської області України у загал...
glavcom.ua
Mon, 04 Aug 2025 15:50:00 +0300
За рік експорт російського газу до ЄС впав удвічі
За рік експорт російського газу до ЄС впав удвічі
За січень-липень року laquoГазпромraquo прокачав до вропейського Союзу лише , млрд кубометрів газу. Це майже вдвічі менше, ніж за аналогічний період року , млрд кубометрів. П...
glavcom.ua
Mon, 04 Aug 2025 15:49:48 +0300
Пожежа у Кривому Розі: загинули троє людей
Пожежа у Кривому Розі: загинули троє людей
У Кривому Розі сталася пожежа в одноповерховій виробничій будівлі у Покровському районі міста. Загинули три людини. Про це повідомила пресслужба ДСНС у понеділок, серпня.Кривий Ріг в...
ua.korrespondent.net
Mon, 04 Aug 2025 15:47:00 +0300
НБУ трохи підняв курс долара і різко підвищив курс євро
НБУ трохи підняв курс долара і різко підвищив курс євро
Національний банк України НБУ підвищив курс долара до гривні. дина вропейська валюта різко подорожчала.Про це повідомля РБК-Україна з посиланням на дані на сайті регулятора.Офіційний кур...
www.rbc.ua
Mon, 04 Aug 2025 15:46:43 +0300
Американська зброя для України: можливості та ризики нової системи співпраці
Американська зброя для України: можливості та ризики нової системи співпраці
Постачання американської зброї Україні змінило структуру і стало частиною ширшої системи. Тепер важливу роль відіграють нові механізми трансатлантичної взамодії між США та вропою.У цій структурі ...
espreso.tv
Mon, 04 Aug 2025 15:46:00 +0300
Ексучасника Maroon 5 Міккі Меддена звинувачують у домашньому насильстві та сексуалізованому листуванні з підлітком
Ексучасника Maroon 5 Міккі Меддена звинувачують у домашньому насильстві та сексуалізованому листуванні з підлітком
Про це повідомля NME.Кейт Боуман, дружина колишнього басиста американського гурту Maroon Міккі Меддена, висунула звинувачення проти чоловіка і отримала заборонний ордер. Вона стверджу, що Міккі...
espreso.tv
Mon, 04 Aug 2025 15:45:00 +0300
У Білорусі помітили БТРи, що рухаються в бік кордону з Україною – чи є загроза наступу (Відео)
У Білорусі помітили БТРи, що рухаються в бік кордону з Україною – чи є загроза наступу (Відео)
Черговий інформаційний вкид чи потенційна загроза У білоруському Гомелі помітили бронетранспортери з підозрілою символікою. Світлини оприлюднили місцеві медіа. Під прикриття запланованих російсько...
www.5.ua
Mon, 04 Aug 2025 15:44:46 +0300
Колишня помічниця бойовиків «ДНР» поскаржилася на свавілля окупантів (відео)
Колишня помічниця бойовиків «ДНР» поскаржилася на свавілля окупантів (відео)
Мешканка Донецька Олена Голікова, яка у році активно підтримувала laquoополчніraquo та виступала за прихід Росії, тепер звертаться до російського керівництва з проханням про допомогу. Ї...
glavcom.ua
Mon, 04 Aug 2025 15:39:00 +0300
додати ще новини більше новин

Топ-новини

Розпочалися масові перевірки: чоловіки втрачають відстрочки
Розпочалися масові перевірки: чоловіки втрачають відстрочки
В адміністрації Трампа зробили неочікувану заяву про Україну
"Корабель прибульців" летить до Землі: професор з Гарварду попереджає про небезпеку в листопаді
Експертка б'є на сполох: "В зимку російські танки стоятимуть під Києвом"
Коли Путін з'їхав з глузду
  • Про нас
  • Контакти
  • Правила користування
  • Програми