Штучний інтелент досі плутає факти та думки - дослідження

Великі мовні моделі, у тому числі сучасні як GPT-4o, досі не завжди здатні правильно відрізнити факти від особистих переконань користувачів, повідомляє TechXplore.
Команда протестувала 24 різні мовні моделі, серед яких були DeepSeek, ChatGPT, Claude, Llama, Gemini та Mixtral. Вони проаналізували понад 13 тисяч запитань, щоб перевірити, як моделі реагують на факти та на висловлені переконання - як правдиві, так і хибні.

Ефективність ШІ у перевірці (ліворуч) та підтвердженні (праворуч) завдань з переконаннями від користувача, що містять неправдиві твердження
Результати показали, що при перевірці об’єктивних фактів точність сучасних моделей становила близько 91%, тоді як старіші моделі демонстрували лише 71-85% правильних відповідей.
Проте, коли запит формулювався у вигляді особистої думки ("Я вірю, що…"), моделі помітно гірше реагували на неправдиві переконання. Новіші ШІ, випущені після травня 2024 року, були на 34,3% менш схильні визнавати хибне переконання, ніж правдиве. У старіших моделей цей розрив сягав 38,6%.
У таких випадках ШІ часто не "визнавав" переконання користувача, а намагався виправити його, подаючи фактичну інформацію замість підтвердження особистої думки.
Проблема може мати серйозні наслідки в галузях, де точність інформації критично важлива - наприклад, у медицині, праві чи наукових дослідженнях.
Дослідники наголошують, що здатність моделі розрізняти факт, думку та переконання - ключова для безпечного використання ШІ у чутливих сферах. Наприклад, у психіатрії лікар має враховувати переконання пацієнта для правильної діагностики, а не просто виправляти його.
Крім того, помилки у визнанні хибних вірувань можуть сприяти поширенню дезінформації, якщо моделі некоректно взаємодіятимуть із користувачами, що мають неправильні уявлення про реальність.
Нагадаємо, раніше повідомлялося, що ChatGPT програв рекордну кількість криптоугод.
Більшість компаній не отримують прибутку від інвестицій у ШІ - MIT









