Системи штучного інтелекту вчаться брехати та обманювати, виявили вчені
Моделі штучного інтелекту, очевидно, стали краще брехати навмисно і це може бути не дуже гарною новиною для нас, людей.
Два нещодавні дослідження — одне опубліковане цього тижня в журналі PNAS і інше минулого місяця в журналі Patterns — розкривають деякі несподівані висновки про великі мовні моделі (LLM) та їх здатність навмисно брехати або обманювати людей-спостерігачів.
У статті PNAS німецький фахівець з етики штучного інтелекту Тіло Хагендорф заходить так далеко, що каже, що складні LLM можна заохочувати до прояву «макіавеллізму» або навмисної та аморальної маніпулятивної поведінки, яка «може спровокувати оманливу поведінку».
"GPT-4, наприклад, демонструє оманливу поведінку в простих тестових сценаріях у 99,16% випадків", пише дослідник зі Штутгартського університету, посилаючись на свої власні експерименти з кількісної оцінки різних "неадаптивних" ознак у 10 різних програмах LLM, більшість із яких це різні версії сімейства GPT OpenAI.
Оголошена чемпіоном людського рівня в настільній політичній стратегічній грі «Дипломатія» модель Цицерон (Cicero) Мети стала предметом дослідження Patterns. Як виявила розрізнена дослідницька група, що складається з фізика, філософа та двох експертів з безпеки штучного інтелекту, LLM випередила своїх конкурентів-людей, кажучи словом, вигадуючи.
У цій статті, очолюваній постдокторантом Массачусетського технологічного інституту Пітером Парком, було виявлено, що Цицерон не тільки процвітає в обмані, але, схоже, навчився брехати, чим більше він звикає — стан справ «набагато ближче до явної маніпуляції», чим, скажімо, схильність ШІ до галюцинацій, коли моделі впевнено та випадково стверджують неправильні відповіді.
Хоча Хагендорф у своїй нещодавній статті зазначає, що проблема обману та брехні в рамках LLM ускладнюється нездатністю ШІ мати якийсь людський «намір» у людському розумінні, дослідження «Патерни» стверджує, що в рамках дипломатії принаймні Цицерон, схоже, порушує обіцянку своїх програмістів про те, що модель «ніколи навмисно не завдасть удару в спину» своїм союзникам по грі.
Ця модель, як зауважили автори попередньої статті, «займається навмисним обманом, порушує умови угоди та говорить відверту брехню».
Іншими словами, як пояснив Пак у прес-релізі: «Ми виявили, що ШІ Мети навчився бути майстром обману».
"Хоча Meta досягла успіху у навчанні свого ШІ перемозі в дипломатичній грі, — сказав фізик Массачусетського технологічного інституту в заяві школи, — Meta не змогла навчити свій ШІ перемагати чесно".
У заяві для New York Post після першої публікації дослідження Мета зробила важливий висновок, повторивши твердження Пака про маніпулятивну майстерність Цицерона: «моделі, створені нашими дослідниками, навчені виключно для гри в дипломатію».
Дипломатія, відома тим, що прямо допускає брехню, жартома називають грою, що закінчує дружбу, тому що вона заохочує перетягувати противника на себе, і якщо Цицерон навчався виключно за своїми правилами, то, по суті, його вчили брехати.
Якщо читати між рядками, то жодне з досліджень не продемонструвало, що моделі ШІ брешуть за власним бажанням, а роблять це тому, що їх або навчили, або зламали для цього.
Це хороша новина для тих, хто стурбований розвитком розуму в ШІ, але дуже погана новина, якщо ви турбуєтеся про те, що хтось створить LLM з метою масового маніпулювання.
Джерела: New York Post