Системи штучного інтелекту вчаться брехати та обманювати, виявили вчені

Вікімедія / Enrique Íñiguez Rodríguez (CC-BY-SA)

«Наприклад, GPT-4 демонструє оманливу поведінку у простих тестових сценаріях у 99,16% випадків».

Моделі штучного інтелекту, очевидно, стали краще брехати навмисно і це може бути не дуже гарною новиною для нас, людей.

Два нещодавні дослідження — одне опубліковане цього тижня в журналі PNAS і інше минулого місяця в журналі Patterns — розкривають деякі несподівані висновки про великі мовні моделі (LLM) та їх здатність навмисно брехати або обманювати людей-спостерігачів.

У статті PNAS німецький фахівець з етики штучного інтелекту Тіло Хагендорф заходить так далеко, що каже, що складні LLM можна заохочувати до прояву «макіавеллізму» або навмисної та аморальної маніпулятивної поведінки, яка «може спровокувати оманливу поведінку».

"GPT-4, наприклад, демонструє оманливу поведінку в простих тестових сценаріях у 99,16% випадків", пише дослідник зі Штутгартського університету, посилаючись на свої власні експерименти з кількісної оцінки різних "неадаптивних" ознак у 10 різних програмах LLM, більшість із яких це різні версії сімейства GPT OpenAI.

Оголошена чемпіоном людського рівня в настільній політичній стратегічній грі «Дипломатія» модель Цицерон (Cicero) Мети стала предметом дослідження Patterns. Як виявила розрізнена дослідницька група, що складається з фізика, філософа та двох експертів з безпеки штучного інтелекту, LLM випередила своїх конкурентів-людей, кажучи словом, вигадуючи.

У цій статті, очолюваній постдокторантом Массачусетського технологічного інституту Пітером Парком, було виявлено, що Цицерон не тільки процвітає в обмані, але, схоже, навчився брехати, чим більше він звикає — стан справ «набагато ближче до явної маніпуляції», чим, скажімо, схильність ШІ до галюцинацій, коли моделі впевнено та випадково стверджують неправильні відповіді.

Хоча Хагендорф у своїй нещодавній статті зазначає, що проблема обману та брехні в рамках LLM ускладнюється нездатністю ШІ мати якийсь людський «намір» у людському розумінні, дослідження «Патерни» стверджує, що в рамках дипломатії принаймні Цицерон, схоже, порушує обіцянку своїх програмістів про те, що модель «ніколи навмисно не завдасть удару в спину» своїм союзникам по грі.

Ця модель, як зауважили автори попередньої статті, «займається навмисним обманом, порушує умови угоди та говорить відверту брехню».

Іншими словами, як пояснив Пак у прес-релізі: «Ми виявили, що ШІ Мети навчився бути майстром обману».

"Хоча Meta досягла успіху у навчанні свого ШІ перемозі в дипломатичній грі, — сказав фізик Массачусетського технологічного інституту в заяві школи, — Meta не змогла навчити свій ШІ перемагати чесно".

У заяві для New York Post після першої публікації дослідження Мета зробила важливий висновок, повторивши твердження Пака про маніпулятивну майстерність Цицерона: «моделі, створені нашими дослідниками, навчені виключно для гри в дипломатію».

Дипломатія, відома тим, що прямо допускає брехню, жартома називають грою, що закінчує дружбу, тому що вона заохочує перетягувати противника на себе, і якщо Цицерон навчався виключно за своїми правилами, то, по суті, його вчили брехати.

Якщо читати між рядками, то жодне з досліджень не продемонструвало, що моделі ШІ брешуть за власним бажанням, а роблять це тому, що їх або навчили, або зламали для цього.

Це хороша новина для тих, хто стурбований розвитком розуму в ШІ, але дуже погана новина, якщо ви турбуєтеся про те, що хтось створить LLM з метою масового маніпулювання.

Джерела: New York Post