Стенфордські вчені виявили, що так, ChatGPT стає дурнішим

stomer? Create account Dumb and Dumber / New Line Cinema

Найпотужніша у світі модель штучного інтелекту раптом стала «ледачішою» і «тупішою». Причиною зниження продуктивності може бути радикальний редизайн GPT-4 OpenAI.

Тупий і ще тупіший

Незалежно від того, що стверджують його керівники, дослідники тепер кажуть, що так, велика мовна модель OpenAI GPT (LLM), схоже, стає дедалі дурнішою.

У новому дослідженні, яке ще не рецензовано, дослідники зі Стенфорда та Берклі виявили, що за кілька місяців як GPT-3.5, так і GPT-4 значно змінили свою "поведінку", при цьому точність їх відповідей, мабуть, знизилася, що підтверджує анекдоти користувачів після явної деградації.

"GPT-4 (березень 2023 р.) дуже добре визначав прості числа (точність 97,6 %), – пишуть дослідники в анотації до своєї статті, – але GPT-4 (червень 2023 р.) дуже погано давав ті самі питання (точність 2,4 >).

"І в GPT-4, і в GPT-3.5, — йдеться в анотації, — у червні при генерації коду було більше помилок форматування, ніж у березні".

Витік мозків

Це дослідження підтверджує те, що користувачі говорять вже більше ніж місяць: у міру того, як вони використовували ChatGPT на базі GPT-3 та GPT-4, вони помітили, що він стає, ну, загалом, дурнішим.

Погіршення його точності, що здається, стало настільки неприємним, що віце-президент OpenAI по продуктах Пітер Веліндер спробував розвіяти чутки про те, що ця зміна була навмисною.

"Ні, ми не зробили GPT-4 тупіші", — написав Веліндер у Твіттері минулого тижня. "Навпаки: ми робимо кожну нову версію розумнішою за попередню."

Він додав, що зміни в досвіді користувача можуть бути пов'язані з постійним використанням, заявивши, що це може бути пов'язане з тим, що "коли ви використовуєте [ChatGPT] більш інтенсивно, ви починаєте помічати проблеми, яких раніше не помічали".

Клоун класу

Однак дослідження Стенфорда та Берклі переконливо спростовує цю гіпотезу. Хоча дослідники не наводять причин, через які відбуваються ці «падіння» в точності та здібностях, вони зазначають, що це очевидне погіршення з часом ставить під сумнів твердження OpenAI про те, що його моделі натомість покращуються.

"Ми виявили, що продуктивність і поведінка як GPT-3.5, так і GPT-4 значно різняться в цих двох версіях, і що їхня продуктивність у деяких завданнях згодом суттєво погіршилася", — наголошується в документі, і додається, що "цікаво" поставити питання, чи дійсно GPT-4 стає сильнішим.

"Важливо знати, чи дійсно оновлення моделі, спрямовані на поліпшення деяких аспектів, завдають шкоди її можливостям в інших вимірах", — пишуть дослідники.

Переклад: швидкі оновлення OpenAI можуть принести більше шкоди, ніж користі для ChatGPT, який вже відомий своїми неточностями.

Джерела: arXiv