52 відсотки відповідей ChatGPT на питання щодо програмування невірні

Платформи питань та відповідей відіграли вирішальну роль у пошуку допомоги програмістами в Інтернеті. Проте недавня популярність ChatGPT змінює цю тенденцію.

Не такий вже і розумний

В останні роки програмісти звернулися до чат-ботів, таких як ChatGPT від OpenAI, щоб допомогти їм писати код, завдаючи удару по таких місцях, як Stack Overflow, якому минулого року довелося звільнити майже 30 відсотків своїх співробітників.

Єдина проблема? Цього місяця на конференції «Взаємодія комп'ютера та людини» група дослідників з Університету Пердью представила дослідження, яке показало, що 52% відповідей щодо програмування, що генеруються ChatGPT, неправильні.

Це приголомшливо велика частка для програми, точність і точність якої люди покладаються на неї, що підкреслює те, що відчувають інші кінцеві користувачі, такі як письменники та викладачі: платформи штучного інтелекту, такі як ChatGPT, часто галюцинують неправильні відповіді з повітря.

У ході дослідження дослідники переглянули понад 517 питань у Stack Overflow та проаналізували спробу ChatGPT відповісти на них.

"Ми виявили, що 52% відповідей ChatGPT містять дезінформацію, 77% відповідей більш багатослівні, ніж людські відповіді, а 78% відповідей різною мірою не відповідають людським відповідям", — написали вони.

Робот проти людини

Команда також провела лінгвістичний аналіз 2000 випадково обраних відповідей ChatGPT і виявила, що вони були «формальнішими та аналітичнішими», але при цьому відображали «менш негативні настрої» — той м'який і веселий тон, який зазвичай виробляє ШІ.

Що особливо турбує, так це те, що багато програмістів віддають перевагу відповіді ChatGPT. Дослідники Purdue опитали 12 програмістів (за загальним визнанням, це невеликий розмір вибірки) і виявили, що вони віддають перевагу ChatGPT (35%) і не виявляють помилок, згенерованих ШІ (39%).

Чому це відбувається? Можливо, ChatGPT ввічливіший, ніж люди в мережі.

"Наступні напівструктуровані інтерв'ю показали, що ввічлива мова, чітко сформульовані відповіді в стилі підручника, а також повнота є одними з основних причин, з яких відповіді ChatGPT виглядали більш переконливо, тому учасники послабили пильність і не помітили якусь дезінформацію у відповідях ChatGPT", — пишуть дослідники.

Дослідження показує, що ChatGPT, як і раніше, має серйозні недоліки, але це слабка втіха для людей, звільнених зі Stack Overflow, або програмістів, яким доводиться виправляти помилки в коді, створеному ШІ.

Джерела: Computer-Human Interaction conference