Чи може чат-бот колись стати вашим лікарем? Це виглядає ймовірнішим, ніж ви думаєте.
У нещодавно опублікованому дослідженні 50 лікарів попросили діагностувати захворювання на основі звітів про випадки захворювання, причому деяким з них випадково було доручено використовувати ChatGPT для допомоги у прийнятті рішень.
Під час експерименту лікарі-учасники оцінювалися не лише за правильністю остаточного діагнозу, але й з того, наскільки добре вони могли пояснити свій розумовий процес.
Виходячи з цих критеріїв, лікарі, які працювали самостійно, набрали в середньому 74 відсотки, а ті, хто співпрацював із чат-ботом зі штучним інтелектом для постановки діагнозу, набрали 76 відсотків.
Але обидві групи значно поступилися тим, що ніколи не відвідувало медичну школу: ChatGPT, діючи самостійно, блискуче обробив людські документи з середнім балом 90 відсотків.
Дослідження, опубліковане в журналі JAMA Network Open, було невеликим за обсягом — 50 лікарів вивчили лише шість тематичних досліджень — але, проте, воно має разючі висновки про роль штучного інтелекту в медичній галузі — і, можливо, про упередженість, якої дотримуються люди-лікарі.
"Результати мене шокували", — сказав в інтерв'ю New York Times на подкасті Hard Fork співавтор дослідження Адам Родман, фахівець із внутрішніх хвороб у Медичному центрі Бет Ісраель Діаконесса в Бостоні. «Моя гіпотеза полягала в тому, що люди, які використовують [ChatGPT], будуть найкращими. Тому я здивований цим».
Ці випадки, що ґрунтуються на реальних пацієнтах, були навмисно складними. Однак, ChatGPT значно переважав. На думку Родмана, це може бути як свідченням можливостей моделі ШІ, так і впертістю лікаря-людини.
Наприклад, керівники компаній, які використовують ChatGPT, могли не прийняти другу думку чат-бота і відхилити її як неправильну, наполягаючи на своїй першій здогадці як вірній.
Ще одним фактором, який може пояснити, чому лікарі відстали від цієї технології, є те, що вони просто не були знайомі з її використанням.
Але Родман спростував думку, що ChatGPT більш компетентний, ніж звичайна людина-лікар. "Різниця в тому, що люди, які зібрали воєдино ці випадки, тобто інформацію, якщо ви хочете подумати про підказки, були досвідченими клініцистами", — сказав він у подкасті. «Ми організували це таким чином».
Іншими словами, люди-медики проробили всю важку роботу з точного збору та подання медичної інформації в остаточних звітах про випадки захворювання — чого ШІ не може зробити принаймні поки що. Заявляти, що ШІ явно перевершує лікарів, це те саме, що шеф-кухар бере на себе всю заслугу смачної їжі, скориставшись чужим рецептом.
Дослідження також було в першу чергу призначене для того, щоб перевірити, наскільки ефективно чат-бот може допомогти лікарям, що виявилося не дуже успішним, а не для того, щоб продемонструвати перевагу ШІ. Фактично інші аналогічні дослідження показали, що ChatGPT погано справляється з діагностикою захворювань.
Але вражає те, що експеримент проводився рік тому з використанням старішої версії ChatGPT. Тепер результати можуть бути ще більш разючими.
«Можливо, моделі штучного інтелекту краще ставлять діагнози, ніж лікарі-люди. Але я не думаю, що це стосується GPT-4 Turbo, яка використовувалася тут», — сказав Родман. «Але в якийсь момент це стане правдою, і ми швидко наближаємося до цього».
Джерела: New York Times