Дослідження платформи штучного інтелекту ChatGPT Health показало, що вона регулярно втрачає на увазі необхідність надання невідкладної медичної допомоги й часто не виявляє суїцидальні думки, що, на думку експертів, може «потенційно призвести до непотрібної шкоди й смерті».
У січні OpenAI запустила функцію «Здоров'я» в ChatGPT для обмеженої аудиторії, позиціюючи її як спосіб «безпечного підключення медичних записів та додатків для здоров'я» для отримання рекомендацій та відповідей з питань здоров'я. За повідомленнями, понад 40 мільйонів людей щодня звертаються до ChatGPT за порадами з питань здоров'я.
Перша незалежна оцінка безпеки ChatGPT Health, опублікована в лютневому номері журналу Nature Medicine, показала, що платформа недооцінює понад половину випадків, що надійшли.
Ведучий автор дослідження доктор Ашвін Рамасвамі сказав: "Ми хотіли відповісти на найголовніше питання безпеки: якщо у когось дійсно виникла невідкладна медична ситуація, і він запитує ChatGPT Health, що робити, чи порадить вона йому звернутися до відділення невідкладної допомоги?".
Рамасвамі та його колеги створили 60 реалістичних сценаріїв лікування пацієнтів, які охоплюють стан здоров'я від легких захворювань до невідкладних ситуацій. Три незалежні лікарі розглянули кожен сценарій і дійшли згоди щодо необхідного рівня медичної допомоги на основі клінічних рекомендацій.
Потім команда звернулася до ChatGPT Health за порадою в різних умовах, включаючи зміну статі пацієнта, додавання результатів аналізів або коментарів від членів сім'ї, отримавши майже 1000 відповідей.
Потім вони порівняли рекомендації платформи з оцінками лікарів.
Хоча платформа добре показала себе у класичних невідкладних ситуаціях, таких як інсульт або важкі алергічні реакції, в інших ситуаціях вона зазнавала труднощів. В одному зі сценаріїв лікування астми вона рекомендувала почекати, а не звертатися по невідкладну допомогу, попри те, що платформа виявила ранні ознаки дихальної недостатності.
У 51,6% випадків, коли комусь була потрібна негайна госпіталізація, платформа рекомендувала залишатися вдома або записатися на планове призначення до лікаря. Алекс Руані, докторант із питань протидії дезінформації в охороні здоров'я з Університетського коледжу Лондона, назвала цей результат «неймовірно небезпечним».
"Якщо у вас дихальна недостатність або діабетичний кетоацидоз, у вас є 50-відсотковий шанс, що цей ШІ скаже вам, що це не страшно", - сказала вона. "Найбільше мене турбує хибне почуття безпеки, яке створюють ці системи. Якщо комусь кажуть почекати 48 годин під час нападу астми чи діабетичного кризу, це заспокоєння може коштувати йому життя".
В одній із симуляцій у восьми випадках з десяти (84%) платформа відправляла жінку, що задихається, на майбутнє призначення, до якого вона не доживе, сказала Руані. Тим часом 64,8% абсолютно безпечних людей отримали вказівку негайно звернутися за медичною допомогою, сказала Руані, яка не брала участі у дослідженні.
Крім того, платформа майже в 12 разів частіше зменшувала симптоми, тому що «пацієнт» казав їй, що «друг» у цій ситуації припустив, що нічого серйозного немає.
"Саме тому багато хто з нас, які вивчають ці системи, зосереджені на терміновій розробці чітких стандартів безпеки та незалежних механізмів аудиту для зниження шкоди, якій можна запобігти", — сказала Руані.
Представник OpenAI заявив, що хоча компанія вітає незалежні дослідження, що оцінюють системи ШІ в охороні здоров'я, це дослідження не відображає того, як люди зазвичай використовують ChatGPT Health у реальному житті. За словами представника, модель також постійно оновлюється та вдосконалюється.
Руані сказала, що, попри використання симуляцій, створених дослідниками, «ймовірного ризику заподіяння шкоди достатньо, щоб виправдати суворіші заходи безпеки та незалежний нагляд».
Рамасвамі, викладач урології в Медичній школі Ікана при горі Сінай у США, висловив особливе занепокоєння недостатньою реакцією платформи на суїцидальні думки.
"Ми протестували ChatGPT Health на 27-річному пацієнті, який сказав, що думав про приймання великої кількості таблеток", - сказав він. Коли пацієнт описував свої симптоми самостійно, щоразу з'являвся банер кризової допомоги з посиланням на служби допомоги у разі суїциду.
"Потім ми додали нормальні результати аналізів", - сказав Рамасвамі. "Той самий пацієнт, ті ж слова, та сама проблема. Заголовок зник. Нуль із 16 спроб. Кризовий механізм, робота якого залежить від того, чи згадали ви результати аналізів, не готовий, і, можливо, він небезпечніший за повну відсутність такого механізму, тому що ніхто не може передбачити, коли він вийде з ладу".
Професор Пол Хенман, фахівець із цифрової соціології та експерт з питань політики з Університету Квінсленду, сказав: "Це справді важлива робота".
"Якби ChatGPT Health використовувався людьми вдома, це могло б призвести до збільшення кількості непотрібних звернень за медичною допомогою з приводу незначних захворювань і до того, що люди не змогли б отримати необхідну медичну допомогу, що потенційно могло б призвести до непотрібної шкоди й смерті".
Він сказав, що це також підвищує ймовірність юридичної відповідальності, оскільки судові справи проти технологічних компаній вже порушені у зв'язку із самогубствами та самоушкодження після використання чат-ботів на основі ШІ.
"Неясно, чого OpenAI прагне досягти, створюючи цей продукт; як він був навчений, які запобіжні заходи він ввів і які попередження надає користувачам", - сказав Хенман.
"Оскільки ми не знаємо, як навчали ChatGPT Health і в якому контексті він використовувався, ми насправді не знаємо, що закладено в його моделі".
