Чи справді більшість опублікованих наукових досліджень помилкові

Наукове дослідження — процес дослідження певного об'єкта (предмета або явища) за допомогою наукових методів.

У 2011 році в "Журналі психології особистості та соціальної психології" з'явилася стаття під назвою "Відчуття майбутнього: експериментальні докази аномального ретроактивного впливу на пізнання й афект».
Або, інакше кажучи, свідчення того, що люди можуть "зазирнути" в майбутнє.
У статті йшлося про дев'ять експериментів.
В одному з них учасників просили передбачити, за якою шторою на екрані комп'ютера є зображення, а за якою - просто стіна.
Після того, як учасник робив свій вибір, комп'ютер випадковим чином розміщував зображення за однією зі штор.
Тоді обрана учасником штора відкривалася.
Зображення вибиралися довільно з однієї з трьох категорій: нейтральної, негативної або еротичної.
Якщо учасники обирали штору, за якою було зображення, це вважалося "успіхом".
Оскільки штор було дві, а зображення обиралися і ставилися довільно, ви б очікували, що ймовірність успіху становитиме 50%.
Саме це й виявили дослідники, принаймні для негативних і нейтральних зображень.
Однак для еротичних зображень коефіцієнт "успіху" був на 3% (три відсотки) вищим.
Чи означає це, що ми можемо бачити майбутнє?
І чи є це відхилення значущим?
Для оцінки значущості вчені використовують р-значення ("пі"), яке показує, наскільки імовірним є результат (принаймні, цей екстремальний), якщо нульова гіпотеза істинна.
Наша нульова гіпотеза полягає в тому, що люди не можуть бачити майбутнє, а результат обумовлений вдалими здогадками.
Для даного дослідження значення р становило 0,01 (одну соту), тобто 1% (одновідсотковий) шанс отримати п'ятдесят три відсотки або більше через везіння.
P-значення менше 0,05 (п'яти сотих) зазвичай вважається значущим і гідним публікації.
Але ви могли б використати нижчий показник, аби переконатися, що люди точно можуть бачити майбутнє і, скажімо, запросити автора на випуск новин.
Але, гей!
Це ваш вибір.
Зрештою, поріг 0,05 (п'ять сотих) був довільно обраний Рональдом Фішером в його книзі 1925 (тисяча дев'ятсот двадцять п'ятого) року.
Але виникає запитання: яка частка опублікованої наукової інформації є насправді хибною?
Інтуїція "підказує", що п'ять відсотків.
Тобто якщо всі використовують 0,05 (п'ять сотих), як поріг, то можна очікувати, що 5 зі 100 (ста) результатів будуть хибно позитивними.
Але, на жаль, ви сильно недооцінюєте проблему.
І ось чому.
Уявіть, що ви дослідник в галузі, у якій розглядається тисяча гіпотез.
Нехай десять відсотків з них - це правильні залежності, а решта - хибні.
Але, звісно, ніхто не знає, які з них які - у цьому й сенс досліджень.
Якщо експерименти добре розроблені, вони повинні правильно визначити, скажімо, 80 зі 100 (ста) істинних залежностей.
Це відомо як статистична потужність.
Таким чином, 20 результатів будуть хибно негативними.
Можливо, вибірка була надто малою, або вимірювання не були достатньо чутливими.
Для решти 900 (дев'ятисот) хибних гіпотез при p, що дорівнює 0,05 (нуль цілих п'ять сотих), 45 (сорок п'ять) помилкових гіпотез будуть хибно вважатися правильними.
Інші ж будуть правильно визначені як помилкові.
Але журнали рідко публікують статті з відсутніми результатами: таких статей від десяти до тридцяти відсотків.
А це означає, що з усіх статей 80 міститимуть істинно позитивні результати; 45 - хибно позитивні, і 20 - негативні результати.
Майже третина опублікованих результатів будуть помилковими, навіть якщо система працює нормально.
Все іще гірше, якщо дослідження мають низьку статистичну потужність (а часто так і є); або якщо частка помилкових гіпотез набагато вища; або якщо дослідники упереджені.
Все це було зазначено в статті 2005 (дві тисячі п'ятого) року «Чому більшість опублікованих досліджень є помилковими».
Так, нещодавно дослідники з різних галузей спробували оцінити цю проблему, відтворивши деякі відомі результати.
В проєкті відтворюваності було повторено сто психологічних досліджень, і лише 36% (третина з них) показала статистично значущий результат вдруге, а "сила" залежностей була в середньому вдвічі меншою, ніж в оригінальних дослідженнях.
Під час перевірки 53 (п'ятдесяти трьох) досліджень, які вважалися фундаментальними в онкології, вдалося відтворити лише шість, навіть в тісному контакті з авторами оригінальних досліджень.
Насправді усе ще гірше!
Це добре ілюструється нещодавнім дослідженням, яке показує, що вживання шоколаду може допомогти вам схуднути швидше.
Учасники були випадковим чином розподілені в одну з трьох груп: перша була на низьковуглеводній дієті, друга - на такій самій дієті плюс 43 грами шоколаду на день, а учасники третьої (контрольної) групи дотримувалися звичайних харчових звичок.
Після трьох тижнів контрольна група не набрала і не втратила масу тіла.
Але учасники двох інших груп втратили в середньому по 2 кілограми маси тіла.
Однак група з шоколадом втрачала масу на 10% швидше, ніж група без шоколаду.
Результат був статистично значущим з р-значенням, меншим, ніж 0,05 (п'ять сотих).
Ця новина очікувано поширилася, немов лісова пожежа.
На першу смугу найпопулярнішої в Європі газети Bild (Більд), в Daily Star, Irish Examiner (ˈaɪərɪʃ ɪgˈzæmɪnə), Huffington Post і навіть Shape Magazine.
Насправді ж, це "дослідження" було сфальшованим.
Ну, майже.
Дослідники провели експеримент саме так, як було описано, але вони навмисно збільшили імовірність хибно позитивних результатів: вибірка була неймовірно маленькою - всього п'ять людей в кожній групі; і для кожного учасника відстежувалися 18 показників, серед яких вага, холестерол, натрій, білок в крові, якість сну тощо.
Тож якби втрата ваги не показала значуще відхилення, інші фактори могли це зробити.
І з́аголовок міг би бути «Шоколад знижує рівень холестерину» або «підвищує якість сну» або будь-що інше.
Справа в тому, що р-значення застосовне лише для одного показника.
Коли ви аналізуєте багато змінних, імовірність хибно позитивного результату хоча б для однієї з них суттєво зростає; і це відомо як «р-хакінг».
Дослідники можуть вжити певних заходів для зменшення р-значення.
Скажімо, ви аналізуєте дані, і бачите, що вони майже досягли статистичної значущості, тож ви для певності вирішуєте зібрати ще трохи даних.
І коли р-значення падає нижче 0,05 (п'яти сотих), ви припиняєте збір, будучи впевненими, що додаткові значення зроблять результат іще більш значущим, якщо залежності справжні.
Але числові моделювання показують, що p-значення можуть перетинати поріг значущості навіть якщо набагато більша вибірка показала б, що жодних взаємозалежностей немає.
Насправді існує багато способів збільшити імовірність отримання значущих результатів.
Як-от: мати дві залежні змінні, додати більше спостережень, враховувати стать, або викинути одну з трьох умов.
Поєднання всіх трьох стратегій збільшує ймовірність хибно позитивного результату до 60% (шістдесяти відсотків) при p, меншому, ніж 0,05 (нуль цілих і п'ять сотих).
Ця проблема стосується не лише психології, нейронаук або медицини в цілому.
Візьмімо пентакварк, частинку, яка складається з 5 (п'яти) кварків, на відміну від протона чи нейтрона, які складаються з трьох кварків.
У фізиці елементарних частинок особливо жорсткі вимоги до статистичної значущості, а саме 5 сигм, тобто один шанс на 3,5 мільйони отримати хибно позитивний результат.
Але у 2002 році з'явилися свідчення існування тета-плюс пентакварка, і впродовж двох років одинадцять незалежних експериментів показали існування цього пентакварка з дуже високим рівнем статистичної значущості.
З липня 2003 (третього) по травень 2004 (четвертого) року теоретичні роботи щодо пентакварків публікувалися в середньому що два дні.
Але, на жаль, це відкриття було хибним.
Спроби підтвердити існування пентакварка з вищою статистичною потужністю не показали жодних слідів його існування.
Проблема полягала в тому, що перші вчені не були засліпленими щодо даних, вони знали, який саме результат очікувався.
І те, як саме дані були відібрані й проаналізовані, чи p-хакнуті, призвело до хибного висновку.
Зараз вчені використовують p-хакінг без злого наміру.
Існують легальні методи збору, аналізу і представлення даних, і ці методи впливають на статистичну значущість результатів.
Наприклад, 29 дослідницьких груп отримали однакові дані.
Потрібно було визначити шанси отримати червону картку для темношкірих гравців.
Використовуючи ідентичні дані, одні групи не виявили жодного ефекту, в той час, як інші підсумували, що темношкірі гравці мали втричі вищі шанси отримати червону картку.
Справа в тому, що дані не говорять самі за себе, вони потребують інтерпретації.
Може здатися, що темношкірі гравці мають вищі шанси отримати червону картку, але, звісно, не втричі вищі.
Тут консенсус допоміг, але для більшості результатів аналіз проводить лише одна дослідницька група, що створює конфлікт інтересів: вчені мають величезні стимули для публікації статей, адже від цього залежить їхня кар'єра.
Як сказав учений Браян Носек: «Нічого не вартує отримати хибний результат. Не опублікувати його - ось що має ціну».
Журнали охочіше публікують результати зі статистичною значущістю, тож якщо певний метод аналізу даних дає мінімальне р-значення, то ви, найімовірніше, оберете цей метод.
Публікація також більш імовірна, якщо результат є новим і неочікуваним.
Це спонукає вчених досліджувати все більш і більш малоймовірні гіпотези, що додатково зменшує відношення істинних гіпотез до хибних.
А як щодо відтворюваності?
Хіба самокорекція не є ознакою науки, коли різні вчені відтворюють результати початкового відкриття?
Теоретично - так.
Але практичне втілення трохи складніше.
Повернімося до експерименту з передбаченням.
Троє вчених спробували повторити один з цих експериментів.
І що ж вони виявили?
Частота "вгадування" не відрізнялася від випадкового розподілу.
Їхню статтю відхилили, коли вони надіслали її в той самий журнал, в якому була оригінальна стаття.
Причина: "Журнал не публікує відтворені дослідження".
Отже, якщо ви вчений, успішною є така стратегія.
Навіть не намагайтеся відтворити дослідження, тому що його не опублікують.
І є дуже високий шанс того, що ваші результати не будуть статистично значущими.
Замість переконання колег у невідтворюваності ефекту, вас звинуватять в тому, що ви все зробили неправильно.
Отож, набагато кращим підходом було б перевірити нові та неочікувані гіпотези, а потім p-хакінгом досягти статистично значущого результату.
Я не хочу бути надто цинічним, адже за останні 10 років все змінилося на краще.
Багато вчених визнають описані мною проблеми й вживають заходів для їхнього усунення: за останні 10 років було проведено багато великих досліджень відтворюваності.
Існує сайт "Retraction Watch", на якому публікуються статті, які були відкликані.
Існують також онлайн-архіви для неопублікованих негативних результатів.
А гіпотези й методи все частіше надаються для експертної оцінки до проведення експерименту, з гарантією того, що дослідження будуть опубліковані незалежно від результатів за умови дотримання процедури.
Це усуває упередження в публікаціях, сприяє дослідженням з більшою статистичною потужністю, і знижує стимули для р-хакінгу.
Найбільш вражаючим у кризі відтворюваності не є домінування помилкової інформації в публікаціях.
Зрештою, шлях до істини важкий, і математично не все, що опубліковано, може бути правильним.
Мене турбує те, що навіть докладаючи максимальних зусиль для з'ясування істини, використовуючи найскладніші й найдосконаліші інструменти, як-от рецензування та стандартні практики, ми досі помиляємося настільки часто.
Тоді наскільки часто ми обманюємо самі себе, якщо НЕ використовуємо науковий метод?
Якою б недосконалою не була наша наука, вона є набагато надійнішим способом пізнання, ніж будь-який інший.