Хибні уявлення щодо статистики. Кореляція і причинність
Поширене хибне уявлення в статистиці полягає в тому, що кореляція передбачає причинно-наслідкові зв'язки.
Наприклад: якщо у високих людей є коти, то можна подумати, ніби високий зріст означає більшу ймовірність мати домашнього кота.
Однак, просто знаючи кореляцію між зростом та наявністю кота, ми не можемо з'ясувати напрям причинно-наслідкового зв'язку.
Натомість можна припустити, що наявність кота змушує людей досягати більшого зросту, або, можливо, справжня причина цілковито інша.
Наприклад: люди й коти живуть на двох окремих островах, одні - на острові з достатньою кількістю їжі, що сприяє високому зросту і ймовірності мати кота, а інші - на пустельному острові, де обмаль їжі обмежує як зріст, так і можливість прогодувати кота.
Сенс таких прикладів полягає в тому, що наявність зв'язку між двома речами не означає, що одна з них спричиняє іншу.
Звідси загальний висновок: кореляція не передбачає причинності.
І це справді так.
Але ця часто повторювана думка призводить до ще однієї поширеної омани, суть якої полягає в тому, що неможливо вивести будь-який причинно-наслідковий зв'язок зі статистики.
Насправді можливо.
Звісно, цілком розумно вважати, що якщо дві речі взаємопов'язані, то, ймовірно, існує якась причина, навіть якщо сама кореляція не може вам нічого сказати.
Іноді можна з'ясувати причинність на основі додаткової інформації.
Наприклад, знаючи, що одна подія сталася раніше ніж інша.
Але також можна вивести причинно-наслідковий зв'язок безпосередньо з кореляції, вам просто потрібно більше ніж сама кореляція.
Дещо під назвою причинно-наслідкові мережі.
У нашому прикладі з островами, зростом і котами нам відомо, що наявність кота і зріст скорельовані, тобто взаємопов'язані, але ми не знаємо в чому причина цієї кореляції.
Якщо ми більше нічого не знаємо, тоді у нас є 19 різних причинно-наслідкових зв'язків, які можуть пояснити ситуацію, 20 - якщо вважати нашу кореляцію звичайною випадковістю.
Однак, можливо, ми знаємо ще дві речі.
Перша: припустимо, що люди, які народилися на певному острові, залишаються там, тому їх зріст не впливає на те, на якому острові вони живуть, і ми можемо виключити ті залежності, в яких зріст впливає на острів.
Друга: припустимо, що на будь-якому окремо взятому острові не існує жодної кореляції між зростом і наявністю домашнього кота, тоді ми можемо вилучити всі варіанти, де зріст і коти впливають один на одного безпосередньо.
Це залишає нам лише два варіанти: або острови є причинними поясненнями як зросту, так і наявності домашнього кота, як ми описували раніше, або ж наявність домашнього кота є причинним поясненням для островів, які своєю чергою є причинним поясненням для зросту.
Наприклад: можливо велика кількість котів перетворила острів на рай, впливаючи тим самим на зріст майбутніх любителів котів.
Отже, почавши з 19 можливих причинно-наслідкових зв'язків, ми, використавши кореляції, відкинули всі варіанти окрім двох.
Непогано.
Звичайно, це лише простий приклад, але для будь-якої групи речей ви можете використовувати різні кореляції між ними, або відсутність кореляції для усунення деяких можливих причинно-наслідкових зв'язків.
Ось так кореляції можуть передбачати причинно-наслідкові зв'язки.
Проте, є одна проблема.
Деякі експерименти у квантовій механіці мають такі кореляції. які виключають всі можливі причинно-наслідкові зв'язки.
Отже, кореляція не обов'язково зумовлює причинно-наслідкові зв'язки, але вона може це робити, якщо ви використовуєте її для оцінки причинної моделі.
За винятком квантової механіки.