วิทยาศาสตร์ข้อมูล- สถิติสหสัมพันธ์กับความเป็นเหตุเป็นผล


ความสัมพันธ์ไม่ได้หมายความถึงความเป็นเหตุเป็นผล

สหสัมพันธ์วัดความสัมพันธ์เชิงตัวเลขระหว่างสองตัวแปร

ค่าสัมประสิทธิ์สหสัมพันธ์สูง (ใกล้กับ 1) ไม่ได้หมายความว่าเราสามารถสรุปความสัมพันธ์ที่แท้จริงระหว่างตัวแปรสองตัวได้อย่างแน่นอน

ตัวอย่างคลาสสิก:

  • ในช่วงฤดูร้อน การขายไอศกรีมที่ชายหาดเพิ่มขึ้น
  • พร้อมกันนั้นอุบัติเหตุการจมน้ำก็เพิ่มขึ้นเช่นกัน

นี่หมายความว่าการเพิ่มขึ้นของยอดขายไอศกรีมเป็นสาเหตุโดยตรงของการจมน้ำที่เพิ่มขึ้นหรือไม่?


ตัวอย่างชายหาดใน Python

ที่นี่ เราสร้างชุดข้อมูลสมมติให้คุณลอง:

ตัวอย่าง

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

เอาท์พุท:

สหสัมพันธ์กับเวรกรรม

Correlation vs Causality - ตัวอย่างชายหาด

กล่าวอีกนัยหนึ่ง: เราสามารถใช้การขายไอศกรีมเพื่อทำนายอุบัติเหตุการจมน้ำได้หรือไม่?

คำตอบคือ - อาจจะไม่

เป็นไปได้ว่าตัวแปรทั้งสองนี้มีความสัมพันธ์กันโดยบังเอิญ

แล้วจมน้ำเกิดจากอะไร?

  • นักว่ายน้ำไร้ฝีมือ
  • คลื่น
  • ตะคริว
  • อาการชัก
  • ขาดการดูแล
  • แอลกอฮอล์ (ผิด) ใช้
  • ฯลฯ

ให้เราย้อนอาร์กิวเมนต์:

ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำ (ใกล้ศูนย์) หมายความว่าการเปลี่ยนแปลงของ x ไม่ส่งผลต่อ y หรือไม่?

กลับไปที่คำถาม:

  • เราสามารถสรุปได้ว่า Average_Pulse ไม่มีผลกับ Calorie_Burnage เนื่องจากมีค่าสัมประสิทธิ์สหสัมพันธ์ต่ำหรือไม่

คำตอบคือไม่

มีความแตกต่างที่สำคัญระหว่างความสัมพันธ์และความเป็นเหตุเป็นผล:

  • สหสัมพันธ์คือตัวเลขที่วัดว่าข้อมูลมีความเกี่ยวข้องกันมากเพียงใด
  • เวรกรรมคือข้อสรุปที่ x ทำให้เกิด y

ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องไตร่ตรองอย่างมีวิจารณญาณเกี่ยวกับแนวคิดเรื่องเวรกรรมเมื่อเราทำการคาดคะเน!