วิทยาศาสตร์ข้อมูล- สถิติสหสัมพันธ์กับความเป็นเหตุเป็นผล
ความสัมพันธ์ไม่ได้หมายความถึงความเป็นเหตุเป็นผล
สหสัมพันธ์วัดความสัมพันธ์เชิงตัวเลขระหว่างสองตัวแปร
ค่าสัมประสิทธิ์สหสัมพันธ์สูง (ใกล้กับ 1) ไม่ได้หมายความว่าเราสามารถสรุปความสัมพันธ์ที่แท้จริงระหว่างตัวแปรสองตัวได้อย่างแน่นอน
ตัวอย่างคลาสสิก:
- ในช่วงฤดูร้อน การขายไอศกรีมที่ชายหาดเพิ่มขึ้น
- พร้อมกันนั้นอุบัติเหตุการจมน้ำก็เพิ่มขึ้นเช่นกัน
นี่หมายความว่าการเพิ่มขึ้นของยอดขายไอศกรีมเป็นสาเหตุโดยตรงของการจมน้ำที่เพิ่มขึ้นหรือไม่?
ตัวอย่างชายหาดใน Python
ที่นี่ เราสร้างชุดข้อมูลสมมติให้คุณลอง:
ตัวอย่าง
import pandas as pd
import matplotlib.pyplot as plt
Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale =
[20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident":
[20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale":
[20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)
Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()
correlation_beach = Drowning.corr()
print(correlation_beach)
เอาท์พุท:
Correlation vs Causality - ตัวอย่างชายหาด
กล่าวอีกนัยหนึ่ง: เราสามารถใช้การขายไอศกรีมเพื่อทำนายอุบัติเหตุการจมน้ำได้หรือไม่?
คำตอบคือ - อาจจะไม่
เป็นไปได้ว่าตัวแปรทั้งสองนี้มีความสัมพันธ์กันโดยบังเอิญ
แล้วจมน้ำเกิดจากอะไร?
- นักว่ายน้ำไร้ฝีมือ
- คลื่น
- ตะคริว
- อาการชัก
- ขาดการดูแล
- แอลกอฮอล์ (ผิด) ใช้
- ฯลฯ
ให้เราย้อนอาร์กิวเมนต์:
ค่าสัมประสิทธิ์สหสัมพันธ์ต่ำ (ใกล้ศูนย์) หมายความว่าการเปลี่ยนแปลงของ x ไม่ส่งผลต่อ y หรือไม่?
กลับไปที่คำถาม:
- เราสามารถสรุปได้ว่า Average_Pulse ไม่มีผลกับ Calorie_Burnage เนื่องจากมีค่าสัมประสิทธิ์สหสัมพันธ์ต่ำหรือไม่
คำตอบคือไม่
มีความแตกต่างที่สำคัญระหว่างความสัมพันธ์และความเป็นเหตุเป็นผล:
- สหสัมพันธ์คือตัวเลขที่วัดว่าข้อมูลมีความเกี่ยวข้องกันมากเพียงใด
- เวรกรรมคือข้อสรุปที่ x ทำให้เกิด y
ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องไตร่ตรองอย่างมีวิจารณญาณเกี่ยวกับแนวคิดเรื่องเวรกรรมเมื่อเราทำการคาดคะเน!