วิทยาศาสตร์ข้อมูล- ตารางถดถอย: P-Value
"สถิติของส่วนสัมประสิทธิ์" ในตารางการถดถอย
ตอนนี้ เราต้องการทดสอบว่าสัมประสิทธิ์จากฟังก์ชันการถดถอยเชิงเส้นมีผลกระทบอย่างมีนัยสำคัญต่อตัวแปรตาม (Calorie_Burnage)
ซึ่งหมายความว่าเราต้องการพิสูจน์ว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage โดยใช้การทดสอบทางสถิติ
มีสี่องค์ประกอบที่อธิบายสถิติของสัมประสิทธิ์:
- std errย่อมาจาก Standard Error
- tคือ "t-value" ของสัมประสิทธิ์
- P>|t| เรียกว่า “ค่า P”
- [0.025 0.975]แทนช่วงความเชื่อมั่นของสัมประสิทธิ์
เราจะเน้นที่การทำความเข้าใจ "ค่า P" ในโมดูลนี้
ค่า P
ค่า P เป็นตัวเลขทางสถิติที่จะสรุปว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage หรือไม่
เราทดสอบว่าค่าที่แท้จริงของสัมประสิทธิ์เท่ากับศูนย์หรือไม่ (ไม่มีความสัมพันธ์) การทดสอบทางสถิติสำหรับสิ่งนี้เรียกว่าการทดสอบสมมติฐาน
- ค่า P ต่ำ (< 0.05) หมายความว่าสัมประสิทธิ์ไม่น่าจะเท่ากับศูนย์
- ค่า P ที่สูง (> 0.05) หมายความว่าเราไม่สามารถสรุปได้ว่าตัวแปรอธิบายส่งผลต่อตัวแปรตาม (ที่นี่: ถ้า Average_Pulse ส่งผลต่อ Calorie_Burnage)
- ค่า P สูงเรียกอีกอย่างว่าค่า P ที่ไม่มีนัยสำคัญ
การทดสอบสมมติฐาน
การทดสอบสมมติฐานเป็นขั้นตอนทางสถิติเพื่อทดสอบว่าผลลัพธ์ของคุณถูกต้องหรือไม่
ในตัวอย่างของเรา เรากำลังทดสอบว่าสัมประสิทธิ์จริงของ Average_Pulse และการสกัดกั้นมีค่าเท่ากับศูนย์หรือไม่
การทดสอบสมมติฐานมีสองข้อความ สมมติฐานว่างและสมมติฐานทางเลือก
- สมมติฐานว่างสามารถเขียนได้ในไม่ช้าเป็น H0
- สมมติฐานทางเลือกสามารถเขียนได้ในไม่ช้าว่า HA
เขียนทางคณิตศาสตร์:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
เครื่องหมาย ≠ หมายถึง "ไม่เท่ากับ"
การทดสอบสมมติฐานและค่า P
สมมติฐานว่างสามารถถูกปฏิเสธหรือไม่ก็ได้
หากเราปฏิเสธสมมติฐานว่าง เราจะสรุปว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage ค่า P ใช้สำหรับข้อสรุปนี้
เกณฑ์ทั่วไปของค่า P คือ 0.05
หมายเหตุ:ค่า P 0.05 หมายความว่า 5% ของจำนวนครั้ง เราจะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้อง หมายความว่าเรายอมรับว่า 5% ของครั้งนั้นเราอาจสรุปความสัมพันธ์แบบผิดๆ
หากค่า P ต่ำกว่า 0.05 เราสามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่ามีความสัมพันธ์ระหว่างตัวแปร
อย่างไรก็ตาม ค่า P ของ Average_Pulse คือ 0.824 ดังนั้นเราจึงไม่สามารถสรุปความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage
หมายความว่ามีโอกาส 82.4% ที่สัมประสิทธิ์ที่แท้จริงของ Average_Pulse เป็นศูนย์
การสกัดกั้นใช้เพื่อปรับความสามารถในการทำนายของฟังก์ชันถดถอยได้แม่นยำยิ่งขึ้น ดังนั้นจึงเป็นเรื่องปกติที่จะตีความค่า P ของการสกัดกั้น