วิทยาศาสตร์ข้อมูล- ตารางถดถอย: P-Value


"สถิติของส่วนสัมประสิทธิ์" ในตารางการถดถอย

ตารางถดถอย - สถิติของสัมประสิทธิ์

ตอนนี้ เราต้องการทดสอบว่าสัมประสิทธิ์จากฟังก์ชันการถดถอยเชิงเส้นมีผลกระทบอย่างมีนัยสำคัญต่อตัวแปรตาม (Calorie_Burnage)

ซึ่งหมายความว่าเราต้องการพิสูจน์ว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage โดยใช้การทดสอบทางสถิติ

มีสี่องค์ประกอบที่อธิบายสถิติของสัมประสิทธิ์:

  • std errย่อมาจาก Standard Error
  • tคือ "t-value" ของสัมประสิทธิ์
  • P>|t| เรียกว่า “ค่า P”
  •  [0.025 0.975]แทนช่วงความเชื่อมั่นของสัมประสิทธิ์

เราจะเน้นที่การทำความเข้าใจ "ค่า P" ในโมดูลนี้


ค่า P

ค่า P เป็นตัวเลขทางสถิติที่จะสรุปว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage หรือไม่

เราทดสอบว่าค่าที่แท้จริงของสัมประสิทธิ์เท่ากับศูนย์หรือไม่ (ไม่มีความสัมพันธ์) การทดสอบทางสถิติสำหรับสิ่งนี้เรียกว่าการทดสอบสมมติฐาน

  • ค่า P ต่ำ (< 0.05) หมายความว่าสัมประสิทธิ์ไม่น่าจะเท่ากับศูนย์
  • ค่า P ที่สูง (> 0.05) หมายความว่าเราไม่สามารถสรุปได้ว่าตัวแปรอธิบายส่งผลต่อตัวแปรตาม (ที่นี่: ถ้า Average_Pulse ส่งผลต่อ Calorie_Burnage)
  • ค่า P สูงเรียกอีกอย่างว่าค่า P ที่ไม่มีนัยสำคัญ

การทดสอบสมมติฐาน

การทดสอบสมมติฐานเป็นขั้นตอนทางสถิติเพื่อทดสอบว่าผลลัพธ์ของคุณถูกต้องหรือไม่

ในตัวอย่างของเรา เรากำลังทดสอบว่าสัมประสิทธิ์จริงของ Average_Pulse และการสกัดกั้นมีค่าเท่ากับศูนย์หรือไม่

การทดสอบสมมติฐานมีสองข้อความ สมมติฐานว่างและสมมติฐานทางเลือก

  • สมมติฐานว่างสามารถเขียนได้ในไม่ช้าเป็น H0
  • สมมติฐานทางเลือกสามารถเขียนได้ในไม่ช้าว่า HA

เขียนทางคณิตศาสตร์:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

เครื่องหมาย ≠ หมายถึง "ไม่เท่ากับ"


การทดสอบสมมติฐานและค่า P

สมมติฐานว่างสามารถถูกปฏิเสธหรือไม่ก็ได้

หากเราปฏิเสธสมมติฐานว่าง เราจะสรุปว่ามีความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage ค่า P ใช้สำหรับข้อสรุปนี้

เกณฑ์ทั่วไปของค่า P คือ 0.05

หมายเหตุ:ค่า P 0.05 หมายความว่า 5% ของจำนวนครั้ง เราจะปฏิเสธสมมติฐานว่างอย่างไม่ถูกต้อง หมายความว่าเรายอมรับว่า 5% ของครั้งนั้นเราอาจสรุปความสัมพันธ์แบบผิดๆ

หากค่า P ต่ำกว่า 0.05 เราสามารถปฏิเสธสมมติฐานว่างและสรุปได้ว่ามีความสัมพันธ์ระหว่างตัวแปร

อย่างไรก็ตาม ค่า P ของ Average_Pulse คือ 0.824 ดังนั้นเราจึงไม่สามารถสรุปความสัมพันธ์ระหว่าง Average_Pulse และ Calorie_Burnage

หมายความว่ามีโอกาส 82.4% ที่สัมประสิทธิ์ที่แท้จริงของ Average_Pulse เป็นศูนย์

การสกัดกั้นใช้เพื่อปรับความสามารถในการทำนายของฟังก์ชันถดถอยได้แม่นยำยิ่งขึ้น ดังนั้นจึงเป็นเรื่องปกติที่จะตีความค่า P ของการสกัดกั้น