วิทยาศาสตร์ข้อมูล- ค่าเบี่ยงเบนมาตรฐานสถิติ
ส่วนเบี่ยงเบนมาตรฐาน
ส่วนเบี่ยงเบนมาตรฐานคือตัวเลขที่อธิบายว่าการสังเกตมีการกระจายออกไปอย่างไร
ฟังก์ชันทางคณิตศาสตร์จะมีปัญหาในการทำนายค่าที่แม่นยำ หากการสังเกตนั้น "กระจาย" ส่วนเบี่ยงเบนมาตรฐานเป็นตัววัดความไม่แน่นอน
ค่าเบี่ยงเบนมาตรฐานต่ำหมายความว่าตัวเลขส่วนใหญ่อยู่ใกล้กับค่าเฉลี่ย (ค่าเฉลี่ย)
ค่าเบี่ยงเบนมาตรฐานที่สูงหมายความว่าค่าต่างๆ จะกระจายออกไปในขอบเขตที่กว้างกว่า
ค่าเบี่ยงเบนมาตรฐานมักใช้สัญลักษณ์ Sigma: σ
เราสามารถใช้std()
ฟังก์ชันจาก Numpy เพื่อค้นหาค่าเบี่ยงเบนมาตรฐานของตัวแปร:
ตัวอย่าง
import numpy as np
std = np.std(full_health_data)
print(std)
ผลลัพธ์:
ตัวเลขเหล่านี้หมายความว่าอย่างไร
ค่าสัมประสิทธิ์การแปรผัน
ค่าสัมประสิทธิ์การแปรผันใช้เพื่อให้ทราบว่าค่าเบี่ยงเบนมาตรฐานมีขนาดใหญ่เพียงใด
ทางคณิตศาสตร์สัมประสิทธิ์การแปรผันถูกกำหนดเป็น:
Coefficient of Variation = Standard Deviation / Mean
เราสามารถทำได้ใน Python หากเราดำเนินการด้วยรหัสต่อไปนี้:
ตัวอย่าง
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
ผลลัพธ์:
เราเห็นว่าตัวแปร Duration, Calorie_Burnage และ Hours_Work มีค่าเบี่ยงเบนมาตรฐานสูงเมื่อเทียบกับ Max_Pulse, Average_Pulse และ Hours_Sleep