วิทยาศาสตร์ข้อมูล- ค่าเบี่ยงเบนมาตรฐานสถิติ


ส่วนเบี่ยงเบนมาตรฐาน

ส่วนเบี่ยงเบนมาตรฐานคือตัวเลขที่อธิบายว่าการสังเกตมีการกระจายออกไปอย่างไร

ส่วนเบี่ยงเบนมาตรฐาน

ฟังก์ชันทางคณิตศาสตร์จะมีปัญหาในการทำนายค่าที่แม่นยำ หากการสังเกตนั้น "กระจาย" ส่วนเบี่ยงเบนมาตรฐานเป็นตัววัดความไม่แน่นอน

ค่าเบี่ยงเบนมาตรฐานต่ำหมายความว่าตัวเลขส่วนใหญ่อยู่ใกล้กับค่าเฉลี่ย (ค่าเฉลี่ย)

ค่าเบี่ยงเบนมาตรฐานที่สูงหมายความว่าค่าต่างๆ จะกระจายออกไปในขอบเขตที่กว้างกว่า

ค่าเบี่ยงเบนมาตรฐานมักใช้สัญลักษณ์ Sigma: σ

เราสามารถใช้std()ฟังก์ชันจาก Numpy เพื่อค้นหาค่าเบี่ยงเบนมาตรฐานของตัวแปร:

ตัวอย่าง

import numpy as np

std = np.std(full_health_data)
print(std)

ผลลัพธ์:

ส่วนเบี่ยงเบนมาตรฐาน

ตัวเลขเหล่านี้หมายความว่าอย่างไร


ค่าสัมประสิทธิ์การแปรผัน

ค่าสัมประสิทธิ์การแปรผันใช้เพื่อให้ทราบว่าค่าเบี่ยงเบนมาตรฐานมีขนาดใหญ่เพียงใด

ทางคณิตศาสตร์สัมประสิทธิ์การแปรผันถูกกำหนดเป็น:

Coefficient of Variation = Standard Deviation / Mean

 เราสามารถทำได้ใน Python หากเราดำเนินการด้วยรหัสต่อไปนี้:

ตัวอย่าง

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

ผลลัพธ์:

ค่าสัมประสิทธิ์การแปรผัน

เราเห็นว่าตัวแปร Duration, Calorie_Burnage และ Hours_Work มีค่าเบี่ยงเบนมาตรฐานสูงเมื่อเทียบกับ Max_Pulse, Average_Pulse และ Hours_Sleep