วิทยาศาสตร์ข้อมูล- ความแปรปรวนทางสถิติ
ความแปรปรวน
ความแปรปรวนเป็นอีกจำนวนหนึ่งที่บ่งชี้ว่าค่ากระจายออกไปอย่างไร
ที่จริงแล้ว หากคุณหาสแควร์รูทของความแปรปรวน คุณจะได้ค่าเบี่ยงเบนมาตรฐาน หรือในทางกลับกัน ถ้าคุณคูณค่าเบี่ยงเบนมาตรฐานด้วยตัวมันเอง คุณจะได้ความแปรปรวน!
ขั้นแรกเราจะใช้ชุดข้อมูลที่มีการสังเกต 10 ครั้งเพื่อยกตัวอย่างวิธีที่เราสามารถคำนวณความแปรปรวนได้:
ระยะเวลา | ค่าเฉลี่ย_Pulse | Max_Pulse | แคลอรี่_เบิร์น | ชั่วโมง_ทำงาน | Hours_Sleep |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
ความแปรปรวนมักแสดงด้วยสัญลักษณ์ Sigma Square: σ^2
ขั้นตอนที่ 1 เพื่อคำนวณความแปรปรวน: ค้นหาค่าเฉลี่ย
เราต้องการหาความแปรปรวนของ Average_Pulse
1. ค้นหาค่าเฉลี่ย:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
ค่าเฉลี่ยคือ 102.5
ขั้นตอนที่ 2: สำหรับแต่ละค่า - ค้นหาความแตกต่างจากค่าเฉลี่ย
2. ค้นหาความแตกต่างจากค่าเฉลี่ยสำหรับแต่ละค่า:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
ขั้นตอนที่ 3: สำหรับแต่ละส่วนต่าง - ค้นหาค่ากำลังสอง
3. ค้นหาค่ากำลังสองสำหรับส่วนต่างแต่ละส่วน:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
หมายเหตุ:เราต้องยกกำลังสองค่าเพื่อให้ได้สเปรดทั้งหมด
ขั้นตอนที่ 4: ความแปรปรวนคือจำนวนเฉลี่ยของค่ากำลังสองเหล่านี้
4. รวมค่ากำลังสองและหาค่าเฉลี่ย:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
ความแปรปรวนคือ 206.25
ใช้ Python เพื่อค้นหาความแปรปรวนของ health_data
เราสามารถใช้var()
ฟังก์ชันจาก Numpy เพื่อค้นหาความแปรปรวน (จำไว้ว่าตอนนี้เราใช้ชุดข้อมูลแรกที่มีการสังเกต 10 ครั้ง):
ตัวอย่าง
import numpy as np
var = np.var(health_data)
print(var)
ผลลัพธ์:
ใช้ Python เพื่อค้นหาความแปรปรวนของชุดข้อมูลแบบเต็ม
ที่นี่เราคำนวณความแปรปรวนสำหรับแต่ละคอลัมน์สำหรับชุดข้อมูลทั้งหมด:
ตัวอย่าง
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
ผลลัพธ์: