Pandas - ความสัมพันธ์ของข้อมูล
ค้นหาความสัมพันธ์
ลักษณะที่ดีของโมดูล Pandas คือcorr()
วิธีการ
วิธี นี้corr()
จะคำนวณความสัมพันธ์ระหว่างแต่ละคอลัมน์ในชุดข้อมูลของคุณ
ตัวอย่างในหน้านี้ใช้ไฟล์ CSV ชื่อ: 'data.csv'
ดาวน์โหลดdata.csv หรือเปิด data.csv
ตัวอย่าง
แสดงความสัมพันธ์ระหว่างคอลัมน์:
df.corr()
ผลลัพธ์
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
หมายเหตุ: วิธี
นี้corr()
จะละเว้นคอลัมน์ "ไม่ใช่ตัวเลข"
อธิบายผลลัพธ์
ผลลัพธ์ของcorr()
วิธีการคือตารางที่มีตัวเลขจำนวนมากซึ่งแสดงถึงความสัมพันธ์ระหว่างสองคอลัมน์ได้ดีเพียงใด
จำนวนแตกต่างกันไปตั้งแต่ -1 ถึง 1
1 หมายความว่ามีความสัมพันธ์แบบ 1 ต่อ 1 (ความสัมพันธ์ที่สมบูรณ์แบบ) และสำหรับชุดข้อมูลนี้ แต่ละครั้งที่ค่าเพิ่มขึ้นในคอลัมน์แรก อีกค่าหนึ่งก็เพิ่มขึ้นเช่นกัน
0.9 ก็เป็นความสัมพันธ์ที่ดีเช่นกัน และหากคุณเพิ่มค่าหนึ่ง ค่าอีกค่าหนึ่งก็จะเพิ่มขึ้นเช่นกัน
-0.9 จะเป็นความสัมพันธ์ที่ดีพอๆ กับ 0.9 แต่ถ้าคุณเพิ่มค่าหนึ่ง อีกค่าหนึ่งก็จะลดลง
0.2 หมายถึงไม่มีความสัมพันธ์ที่ดี หมายความว่าถ้าค่าหนึ่งเพิ่มขึ้นไม่ได้หมายความว่าอีกค่าหนึ่งจะเพิ่มขึ้น
ความสัมพันธ์ที่ดีคืออะไร?
ขึ้นอยู่กับการใช้งาน แต่ฉันคิดว่ามันปลอดภัยที่จะบอกว่าคุณต้องมีอย่างน้อย0.6
(หรือ-0.6
) เพื่อเรียกความสัมพันธ์ที่ดี
ความสัมพันธ์ที่สมบูรณ์แบบ:
เราจะเห็นได้ว่า "Duration" และ "Duration" ได้ตัวเลข1.000000
มาแล้ว ซึ่งก็สมเหตุสมผล แต่ละคอลัมน์จะมีความสัมพันธ์ที่สมบูรณ์แบบกับตัวเองเสมอ
ความสัมพันธ์ที่ดี:
"ระยะเวลา" และ "แคลอรี่" มี0.922721
ความสัมพันธ์กัน ซึ่งเป็นความสัมพันธ์ที่ดีมาก และเราสามารถคาดการณ์ได้ว่ายิ่งคุณออกกำลังกายนานเท่าไร คุณก็ยิ่งเผาผลาญแคลอรีได้มากขึ้นเท่านั้น และในทางกลับกัน ถ้าคุณเผาผลาญแคลอรีมาก คุณจะ คงจะมีงานยาวออกไป
ความสัมพันธ์ที่ไม่ดี:
"Duration" และ "Maxpulse" มี0.009403
ความสัมพันธ์กัน ซึ่งเป็นความสัมพันธ์ที่แย่มาก หมายความว่าเราไม่สามารถทำนายชีพจรสูงสุดได้เพียงแค่ดูระยะเวลาของการออกกำลังกาย และในทางกลับกัน
ได้รับการรับรอง!
$10 ลงทะเบียน