Pandas - ความสัมพันธ์ของข้อมูล


ค้นหาความสัมพันธ์

ลักษณะที่ดีของโมดูล Pandas คือcorr()วิธีการ

วิธี นี้corr()จะคำนวณความสัมพันธ์ระหว่างแต่ละคอลัมน์ในชุดข้อมูลของคุณ

ตัวอย่างในหน้านี้ใช้ไฟล์ CSV ชื่อ: 'data.csv'

ดาวน์โหลดdata.csv หรือเปิด data.csv

ตัวอย่าง

แสดงความสัมพันธ์ระหว่างคอลัมน์:

df.corr()

ผลลัพธ์

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

หมายเหตุ: วิธี นี้corr()จะละเว้นคอลัมน์ "ไม่ใช่ตัวเลข"

อธิบายผลลัพธ์

ผลลัพธ์ของcorr()วิธีการคือตารางที่มีตัวเลขจำนวนมากซึ่งแสดงถึงความสัมพันธ์ระหว่างสองคอลัมน์ได้ดีเพียงใด

จำนวนแตกต่างกันไปตั้งแต่ -1 ถึง 1

1 หมายความว่ามีความสัมพันธ์แบบ 1 ต่อ 1 (ความสัมพันธ์ที่สมบูรณ์แบบ) และสำหรับชุดข้อมูลนี้ แต่ละครั้งที่ค่าเพิ่มขึ้นในคอลัมน์แรก อีกค่าหนึ่งก็เพิ่มขึ้นเช่นกัน

0.9 ก็เป็นความสัมพันธ์ที่ดีเช่นกัน และหากคุณเพิ่มค่าหนึ่ง ค่าอีกค่าหนึ่งก็จะเพิ่มขึ้นเช่นกัน

-0.9 จะเป็นความสัมพันธ์ที่ดีพอๆ กับ 0.9 แต่ถ้าคุณเพิ่มค่าหนึ่ง อีกค่าหนึ่งก็จะลดลง

0.2 หมายถึงไม่มีความสัมพันธ์ที่ดี หมายความว่าถ้าค่าหนึ่งเพิ่มขึ้นไม่ได้หมายความว่าอีกค่าหนึ่งจะเพิ่มขึ้น

ความสัมพันธ์ที่ดีคืออะไร? ขึ้นอยู่กับการใช้งาน แต่ฉันคิดว่ามันปลอดภัยที่จะบอกว่าคุณต้องมีอย่างน้อย0.6(หรือ-0.6) เพื่อเรียกความสัมพันธ์ที่ดี

ความสัมพันธ์ที่สมบูรณ์แบบ:

เราจะเห็นได้ว่า "Duration" และ "Duration" ได้ตัวเลข1.000000มาแล้ว ซึ่งก็สมเหตุสมผล แต่ละคอลัมน์จะมีความสัมพันธ์ที่สมบูรณ์แบบกับตัวเองเสมอ

ความสัมพันธ์ที่ดี:

"ระยะเวลา" และ "แคลอรี่" มี0.922721ความสัมพันธ์กัน ซึ่งเป็นความสัมพันธ์ที่ดีมาก และเราสามารถคาดการณ์ได้ว่ายิ่งคุณออกกำลังกายนานเท่าไร คุณก็ยิ่งเผาผลาญแคลอรีได้มากขึ้นเท่านั้น และในทางกลับกัน ถ้าคุณเผาผลาญแคลอรีมาก คุณจะ คงจะมีงานยาวออกไป

ความสัมพันธ์ที่ไม่ดี:

"Duration" และ "Maxpulse" มี0.009403ความสัมพันธ์กัน ซึ่งเป็นความสัมพันธ์ที่แย่มาก หมายความว่าเราไม่สามารถทำนายชีพจรสูงสุดได้เพียงแค่ดูระยะเวลาของการออกกำลังกาย และในทางกลับกัน


ทดสอบตัวเองด้วยแบบฝึกหัด

ออกกำลังกาย:

แทรกไวยากรณ์ที่ถูกต้องเพื่อค้นหาความสัมพันธ์ระหว่างคอลัมน์ใน DataFrame

df.()


w3schools CERTIFIED . 2021

ได้รับการรับรอง!

ทำโมดูล Pandas ให้เสร็จ ทำแบบฝึกหัด ทำข้อสอบ แล้วคุณจะกลายเป็น w3schools ที่ผ่านการรับรอง!

$10 ลงทะเบียน