Pandas - วิเคราะห์ DataFrames


กำลังดูข้อมูล

วิธีหนึ่งที่ใช้มากที่สุดในการดูภาพรวมอย่างรวดเร็วของ DataFrame คือhead()วิธีการ

วิธี การhead()ส่งคืนส่วนหัวและจำนวนแถวที่ระบุ โดยเริ่มจากด้านบนสุด

ตัวอย่าง

รับภาพรวมโดยย่อโดยการพิมพ์ 10 แถวแรกของ DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

ในตัวอย่างของเรา เราจะใช้ไฟล์ CSV ชื่อ 'data.csv'

ดาวน์โหลดdata.csvหรือเปิด data.csvในเบราว์เซอร์ของคุณ

หมายเหตุ:หากไม่ระบุจำนวนแถวhead()วิธีการจะคืนค่าแถวบนสุด 5 แถว

ตัวอย่าง

พิมพ์ 5 แถวแรกของ DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

นอกจากนี้ยังมีtail()วิธีการดู แถว สุดท้ายของ DataFrame

เมธอดส่งคืน ส่วนtail()หัวและจำนวนแถวที่ระบุ โดยเริ่มจากด้านล่างสุด

ตัวอย่าง

พิมพ์ 5 แถวสุดท้ายของ DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

ได้รับการรับรอง!

ทำโมดูล Pandas ให้เสร็จ ทำแบบฝึกหัด ทำข้อสอบ แล้วคุณจะกลายเป็น w3schools ที่ผ่านการรับรอง!

$10 ลงทะเบียน

ข้อมูลเกี่ยวกับข้อมูล

ออบเจ็กต์ DataFrames มีเมธอดที่เรียกว่าinfo()ซึ่งให้ข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูล

ตัวอย่าง

พิมพ์ข้อมูลเกี่ยวกับข้อมูล:

print(df.info()) 

ผลลัพธ์

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

อธิบายผลลัพธ์

ผลลัพธ์บอกเราว่ามี 169 แถวและ 4 คอลัมน์:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

และชื่อของแต่ละคอลัมน์ด้วยชนิดข้อมูลดังนี้

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

ค่าว่าง

วิธี การinfo()นี้ยังบอกเราว่าแต่ละคอลัมน์มีค่าที่ไม่ใช่ Null จำนวนเท่าใด และในชุดข้อมูลของเรา ดูเหมือนว่าจะมีค่าที่ไม่ใช่ค่า Null 164 จาก 169 ค่าในคอลัมน์ "แคลอรี่"

ซึ่งหมายความว่ามี 5 แถวที่ไม่มีค่าเลยในคอลัมน์ "แคลอรี่" ไม่ว่าจะด้วยเหตุผลใดก็ตาม

ค่าว่างหรือค่า Null อาจไม่ดีเมื่อวิเคราะห์ข้อมูล และคุณควรพิจารณาลบแถวที่มีค่าว่างออก นี่คือขั้นตอนสู่สิ่งที่เรียกว่าข้อมูลการทำความสะอาดและคุณจะได้เรียนรู้เพิ่มเติมเกี่ยวกับสิ่งนั้นในบทต่อไป