วิทยาศาสตร์ข้อมูล- Python DataFrame


สร้าง DataFrame ด้วย Pandas

data frame คือการแสดงข้อมูลที่มีโครงสร้าง

มากำหนด data frame ที่มี 3 คอลัมน์และ 5 แถวที่มีตัวเลขสมมติกัน:

ตัวอย่าง

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

ตัวอย่างที่อธิบาย

  • นำเข้าไลบรารี Pandas เป็น pd
  • กำหนดข้อมูลด้วยคอลัมน์และแถวในตัวแปรชื่อ d
  • สร้าง data frame โดยใช้ฟังก์ชัน pd.DataFrame()
  • data frame ประกอบด้วย 3 คอลัมน์ 5 แถว
  • พิมพ์เอาต์พุต data frame ด้วยฟังก์ชัน print()

เราเขียนpd หน้าDataFrame()เพื่อให้ Python รู้ว่าเราต้องการเปิดใช้งานฟังก์ชัน DataFrame() จากไลบรารี Pandas

ระวังตัวพิมพ์ใหญ่ D และ F ใน DataFrame!


การตีความผลลัพธ์

นี่คือผลลัพธ์:

เอาต์พุตดาต้าเฟรม

เราจะเห็นว่า "col1", "col2" และ "col3" เป็นชื่อของคอลัมน์

อย่าสับสนกับตัวเลขแนวตั้งตั้งแต่ 0-4 พวกเขาบอกข้อมูลเกี่ยวกับตำแหน่งของแถวให้เราทราบ

ใน Python การนับแถวเริ่มต้นด้วยศูนย์

ตอนนี้ เราสามารถใช้ Python เพื่อนับคอลัมน์และแถวได้

เราสามารถใช้ df.shape[1] เพื่อค้นหาจำนวนคอลัมน์:

ตัวอย่าง

นับจำนวนคอลัมน์:

count_column = df.shape[1]
print(count_column)

เราสามารถใช้ df.shape[0] เพื่อค้นหาจำนวนแถว:

ตัวอย่าง

นับจำนวนแถว:

count_row = df.shape[0]
print(count_row)

ทำไมเราไม่สามารถนับเฉพาะแถวและคอลัมน์ได้ด้วยตัวเอง?

หากเราทำงานกับชุดข้อมูลขนาดใหญ่ที่มีคอลัมน์และแถวจำนวนมาก การนับเองจะสับสน คุณเสี่ยงที่จะนับมันผิด หากเราใช้ฟังก์ชันในตัวใน Python อย่างถูกต้อง เรารับรองว่าการนับนั้นถูกต้อง