วิทยาศาสตร์ข้อมูล- Python DataFrame
สร้าง DataFrame ด้วย Pandas
data frame คือการแสดงข้อมูลที่มีโครงสร้าง
มากำหนด data frame ที่มี 3 คอลัมน์และ 5 แถวที่มีตัวเลขสมมติกัน:
ตัวอย่าง
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9,
5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
ตัวอย่างที่อธิบาย
- นำเข้าไลบรารี Pandas เป็น pd
- กำหนดข้อมูลด้วยคอลัมน์และแถวในตัวแปรชื่อ d
- สร้าง data frame โดยใช้ฟังก์ชัน pd.DataFrame()
- data frame ประกอบด้วย 3 คอลัมน์ 5 แถว
- พิมพ์เอาต์พุต data frame ด้วยฟังก์ชัน print()
เราเขียนpd หน้าDataFrame()เพื่อให้ Python รู้ว่าเราต้องการเปิดใช้งานฟังก์ชัน DataFrame() จากไลบรารี Pandas
ระวังตัวพิมพ์ใหญ่ D และ F ใน DataFrame!
การตีความผลลัพธ์
นี่คือผลลัพธ์:
เราจะเห็นว่า "col1", "col2" และ "col3" เป็นชื่อของคอลัมน์
อย่าสับสนกับตัวเลขแนวตั้งตั้งแต่ 0-4 พวกเขาบอกข้อมูลเกี่ยวกับตำแหน่งของแถวให้เราทราบ
ใน Python การนับแถวเริ่มต้นด้วยศูนย์
ตอนนี้ เราสามารถใช้ Python เพื่อนับคอลัมน์และแถวได้
เราสามารถใช้ df.shape[1] เพื่อค้นหาจำนวนคอลัมน์:
ตัวอย่าง
นับจำนวนคอลัมน์:
count_column = df.shape[1]
print(count_column)
เราสามารถใช้ df.shape[0] เพื่อค้นหาจำนวนแถว:
ตัวอย่าง
นับจำนวนแถว:
count_row = df.shape[0]
print(count_row)
ทำไมเราไม่สามารถนับเฉพาะแถวและคอลัมน์ได้ด้วยตัวเอง?
หากเราทำงานกับชุดข้อมูลขนาดใหญ่ที่มีคอลัมน์และแถวจำนวนมาก การนับเองจะสับสน คุณเสี่ยงที่จะนับมันผิด หากเราใช้ฟังก์ชันในตัวใน Python อย่างถูกต้อง เรารับรองว่าการนับนั้นถูกต้อง