การเรียนรู้ของเครื่อง - การกระจายข้อมูล
การกระจายข้อมูล
ก่อนหน้านี้ในบทช่วยสอนนี้ เราได้ทำงานกับข้อมูลจำนวนเล็กน้อยในตัวอย่างของเรา เพื่อทำความเข้าใจแนวคิดที่แตกต่างกัน
ในโลกแห่งความเป็นจริง ชุดข้อมูลมีขนาดใหญ่กว่ามาก แต่การรวบรวมข้อมูลในโลกแห่งความเป็นจริงอาจเป็นเรื่องยาก อย่างน้อยก็ในช่วงเริ่มต้นของโครงการ
เราจะรับชุดข้อมูลขนาดใหญ่ได้อย่างไร
ในการสร้างชุดข้อมูลขนาดใหญ่สำหรับการทดสอบ เราใช้โมดูล Python NumPy ซึ่งมาพร้อมกับวิธีต่างๆ มากมายในการสร้างชุดข้อมูลแบบสุ่ม ขนาดใดก็ได้
ตัวอย่าง
สร้างอาร์เรย์ที่มี 250 ลอยสุ่มระหว่าง 0 ถึง 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
ฮิสโตแกรม
เพื่อให้เห็นภาพชุดข้อมูล เราสามารถวาดฮิสโตแกรมด้วยข้อมูลที่เรารวบรวมได้
เราจะใช้โมดูล Python Matplotlib เพื่อวาดฮิสโตแกรม
เรียนรู้เกี่ยวกับโมดูล Matplotlib ใน บทช่วย สอน Matplotlibของ เรา
ตัวอย่าง
วาดฮิสโตแกรม:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
ผลลัพธ์:
ฮิสโตแกรมอธิบาย
เราใช้อาร์เรย์จากตัวอย่างด้านบนเพื่อวาดฮิสโตแกรมที่มี 5 แท่ง
แถบแรกแสดงจำนวนค่าในอาร์เรย์ที่อยู่ระหว่าง 0 ถึง 1
แถบที่สองแสดงจำนวนค่าที่อยู่ระหว่าง 1 ถึง 2
เป็นต้น
ซึ่งให้ผลลัพธ์นี้แก่เรา:
- 52 ค่าอยู่ระหว่าง 0 ถึง 1
- 48 ค่าอยู่ระหว่าง 1 ถึง 2
- 49 ค่าอยู่ระหว่าง 2 ถึง 3
- 51 ค่าอยู่ระหว่าง 3 ถึง 4
- 50 ค่าอยู่ระหว่าง 4 ถึง 5
หมายเหตุ:ค่าอาร์เรย์เป็นตัวเลขสุ่มและจะไม่แสดงผลเหมือนกันทุกประการบนคอมพิวเตอร์ของคุณ
การกระจายข้อมูลขนาดใหญ่
อาร์เรย์ที่มีค่า 250 ค่านั้นไม่ถือว่าใหญ่มาก แต่ตอนนี้คุณรู้วิธีสร้างชุดค่าแบบสุ่มแล้ว และด้วยการเปลี่ยนพารามิเตอร์ คุณสามารถสร้างชุดข้อมูลให้ใหญ่เท่าที่คุณต้องการ
ตัวอย่าง
สร้างอาร์เรย์ด้วยตัวเลขสุ่ม 100000 และแสดงโดยใช้ฮิสโตแกรมที่มี 100 แท่ง:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()