ข้อมูล AI
มากถึง80%ของโครงการปัญญาประดิษฐ์เกี่ยวกับการรวบรวมข้อมูล :
- ต้องใช้ข้อมูลอะไรบ้าง ?
- มีข้อมูลอะไรบ้าง ?
- เลือกข้อมูลอย่างไร?
- รวบรวมข้อมูลอย่างไร?
- วิธีทำความสะอาดข้อมูล?
- เตรียมข้อมูลอย่างไร?
- วิธีการใช้ข้อมูล?
ข้อมูลคืออะไร?
ข้อมูลสามารถเป็นได้หลายอย่าง ด้วยปัญญาประดิษฐ์จะต้องรวบรวมข้อเท็จจริง:
พิมพ์ | ตัวอย่าง |
---|---|
ตัวเลข | ราคา วันที่. |
การวัด | ขนาด. ส่วนสูง. น้ำหนัก. |
คำ | ชื่อและสถานที่ |
ข้อสังเกต | นับรถ. |
คำอธิบาย | มันหนาว. |
หน่วยสืบราชการลับต้องการข้อมูล
ความฉลาดของมนุษย์ต้องการข้อมูล:
นายหน้าอสังหาริมทรัพย์ต้องการข้อมูลเกี่ยวกับบ้านที่ขายเพื่อประเมินราคา
ปัญญาประดิษฐ์ต้องการข้อมูล:
โปรแกรมคอมพิวเตอร์ยังต้องการข้อมูลเพื่อประเมินราคา
การจัดเก็บข้อมูล
ข้อมูลที่รวบรวมได้บ่อยที่สุดคือตัวเลขและการวัด
บ่อยครั้งที่ข้อมูลถูกเก็บไว้ในอาร์เรย์ที่แสดงถึงความสัมพันธ์ระหว่างค่าต่างๆ
ตารางนี้ประกอบด้วยราคาบ้านเทียบกับขนาด:
ราคา | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
ขนาด | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
เชิงปริมาณเทียบกับเชิงคุณภาพ
ข้อมูลเชิงปริมาณเป็นตัวเลข:
- 55 คัน
- 15 เมตร
- เด็ก 35 คน
ข้อมูลเชิงคุณภาพเป็นคำอธิบาย:
- มันหนาว
- มันยาว
- มันสนุก
สำมะโนหรือสุ่มตัวอย่าง
สำมะโนคือเมื่อเรารวบรวมข้อมูลสำหรับสมาชิกทุกคนในกลุ่ม
ตัวอย่างคือเมื่อเรารวบรวมข้อมูลสำหรับสมาชิกบางคนในกลุ่ม
ถ้าเราต้องการทราบว่าชาวอเมริกันสูบบุหรี่กี่คน เราสามารถถามทุกคนในสหรัฐอเมริกา (สำมะโน) หรือเราอาจถามคน 10,000 คน (ตัวอย่าง)
สำมะโนมีความถูกต้องแต่ทำยาก ตัวอย่างไม่ถูกต้องแต่ทำได้ง่ายกว่า
เงื่อนไขการสุ่มตัวอย่าง
ประชากร คือ กลุ่มบุคคล (วัตถุ) ที่เราต้องการเก็บรวบรวมข้อมูล
สำมะโนเป็นข้อมูลเกี่ยวกับบุคคลทุกคนในประชากร
ตัวอย่างคือข้อมูลเกี่ยวกับส่วนหนึ่งของประชากร (เพื่อเป็นตัวแทนทั้งหมด)
ตัวอย่างสุ่ม
จะต้องสุ่มเก็บตัวอย่างเพื่อเป็นตัวแทนของประชากร
A Random Sampleคือกลุ่มตัวอย่างที่สมาชิกทุกคนมีโอกาสเท่าเทียมกันที่จะปรากฏในกลุ่มตัวอย่าง
สุ่มตัวอย่างอคติ
ความลำเอียงในการสุ่มตัวอย่าง (ข้อผิดพลาด) เกิดขึ้นเมื่อตัวอย่างถูกรวบรวมในลักษณะที่บุคคลบางคนมีโอกาสน้อย (หรือมากกว่า) ที่จะรวมไว้ในตัวอย่าง