บทนำวิทยาศาสตร์ข้อมูล


Data Science คือการผสมผสานของสาขาวิชาต่างๆ ที่ใช้สถิติ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเพื่อวิเคราะห์ข้อมูลและดึงความรู้และข้อมูลเชิงลึกออกมา


วิทยาศาสตร์ข้อมูลคืออะไร?

Data Science เกี่ยวกับการรวบรวมข้อมูล การวิเคราะห์ และการตัดสินใจ

Data Science เป็นเรื่องเกี่ยวกับการค้นหารูปแบบในข้อมูล ผ่านการวิเคราะห์ และการคาดการณ์ในอนาคต

ด้วยการใช้ Data Science บริษัทต่างๆ สามารถสร้าง:

  • การตัดสินใจที่ดีขึ้น (เราควรเลือก A หรือ B)
  • การวิเคราะห์เชิงทำนาย (จะเกิดอะไรขึ้นต่อไป)
  • การค้นพบรูปแบบ (ค้นหารูปแบบหรือข้อมูลที่ซ่อนอยู่ในข้อมูล)

Data Science จำเป็นแค่ไหน?

Data Science ถูกใช้ในหลายอุตสาหกรรมในโลกในปัจจุบัน เช่น การธนาคาร การให้คำปรึกษา การดูแลสุขภาพ และการผลิต

ตัวอย่างที่จำเป็นต้องใช้ Data Science:

  • สำหรับการวางแผนเส้นทาง: เพื่อค้นหาเส้นทางที่ดีที่สุดในการจัดส่ง
  • เพื่อคาดการณ์ความล่าช้าของเที่ยวบิน/เรือ/รถไฟ ฯลฯ (ผ่านการวิเคราะห์เชิงคาดการณ์)
  • เพื่อสร้างข้อเสนอโปรโมชั่น
  • เพื่อหาเวลาที่เหมาะสมที่สุดในการจัดส่งสินค้า
  • เพื่อคาดการณ์รายได้ในปีหน้าของบริษัท
  • เพื่อวิเคราะห์ประโยชน์ด้านสุขภาพของการฝึก
  • ทายผลเลือกตั้งใครจะชนะ

สามารถใช้ Data Science ได้ในเกือบทุกส่วนของธุรกิจที่มีข้อมูล ตัวอย่างคือ:

  • เครื่องอุปโภคบริโภค
  • ตลาดหุ้น
  • อุตสาหกรรม
  • การเมือง
  • บริษัทขนส่ง
  • อีคอมเมิร์ซ

นักวิทยาศาสตร์ข้อมูลทำงานอย่างไร

นักวิทยาศาสตร์ข้อมูลต้องการความเชี่ยวชาญในภูมิหลังหลายประการ:

  • การเรียนรู้ของเครื่อง
  • สถิติ
  • การเขียนโปรแกรม (Python หรือ R)
  • คณิตศาสตร์
  • ฐานข้อมูล

Data Scientist จะต้องค้นหารูปแบบภายในข้อมูล ก่อนที่เขา/เธอจะพบรูปแบบ เขา/เธอต้องจัดระเบียบข้อมูลในรูปแบบมาตรฐาน

นี่คือวิธีการทำงานของนักวิทยาศาสตร์ข้อมูล:

  1. ถามคำถามที่ถูกต้อง - เพื่อทำความเข้าใจปัญหาทางธุรกิจ
  2. สำรวจและรวบรวมข้อมูล - จากฐานข้อมูล บันทึกการใช้เว็บ ผลตอบรับจากลูกค้า ฯลฯ
  3. ดึงข้อมูล - แปลงข้อมูลให้อยู่ในรูปแบบมาตรฐาน
  4. ล้างข้อมูล - ลบค่าที่ผิดพลาดออกจากข้อมูล
  5. ค้นหาและแทนที่ค่าที่หายไป - ตรวจสอบค่าที่หายไปและแทนที่ด้วยค่าที่เหมาะสม (เช่น ค่าเฉลี่ย)
  6. ข้อมูลปกติ - ปรับขนาดค่าในช่วงที่ใช้งานได้จริง (เช่น 140 ซม. เล็กกว่า 1,8 ม. อย่างไรก็ตาม ตัวเลข 140 นั้นมากกว่า 1,8 - ดังนั้นการปรับขนาดจึงมีความสำคัญ)
  7. วิเคราะห์ข้อมูล ค้นหารูปแบบ และคาดการณ์อนาคต
  8. นำเสนอผลลัพธ์ - นำเสนอผลลัพธ์ด้วยข้อมูลเชิงลึกที่เป็นประโยชน์ในลักษณะที่ "บริษัท" สามารถเข้าใจได้

ที่จะเริ่มต้น?

ในบทช่วยสอนนี้ เราจะเริ่มต้นด้วยการนำเสนอว่าข้อมูลคืออะไรและจะวิเคราะห์ข้อมูลได้อย่างไร

คุณจะได้เรียนรู้วิธีใช้สถิติและฟังก์ชันทางคณิตศาสตร์ในการทำนาย