กลุ่มข้อมูล
- คลัสเตอร์คือชุดของข้อมูลที่คล้ายกัน
- การจัดกลุ่มเป็นการเรียนรู้แบบไม่มีผู้ดูแล
- ค่าสัมประสิทธิ์สหสัมพันธ์อธิบายถึงความแข็งแกร่งของความสัมพันธ์
กลุ่ม
คลัสเตอร์คือการรวบรวมข้อมูลตามความคล้ายคลึงกัน
จุดข้อมูลที่จัดกลุ่มไว้ด้วยกันในกราฟมักจะจัดเป็นกลุ่มได้
ในกราฟด้านล่าง เราสามารถแยกความแตกต่างได้ 3 คลัสเตอร์:
การระบุคลัสเตอร์
คลัสเตอร์สามารถเก็บข้อมูลที่มีค่าได้มากมาย แต่คลัสเตอร์มีรูปร่างหลากหลาย ดังนั้นเราจะจดจำได้อย่างไร
สองวิธีหลักคือ:
- การใช้การแสดงภาพ
- การใช้อัลกอริธึมคลัสเตอร์
การจัดกลุ่ม
การจัดกลุ่มเป็นประเภทของการเรียนรู้แบบไม่มีผู้ดูแล
การทำคลัสเตอร์พยายาม:
- รวบรวมข้อมูลที่คล้ายกันในกลุ่ม
- รวบรวมข้อมูลที่แตกต่างในกลุ่มอื่นๆ
วิธีการจัดกลุ่ม
- วิธีความหนาแน่น
- วิธีการตามลำดับชั้น
- วิธีการแบ่งพาร์ติชั่น
- วิธีการแบบกริด
วิธี ความหนาแน่นถือว่าจุดในบริเวณที่มีความหนาแน่นสูงมีความเหมือนและความแตกต่างมากกว่าจุดในบริเวณที่มีความหนาแน่นต่ำกว่า วิธีความหนาแน่นมีความถูกต้องดี นอกจากนี้ยังมีความสามารถในการผสานคลัสเตอร์
อัลกอริทึมทั่วไปสองแบบคือ DBSCAN และ OPTICS
วิธี การ แบบ ลำดับชั้นสร้างคลัสเตอร์ในโครงสร้างแบบทรี คลัสเตอร์ใหม่ถูกสร้างขึ้นโดยใช้คลัสเตอร์ที่สร้างไว้ก่อนหน้านี้
อัลกอริทึมทั่วไปสองแบบคือ CURE และ BIRCH
Grid-based Methodจะกำหนดข้อมูลเป็นจำนวนจำกัดของเซลล์ที่สร้างโครงสร้างแบบกริด
อัลกอริทึมทั่วไปสองแบบคือ CLIQUE และ STING
วิธีการ แบ่งพาร์ติชั่ นแบ่งอ็อบเจ็กต์ออกเป็น k คลัสเตอร์ และแต่ละพาร์ติชั่นจะสร้างคลัสเตอร์เดียว
อัลกอริทึมทั่วไปอย่างหนึ่งคือคลารันส์
ค่าสัมประสิทธิ์สหสัมพันธ์
สัมประสิทธิ์สหสัมพันธ์ ( r) อธิบายความแรงและทิศทางของความสัมพันธ์เชิงเส้นและตัวแปร x/y บน scatterplot
ค่าของ r อยู่ระหว่าง -1 ถึง +1 เสมอ:
-1.00 | ดาวน์ฮิลล์ที่สมบูรณ์แบบ | ความสัมพันธ์เชิงเส้นเชิงลบ |
-0.70 | ดาวน์ฮิลล์ที่แข็งแกร่ง | ความสัมพันธ์เชิงเส้นเชิงลบ |
-0.50 | ลงเนินปานกลาง | ความสัมพันธ์เชิงเส้นเชิงลบ |
-0.30 | ตกต่ำ | ความสัมพันธ์เชิงเส้นเชิงลบ |
0 | ไม่มีความสัมพันธ์เชิงเส้น | |
+0.30 | ขึ้นเนินอ่อน | ความสัมพันธ์เชิงเส้นเชิงบวก |
+0.50 | ขึ้นเนินปานกลาง | ความสัมพันธ์เชิงเส้นเชิงบวก |
+0.70 | ขึ้นเขาแรง | ความสัมพันธ์เชิงเส้นเชิงบวก |
+1.00 | ขึ้นเนินที่สมบูรณ์แบบ | ความสัมพันธ์เชิงเส้นเชิงบวก |
Perfect Uphill +1.00 :
ดาวน์ฮิลล์ที่สมบูรณ์แบบ -1.00 :
ขึ้นเนินแข็งแกร่ง +0.61 :
ไม่มีความสัมพันธ์ :