DATABASE SEGMENTATION
Apr 19, 2019
เนื่อหานี้เป็นเเล็กเชอร์รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช
DATABASE SEGMENTATION ถูกเรียกในหลากหลายชื่อ อาทิ segmentation, clustering, unsupervised classification
ซึ่งจริงๆ แล้ว มันเหมื่อนกันคือการจัดกลุ่มข้อมูล โดยถูกนำไปใช้หลายหลายเช่น จัดกลุ่มลูกค้าเพื่อทำโปรโมชั่น ซึ่งแนวทางก็มีหลายแบบ
- Partitioning approach ข้อมูลที่อยู่ใกล้กันอยู่ด้วยกัน
- Neural network approach
- Hierarchy approach เเบ่งเป็นพิรมิด
- K-means clustering สร้างเวกเตอร์ค่าใกล้กันจัดกลุ่มเดี่ยวกัน
K-means clustering
จำง่ายๆ K คือจำนวนกลุ่ม means คือค่าเฉลี่ย มันคือเราแบ่งกลุ่มตามค่าเฉลี่ย ของระยะทาง จากจุดศูนย์กลางไปยัง ค่าต่าง ๆ ใกล้ศูนย์กลางใกนสุดให้อยู่ในนั้น
วิธีทำก็ง่ายๆ
- เลือกพาร์ติชั่นเริ่มต้นด้วย k กลุ่ม
- คำนวณระยะทางของ centroids ที่จุดที่มีการกระจุกตัวที่สุด
- สุ่ม centroids ใหม่ไปเรื่อยๆ ทำแบบเดิม
คำถามต่อมาคือ K หรือจำนวนกลุ่มควรมีค่าเท่าใหร่ดีแหละ
- วิธีง่าย ๆ สุ่มหาค่า error อันใหนดีที่สุดเอาอันนั้น
2. ง่ายกว่าอันแรก ถามผู้รู้ (domain specific knowledge)
3. อันนี้ยากหา knee Point ดูรูปก่อนอธิบาย
knee Point ก็คือ จุดที่เพิ่ม จำนวนกลุ่มแล้ว ค่า errors ลดน้อยกว่า งงใหมดูอีกรูป
สุดท้ายการวัดผลโมเดลมีสองวิธีคือ
- Cohesion วัดระยะห่างแต่ละจุดในกลุ่มเดี่ยวกัน
- separation คือการวัดระห่าง จาก จุด แต่ละจุดกับจุดที่อยู่ในกลุ่มอื่น
มาที่ Cohesion มันมีคำนวณนิดหน่อย
อ่านต่ออื่นๆ ได้ที่