DATABASE SEGMENTATION

--

เนื่อหานี้เป็นเเล็กเชอร์รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช

DATABASE SEGMENTATION ถูกเรียกในหลากหลายชื่อ อาทิ segmentation, clustering, unsupervised classification

ซึ่งจริงๆ แล้ว มันเหมื่อนกันคือการจัดกลุ่มข้อมูล โดยถูกนำไปใช้หลายหลายเช่น จัดกลุ่มลูกค้าเพื่อทำโปรโมชั่น ซึ่งแนวทางก็มีหลายแบบ

  1. Partitioning approach ข้อมูลที่อยู่ใกล้กันอยู่ด้วยกัน
  2. Neural network approach
  3. Hierarchy approach เเบ่งเป็นพิรมิด
  4. K-means clustering สร้างเวกเตอร์ค่าใกล้กันจัดกลุ่มเดี่ยวกัน

K-means clustering

จำง่ายๆ K คือจำนวนกลุ่ม means คือค่าเฉลี่ย มันคือเราแบ่งกลุ่มตามค่าเฉลี่ย ของระยะทาง จากจุดศูนย์กลางไปยัง ค่าต่าง ๆ ใกล้ศูนย์กลางใกนสุดให้อยู่ในนั้น

วิธีทำก็ง่ายๆ

  1. เลือกพาร์ติชั่นเริ่มต้นด้วย k กลุ่ม
  2. คำนวณระยะทางของ centroids ที่จุดที่มีการกระจุกตัวที่สุด
  3. สุ่ม centroids ใหม่ไปเรื่อยๆ ทำแบบเดิม

คำถามต่อมาคือ K หรือจำนวนกลุ่มควรมีค่าเท่าใหร่ดีแหละ

  1. วิธีง่าย ๆ สุ่มหาค่า error อันใหนดีที่สุดเอาอันนั้น

2. ง่ายกว่าอันแรก ถามผู้รู้ (domain specific knowledge)

3. อันนี้ยากหา knee Point ดูรูปก่อนอธิบาย

knee Point ก็คือ จุดที่เพิ่ม จำนวนกลุ่มแล้ว ค่า errors ลดน้อยกว่า งงใหมดูอีกรูป

สุดท้ายการวัดผลโมเดลมีสองวิธีคือ

  1. Cohesion วัดระยะห่างแต่ละจุดในกลุ่มเดี่ยวกัน
  2. separation คือการวัดระห่าง จาก จุด แต่ละจุดกับจุดที่อยู่ในกลุ่มอื่น

มาที่ Cohesion มันมีคำนวณนิดหน่อย

อ่านต่ออื่นๆ ได้ที่

DATA MINING

DATA PREPARATION การเตรียมข้อมูล

การศึกษากฏความสัมพันธ์

Predictive Modeling

DATABASE SEGMENTATION

--

--