Predictive Modeling

--

เนื่อหานี้เป็นเเล็กเชอร์ รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช

Predictive คือการทำนายอนาคตจากข้อมูลจากอดีต แล้วมันเอาไปทำอะไรได้บ้าง

  1. forecasting
  2. credit scoring for loan application processing
  3. profile of attrition (churn management)
  4. direct mail campaign
  5. Recommendation systems

แต่จริงแล้ว Predictive Modeling มีอยู่สองโมเดล

  1. classification จัดกลุ่ม มันต่างกับ data base segmentation นิดนึ่งตรงที่มันคือการทำนายว่าข้อมูลควรอยู่กลุ่มใหน predicts categorical class labels
  2. prediction ทำนาย ฟังก์ชั่นที่มีมูลค่าอย่างต่อเนื่อง

วิธีทำ classification มีโมเดล classification rules, decision trees, or mathematical formulae

  1. แยกข้อมูลเป็นสองส่วน เป็น training ชุดหนึ่ง ทดสอบชุดหนึ่งเเล้วเทรน
  2. เทรนเสร็จก็เทสสิรอใร

เทคนิคที่แนะนำ decision tree หรือต้นไม้ตัดสินใจ

ตามรูปเลย

คือถ้าค่า Tenure มากกว่า 2.5 ไปทางซ้อย น้อยกว่า ไปทางขวา

โดยปกติ การเรียนรู้ถ้าข้อมูลยิ่งเยอะ โมเดลจะยิ่งดี แต่ควรระวังการเกิด OVERFITTING

OVERFITTING คือ การที่เราให้ข้อมูลมากขึ้น แล้วเราทดสอบกับข้อมูล ที่มีอยู่ค่า Error น้อยลง แต่เวลาไปใช้ข้อมูลอื่น Error กับสูงขึ้น ดังรูปด้านล่าง

Pruning

เป็นเทคนิคที่ช่วยลดขนาดของต้นไม้ตัดสินใจโดยการลบส่วนของต้นไม้ที่ให้พลังเล็กน้อยในการจำแนกอินสแตนซ์ การตัดจะช่วยลดความซับซ้อน ดังนั้นจึงช่วยเพิ่มความแม่นยำในการทำนายโดยการลดการ overfitting มีสองวิธี

  1. Prepruning
  2. Postpruning

Prepruning (Early Stopping Rule)

หยุดอัลกอริทึมก่อนที่จะกลายเป็นต้นไม้เต็มรูปแบบ โดยเงื่อนไขการหยุดทั่วไปสำหรับโหนด:

  1. หยุดถ้าจำนวนอินสแตนซ์น้อยกว่าเกณฑ์ที่ผู้ใช้ระบุ
  2. หยุดถ้าการขยายโหนดปัจจุบันมาตรการความไม่บริสุทธิ์ (เช่น Gini หรือการรับข้อมูล)

อ่านต่ออื่นๆ ได้ที่

DATA MINING

DATA PREPARATION การเตรียมข้อมูล

การศึกษากฏความสัมพันธ์

Predictive Modeling

DATABASE SEGMENTATION

--

--