Predictive Modeling
เนื่อหานี้เป็นเเล็กเชอร์ รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช
Predictive คือการทำนายอนาคตจากข้อมูลจากอดีต แล้วมันเอาไปทำอะไรได้บ้าง
- forecasting
- credit scoring for loan application processing
- profile of attrition (churn management)
- direct mail campaign
- Recommendation systems
แต่จริงแล้ว Predictive Modeling มีอยู่สองโมเดล
- classification จัดกลุ่ม มันต่างกับ data base segmentation นิดนึ่งตรงที่มันคือการทำนายว่าข้อมูลควรอยู่กลุ่มใหน predicts categorical class labels
- prediction ทำนาย ฟังก์ชั่นที่มีมูลค่าอย่างต่อเนื่อง
วิธีทำ classification มีโมเดล classification rules, decision trees, or mathematical formulae
- แยกข้อมูลเป็นสองส่วน เป็น training ชุดหนึ่ง ทดสอบชุดหนึ่งเเล้วเทรน
- เทรนเสร็จก็เทสสิรอใร
เทคนิคที่แนะนำ decision tree หรือต้นไม้ตัดสินใจ
ตามรูปเลย
คือถ้าค่า Tenure มากกว่า 2.5 ไปทางซ้อย น้อยกว่า ไปทางขวา
โดยปกติ การเรียนรู้ถ้าข้อมูลยิ่งเยอะ โมเดลจะยิ่งดี แต่ควรระวังการเกิด OVERFITTING
OVERFITTING คือ การที่เราให้ข้อมูลมากขึ้น แล้วเราทดสอบกับข้อมูล ที่มีอยู่ค่า Error น้อยลง แต่เวลาไปใช้ข้อมูลอื่น Error กับสูงขึ้น ดังรูปด้านล่าง
Pruning
เป็นเทคนิคที่ช่วยลดขนาดของต้นไม้ตัดสินใจโดยการลบส่วนของต้นไม้ที่ให้พลังเล็กน้อยในการจำแนกอินสแตนซ์ การตัดจะช่วยลดความซับซ้อน ดังนั้นจึงช่วยเพิ่มความแม่นยำในการทำนายโดยการลดการ overfitting มีสองวิธี
- Prepruning
- Postpruning
Prepruning (Early Stopping Rule)
หยุดอัลกอริทึมก่อนที่จะกลายเป็นต้นไม้เต็มรูปแบบ โดยเงื่อนไขการหยุดทั่วไปสำหรับโหนด:
- หยุดถ้าจำนวนอินสแตนซ์น้อยกว่าเกณฑ์ที่ผู้ใช้ระบุ
- หยุดถ้าการขยายโหนดปัจจุบันมาตรการความไม่บริสุทธิ์ (เช่น Gini หรือการรับข้อมูล)
อ่านต่ออื่นๆ ได้ที่