Predictive Modeling

NUTHDANAI WANGPRATHAM

Apr 19, 2019

เนื่อหานี้เป็นเเล็กเชอร์ รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช

Predictive คือการทำนายอนาคตจากข้อมูลจากอดีต แล้วมันเอาไปทำอะไรได้บ้าง

forecasting
credit scoring for loan application processing
profile of attrition (churn management)
direct mail campaign
Recommendation systems

แต่จริงแล้ว Predictive Modeling มีอยู่สองโมเดล

classification จัดกลุ่ม มันต่างกับ data base segmentation นิดนึ่งตรงที่มันคือการทำนายว่าข้อมูลควรอยู่กลุ่มใหน predicts categorical class labels
prediction ทำนาย ฟังก์ชั่นที่มีมูลค่าอย่างต่อเนื่อง

วิธีทำ classification มีโมเดล classification rules, decision trees, or mathematical formulae

แยกข้อมูลเป็นสองส่วน เป็น training ชุดหนึ่ง ทดสอบชุดหนึ่งเเล้วเทรน
เทรนเสร็จก็เทสสิรอใร

เทคนิคที่แนะนำ decision tree หรือต้นไม้ตัดสินใจ

ตามรูปเลย

คือถ้าค่า Tenure มากกว่า 2.5 ไปทางซ้อย น้อยกว่า ไปทางขวา

โดยปกติ การเรียนรู้ถ้าข้อมูลยิ่งเยอะ โมเดลจะยิ่งดี แต่ควรระวังการเกิด OVERFITTING

OVERFITTING คือ การที่เราให้ข้อมูลมากขึ้น แล้วเราทดสอบกับข้อมูล ที่มีอยู่ค่า Error น้อยลง แต่เวลาไปใช้ข้อมูลอื่น Error กับสูงขึ้น ดังรูปด้านล่าง

Pruning

เป็นเทคนิคที่ช่วยลดขนาดของต้นไม้ตัดสินใจโดยการลบส่วนของต้นไม้ที่ให้พลังเล็กน้อยในการจำแนกอินสแตนซ์ การตัดจะช่วยลดความซับซ้อน ดังนั้นจึงช่วยเพิ่มความแม่นยำในการทำนายโดยการลดการ overfitting มีสองวิธี