เหมืองข้อมูล DATA MINING
data mining คือการสกัดข้อมูล เพื่อหาสารสนเทศที่มีประโยชน์จากฐานข้อมูลขนาดใหญ่ โดยที่สารสนเทศนั้นต้องไม่เคยรู้มาก่อน ถูกต้อง และสามารถเอาไปใช้ประโยชน์ได้ เพื่อกำหนดกลยุทธ์ทางธุรกิจ
เหมือนข้อมูล เป็นสาขาหนึ่งของวิทยาศาสตร์ ในอดีตวิทยาศาสตร์ จะพิสูจน์ความจริง อาศัยการทดลองและสังเกต แต่ปัจจุบันในยุคของข้อมูลมหาศาล การค้นหาความจริง จึงเกิดการค้นหาความจริงจากข้อมูล
จุดเริ่มต้นของ DATA MINING เกิดขึ้นเมื่อ ปี 1989 ที่ ACM SIGKDD CONFERENCE
data mining ถูกนำไปใช้หลากหลายมาก อาทิการวิเคราะห์การตลาด การทำ segmentation การวิเคราะห์ ความเสี่ยง การทุจริต
กระบวนการในการทำ data mining
business objective -> selection -> data Preparation -> data mining -> pattern evaluation
business objective is identify the business problems or opportunity
Data Selection
data Preparation
Data Preprocessing คือการแก้ความผิดพลาดหรือสุ่ม ลดขนาดข้อมูล
data Transformation คือการแปลง ข้อมูลให้อยู่ในรูปแบบที่เราต้องการ เช่นจากตัวอักษรเป็นตัวเลข
data mining เอาข้อมูลมาสกัดหาสารสนเทศ
- Predictive Modeling คือการสร้างแบบจำลองเพื่อการทำนาย
- Database Segmentation คือการจัดกลุ่มข้อมูล
- Association Rule Discovery คือการค้นหาความสัมพันธ์
Analysis of results คือการวิเคราะห์ผล
Assimilation of knowledge คือ กำหนดว่าใครจะใช้
ขั้นตอนที่ใช้เวลาเยอะที่สุดคือการเตรียมข้อมูล
pattern evaluation คือ
CRISP-DM
เครื่องมือในการทำ data mining
sap
ทิศทาง Data mining จะเริ่มขยายไปนอก database หรือที่เรียกว่า data science
ชนิดของข้อมูล
- ข้อมูลเชิงปริมาณ Quantitative Attributes แบ่งเป็นสองข้อมูล ต่อเนื่องกับไม่ต่อเนื่อง
- ข้อมูลที่ไม่เป็นตัวเลข Categorical Attributes เเบ่งเป็น Nominal คือข้อมูลที่ไม่ใช่ตัวเลขและไม่สามารถดู มากน้อยได้ กับ Ordinal คือข้อมูลที่ไม่ใช่ตัวเลขแต่สามารถเรียงลำดับได้
การเตรียมข้มูลมีสามกิจกรรมหลัก
1. DATA Selection คือการเลือกข้อมูลใหนเหมาะกับการวิเคราะห์ รูปแบบข้อมูล และข้อกฎหมายที่เกี่ยวข้อง
2. DATA Preprocessing หลักๆแก้ไข Missing DATA , รวม ,ลดปริมาณข้อมูล
วิธีแก้ Noisy Data