เหมืองข้อมูล DATA MINING

NUTHDANAI WANGPRATHAM
1 min readMay 4, 2019

--

data mining คือการสกัดข้อมูล เพื่อหาสารสนเทศที่มีประโยชน์จากฐานข้อมูลขนาดใหญ่ โดยที่สารสนเทศนั้นต้องไม่เคยรู้มาก่อน ถูกต้อง และสามารถเอาไปใช้ประโยชน์ได้ เพื่อกำหนดกลยุทธ์ทางธุรกิจ

เหมือนข้อมูล เป็นสาขาหนึ่งของวิทยาศาสตร์ ในอดีตวิทยาศาสตร์ จะพิสูจน์ความจริง อาศัยการทดลองและสังเกต แต่ปัจจุบันในยุคของข้อมูลมหาศาล การค้นหาความจริง จึงเกิดการค้นหาความจริงจากข้อมูล

จุดเริ่มต้นของ DATA MINING เกิดขึ้นเมื่อ ปี 1989 ที่ ACM SIGKDD CONFERENCE

data mining ถูกนำไปใช้หลากหลายมาก อาทิการวิเคราะห์การตลาด การทำ segmentation การวิเคราะห์ ความเสี่ยง การทุจริต

กระบวนการในการทำ data mining

business objective -> selection -> data Preparation -> data mining -> pattern evaluation

business objective is identify the business problems or opportunity

Data Selection

data Preparation

Data Preprocessing คือการแก้ความผิดพลาดหรือสุ่ม ลดขนาดข้อมูล

data Transformation คือการแปลง ข้อมูลให้อยู่ในรูปแบบที่เราต้องการ เช่นจากตัวอักษรเป็นตัวเลข

data mining เอาข้อมูลมาสกัดหาสารสนเทศ

  • Predictive Modeling คือการสร้างแบบจำลองเพื่อการทำนาย
  • Database Segmentation คือการจัดกลุ่มข้อมูล
  • Association Rule Discovery คือการค้นหาความสัมพันธ์

Analysis of results คือการวิเคราะห์ผล

Assimilation of knowledge คือ กำหนดว่าใครจะใช้

ขั้นตอนที่ใช้เวลาเยอะที่สุดคือการเตรียมข้อมูล

pattern evaluation คือ

CRISP-DM

เครื่องมือในการทำ data mining

sap

ทิศทาง Data mining จะเริ่มขยายไปนอก database หรือที่เรียกว่า data science

ชนิดของข้อมูล

  1. ข้อมูลเชิงปริมาณ Quantitative Attributes แบ่งเป็นสองข้อมูล ต่อเนื่องกับไม่ต่อเนื่อง
  2. ข้อมูลที่ไม่เป็นตัวเลข Categorical Attributes เเบ่งเป็น Nominal คือข้อมูลที่ไม่ใช่ตัวเลขและไม่สามารถดู มากน้อยได้ กับ Ordinal คือข้อมูลที่ไม่ใช่ตัวเลขแต่สามารถเรียงลำดับได้

การเตรียมข้มูลมีสามกิจกรรมหลัก

1. DATA Selection คือการเลือกข้อมูลใหนเหมาะกับการวิเคราะห์ รูปแบบข้อมูล และข้อกฎหมายที่เกี่ยวข้อง

2. DATA Preprocessing หลักๆแก้ไข Missing DATA , รวม ,ลดปริมาณข้อมูล

วิธีแก้ Noisy Data

--

--