DATA MINING
เนื่อหานี้เป็นเเล็กเชอร์รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช
DATA MINING คือกระบวนการสกัดสารสนเทศ (คือข้อมูลที่ไม่เคยทราบมาก่อน,ถูกต้อง,และสามารถใช้ประโยชน์ได้) จากฐานข้อมูลบางครั้ง DATA MINING อาจถูกเรียกว่า Knowledge Discovery in Databases (KDD)
วิวัฒนาการของเทคโนโลยี Database
1960 มีการเก็บข้อมูลแบบ network
1970 มีการใช้ Relational data model
1989 การเกิดขึ้นของ Data Mining
1990–2000 มีการใช้ Data mining และ Data warehousing
Data mining สามารถใช้ในหลากหลายด้านมากอาทิ
- วิเคราะห์การตลาดและการจัดการ เช่น การพยากรณ์ยอดขาย การ Cross-selling วิเคราะห์โปรไฟล์ลูกค้า การแบ่งส่วนตลาด
- วิเคราะห์ความเสี่ยง เช่น การพยากรณ์การทุจริต การให้สินเชื่อ การรับประกันภัย
- Fraud detection เช่น ตรวจจับการฟอกเงิน
Data mining สามารถนำไปใช้ประโยชน์ได้ในหลากหลายทาง อย่างไรก็ดีมีการนำไปใช้ในทางไม่ถูกไม่ควรอยู่เหมือนกัน ที่พบว่าตกเป็นที่วิจารณ์ในปี 2017 เมื่อสภาคองเกรสสืบสวนประเด็นข่าวปลอม และตั้งข้อสงสัยว่า Cambridge Analytica อาจเป็นส่วนหนึ่งที่ช่วยแพร่กระจายข่าวปลอมจากรัสเซียบนโซเชียลมีเดีย โดยใช้วิธี microtargetting (การสื่อสารกับผู้มีสิทธิเลือกตั้งแต่ละคน โดยใช้ช่องทางหลากหลาย เช่น โทรศัพท์, อีเมล, สื่อวิทยุโทรทัศน์, โฆษณาออนไลน์ เป็นต้น) วันที่ 17 มีนาคม 2018 Facebook ออกมาประกาศผ่านเว็บของบริษัทว่า ได้แบนบัญชี CA และ SCL Group บริษัทแม่ ด้วยเหตุผลว่า CA ไม่ทำตามข้อตกลงว่าจะทำลายข้อมูลผู้ใช้งาน Facebook ที่ได้มาโดยไม่ถูกต้องทิ้ง
Facebook ระบุด้วยว่า แม้ Kogan จะสามารถเข้าถึงข้อมูลนี้ได้อย่างถูกต้อง และเข้าถึงผ่านช่องทางที่เหมาะสม แต่การที่ Kogan ส่งต่อข้อมูลให้ผู้อื่นนั้นผิดกฎแพลตฟอร์ม
Facebook ระบุว่าจะสอบสวนเรื่องนี้เพิ่มเติม และจะดำเนินการตามกฎหมายกับ CA/SCL ด้วยถ้าจำเป็น อย่างไรก็ตาม มีข้อสงสัยว่าข้อมูลหลุดออกมาจาก Facebook เองหรือไม่ ซึ่ง Facebook ก็ยืนยันว่าข้อมูล ไม่ได้หลุดจากระบบ
มาเข้าที่เนื้อหา ขั้นตอนของ Data Mining มีหกขั้นตอนดังภาพด้านล่างmu
แต่อันดับแรกก่อนที่เราจะเก็บข้อมูลเราต้องกำหนดวัตถุประสงค์ทางธุรกิจ (Business Objectives Determination)คือการระบุถึงปัญหาหรือโอกาสของธุรกิจ
การเลือกข้อมูล (Data Selection) คือกระบวนการ ระบุแหล่งข้อมูลทั้งจากภายในและภายนอก และเลือก ข้อมูล ที่จำเป็น สำหรับการทำ Data mining ตามวัตถุประสงค์ทางธุรกิจ
Data preprocessing คือขั้นตอนในการสุ่มตัวอย่างจัดรูปแบบ จัดการ missing Data โดยมีเป้าหมาย เพื่อให้มั่นใจได้ว่าข้อมูลที่เลือกมามีคุณภาพ
Data Transformation คือกระบวนการแปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ตามวัตถุประสงค์หรือความต้องการ
Data mining คือขั้นตอนการวิเคราะห์ข้อมูลแล้ว ขั้นตอนนี้แบ่งแนวทางการทำเป็น สามแนวทาง
- การทำนาย (Predictive) คือโมเดลที่ดูจากข้อมูลเพื่อทำนายการเกิดขึ้นในอนาคต Model ที่ใช้ decision-Tree,neural network, naive bayes
- การแบ่งข้อมูล (Database Segmentation,clustering) คือการแบ่งข้อมูลที่คล้ายกันให้อยู่ด้วยกัน Model นี้ เช่น K-means, Kohonen neural networks
- การศึกษากฏความสัมพันธ์ (Association Rule Discovery) คือ การหาความสัมพันธ์ของข้อมูลสองชุดหรือมากกว่าสองชุดขึ้นไปภายในกลุ่มข้อมูลที่มีขนาดใหญ่ ในการหากฎความสัมพันธ์นั้น โมเดลที่ใช้ Apiori Algorithm FP Tree
สุดท้ายคือการประเมินผลและนำเสนอข้อมูล
คำถามที่พบบ่อยคือเราเสียเวลากับขั้นตอนไหนมากที่สุด คำตอบคือภาพด้านล่างเลย
อ่านต่ออื่นๆ ได้ที่