DATA PREPARATION การเตรียมข้อมูล
เนื่อหานี้เป็นเเล็กเชอร์รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช
การเตรียมข้อมูลคือ การรวบรวมวัตถุข้อมูลซึ่งแบ่งเป็น attributes ต่างๆ
ชนิดของข้อมูลอาจแบ่งได้ดังนี้
- Quantitative Attributes คือข้อมูลที่เป็นตัวเลขแบ่งเป็น discrete ข้อมูลที่ไม่ต่อเนื่อง continuous ข้อมูลที่ต่อเนื่อง
- Categorical Attributes ข้อมูลที่เป็นชุดข้อมูลเช่น แต่งงาน(แต่งงานแล้ว,โสด)
- Nominal categorical ข้อมูลที่แต่ละกลุ่มเป็นอิสระต่อกัน
- Ordinal categorical ข้อมูลที่แต่ละกลุ่มไม่เป็นอิสระต่อกัน
กระบวนการย่อยในขั้นตอน DATA PREPARATION มีสามขั้นตอน คือ การเลือกข้อมูล Data Preprocessing และ Data transformation
DATA Selection คือการตรวจหาว่ามีข้อมูลอะไรบ้างที่เกี่ยวข้องแล้วหาผู้เชี่ยวชาญในข้อมูลเหล่านี้เลือกตัวแปรอิสระเพื่อวิเคราะห์ตัวแปรตาม โดยปกติมีสามบริบท
- Departmental access การเข้าถึงข้อมูล
- Data format การจัดรูปแบบข้อมูล
- Legal issues การจัดการประเด็นทางกฏหมาย
Data Preprocessing
- Data Cleaning หรือ data scrubbing หมายถึง การทำความสะอาดข้อมูล เป็นกระบวนการตรวจสอบและการแก้ไข (หรือลบ) รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น ซึ่งเราอาจตรวจดูจากการพล็อต กราฟ
- Data Integration เนื่องจากข้อมูลเราอาจจะนำมาจากหลายแหล่ง จึงต้องทำให้รวมกันโดยให้มีรูปแบบที่เหมือนกันก่อน
- Data Reduction บ้างครั้งข้อมูลที่รวบรวมมาอาจเยอะเกินไป หรือ เอนเอียงไปในข้อมูลชนิดใดชนิดหนึ่งสูงเราจึงต้องสุ่มข้อมูล เพื่อให้เหมาะสม ในการนำไปใช้
ในขั้นตอน Data Cleaning มักมีข้อมูลที่ไม่ทราบค่าอยู่ คำถามคือเราจะจัดการกับมันยังไง วิธีที่ง่ายที่สุดคือลบ แถวนั้นทิ้งทั้งแถว หรือแทนค่าอะไรสักอย่าง ค่าอะไรสักอย่างก็มีให้เลือกตั้งแต่ Mean median ,mode unknown ค่าใกล้เคียง K-nearest (ค่าใหล้เคียงสามค่าเฉลี่ย)
อีกอันหนึ่งคือ Noisy Data ค่าผิดปกติ คือมันมากหรือน้อยผิดปกติ
เลือกการเลือกตัวอย่าง ใน Data Reduction มีประเด็นที่น่าสนใจเหมือนกันคือ จะเลือกยังไง จำนวนเท่าใหร่ มีคนชื่อ Taro Yamane คิดสูตรไว้
n= N/[1+(N*e**2)
Discretization
ในการทำโมเดลบ้างครั้งข้อมูลที่เป็นตัวเลขมันวิเคราะห์ง่ายกว่า ไงเขาจึงมักทำดังนี้
- Conversion: Ordered to Numericทำให้เป็นตัวเลขได้ ก็ทำให้เป็นตัวเลขเช่นเกรด
- One of N coding : Nominal,Few Values เพิ่ม attributes เช่น มันมี 12 สี จะใส่ตัวเลขแทนแต่ละสี จะดีใหม ถ้า ถ้าเพิ่มอีก 12 คอลัม แบ่งแยกสีแม่งเลย โอเคใหม
จบ…………………………………….
อ่านต่ออื่นๆ ได้ที่