DATA PREPARATION การเตรียมข้อมูล

NUTHDANAI WANGPRATHAM
1 min readApr 18, 2019

--

เนื่อหานี้เป็นเเล็กเชอร์รายวิชา Data mining สอนโดย รศ.ดร. วรพจน์ กรีสุระเดช

การเตรียมข้อมูลคือ การรวบรวมวัตถุข้อมูลซึ่งแบ่งเป็น attributes ต่างๆ

ชนิดของข้อมูลอาจแบ่งได้ดังนี้

  1. Quantitative Attributes คือข้อมูลที่เป็นตัวเลขแบ่งเป็น discrete ข้อมูลที่ไม่ต่อเนื่อง continuous ข้อมูลที่ต่อเนื่อง
  2. Categorical Attributes ข้อมูลที่เป็นชุดข้อมูลเช่น แต่งงาน(แต่งงานแล้ว,โสด)
  3. Nominal categorical ข้อมูลที่แต่ละกลุ่มเป็นอิสระต่อกัน
  4. Ordinal categorical ข้อมูลที่แต่ละกลุ่มไม่เป็นอิสระต่อกัน

กระบวนการย่อยในขั้นตอน DATA PREPARATION มีสามขั้นตอน คือ การเลือกข้อมูล Data Preprocessing และ Data transformation

DATA Selection คือการตรวจหาว่ามีข้อมูลอะไรบ้างที่เกี่ยวข้องแล้วหาผู้เชี่ยวชาญในข้อมูลเหล่านี้เลือกตัวแปรอิสระเพื่อวิเคราะห์ตัวแปรตาม โดยปกติมีสามบริบท

  1. Departmental access การเข้าถึงข้อมูล
  2. Data format การจัดรูปแบบข้อมูล
  3. Legal issues การจัดการประเด็นทางกฏหมาย

Data Preprocessing

  1. Data Cleaning หรือ data scrubbing หมายถึง การทำความสะอาดข้อมูล เป็นกระบวนการตรวจสอบและการแก้ไข (หรือลบ) รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น ซึ่งเราอาจตรวจดูจากการพล็อต กราฟ
  2. Data Integration เนื่องจากข้อมูลเราอาจจะนำมาจากหลายแหล่ง จึงต้องทำให้รวมกันโดยให้มีรูปแบบที่เหมือนกันก่อน
  3. Data Reduction บ้างครั้งข้อมูลที่รวบรวมมาอาจเยอะเกินไป หรือ เอนเอียงไปในข้อมูลชนิดใดชนิดหนึ่งสูงเราจึงต้องสุ่มข้อมูล เพื่อให้เหมาะสม ในการนำไปใช้

ในขั้นตอน Data Cleaning มักมีข้อมูลที่ไม่ทราบค่าอยู่ คำถามคือเราจะจัดการกับมันยังไง วิธีที่ง่ายที่สุดคือลบ แถวนั้นทิ้งทั้งแถว หรือแทนค่าอะไรสักอย่าง ค่าอะไรสักอย่างก็มีให้เลือกตั้งแต่ Mean median ,mode unknown ค่าใกล้เคียง K-nearest (ค่าใหล้เคียงสามค่าเฉลี่ย)

อีกอันหนึ่งคือ Noisy Data ค่าผิดปกติ คือมันมากหรือน้อยผิดปกติ

เลือกการเลือกตัวอย่าง ใน Data Reduction มีประเด็นที่น่าสนใจเหมือนกันคือ จะเลือกยังไง จำนวนเท่าใหร่ มีคนชื่อ Taro Yamane คิดสูตรไว้

n= N/[1+(N*e**2)

Discretization

ในการทำโมเดลบ้างครั้งข้อมูลที่เป็นตัวเลขมันวิเคราะห์ง่ายกว่า ไงเขาจึงมักทำดังนี้

  1. Conversion: Ordered to Numericทำให้เป็นตัวเลขได้ ก็ทำให้เป็นตัวเลขเช่นเกรด
  2. One of N coding : Nominal,Few Values เพิ่ม attributes เช่น มันมี 12 สี จะใส่ตัวเลขแทนแต่ละสี จะดีใหม ถ้า ถ้าเพิ่มอีก 12 คอลัม แบ่งแยกสีแม่งเลย โอเคใหม

จบ…………………………………….

อ่านต่ออื่นๆ ได้ที่

DATA MINING

DATA PREPARATION การเตรียมข้อมูล

การศึกษากฏความสัมพันธ์

Predictive Modeling

DATABASE SEGMENTATION

--

--