1. บทนำ​ Data Visualization

แปล Data Visualization Fundamental Claus O. Wilke

NUTHDANAI WANGPRATHAM
2 min readSep 24, 2019

หนังสือเล่มนี้มีวัตถุประสงค์เพื่อเป็นแนวทางในการแสดงข้อมูลที่สะท้อนข้อมูลอย่างถูกต้อง และสามารถเล่าเรื่องราวอย่างเป็นมืออาชีพ จากประสบการณ์ของของผู้เขียนในการทำงานกับนักศึกษาและเอกสารในห้องปฏิบัติการเกี่ยวกับการแสดงข้อมูลเป็นพันครั้งในช่วงหลายปีที่ผ่านมาผู้เขียนได้สังเกตเห็นว่าปัญหาเดียวกันเกิดขึ้นซ้ำแล้วซ้ำอีก ผู้เขียนพยายามรวบรวมความรู้ที่สะสมจากการโต้ตอบเหล่านี้ในรูปแบบของหนังสือเล่มนี้

กราฟในหนังสือเล่มนี้ทั้งหมดเขียนด้วย R โดยใช้ RStudio เป็นโปรแกรมแก้ไขข้อความและแพ็คเกจ bookdown เพื่อเปลี่ยนชุดเอกสาร markdown ให้กลายเป็นส่วนที่สอดคล้องกันทั้งหมด ตัวอย่างโค้ดของหนังสือเล่มนี้มีบน GitHub ที่ https://github.com/clauswilke/dataviz หากสังเกตพบความผิดพลาดหรือปัญหาอื่น ๆ อย่าลังเลที่จะบอกที่ GitHub

บทนำ

Data visualization เป็นส่วนผสมระหว่างศาสตร์และศิลป์ ความท้าทายคือการทำให้งานศิลปะนั้นถูกต้องโดยไม่ผิดหลักวิทยาศาสตร์และในทางกลับกันการสร้างภาพจากข้อมูลต้องสามารถถ่ายทอดข้อมูลอย่างได้อย่างถูกต้อง จะต้องไม่ทำให้เข้าใจผิดหรือบิดเบือนเช่นตัวเลขหนึ่งมีขนาดใหญ่เป็นสองเท่าของจำนวนอื่น แต่ในการสร้างภาพข้อมูลนั้นมีลักษณะใกล้เคียงกันการแสดงภาพที่ผิดพลาด ในเวลาเดียวกันการสร้างภาพจากข้อมูลควรเป็นที่ชื่นชอบทางสุนทรียะ การนำเสนอด้วยภาพที่ดีมีแนวโน้มที่จะปรับปรุงข้อความของการสร้างภาพข้อมูล หากตัวเลขมีสีที่ทำให้องค์ประกอบภาพไม่สมดุลหรือคุณสมบัติอื่น ๆ และเบี่ยงเบนความสนใจผู้ชมจะพบว่ามันยากที่จะตรวจสอบรูปแบบและตีความอย่างถูกต้อง

จากประสบการณ์ของผู้เขียน นักวิทยาศาสตร์มักจะรู้วิธีการแสดงข้อมูลโดยไม่ทำให้เข้าใจผิด​ อย่างไรก็ตามพวกเขาอาจไม่ได้รับการพัฒนาด้านความสวยงามของสายตาและอาจเลือกภาพที่เบี่ยงเบนจากข้อความที่ต้องการ ในทางกลับกันนักออกแบบอาจเตรียมการสร้างภาพข้อมูลที่ดูสวยงาม แต่แสดงข้อมูลได้ไม่ครบถ้วน เป็นเป้าหมายของผู้เขียนที่จะให้ข้อมูลที่เป็นประโยชน์กับทั้งสองกลุ่ม

หนังสือเล่มนี้พยายามที่จะครอบคลุมหลักการสำคัญวิธีการและแนวคิดที่จำเป็นในการมองเห็นข้อมูลสำหรับสิ่งพิมพ์รายงานหรืองานนำเสนอ เนื่องจาก Data Visualization เป็นศาสตร์ที่ใช้อย่างกว้างขวางในคำจำกัดความที่กว้างอาจรวมถึงหัวข้อที่หลากหลายเช่นภาพวาดทางเทคนิคแผนผังภาพเคลื่อนไหว 3 มิติและส่วนต่อประสานผู้ใช้ จึงจำเป็นต้องจำกัดขอบเขตของหนังสือเล่มนี้ ครอบคลุมเฉพาะกรณีของการสร้างภาพนิ่งที่นำเสนอในการพิมพ์ออนไลน์หรือเป็นสไลด์เท่านั้น หนังสือเล่มนี้ไม่ครอบคลุมภาพหรือภาพยนตร์แบบอินเทอร์แอคทีฟยกเว้นในส่วนสั้น ๆ หนึ่งบทในบท visualizing uncertainty ดังนั้นตลอดหนังสือเล่มนี้จะใช้คำว่า “การสร้างภาพ” และ “รูป” ค่อนข้างสลับกันได้ หนังสือเล่มนี้ไม่ได้ให้คำแนะนำใด ๆ เกี่ยวกับวิธีการสร้างกราฟด้วยโปรแกรมแสดงข้อมูลที่มีอยู่ ตอนท้ายของหนังสือเล่มนี้ชี้ให้เห็นข้อความที่เหมาะสมซึ่งครอบคลุมหัวข้อเหล่านี้

หนังสือเล่มนี้แบ่งออกเป็นสามส่วน ส่วนแรก “ จากข้อมูลสู่การสร้างภาพ” อธิบายถึงพล็อตและแผนภูมิชนิดต่าง ๆ เช่นกราฟแท่งพล็อตกระจายหรือแผนภูมิวงกลม เน้นหลักวิทยาศาสตร์ของ visualization ในส่วนนี้แทนที่จะพยายามให้ความคุ้มครองสารานุกรมของวิธีการสร้างภาพข้อมูลที่เป็นไปได้ทั้งหมด ฉันพูดถึงชุดหลักของภาพที่อาจจะพบในสื่อสิ่งพิมพ์และ / หรือความต้องการในงานของคุณเอง ในการจัดระเบียบส่วนนี้ฉันได้พยายามจัดกลุ่มการสร้างภาพข้อมูลด้วยประเภทของข้อความที่สื่อความหมายมากกว่าโดยจำแนกตามประเภทของข้อมูลที่มองเห็น ข้อความทางสถิติมักจะอธิบายการวิเคราะห์ข้อมูลและการสร้างภาพข้อมูลตามประเภทของข้อมูลการจัดวัสดุตามจำนวนและประเภทของตัวแปร (ตัวแปรต่อเนื่องหนึ่งตัวตัวแปรตามตัวหนึ่งตัวแปรต่อเนื่องสองตัวแปรตัวแปรต่อเนื่องหนึ่งตัวแปรและตัวแปรตามเป็นต้น) ผู้เขียนเชื่อว่านักสถิติเท่านั้นที่พบว่าองค์กรนี้มีประโยชน์ สำหรับคนอื่น ๆ ส่วนใหญ่คิดในแง่ของข้อความเช่นสิ่งที่มีขนาดใหญ่เป็นอย่างไรมันประกอบด้วยชิ้นส่วนอย่างไรมันเกี่ยวข้องกับเรื่องอื่นอย่างไรและอื่น ๆ

ส่วนที่สอง “หลักการออกแบบรูปทรง” กล่าวถึงปัญหาการออกแบบต่าง ๆ ที่เกิดขึ้นเมื่อประกอบการสร้างภาพข้อมูล แต่ไม่เน้นเฉพาะด้านความสวยงามของการสร้างภาพข้อมูล เมื่อเราเลือกพล็อตหรือแผนภูมิที่ถูกต้องที่เหมาะสมกับชุดข้อมูลของเราแล้วเราต้องทำการเลือกสุนทรียะเกี่ยวกับองค์ประกอบภาพเช่นสีสัญลักษณ์และขนาดตัวอักษร ตัวเลือกเหล่านี้สามารถส่งผลกระทบต่อทั้งการสร้างภาพข้อมูลที่ชัดเจนและความสวยงามของภาพ เนื้อหาในส่วนที่สองนี้กล่าวถึงปัญหาที่พบบ่อยที่สุดที่พบเห็นเกิดขึ้นซ้ำ ๆ ในการใช้งานจริง

ส่วนที่สาม “หัวข้อเบ็ดเตล็ด” ครอบคลุมประเด็นที่เหลืออยู่สองสามประเด็นที่ไม่เข้ากับสองส่วนแรก มันกล่าวถึงรูปแบบไฟล์ที่ใช้กันทั่วไปในการจัดเก็บภาพและพล็อตมันให้ความคิดเกี่ยวกับทางเลือกของซอฟต์แวร์การสร้างภาพและอธิบายวิธีการวางตัวเลขบุคคลลงในบริบทของเอกสารขนาดใหญ่

รูปที่ไม่ดี

ตลอดหนังสือเล่มนี้ฉันมักจะแสดงตัวเลขที่เหมือนกันในรูปแบบต่าง ๆ บางตัวอย่างเป็นตัวอย่างของวิธีการสร้างภาพข้อมูลที่ดีและบางตัวอย่างเป็นตัวอย่างของวิธีการที่ไม่ดีเพื่อแสดงถึงแนวทางของตัวอย่างที่ควรทำตามและควรหลีกเลี่ยงโดยมีป้ายกำกับว่า “ugly”, “bad”, “wrong”

ugly — ตัวเลขที่มีปัญหาเกี่ยวกับความงดงาม แต่มีความชัดเจนในการสื่อข้อมูล
bad —กราฟที่มีปัญหาเกี่ยวกับการรับรู้ มันอาจจะไม่ชัดเจนทำให้สับสนซับซ้อนเกินไปหรือหลอกลวง
wrong — ตัวเลขที่มีปัญหาเกี่ยวกับคณิตศาสตร์ มันไม่ถูกต้องตามวัตถุประสงค์

รูปที่ 1.1: ตัวอย่างของกราฟที่ “ugly”, “bad”, “wrong” (a) พล็อตบาร์แสดงค่าสามค่า (A = 3, B = 5 และ C = 4) นี่คือการสร้างภาพที่สมเหตุสมผลโดยไม่มีข้อบกพร่องที่สำคัญ (b)ugly (a) แม้ว่ากราฟจะถูกต้องทางเทคนิค แต่ก็ไม่ได้เป็นที่น่าพอใจ สีสว่างเกินไปและไม่มีประโยชน์ ตารางพื้นหลังโดดเด่นเกินไป ข้อความจะแสดงโดยใช้แบบอักษรสามแบบในสามขนาดที่แตกต่างกัน (c) bad (a)แต่ละแท่งจะแสดงด้วยระดับแกน y ของตัวเองและแต่ละแตกมีscale ไม่เท่ากันอาจทำให้เข้าใจผิดได้ (d) wrong (a) หากไม่มีสเกลแกน y ที่ชัดเจนตัวเลขที่แสดงโดยแถบจะไม่สามารถตรวจสอบได้ ดูเหมือนว่าแท่งจะมีความยาว 1, 3 และ 2 ถึงแม้ว่าค่าที่ปรากฏจะมีค่าเป็น 3, 5 และ 4

ไม่ได้ระบุตัวเลขที่ดีอย่างชัดเจน รูปภาพใด ๆ ที่ไม่ได้ระบุชัดเจนว่ามีข้อบกพร่องควรได้รับการยอมรับอย่างน้อยที่สุด มันเป็นรูปที่ให้ข้อมูลดูน่าสนใจและสามารถแสดงได้ตามที่เป็น โปรดทราบว่าในบรรดากราฟที่ดีนั้นจะยังคงมีความแตกต่างในด้านคุณภาพและตัวเลขที่ดีบางอย่างจะดีกว่าตัวอื่น ๆ

ฉันมักจะให้เหตุผลสำหรับการให้คะแนนของฉันที่เฉพาะเจาะจงมันแล้วแต่ความชอบส่วนตัวโดยเฉพาะอย่ายิ่ง“ugly”เป็นเรื่องของทัศนคติส่วนตัวในการให้คะแนนมากกว่า “bad”, “wrong”ยิ่งไปกว่านั้นขอบเขตระหว่าง“ugly” และ “bad” นั้นค่อนข้างกว้าง บางครั้งตัวเลือกการออกแบบที่ไม่ดีอาจรบกวนการรับรู้ของมนุษย์ถึงจุดที่การจัดอันดับ “bad” นั้นเหมาะสมกว่าการจัดเป็น “ugly”” ไม่ว่าในกรณีใดฉันขอแนะนำให้คุณพัฒนาสายตาของคุณเองและประเมินทางเลือกของฉันอย่างยิ่ง

อ่านบทอื่นๆได้ที่

1. บทนำ​Data Visualization

2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ

3 การแสดงข้อมูลในรูปพิกัดและแกน

4. การใช้สีเพื่อแสดงข้อมูล

5 Directory of visualizations

6. การแสดงค่าข้อมูล

7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots

8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots

9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว

10 การแสดงข้อมูลในรูปสัดส่วน

11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป

13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ

14 การแสดงแนวโน้ม

15 การแสดงข้อมูลเชิงภูมิศาสตร์

16 การแสดงการกระจายของข้อมูล

17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล

19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

20 การแสดงข้อมูลที่ซ้อนกัน

21 การแสดงข้อมูลหลายกราฟในรูปเดียว

22 ชื่อเรื่อง Captions และตาราง

23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล

24 การใช้ labels ที่มีขนาดใหญ่

25 หลีกเลียงการใช้เส้นในการสร้างกราฟ

26 อย่าใช้กราฟ 3 มิติ

27 ทำความเข้าใจกับชนิดไฟล์ที่ใช้บ่อยในงานแสดงข้อมูล

28. การเลือกซอฟต์แวร์สร้างภาพข้อมูลที่ถูกต้อง

--

--