11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน
แปล Data Visualization ขั้นพื้นฐาน Claus O. Wilke
ในบทก่อนหน้านี้ฉันได้พูดถึงสถานการณ์ที่ชุดข้อมูลถูกแบ่งออกเป็นส่วน ๆ ที่กำหนดโดยตัวแปรเดี่ยวเช่นพรรคการเมือง บริษัท หรือสถานะสุขภาพ อย่างไรก็ตามไม่ใช่เรื่องแปลกที่เราต้องการเจาะลึกลงไปและแสดงชุดข้อมูลด้วยตัวแปรสำคัญหลายอย่างในคราวเดียว ตัวอย่างเช่นในกรณีที่นั่งของรัฐสภาเราอาจสนใจสัดส่วนของที่นั่งแยกตามปาร์ตี้และตามเพศของผู้แทน ในทำนองเดียวกันในกรณีที่สถานะสุขภาพของผู้คนเราสามารถถามว่าสถานะสุขภาพแบ่งตามสถานะสมรสได้อย่างไร ฉันอ้างถึงสถานการณ์เหล่านี้เป็นสัดส่วนที่ซ้อนกันเนื่องจากตัวแปรหมวดหมู่เพิ่มเติมแต่ละรายการที่เราเพิ่มสร้างส่วนย่อยที่ละเอียดกว่าของข้อมูลที่ซ้อนอยู่ภายในสัดส่วนก่อนหน้านี้ มีวิธีการที่เหมาะสมหลายอย่างในการมองเห็นสัดส่วนที่ซ้อนกันเช่นโมเสคพล็อตทรีแมปและเซตแบบขนาน
11.1 การแสดงสัดส่วนข้อมูลที่ซ้อนกันที่ผิด
ฉันจะเริ่มต้นด้วยการแสดงสองวิธีที่ผิดในการแสดงสัดส่วนที่ซ้อนกัน ในขณะที่วิธีการเหล่านี้อาจดูไร้สาระสำหรับนักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ฉันได้เห็นพวกเขาทำผิดพลาดและดังนั้นจึงคิดว่าพวกเขารับประกันการสนทนา ตลอดบทนี้ฉันจะทำงานกับชุดข้อมูล 106 บริดจ์ใน Pittsburgh ชุดข้อมูลนี้มีข้อมูลต่าง ๆ เกี่ยวกับสะพานเช่นวัสดุที่ถูกสร้างขึ้น (เหล็กเหล็กหรือไม้) และปีที่สร้างขึ้น ขึ้นอยู่กับปีของการก่อสร้างสะพานแบ่งออกเป็นหมวดหมู่ที่แตกต่างกันเช่นสะพานงานฝีมือที่สร้างขึ้นก่อนปี 1870 และสะพานที่ทันสมัยที่ถูกสร้างขึ้นหลังปี 1940
สมมติว่าเราต้องการเห็นทั้งเศษสัดส่วนของสะพานที่ทำจากเหล็กเหล็กหรือไม้และส่วนที่เป็นงานฝีมือหรือสมัยใหม่ เราอาจถูกดึงดูดโดยการวาดแผนภูมิวงกลมรวม (รูปที่ 11.1) อย่างไรก็ตามการสร้างภาพข้อมูลนี้ไม่ถูกต้อง ชิ้นส่วนทั้งหมดในแผนภูมิวงกลมจะต้องเพิ่มขึ้นถึง 100% และที่นี่ชิ้นเพิ่มขึ้นถึง 135% เราไปถึงเปอร์เซ็นต์รวมเกินกว่า 100% เพราะเราเป็นสะพานนับคู่ สะพานทุกชุดในชุดข้อมูลทำจากเหล็กเหล็กหรือไม้ดังนั้นทั้งสามชิ้นของวงกลมจึงเป็นตัวแทนของสะพาน 100% งานฝีมือหรือสะพานที่ทันสมัยทุกชิ้นเป็นเหล็กเหล็กหรือสะพานไม้ด้วยเหตุนี้จึงถูกนับเป็นสองเท่าในแผนภูมิวงกลม
การนับจำนวนซ้ำนั้นไม่จำเป็นว่าจะเป็นปัญหาหากเราเลือกการสร้างภาพข้อมูลที่ไม่ต้องการสัดส่วนเพื่อเพิ่มเป็น 100% ตามที่กล่าวไว้ในบทก่อนหน้าแถบด้านข้างตรงตามเกณฑ์นี้ เราสามารถแสดงสัดส่วนต่าง ๆ ของบริดจ์เป็นแท่งในโครงร่างเดียวและโครงเรื่องนี้ไม่ผิดทางเทคนิค (รูปที่ 11.2) อย่างไรก็ตามฉันติดป้ายกำกับว่า “wrong” เนื่องจากไม่ได้แสดงว่ามีการทับซ้อนกันในบางหมวดหมู่ที่แสดง ผู้สังเกตการณ์ชั่วคราวอาจสรุปจากรูปที่ 11.2 ว่ามีสะพานแยกกันห้าประเภทและตัวอย่างเช่นสะพานสมัยใหม่ไม่ได้ทำจากเหล็กหรือไม้หรือเหล็ก
11.2 Mosaic plots และ แผนภูมิต้นไม้
เมื่อใดก็ตามที่เรามีหมวดหมู่ที่ทับซ้อนกันและจะแสดงให้เห็นอย่างชัดเจนว่าเกี่ยวข้องกันอย่างไรเราสามารถใช้ Mosaic plots (รูปที่ 11.3) Mosaic plots จะดูคล้ายกับพล็อตบาร์แบบเรียงซ้อน (เช่นรูปที่ 10.5) อย่างไรก็ตามแตกต่างจากพล็อตบาร์แบบเรียงซ้อนในพล็อตโมเสคทั้งความสูงและความกว้างของพื้นที่แรเงาแต่ละแห่งนั้นแตกต่างกันไป โปรดทราบว่าในรูปที่ 11.3 เราเห็นยุคการก่อสร้างเพิ่มเติมสองแห่งที่เกิดขึ้นใหม่ (จาก 1870 ถึง 1889) และเป็นผู้ใหญ่ (1890 ถึง 1939) เมื่อรวมกับงานฝีมือและความทันสมัยแล้วยุคการก่อสร้างเหล่านี้ครอบคลุมสะพานทั้งหมดในชุดข้อมูลเช่นเดียวกับวัสดุก่อสร้างทั้งสาม นี่เป็นเงื่อนไขที่สำคัญสำหรับพล็อตโมเสค: ตัวแปรเด็ดขาดทุกรายการที่แสดงจะต้องครอบคลุมการสังเกตทั้งหมดในชุดข้อมูล
ในการวาด Mosaic plots เราเริ่มต้นด้วยการวางตัวแปรหลักตัวหนึ่งตัวตามแนวแกน x (ในที่นี่คือ era of bridge construction) และแบ่งแกน x ตามสัดส่วนสัมพัทธ์ที่ประกอบเป็นหมวดหมู่ จากนั้นเราวางตัวอีกตัวตามแกน y (ในที่นี่คือ building material ) และภายในแต่ละหมวดหมู่ตามแกน x แบ่งย่อยแกน y ตามสัดส่วนสัมพัทธ์ที่ประกอบเป็นหมวดหมู่ของตัวแปร y ผลที่ได้คือชุดของรูปสี่เหลี่ยมผืนผ้าที่มีพื้นที่เป็นสัดส่วนกับจำนวนของกรณีที่เป็นตัวแทนของการรวมกันเป็นไปได้ของตัวแปรเด็ดขาดสอง
The bridges dataset ยังสามารถมองเห็นได้ในรูปแบบที่เกี่ยวข้อง แต่แตกต่างกันที่เรียกว่า treemap ในทรีแมปเหมือนกับกรณีในMosaic plots เราใช้สี่เหลี่ยมล้อมรอบและแบ่งออกเป็นสี่เหลี่ยมเล็ก ๆ ซึ่งพื้นที่แสดงสัดส่วน อย่างไรก็ตามวิธีการวางรูปสี่เหลี่ยมขนาดเล็กลงในอันที่ใหญ่กว่านั้นแตกต่างกันเมื่อเทียบกับMosaic plots ใน treemap เราวนซ้ำรูปสี่เหลี่ยมผืนผ้าภายในซึ่งกันและกัน ตัวอย่างเช่นในกรณีของสะพานพิตต์สเบิร์กเราสามารถแบ่งพื้นที่ทั้งหมดออกเป็นสามส่วนแรกซึ่งเป็นตัวแทนของวัสดุก่อสร้างไม้เหล็กและเหล็กกล้า จากนั้นเราแบ่งแต่ละพื้นที่เหล่านั้นออกไปเพื่อแสดงถึงยุคการก่อสร้างสำหรับวัสดุก่อสร้างแต่ละรายการ (รูปที่ 11.4) ตามหลักการแล้วเราสามารถดำเนินการต่อไปโดยการทำรังย่อยที่เล็กกว่าภายในซึ่งกันและกันแม้ว่าผลลัพธ์จะค่อนข้างรวดเร็วหรือสับสน
ในขณะที่ Mosaic plots และ treemaps มีความคล้ายกันมีจุดเด่นที่แตกต่างกันและพื้นที่การใช้งานที่แตกต่างกัน Mosaic plots (รูปที่ 11.3) เน้นถึงวิวัฒนาการชั่วคราวในการใช้วัสดุก่อสร้างตั้งแต่ยุคงานฝีมือจนถึงยุคปัจจุบันในขณะที่ treemap (รูปที่ 11.4) เน้นจำนวนเหล็กเหล็กและสะพานไม้ทั้งหมด
โดยทั่วไปแล้ว Mosaic plots จะสันนิษฐานว่าสัดส่วนทั้งหมดที่แสดงสามารถระบุได้ผ่านการรวมกันของตัวแปรหมวดหสองตัวหรือมากกว่านั้น ตัวอย่างเช่นในรูปที่ 11.3 สะพานทุกตัวสามารถอธิบายได้โดยการเลือกวัสดุก่อสร้าง (ไม้เหล็กเหล็ก) และตัวเลือกระยะเวลา (งานฝีมือเกิดใหม่เป็นผู้ใหญ่ทันสมัย) ยิ่งกว่านั้นในหลักการการรวมกันของตัวแปรทั้งสองนี้เป็นไปได้แม้ว่าในทางปฏิบัติแล้วสิ่งนี้ไม่จำเป็นต้องเป็นเช่นนั้น (ที่นี่ไม่มีสะพานเหล็กงานฝีมือและสะพานไม้หรือเหล็กที่ทันสมัย) ในทางตรงกันข้ามความต้องการดังกล่าวไม่มีอยู่สำหรับทรีแมป ในความเป็นจริง treemaps มีแนวโน้มที่จะทำงานได้ดีเมื่อสัดส่วนไม่สามารถอธิบายอย่างมีความหมายโดยการรวมตัวแปรเด็ดขาดหลายอย่าง ตัวอย่างเช่นเราสามารถแยกสหรัฐอเมริกาออกเป็นสี่ภูมิภาค (ตะวันตก, ตะวันออกเฉียงเหนือ, ตะวันตกและใต้) และแต่ละภูมิภาคเป็นรัฐที่แตกต่างกัน แต่รัฐในภูมิภาคหนึ่งไม่มีความสัมพันธ์กับรัฐในภูมิภาคอื่น (รูปที่ 11.5)
ทั้ง mosaic plots และ treemaps มักใช้กันทั่วไปและสามารถใช้ง่ายได้ง่าย แต่มีข้อ จำกัด ที่คล้ายกันเช่นเดียวกับแผนภูมิแท่งเรียงซ้อน(บทที่ 10.1): การเปรียบเทียบโดยตรงระหว่างเงื่อนไขอาจทำได้ยากเนื่องจากรูปสี่เหลี่ยมผืนผ้าที่แตกต่างกันไม่จำเป็นต้องใช้ร่วมกัน ในแปลงโมเสคหรือทรีแมปปัญหานี้ทวีความรุนแรงมากขึ้นเนื่องจากความจริงที่ว่ารูปร่างของสี่เหลี่ยมที่แตกต่างกันอาจแตกต่างกันไป ตัวอย่างเช่นมีจำนวนสะพานเหล็ก (สาม) ในจำนวนที่เกิดขึ้นใหม่และสะพานที่ครบกำหนด แต่นี่เป็นการยากที่จะมองเห็นในพล็อตโมเสค (รูปที่ 11.3) เนื่องจากรูปสี่เหลี่ยมผืนผ้าทั้งสองที่เป็นตัวแทนของทั้งสองกลุ่มของสะพานทั้งสาม รูปร่างที่แตกต่าง ไม่จำเป็นต้องมีวิธีแก้ไขปัญหานี้ — การมองเห็นสัดส่วนที่ซ้อนกันอาจเป็นเรื่องยุ่งยาก เมื่อใดก็ตามที่เป็นไปได้ผมขอแนะนำให้แสดงจำนวนจริงหรือร้อยละของพล็อตเพื่อให้ผู้อ่านสามารถตรวจสอบได้ว่าการตีความในพื้นที่แรเงานั้นเป็นไปอย่างถูกต้อง
11.3 Nested pies
ในตอนต้นของบทนี้ฉันเห็นภาพชุดข้อมูลของบริดจ์ด้วยแผนภูมิวงกลมที่มีข้อบกพร่อง (รูปที่ 11.1) จากนั้นฉันก็แย้งว่าโมเสคพล็อตหรือทรีแมปมีความเหมาะสมมากกว่า อย่างไรก็ตามทั้งสองประเภทการพล็อตหลังเหล่านี้มีความสัมพันธ์อย่างใกล้ชิดกับแผนภูมิวงกลมเนื่องจากใช้พื้นที่เพื่อเป็นตัวแทนของค่าข้อมูล ความแตกต่างหลักคือประเภทของระบบพิกัดซึ่งในกรณีของแผนภูมิวงกลมกับคาร์ทีเซียนในกรณีของพล็อตโมเสคหรือ treemap ความสัมพันธ์ที่ใกล้ชิดระหว่างพล็อตที่แตกต่างกันเหล่านี้ทำให้เกิดคำถามว่าตัวแปรบางตัวของแผนภูมิวงกลมสามารถใช้เพื่อแสดงภาพชุดข้อมูลนี้ได้หรือไม่
มีความเป็นไปได้สองอย่าง อันดับแรกเราสามารถวาดแผนภูมิวงกลมที่ประกอบด้วยวงในและวงกลมด้านนอก (รูปที่ 11.6) วงกลมด้านในแสดงข้อมูลแยกตามตัวแปรหนึ่งตัว (ที่นี่วัสดุก่อสร้าง) และวงกลมด้านนอกแสดงรายละเอียดของแต่ละชิ้นของวงในโดยตัวแปรที่สอง (ที่นี่ยุคของการสร้างสะพาน) การสร้างภาพข้อมูลนี้มีเหตุผล แต่ฉันมีการจองของฉันดังนั้นฉันจึงติดป้ายกำกับว่า “น่าเกลียด” สิ่งสำคัญที่สุดคือทั้งสองวงแยกกันปิดบังข้อเท็จจริงที่ว่าแต่ละบริดจ์ในชุดข้อมูลมีทั้งวัสดุก่อสร้างและยุคของการสร้างสะพาน ผลในรูปที่ 11.6 เรายังคงนับเป็นสองเท่าของแต่ละบริดจ์ ถ้าเราบวกตัวเลขทั้งหมดที่แสดงในวงกลมสองวงเราจะได้ 212 ซึ่งก็คือจำนวนบริดจ์ในชุดข้อมู
อีกวิธีหนึ่งเราสามารถแบ่งวงกลมเป็นส่วนๆ แทนสัดส่วนตามตัวแปรหนึ่งตัว (เช่นวัสดุ) แล้วแบ่งย่อยชิ้นส่วนเหล่านี้เพิ่มเติมตามตัวแปรอื่น (ยุคก่อสร้าง) (รูปที่ 11.7) ด้วยวิธีนี้เราจะสร้างแผนภูมิวงกลมปกติที่มีชิ้นวงกลมขนาดเล็กจำนวนมาก อย่างไรก็ตามเราสามารถใช้การระบายสีเพื่อระบุลักษณะซ้อนกันของพาย ในรูปที่ 11.7 สีเขียวแทนสะพานไม้สีส้มแทนสะพานเหล็กและสีฟ้าแทนสะพานเหล็ก ความมืดของแต่ละสีแสดงถึงยุคการก่อสร้างด้วยสีเข้มที่สอดคล้องกับสะพานที่สร้างขึ้นเมื่อเร็ว ๆ นี้ ด้วยการใช้สเกลสีที่ซ้อนกันด้วยวิธีนี้เราสามารถเห็นภาพการแยกย่อยข้อมูลโดยตัวแปรหลัก (วัสดุก่อสร้าง) และตัวแปรรอง (ยุคก่อสร้าง)
แผนภูมิวงกลมของรูปที่ 11.7 แสดงให้เห็นถึงการสร้างภาพข้อมูลที่เหมาะสมของชุดข้อมูลบริดจ์ แต่ในการเปรียบเทียบโดยตรงกับ treemap ที่เทียบเท่า (รูปที่ 11.4) ฉันคิดว่า Treemap เป็นที่นิยม ประการแรกรูปทรงสี่เหลี่ยมผืนผ้าของ treemap ช่วยให้สามารถใช้พื้นที่ที่มีอยู่ได้ดีขึ้น รูปที่ 11.4 และ 11.7 มีขนาดเท่ากันทุกประการ แต่ในรูปที่ 11.7 รูปร่างส่วนใหญ่เสียพื้นที่สีขาว รูปที่ 11.4 ทรีแมปไม่มีพื้นที่สีขาวเหลือเฟือ สิ่งนี้สำคัญเพราะมันทำให้ฉันสามารถวางฉลากไว้ในพื้นที่แรเงาในทรีแมป ป้ายกำกับด้านในจะสร้างหน่วยแสดงผลที่แข็งแกร่งกว่าพร้อมข้อมูลมากกว่าป้ายกำกับภายนอกและเป็นที่ต้องการ ประการที่สองชิ้นวงกลมบางชิ้นในรูปที่ 11.7 นั้นบางมากและมองเห็นได้ยาก ในทางกลับกันทุกสี่เหลี่ยมผืนผ้าในรูปที่ 11.4 มีขนาดที่เหมาะสม
11.4 Parallel sets
เมื่อเราต้องการให้เห็นภาพสัดส่วนที่อธิบายไว้โดยตัวแปรที่จัดประเภทมากกว่าสองแบบ, พล็อตโมเสค, ทรีแมปและแผนภูมิวงกลมทั้งหมดสามารถกลายเป็นสิ่งที่ไม่คาดฝันได้อย่างรวดเร็ว ทางเลือกที่ทำงานได้ในกรณีนี้อาจเป็นพล็อตชุดแบบขนาน ในพล็อตชุดแบบขนานเราแสดงให้เห็นว่าชุดข้อมูลทั้งหมดแยกย่อยโดยตัวแปรหมวดหมู่แต่ละตัวจากนั้นเราวาดแถบแรเงาที่แสดงให้เห็นว่ากลุ่มย่อยเกี่ยวข้องกันอย่างไร ดูรูปที่ 11.8 สำหรับตัวอย่าง ในรูปนี้ฉันได้ทำลายชุดข้อมูลของสะพานโดยวัสดุก่อสร้าง (เหล็ก, เหล็ก, ไม้), ความยาวของแต่ละสะพาน (ยาว, กลาง, สั้น) ในยุคที่สะพานแต่ละแห่งถูกสร้างขึ้น (งานฝีมือ, เกิดใหม่, ทันสมัย ) และแม่น้ำแต่ละสะพานทอดยาว (อัลเลเฮนียองฮีลาโอไฮโอ) แถบที่เชื่อมต่อชุดขนานจะถูกระบายสีด้วยวัสดุก่อสร้าง ตัวอย่างนี้แสดงให้เห็นว่าสะพานไม้นั้นส่วนใหญ่มีความยาวปานกลาง (โดยมีสะพานสั้นไม่กี่แห่ง) ถูกสร้างขึ้นเป็นหลักในช่วงระยะเวลาของงานฝีมือ (โดยมีสะพานที่มีความยาวปานกลางเพียงไม่กี่ตัวที่ถูกสร้างขึ้นในช่วงระยะเวลา แม่น้ำอัลเลเกนี (มีสะพานงานฝีมือไม่กี่แห่งที่ทอดยาวไปตามแม่น้ำโมโนลาเฮลา) ในทางตรงกันข้ามสะพานเหล็กนั้นมีความยาวปานกลางถูกสร้างขึ้นเป็นหลักในช่วงงานฝีมือและครอบคลุมแม่น้ำอัลเลเฮนีย์และมอนกาฮาล่าในสัดส่วนที่เท่ากัน
การสร้างภาพข้อมูลเดียวกันนั้นดูแตกต่างกันมากถ้าเราใช้สีตามเกณฑ์ที่แตกต่างกันตัวอย่างเช่นตามแม่น้ำ (รูปที่ 11.9) ภาพนี้กำลังยุ่งอยู่กับการมองเห็นมีวงดนตรีสลับกันหลายวง แต่เราจะเห็นว่าเกือบทุกสะพานสามารถพบได้ในทุกแม่น้ำ
ฉันติดป้ายกำกับรูปที่ 11.9 ว่า “ugly” เพราะฉันคิดว่ามันซับซ้อนและสับสนมากเกินไป ครั้งแรกเนื่องจากเราคุ้นเคยกับการอ่านจากซ้ายไปขวาฉันคิดว่าชุดที่กำหนดสีควรปรากฏไปทางซ้ายไม่ใช่ทางขวา สิ่งนี้จะทำให้ง่ายต่อการดูว่าสีกำเนิดมาจากไหนและไหลผ่านชุดข้อมูลอย่างไร ประการที่สองเป็นความคิดที่ดีที่จะเปลี่ยนลำดับของเซตเพื่อลดจำนวนของแถบกากบาด ตามหลักการเหล่านี้ฉันไปถึงรูปที่ 11.10 ซึ่งฉันคิดว่าน่าจะเป็นรูปที่ 11.9
References
Dua, D., and E. Karra Taniskidou. 2017. “UCI Machine Learning Repository.” University of California, Irvine, School of Information; Computer Sciences. https://archive.ics.uci.edu/ml.
อ่านบทอื่นๆได้ที่
2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ
3 การแสดงข้อมูลในรูปพิกัดและแกน
7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots
8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots
9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว
11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน
12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป
13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ
15 การแสดงข้อมูลเชิงภูมิศาสตร์
17 หลักการแสดงข้อมูลที่เป็นสัดส่วน
18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล
19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล
21 การแสดงข้อมูลหลายกราฟในรูปเดียว
22 ชื่อเรื่อง Captions และตาราง
23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล
24 การใช้ labels ที่มีขนาดใหญ่
25 หลีกเลียงการใช้เส้นในการสร้างกราฟ