11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

แปล Data Visualization ขั้นพื้นฐาน Claus O. Wilke

NUTHDANAI WANGPRATHAM
3 min readOct 27, 2019

ในบทก่อนหน้านี้ฉันได้พูดถึงสถานการณ์ที่ชุดข้อมูลถูกแบ่งออกเป็นส่วน ๆ ที่กำหนดโดยตัวแปรเดี่ยวเช่นพรรคการเมือง บริษัท หรือสถานะสุขภาพ อย่างไรก็ตามไม่ใช่เรื่องแปลกที่เราต้องการเจาะลึกลงไปและแสดงชุดข้อมูลด้วยตัวแปรสำคัญหลายอย่างในคราวเดียว ตัวอย่างเช่นในกรณีที่นั่งของรัฐสภาเราอาจสนใจสัดส่วนของที่นั่งแยกตามปาร์ตี้และตามเพศของผู้แทน ในทำนองเดียวกันในกรณีที่สถานะสุขภาพของผู้คนเราสามารถถามว่าสถานะสุขภาพแบ่งตามสถานะสมรสได้อย่างไร ฉันอ้างถึงสถานการณ์เหล่านี้เป็นสัดส่วนที่ซ้อนกันเนื่องจากตัวแปรหมวดหมู่เพิ่มเติมแต่ละรายการที่เราเพิ่มสร้างส่วนย่อยที่ละเอียดกว่าของข้อมูลที่ซ้อนอยู่ภายในสัดส่วนก่อนหน้านี้ มีวิธีการที่เหมาะสมหลายอย่างในการมองเห็นสัดส่วนที่ซ้อนกันเช่นโมเสคพล็อตทรีแมปและเซตแบบขนาน

11.1 การแสดงสัดส่วนข้อมูลที่ซ้อนกันที่ผิด

ฉันจะเริ่มต้นด้วยการแสดงสองวิธีที่ผิดในการแสดงสัดส่วนที่ซ้อนกัน ในขณะที่วิธีการเหล่านี้อาจดูไร้สาระสำหรับนักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ฉันได้เห็นพวกเขาทำผิดพลาดและดังนั้นจึงคิดว่าพวกเขารับประกันการสนทนา ตลอดบทนี้ฉันจะทำงานกับชุดข้อมูล 106 บริดจ์ใน Pittsburgh ชุดข้อมูลนี้มีข้อมูลต่าง ๆ เกี่ยวกับสะพานเช่นวัสดุที่ถูกสร้างขึ้น (เหล็กเหล็กหรือไม้) และปีที่สร้างขึ้น ขึ้นอยู่กับปีของการก่อสร้างสะพานแบ่งออกเป็นหมวดหมู่ที่แตกต่างกันเช่นสะพานงานฝีมือที่สร้างขึ้นก่อนปี 1870 และสะพานที่ทันสมัยที่ถูกสร้างขึ้นหลังปี 1940

สมมติว่าเราต้องการเห็นทั้งเศษสัดส่วนของสะพานที่ทำจากเหล็กเหล็กหรือไม้และส่วนที่เป็นงานฝีมือหรือสมัยใหม่ เราอาจถูกดึงดูดโดยการวาดแผนภูมิวงกลมรวม (รูปที่ 11.1) อย่างไรก็ตามการสร้างภาพข้อมูลนี้ไม่ถูกต้อง ชิ้นส่วนทั้งหมดในแผนภูมิวงกลมจะต้องเพิ่มขึ้นถึง 100% และที่นี่ชิ้นเพิ่มขึ้นถึง 135% เราไปถึงเปอร์เซ็นต์รวมเกินกว่า 100% เพราะเราเป็นสะพานนับคู่ สะพานทุกชุดในชุดข้อมูลทำจากเหล็กเหล็กหรือไม้ดังนั้นทั้งสามชิ้นของวงกลมจึงเป็นตัวแทนของสะพาน 100% งานฝีมือหรือสะพานที่ทันสมัยทุกชิ้นเป็นเหล็กเหล็กหรือสะพานไม้ด้วยเหตุนี้จึงถูกนับเป็นสองเท่าในแผนภูมิวงกลม

รูปที่ 11.1: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron) and by date of construction (crafts, before 1870, and modern, after 1940), shown as a pie chart. Numbers represent the percentages of bridges of a given type among all bridges. This figure is invalid, because the percentages add up to more than 100%. There is overlap between construction material and date of construction. For example, all modern bridges are made of steel, and the majority of crafts bridges are made of wood. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

การนับจำนวนซ้ำนั้นไม่จำเป็นว่าจะเป็นปัญหาหากเราเลือกการสร้างภาพข้อมูลที่ไม่ต้องการสัดส่วนเพื่อเพิ่มเป็น 100% ตามที่กล่าวไว้ในบทก่อนหน้าแถบด้านข้างตรงตามเกณฑ์นี้ เราสามารถแสดงสัดส่วนต่าง ๆ ของบริดจ์เป็นแท่งในโครงร่างเดียวและโครงเรื่องนี้ไม่ผิดทางเทคนิค (รูปที่ 11.2) อย่างไรก็ตามฉันติดป้ายกำกับว่า “wrong” เนื่องจากไม่ได้แสดงว่ามีการทับซ้อนกันในบางหมวดหมู่ที่แสดง ผู้สังเกตการณ์ชั่วคราวอาจสรุปจากรูปที่ 11.2 ว่ามีสะพานแยกกันห้าประเภทและตัวอย่างเช่นสะพานสมัยใหม่ไม่ได้ทำจากเหล็กหรือไม้หรือเหล็ก

Figure 11.2: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron) and by date of construction (crafts, before 1870, and modern, after 1940), shown as a bar plot. Unlike Figure 11.1, this visualization is not technically wrong, since it doesn’t imply that the bar heights need to add up to 100%. However, it also does not clearly indicate the overlap among different groups, and therefore I have labeled it “bad”. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

11.2 Mosaic plots และ แผนภูมิต้นไม้

เมื่อใดก็ตามที่เรามีหมวดหมู่ที่ทับซ้อนกันและจะแสดงให้เห็นอย่างชัดเจนว่าเกี่ยวข้องกันอย่างไรเราสามารถใช้ Mosaic plots (รูปที่ 11.3) Mosaic plots จะดูคล้ายกับพล็อตบาร์แบบเรียงซ้อน (เช่นรูปที่ 10.5) อย่างไรก็ตามแตกต่างจากพล็อตบาร์แบบเรียงซ้อนในพล็อตโมเสคทั้งความสูงและความกว้างของพื้นที่แรเงาแต่ละแห่งนั้นแตกต่างกันไป โปรดทราบว่าในรูปที่ 11.3 เราเห็นยุคการก่อสร้างเพิ่มเติมสองแห่งที่เกิดขึ้นใหม่ (จาก 1870 ถึง 1889) และเป็นผู้ใหญ่ (1890 ถึง 1939) เมื่อรวมกับงานฝีมือและความทันสมัยแล้วยุคการก่อสร้างเหล่านี้ครอบคลุมสะพานทั้งหมดในชุดข้อมูลเช่นเดียวกับวัสดุก่อสร้างทั้งสาม นี่เป็นเงื่อนไขที่สำคัญสำหรับพล็อตโมเสค: ตัวแปรเด็ดขาดทุกรายการที่แสดงจะต้องครอบคลุมการสังเกตทั้งหมดในชุดข้อมูล

Figure 11.3: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron) and by era of construction (crafts, emerging, mature, modern), shown as a mosaic plot. The widths of each rectangle are proportional to the number of bridges constructed in that era, and the heights are proportional to the number of bridges constructed from that material. Numbers represent the counts of bridges within each category. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

ในการวาด Mosaic plots เราเริ่มต้นด้วยการวางตัวแปรหลักตัวหนึ่งตัวตามแนวแกน x (ในที่นี่คือ era of bridge construction) และแบ่งแกน x ตามสัดส่วนสัมพัทธ์ที่ประกอบเป็นหมวดหมู่ จากนั้นเราวางตัวอีกตัวตามแกน y (ในที่นี่คือ building material ) และภายในแต่ละหมวดหมู่ตามแกน x แบ่งย่อยแกน y ตามสัดส่วนสัมพัทธ์ที่ประกอบเป็นหมวดหมู่ของตัวแปร y ผลที่ได้คือชุดของรูปสี่เหลี่ยมผืนผ้าที่มีพื้นที่เป็นสัดส่วนกับจำนวนของกรณีที่เป็นตัวแทนของการรวมกันเป็นไปได้ของตัวแปรเด็ดขาดสอง

The bridges dataset ยังสามารถมองเห็นได้ในรูปแบบที่เกี่ยวข้อง แต่แตกต่างกันที่เรียกว่า treemap ในทรีแมปเหมือนกับกรณีในMosaic plots เราใช้สี่เหลี่ยมล้อมรอบและแบ่งออกเป็นสี่เหลี่ยมเล็ก ๆ ซึ่งพื้นที่แสดงสัดส่วน อย่างไรก็ตามวิธีการวางรูปสี่เหลี่ยมขนาดเล็กลงในอันที่ใหญ่กว่านั้นแตกต่างกันเมื่อเทียบกับMosaic plots ใน treemap เราวนซ้ำรูปสี่เหลี่ยมผืนผ้าภายในซึ่งกันและกัน ตัวอย่างเช่นในกรณีของสะพานพิตต์สเบิร์กเราสามารถแบ่งพื้นที่ทั้งหมดออกเป็นสามส่วนแรกซึ่งเป็นตัวแทนของวัสดุก่อสร้างไม้เหล็กและเหล็กกล้า จากนั้นเราแบ่งแต่ละพื้นที่เหล่านั้นออกไปเพื่อแสดงถึงยุคการก่อสร้างสำหรับวัสดุก่อสร้างแต่ละรายการ (รูปที่ 11.4) ตามหลักการแล้วเราสามารถดำเนินการต่อไปโดยการทำรังย่อยที่เล็กกว่าภายในซึ่งกันและกันแม้ว่าผลลัพธ์จะค่อนข้างรวดเร็วหรือสับสน

Figure 11.4: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron) and by era of construction (crafts, emerging, mature, modern), shown as a treemap. The area of each rectangle is proportional to the number of bridges of that type. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

ในขณะที่ Mosaic plots และ treemaps มีความคล้ายกันมีจุดเด่นที่แตกต่างกันและพื้นที่การใช้งานที่แตกต่างกัน Mosaic plots (รูปที่ 11.3) เน้นถึงวิวัฒนาการชั่วคราวในการใช้วัสดุก่อสร้างตั้งแต่ยุคงานฝีมือจนถึงยุคปัจจุบันในขณะที่ treemap (รูปที่ 11.4) เน้นจำนวนเหล็กเหล็กและสะพานไม้ทั้งหมด

โดยทั่วไปแล้ว Mosaic plots จะสันนิษฐานว่าสัดส่วนทั้งหมดที่แสดงสามารถระบุได้ผ่านการรวมกันของตัวแปรหมวดหสองตัวหรือมากกว่านั้น ตัวอย่างเช่นในรูปที่ 11.3 สะพานทุกตัวสามารถอธิบายได้โดยการเลือกวัสดุก่อสร้าง (ไม้เหล็กเหล็ก) และตัวเลือกระยะเวลา (งานฝีมือเกิดใหม่เป็นผู้ใหญ่ทันสมัย) ยิ่งกว่านั้นในหลักการการรวมกันของตัวแปรทั้งสองนี้เป็นไปได้แม้ว่าในทางปฏิบัติแล้วสิ่งนี้ไม่จำเป็นต้องเป็นเช่นนั้น (ที่นี่ไม่มีสะพานเหล็กงานฝีมือและสะพานไม้หรือเหล็กที่ทันสมัย) ในทางตรงกันข้ามความต้องการดังกล่าวไม่มีอยู่สำหรับทรีแมป ในความเป็นจริง treemaps มีแนวโน้มที่จะทำงานได้ดีเมื่อสัดส่วนไม่สามารถอธิบายอย่างมีความหมายโดยการรวมตัวแปรเด็ดขาดหลายอย่าง ตัวอย่างเช่นเราสามารถแยกสหรัฐอเมริกาออกเป็นสี่ภูมิภาค (ตะวันตก, ตะวันออกเฉียงเหนือ, ตะวันตกและใต้) และแต่ละภูมิภาคเป็นรัฐที่แตกต่างกัน แต่รัฐในภูมิภาคหนึ่งไม่มีความสัมพันธ์กับรัฐในภูมิภาคอื่น (รูปที่ 11.5)

Figure 11.5: States in the U.S. visualized as a treemap. Each rectangle represents one state, and the area of each rectangle is proportional to the state’s land surface area. The states are grouped into four regions, West, Northeast, Midwest, and South. The coloring is proportional to the number of inhabitants for each state, with darker colors representing larger numbers of inhabitants. Data source: 2010 U.S. Census

ทั้ง mosaic plots และ treemaps มักใช้กันทั่วไปและสามารถใช้ง่ายได้ง่าย แต่มีข้อ จำกัด ที่คล้ายกันเช่นเดียวกับแผนภูมิแท่งเรียงซ้อน(บทที่ 10.1): การเปรียบเทียบโดยตรงระหว่างเงื่อนไขอาจทำได้ยากเนื่องจากรูปสี่เหลี่ยมผืนผ้าที่แตกต่างกันไม่จำเป็นต้องใช้ร่วมกัน ในแปลงโมเสคหรือทรีแมปปัญหานี้ทวีความรุนแรงมากขึ้นเนื่องจากความจริงที่ว่ารูปร่างของสี่เหลี่ยมที่แตกต่างกันอาจแตกต่างกันไป ตัวอย่างเช่นมีจำนวนสะพานเหล็ก (สาม) ในจำนวนที่เกิดขึ้นใหม่และสะพานที่ครบกำหนด แต่นี่เป็นการยากที่จะมองเห็นในพล็อตโมเสค (รูปที่ 11.3) เนื่องจากรูปสี่เหลี่ยมผืนผ้าทั้งสองที่เป็นตัวแทนของทั้งสองกลุ่มของสะพานทั้งสาม รูปร่างที่แตกต่าง ไม่จำเป็นต้องมีวิธีแก้ไขปัญหานี้ — การมองเห็นสัดส่วนที่ซ้อนกันอาจเป็นเรื่องยุ่งยาก เมื่อใดก็ตามที่เป็นไปได้ผมขอแนะนำให้แสดงจำนวนจริงหรือร้อยละของพล็อตเพื่อให้ผู้อ่านสามารถตรวจสอบได้ว่าการตีความในพื้นที่แรเงานั้นเป็นไปอย่างถูกต้อง

11.3 Nested pies

ในตอนต้นของบทนี้ฉันเห็นภาพชุดข้อมูลของบริดจ์ด้วยแผนภูมิวงกลมที่มีข้อบกพร่อง (รูปที่ 11.1) จากนั้นฉันก็แย้งว่าโมเสคพล็อตหรือทรีแมปมีความเหมาะสมมากกว่า อย่างไรก็ตามทั้งสองประเภทการพล็อตหลังเหล่านี้มีความสัมพันธ์อย่างใกล้ชิดกับแผนภูมิวงกลมเนื่องจากใช้พื้นที่เพื่อเป็นตัวแทนของค่าข้อมูล ความแตกต่างหลักคือประเภทของระบบพิกัดซึ่งในกรณีของแผนภูมิวงกลมกับคาร์ทีเซียนในกรณีของพล็อตโมเสคหรือ treemap ความสัมพันธ์ที่ใกล้ชิดระหว่างพล็อตที่แตกต่างกันเหล่านี้ทำให้เกิดคำถามว่าตัวแปรบางตัวของแผนภูมิวงกลมสามารถใช้เพื่อแสดงภาพชุดข้อมูลนี้ได้หรือไม่

มีความเป็นไปได้สองอย่าง อันดับแรกเราสามารถวาดแผนภูมิวงกลมที่ประกอบด้วยวงในและวงกลมด้านนอก (รูปที่ 11.6) วงกลมด้านในแสดงข้อมูลแยกตามตัวแปรหนึ่งตัว (ที่นี่วัสดุก่อสร้าง) และวงกลมด้านนอกแสดงรายละเอียดของแต่ละชิ้นของวงในโดยตัวแปรที่สอง (ที่นี่ยุคของการสร้างสะพาน) การสร้างภาพข้อมูลนี้มีเหตุผล แต่ฉันมีการจองของฉันดังนั้นฉันจึงติดป้ายกำกับว่า “น่าเกลียด” สิ่งสำคัญที่สุดคือทั้งสองวงแยกกันปิดบังข้อเท็จจริงที่ว่าแต่ละบริดจ์ในชุดข้อมูลมีทั้งวัสดุก่อสร้างและยุคของการสร้างสะพาน ผลในรูปที่ 11.6 เรายังคงนับเป็นสองเท่าของแต่ละบริดจ์ ถ้าเราบวกตัวเลขทั้งหมดที่แสดงในวงกลมสองวงเราจะได้ 212 ซึ่งก็คือจำนวนบริดจ์ในชุดข้อมู

Figure 11.6: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron, inner circle) and by era of construction (crafts, emerging, mature, modern, outer circle). Numbers represent the counts of bridges within each category. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

อีกวิธีหนึ่งเราสามารถแบ่งวงกลมเป็นส่วนๆ แทนสัดส่วนตามตัวแปรหนึ่งตัว (เช่นวัสดุ) แล้วแบ่งย่อยชิ้นส่วนเหล่านี้เพิ่มเติมตามตัวแปรอื่น (ยุคก่อสร้าง) (รูปที่ 11.7) ด้วยวิธีนี้เราจะสร้างแผนภูมิวงกลมปกติที่มีชิ้นวงกลมขนาดเล็กจำนวนมาก อย่างไรก็ตามเราสามารถใช้การระบายสีเพื่อระบุลักษณะซ้อนกันของพาย ในรูปที่ 11.7 สีเขียวแทนสะพานไม้สีส้มแทนสะพานเหล็กและสีฟ้าแทนสะพานเหล็ก ความมืดของแต่ละสีแสดงถึงยุคการก่อสร้างด้วยสีเข้มที่สอดคล้องกับสะพานที่สร้างขึ้นเมื่อเร็ว ๆ นี้ ด้วยการใช้สเกลสีที่ซ้อนกันด้วยวิธีนี้เราสามารถเห็นภาพการแยกย่อยข้อมูลโดยตัวแปรหลัก (วัสดุก่อสร้าง) และตัวแปรรอง (ยุคก่อสร้าง)

Figure 11.7: Breakdown of bridges in Pittsburgh by construction material (steel, wood, iron) and by era of construction (crafts, emerging, mature, modern). Numbers represent the counts of bridges within each category. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

แผนภูมิวงกลมของรูปที่ 11.7 แสดงให้เห็นถึงการสร้างภาพข้อมูลที่เหมาะสมของชุดข้อมูลบริดจ์ แต่ในการเปรียบเทียบโดยตรงกับ treemap ที่เทียบเท่า (รูปที่ 11.4) ฉันคิดว่า Treemap เป็นที่นิยม ประการแรกรูปทรงสี่เหลี่ยมผืนผ้าของ treemap ช่วยให้สามารถใช้พื้นที่ที่มีอยู่ได้ดีขึ้น รูปที่ 11.4 และ 11.7 มีขนาดเท่ากันทุกประการ แต่ในรูปที่ 11.7 รูปร่างส่วนใหญ่เสียพื้นที่สีขาว รูปที่ 11.4 ทรีแมปไม่มีพื้นที่สีขาวเหลือเฟือ สิ่งนี้สำคัญเพราะมันทำให้ฉันสามารถวางฉลากไว้ในพื้นที่แรเงาในทรีแมป ป้ายกำกับด้านในจะสร้างหน่วยแสดงผลที่แข็งแกร่งกว่าพร้อมข้อมูลมากกว่าป้ายกำกับภายนอกและเป็นที่ต้องการ ประการที่สองชิ้นวงกลมบางชิ้นในรูปที่ 11.7 นั้นบางมากและมองเห็นได้ยาก ในทางกลับกันทุกสี่เหลี่ยมผืนผ้าในรูปที่ 11.4 มีขนาดที่เหมาะสม

11.4 Parallel sets

เมื่อเราต้องการให้เห็นภาพสัดส่วนที่อธิบายไว้โดยตัวแปรที่จัดประเภทมากกว่าสองแบบ, พล็อตโมเสค, ทรีแมปและแผนภูมิวงกลมทั้งหมดสามารถกลายเป็นสิ่งที่ไม่คาดฝันได้อย่างรวดเร็ว ทางเลือกที่ทำงานได้ในกรณีนี้อาจเป็นพล็อตชุดแบบขนาน ในพล็อตชุดแบบขนานเราแสดงให้เห็นว่าชุดข้อมูลทั้งหมดแยกย่อยโดยตัวแปรหมวดหมู่แต่ละตัวจากนั้นเราวาดแถบแรเงาที่แสดงให้เห็นว่ากลุ่มย่อยเกี่ยวข้องกันอย่างไร ดูรูปที่ 11.8 สำหรับตัวอย่าง ในรูปนี้ฉันได้ทำลายชุดข้อมูลของสะพานโดยวัสดุก่อสร้าง (เหล็ก, เหล็ก, ไม้), ความยาวของแต่ละสะพาน (ยาว, กลาง, สั้น) ในยุคที่สะพานแต่ละแห่งถูกสร้างขึ้น (งานฝีมือ, เกิดใหม่, ทันสมัย ) และแม่น้ำแต่ละสะพานทอดยาว (อัลเลเฮนียองฮีลาโอไฮโอ) แถบที่เชื่อมต่อชุดขนานจะถูกระบายสีด้วยวัสดุก่อสร้าง ตัวอย่างนี้แสดงให้เห็นว่าสะพานไม้นั้นส่วนใหญ่มีความยาวปานกลาง (โดยมีสะพานสั้นไม่กี่แห่ง) ถูกสร้างขึ้นเป็นหลักในช่วงระยะเวลาของงานฝีมือ (โดยมีสะพานที่มีความยาวปานกลางเพียงไม่กี่ตัวที่ถูกสร้างขึ้นในช่วงระยะเวลา แม่น้ำอัลเลเกนี (มีสะพานงานฝีมือไม่กี่แห่งที่ทอดยาวไปตามแม่น้ำโมโนลาเฮลา) ในทางตรงกันข้ามสะพานเหล็กนั้นมีความยาวปานกลางถูกสร้างขึ้นเป็นหลักในช่วงงานฝีมือและครอบคลุมแม่น้ำอัลเลเฮนีย์และมอนกาฮาล่าในสัดส่วนที่เท่ากัน

Figure 11.8: Breakdown of bridges in Pittsburgh by construction material, length, era of construction, and the river they span, shown as a parallel sets plot. The coloring of the bands highlights the construction material of the different bridges. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

การสร้างภาพข้อมูลเดียวกันนั้นดูแตกต่างกันมากถ้าเราใช้สีตามเกณฑ์ที่แตกต่างกันตัวอย่างเช่นตามแม่น้ำ (รูปที่ 11.9) ภาพนี้กำลังยุ่งอยู่กับการมองเห็นมีวงดนตรีสลับกันหลายวง แต่เราจะเห็นว่าเกือบทุกสะพานสามารถพบได้ในทุกแม่น้ำ

Figure 11.9: Breakdown of bridges in Pittsburgh by construction material, length, era of construction, and the river they span. This figure is similar to Figure 11.8 but now the coloring of the bands highlights the river spanned by the different bridges. This figure is labeled “ugly” because the arrangement of the colored bands in the middle of the figure is very busy, and also because the bands need to be read from right to left. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

ฉันติดป้ายกำกับรูปที่ 11.9 ว่า “ugly” เพราะฉันคิดว่ามันซับซ้อนและสับสนมากเกินไป ครั้งแรกเนื่องจากเราคุ้นเคยกับการอ่านจากซ้ายไปขวาฉันคิดว่าชุดที่กำหนดสีควรปรากฏไปทางซ้ายไม่ใช่ทางขวา สิ่งนี้จะทำให้ง่ายต่อการดูว่าสีกำเนิดมาจากไหนและไหลผ่านชุดข้อมูลอย่างไร ประการที่สองเป็นความคิดที่ดีที่จะเปลี่ยนลำดับของเซตเพื่อลดจำนวนของแถบกากบาด ตามหลักการเหล่านี้ฉันไปถึงรูปที่ 11.10 ซึ่งฉันคิดว่าน่าจะเป็นรูปที่ 11.9

Figure 11.10: Breakdown of bridges in Pittsburgh by river, era of construction, length, and construction material. This figure differs from Figure 11.9 only in the order of the parallel sets. However, the modified order results in a figure that is easier to read and less busy. Data source: Yoram Reich and Steven J. Fenves, via the UCI Machine Learning Repository (Dua and Karra Taniskidou 2017)

References

Dua, D., and E. Karra Taniskidou. 2017. “UCI Machine Learning Repository.” University of California, Irvine, School of Information; Computer Sciences. https://archive.ics.uci.edu/ml.

อ่านบทอื่นๆได้ที่

1. บทนำ​Data Visualization

2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ

3 การแสดงข้อมูลในรูปพิกัดและแกน

4. การใช้สีเพื่อแสดงข้อมูล

5 Directory of visualizations

6. การแสดงค่าข้อมูล

7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots

8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots

9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว

10 การแสดงข้อมูลในรูปสัดส่วน

11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป

13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ

14 การแสดงแนวโน้ม

15 การแสดงข้อมูลเชิงภูมิศาสตร์

16 การแสดงการกระจายของข้อมูล

17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล

19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

20 การแสดงข้อมูลที่ซ้อนกัน

21 การแสดงข้อมูลหลายกราฟในรูปเดียว

22 ชื่อเรื่อง Captions และตาราง

23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล

24 การใช้ labels ที่มีขนาดใหญ่

25 หลีกเลียงการใช้เส้นในการสร้างกราฟ

26 อย่าใช้กราฟ 3 มิติ

27 ทำความเข้าใจกับชนิดไฟล์ที่ใช้บ่อยในงานแสดงข้อมูล

28. การเลือกซอฟต์แวร์สร้างภาพข้อมูลที่ถูกต้อง

--

--