8 การแสดงภาพการแจกแจง: กราฟแสดงการแจกแจงสะสมและq-q Plots

แปล Data Visualization ขั้นพื้นฐาน Claus O. Wilke

NUTHDANAI WANGPRATHAM
3 min readOct 5, 2019

ในบทที่ 7 เราได้พูดคุยกันถึงการสร้างภาพด้วยฮิสโตแกรมหรือ density plots

ทั้งสองวิธีนี้ใช้งานง่ายและดึงดูดสายตา อย่างไรก็ตามฮิสโตแกรมและ density plots มีข้อจำกัดที่ตัวเลขผลลัพธ์ขึ้นอยู่กับระดับนัยสำคัญของพารามิเตอร์ที่ผู้ใช้ต้องเลือกเช่นความกว้างของช่วงสำหรับฮิสโตแกรมและแบนด์วิดท์สำหรับ density plots เป็นผลให้ทั้งสองยากต่อการตีความของข้อมูลมากกว่าการสร้างภาพข้อมูลโดยตรง

เรามีทางเลือกแทนการใช้ฮิสโทแกรมหรือ density plots เราสามารถแสดงจุดข้อมูลทั้งหมดแยกเป็นจุดอย่างไรก็ตามวิธีนี้เหมาะกับชุดข้อมูลที่มีขนาดใหญ่มากและในกรณีใด ๆ ที่มีค่าในวิธีการรวมที่เน้นคุณสมบัติของการกระจายมากกว่าจุดข้อมูลแต่ละจุด เพื่อแก้ปัญหานี้นักสถิติได้คิดค้นกราฟฟังก์ชันการแจกแจงสะสมเ (ecdfs) และแปลงควอนไทล์ — ควอไทล์ (q-q) การสร้างภาพข้อมูลประเภทนี้ไม่ต้องการตัวเลือกพารามิเตอร์เองและจะแสดงข้อมูลทั้งหมดพร้อมกัน น่าเสียดายที่ไม่ค่อยมีคนใช้บ่อยนัก นอกเหนือจากงานทางวิชาการขั้นสูง อย่างไรก็ตามการแสดงภาพแบบนี้ค่อนข้างเป็นที่นิยมในหมู่นักสถิติและฉันคิดว่าใครก็ตามที่สนใจในการสร้างภาพข้อมูลควรคุ้นเคยกับเทคนิคเหล่านี้

8.1 ความน่าจะเป็นของผลการทดลอง(Empirical cumulative distribution functions)

เพื่อแสดงความน่าจะเป็นของผลการทดลอง เราจะเริ่มต้นด้วยชุดข้อมูลของคะแนนนักเรียน สมมติว่าชั้นเรียนของเรามีนักเรียน 50 คนและนักเรียนเพิ่งสอบเสร็จซึ่งสามารถทำคะแนนได้ระหว่าง 0 ถึง 100 คะแนน เราจะเห็นภาพการเรียนในชั้นเรียนได้ดีที่สุด เพื่อตัดเกรดที่เหมาะสมได้อย่างไร

เราสามารถสร้างกราฟจำนวนนักเรียนทั้งหมดที่ได้รับคะแนนมากที่สุดเมื่อเทียบกับคะแนนที่เป็นไปได้ทั้งหมด พล็อตนี้จะเป็นฟังก์ชันจากน้อยไปมากเริ่มต้นที่ 0 สำหรับ 0 คะแนนและสิ้นสุดที่ 50 สำหรับ 100 คะแนน วิธีคิดที่แตกต่างเกี่ยวกับการสร้างภาพแสดงข้อมูลนี้คือ: เราสามารถจัดอันดับนักเรียนทั้งหมดตามจำนวนคะแนนที่ได้รับตามลำดับจากน้อยไปมาก (ดังนั้นนักเรียนที่มีคะแนนน้อยที่สุดจะได้รับอันดับต่ำสุดและนักเรียนที่มีคะแนนมากที่สุด) แล้วจัดอันดับกับจุดที่ได้รับจริง ผลลัพธ์คือ Empirical cumulative distribution functions (ecdf) หรือการแจกแจงสะสมแบบง่ายๆ แต่ละจุดเป็นตัวแทนของนักเรียนหนึ่งคนและเส้นแสดงให้เห็นระดับสูงสุดของนักเรียนที่สังเกตได้สำหรับค่าจุดที่เป็นไปได้ใด ๆ (รูปที่ 8.1)

รูปที่ 8.1: ฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ของผลการเรียนของนักเรียนในชั้นเรียนสมมุติจำนวน 50 คน

คุณอาจสงสัยว่าจะเกิดอะไรขึ้นถ้าเราจัดอันดับนักเรียนในทางตรงกันข้ามโดยเรียงจากมากไปน้อย การเรียงลพดับนี้ ผลลัพธ์ยังคงเป็นฟังก์ชัน Empirical cumulative distribution functions แต่เส้นแสดงระดับนักเรียนต่ำสุดที่สังเกตได้สำหรับค่าจุดที่เป็นไปได้ใด ๆ (รูปที่ 8.2)

รูปที่ 8.3: Ecdf ของคะแนนนักเรียน อันดับของนักเรียนได้รับการปรับให้เป็นมาตรฐานกับจำนวนนักเรียนทั้งหมดเช่นค่า y ที่พล็อตตรงกับส่วนของนักเรียนในชั้นเรียนที่มีคะแนนมากที่สุด

เราสามารถอ่านคุณสมบัติหลัก ๆ ของการแจกแจงคะแนนของนักเรียนโดยตรงจากพล็อตนี้ ตัวอย่างเช่นนักเรียนประมาณหนึ่งในสี่ (25%) ได้รับคะแนนน้อยกว่า 75 คะแนน ค่ามัธยฐานคะแนน (สอดคล้องกับความถี่สะสม 0.5) คือ 81 ประมาณ 20% ของนักเรียนที่ได้รับ 90 คะแนนหรือมากกว่า

ฉันพบว่า ecdfs มีประโยชน์สำหรับการกำหนดขอบเขตของเกรดเพราะช่วยทำให้สะดวกในการตัดเกรดมากขึ้น ตัวอย่างเช่นในตัวอย่างนี้มีเส้นแนวนอนค่อนข้างยาวอยู่ต่ำกว่า 80 คะแนนตามด้วยการเพิ่มขึ้นที่สูงชันที่ 80 คุณลักษณะนี้เกิดจากนักเรียนสามคนได้รับ 80 คะแนนจากการสอบของพวกเขาในขณะที่นักเรียนที่ยากจนกว่า ในสถานการณ์สมมตินี้ฉันอาจตัดสินใจว่าทุกคนที่มีคะแนน 80 หรือมากกว่านั้นได้รับ B และทุกคนที่มี 79 หรือน้อยกว่าได้รับ C นักเรียนทั้งสามที่มี 80 คะแนนมีความสุขที่พวกเขาได้เกรด B และนักเรียนที่มี 76 ตระหนักดีว่าพวกเขาจะต้องตั้งใจเรียนกว่านี้ หากเราตัดเกรดที่ 77 การกระจายตัวของคะแนนจะเหมือนกันทุกประการ แต่ฉันอาจพบว่านักเรียนที่มี 76 คะแนนที่ไปห้องทำงานของฉันหวัง เพื่อเจรจาเกรดของพวกเขา ในทำนองเดียวกันถ้าฉันตั้งค่าตัดยอดที่ 81 ฉันน่าจะมีนักเรียนสามคนในห้องเรียนของฉันพยายามเจรจาเกรดของพวกเขา

8.2 การแจกแจงความเบ้

ชุดข้อมูลจำนวนมากมีความเบ้สูง โดยเฉพาะอย่างยิ่งกับการเบ้ขวาและการแจกแจงเหล่านี้สามารถท้าทายในการมองเห็น ตัวอย่างของการแจกแจงของจำนวนผู้คนที่อาศัยอยู่ในเมืองหรือรัฐต่าง ๆ จำนวนผู้ติดต่อในเครือข่ายสังคมความถี่ที่แต่ละคำปรากฏในหนังสือจำนวนเอกสารทางวิชาการที่เขียนโดยนักเขียนคนต่าง ๆ การแจกแจงทั้งหมดเหล่านี้มีสิ่งที่เหมือนกันคือจะเบ้ขวา ในทางปฏิบัติหมายความว่าค่าที่มีขนาดใหญ่มากนั้นหายากแม้ว่าค่าเฉลี่ยของการแจกแจงจะน้อย คลาสที่สำคัญของการแจกแจงดังกล่าวคือการแจกแจงพลังงาน — กฎซึ่งโอกาสที่จะสังเกตเห็นค่าที่มี x ใหญ่กว่าจุดอ้างอิงบางจุดลดลงเมื่อพลังของ x เพื่อยกตัวอย่างที่เป็นรูปธรรมให้พิจารณามูลค่าสุทธิในสหรัฐอเมริกาซึ่งมีการแจกจ่ายตามกฎหมายพลังงานที่มีเลขชี้กำลัง 2 ในทุกระดับของมูลค่าสุทธิ ( $ 1 ล้าน) ค่าที่มีมูลค่าสุทธิครึ่งหนึ่งถึงสี่เท่าบ่อยครั้ง และค่าที่มีสองเท่าของมูลค่าสุทธินั้นเป็นหนึ่งในสี่เช่นเดียวกับที่พบบ่อย ที่สำคัญความสัมพันธ์แบบเดียวกันนั้นมีอยู่ถ้าเราใช้ $ 10,000 เป็นจุดอ้างอิงหรือถ้าเราใช้ $ 100 ล้าน ด้วยเหตุผลนี้การแจกแจงกฎหมายพลังงานก็เรียกว่าการแจกแจงแบบไม่มีสเกล

ที่นี่ฉันจะพูดคุยเกี่ยวกับจำนวนของผู้คนที่อาศัยอยู่ในรัฐต่าง ๆ ของสหรัฐอเมริกาตามการสำรวจสำมะโนประชากรสหรัฐปี 2010 การกระจายนี้มีเบ้ไปทางขวา แม้ว่ารัฐส่วนใหญ่จะมีจำนวนประชากรค่อนข้างน้อย (ค่ามัธยฐานคือ 25,857) แต่มีเพียงไม่กี่รัฐที่มีผู้อยู่อาศัยจำนวนมาก (เช่นลอสแองเจลิสเคาน์ตี้กับผู้อาศัย 9,818,605 คน) หากเราพยายามที่จะเห็นภาพการกระจายตัวของประชากรเป็น density plotหรือ ecdf เราจะได้ตัวเลขที่ไร้ประโยชน์ (รูปที่ 8.4)

Figure 8.4: Distribution of the number of inhabitants in US counties, according to the 2010 US Census. (a) Density plot. (b) Empirical cumulative distribution function.

density plot(รูปที่ 8.4 a) แสดงยอดแหลมที่ 0 และแทบไม่เห็นรายละเอียดของการกระจาย ในทำนองเดียวกัน ecdf (รูปที่ 8.4b) แสดงการเพิ่มขึ้นอย่างรวดเร็วใกล้ 0 และไม่มีรายละเอียดของการกระจายที่มองเห็นได้ สำหรับชุดข้อมูลเฉพาะนี้เราสามารถบันทึกการแปลงข้อมูลและเห็นภาพการกระจายของค่าการแปลงบันทึก การเปลี่ยนแปลงนี้ทำงานได้ที่นี่เพราะจำนวนประชากรในเขตปกครองนั้นไม่ได้เป็นกฎ แต่ทำตามการกระจายปกติของบันทึกที่สมบูรณ์แบบแทน (ดูหัวข้อ 8.3) อันที่จริงแล้วพล็อตความหนาแน่นของค่าที่บันทึกการเปลี่ยนแปลงแสดงให้เห็นว่าเส้นโค้งระฆังที่ดีและ ecdf ที่สอดคล้องกันแสดงให้เห็นรูปร่างที่ดี sigmoidal (รูปที่ 8.5)

Figure 8.5: Distribution of the logarithm of the number of inhabitants in US counties. (a) Density plot. (b) Empirical cumulative distribution function.

หากต้องการดูว่าการแจกแจงนี้ไม่ได้เป็นกฎเราได้พล็อตมันเป็น ecdf ที่ลดลงพร้อมแกนลอการิทึม x และ y ในการสร้างภาพข้อมูลนี้กฎหมายพลังงานปรากฏเป็นเส้นตรงที่สมบูรณ์แบบ สำหรับประชากรที่นับเป็นมณฑลหางขวาจะก่อตัวขึ้นเป็นเส้นตรง แต่ไม่มากนักบนพล็อตกราฟ ecdf ล็อก (จากรูปที่ 8.6)

Figure 8.6: Relative frequency of counties with at least that many inhabitants versus the number of county inhabitants.

เป็นตัวอย่างที่สองฉันจะใช้การแจกแจงความถี่ของคำสำหรับทุกคำที่ปรากฏใน the novel Moby Dick การกระจายนี้เป็นไปตาม power lawที่สมบูรณ์แบบ เมื่อพล็อตเป็น ecdf พร้อมแกนลอการิทึมเราจะเห็นเส้นตรงเกือบสมบูรณ์แบบ (รูปที่ 8.7)

Figure 8.7: Distribution of word counts in the novel Moby Dick. Shown is the relative frequency of words that occur at least that many times in the novel versus the number of times words are used.

8.3 Quantile–Quantile plots (q-q plot)

Quantile–quantile (q-q) เป็นการสร้างภาพจากข้อมูลที่มีประโยชน์เมื่อเราต้องการกำหนดขอบเขตของจุดข้อมูลที่สังเกตได้หรือไม่ปฏิบัติตามการแจกแจงที่กำหนด เช่นเดียวกับ ecdfs แปลง q-q ก็ขึ้นอยู่กับการจัดอันดับข้อมูลและแสดงภาพความสัมพันธ์ระหว่างอันดับและค่าจริง อย่างไรก็ตามในแปลง q-q เราไม่ได้วางแผนการจัดอันดับโดยตรงเราใช้พวกเขาในการทำนายว่าจุดข้อมูลที่กำหนดควรจะอยู่ตรงไหนหากข้อมูลถูกกระจายไปตามการกระจายการอ้างอิงที่ระบุ โดยทั่วไปแล้วแปลง q-q ถูกสร้างขึ้นโดยใช้การแจกแจงแบบปกติเป็นการอ้างอิง เพื่อให้ตัวอย่างที่เป็นรูปธรรมสมมติว่าค่าข้อมูลจริงมีค่าเฉลี่ย 10 และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 3 จากนั้นสมมติว่ามีการแจกแจงแบบปกติเราคาดว่าจุดข้อมูลจะถูกจัดอันดับในเปอร์เซ็นไทล์ที่ 50 เพื่ออยู่ในตำแหน่งที่ 10 จุดข้อมูลที่เปอร์เซ็นต์ไทล์ 84th นอนที่ตำแหน่ง 13 (ค่าเบี่ยงเบนมาตรฐานหนึ่งค่าเหนือค่าเฉลี่ย) และจุดข้อมูลที่เปอร์เซ็นต์ไทล์ 2.3 เพื่อนอนที่ตำแหน่ง 4 (ค่าเบี่ยงเบนมาตรฐานสองค่าต่ำกว่าค่าเฉลี่ย) เราสามารถทำการคำนวณนี้สำหรับทุกจุดในชุดข้อมูลจากนั้นทำการพล็อตค่าที่สังเกตได้ (เช่นค่าในชุดข้อมูล) เทียบกับค่าทางทฤษฎี (เช่นค่าที่คาดว่าจะได้รับอันดับของจุดข้อมูลแต่ละจุด

เมื่อเราทำขั้นตอนนี้สำหรับการแจกแจงคะแนนของนักเรียนตั้งแต่ต้นบทนี้เราจะได้รับรูปที่ 8.8

Figure 8.8: q-q plot of student grades.

เส้นทึบที่นี่ไม่ใช่เส้นถดถอย แต่บ่งบอกถึงจุดที่ x เท่ากับ y, เช่นที่ค่าที่สังเกตได้เท่ากับทฤษฎี ในขอบเขตที่จุดตกอยู่บนเส้นนั้นข้อมูลจะเป็นไปตามการแจกแจงที่สันนิษฐาน (ที่นี่ปกติ) เราเห็นว่าผลการเรียนของนักเรียนเป็นไปตามการแจกแจงแบบปกติโดยมีการเบี่ยงเบนเล็กน้อยที่ด้านล่างและด้านบน (นักเรียนสองสามคนแย่กว่าที่คาดไว้ในตอนท้าย) ความเบี่ยงเบนจากการแจกแจงที่ปลายบนสุดนั้นเกิดจากค่าจุดสูงสุด 100 ในการสอบสมมุติฐาน; ไม่ว่านักเรียนที่ดีที่สุดจะเก่งเพียงใดเขาหรือเธอจะได้รับคะแนนมากที่สุด 100 คะแนน

นอกจากนี้เรายังสามารถใช้พล็อต q-q เพื่อทดสอบการยืนยันของฉันจากก่อนหน้านี้ในบทนี้ว่าจำนวนประชากรในรัฐของสหรัฐอเมริกาเป็นไปตามการแจกแจงแบบล็อกปกติ หากการนับเหล่านี้กระจายตามปกติแล้วค่าการแปลงบันทึกจะถูกกระจายตามปกติและด้วยเหตุนี้ควรวางลงบนบรรทัด x = y เมื่อทำพล็อตนี้เราจะเห็นว่าข้อตกลงระหว่างค่าที่สังเกตได้กับค่าทางทฤษฎีนั้นไม่ธรรมดา(รูปที่ 8.9) สิ่งนี้แสดงให้เห็นว่าการกระจายตัวของจำนวนประชากรในรัฐนั้นเป็นปกติ

Figure 8.9: q-q plot of the logarithm of the number of inhabitants in US counties.

References

Clauset, A., C. R. Shalizi, and M. E. J. Newman. 2009. “Power-Law อ่านตอนอื่นๆได้ที่

อ่านบทอื่นๆได้ที่

1. บทนำ​Data Visualization

2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ

3 การแสดงข้อมูลในรูปพิกัดและแกน

4. การใช้สีเพื่อแสดงข้อมูล

5 Directory of visualizations

6. การแสดงค่าข้อมูล

7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots

8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots

9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว

10 การแสดงข้อมูลในรูปสัดส่วน

11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน

12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป

13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ

14 การแสดงแนวโน้ม

15 การแสดงข้อมูลเชิงภูมิศาสตร์

16 การแสดงการกระจายของข้อมูล

17 หลักการแสดงข้อมูลที่เป็นสัดส่วน

18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล

19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล

20 การแสดงข้อมูลที่ซ้อนกัน

21 การแสดงข้อมูลหลายกราฟในรูปเดียว

22 ชื่อเรื่อง Captions และตาราง

23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล

24 การใช้ labels ที่มีขนาดใหญ่

25 หลีกเลียงการใช้เส้นในการสร้างกราฟ

26 อย่าใช้กราฟ 3 มิติ

27 ทำความเข้าใจกับชนิดไฟล์ที่ใช้บ่อยในงานแสดงข้อมูล

28. การเลือกซอฟต์แวร์สร้างภาพข้อมูลที่ถูกต้อง

--

--

NUTHDANAI WANGPRATHAM
NUTHDANAI WANGPRATHAM

Written by NUTHDANAI WANGPRATHAM

I am a learner and have a multipotential life. You can contact me at nutdnuy@gmail.com

No responses yet