8 การแสดงภาพการแจกแจง: กราฟแสดงการแจกแจงสะสมและq-q Plots
แปล Data Visualization ขั้นพื้นฐาน Claus O. Wilke
ในบทที่ 7 เราได้พูดคุยกันถึงการสร้างภาพด้วยฮิสโตแกรมหรือ density plots
ทั้งสองวิธีนี้ใช้งานง่ายและดึงดูดสายตา อย่างไรก็ตามฮิสโตแกรมและ density plots มีข้อจำกัดที่ตัวเลขผลลัพธ์ขึ้นอยู่กับระดับนัยสำคัญของพารามิเตอร์ที่ผู้ใช้ต้องเลือกเช่นความกว้างของช่วงสำหรับฮิสโตแกรมและแบนด์วิดท์สำหรับ density plots เป็นผลให้ทั้งสองยากต่อการตีความของข้อมูลมากกว่าการสร้างภาพข้อมูลโดยตรง
เรามีทางเลือกแทนการใช้ฮิสโทแกรมหรือ density plots เราสามารถแสดงจุดข้อมูลทั้งหมดแยกเป็นจุดอย่างไรก็ตามวิธีนี้เหมาะกับชุดข้อมูลที่มีขนาดใหญ่มากและในกรณีใด ๆ ที่มีค่าในวิธีการรวมที่เน้นคุณสมบัติของการกระจายมากกว่าจุดข้อมูลแต่ละจุด เพื่อแก้ปัญหานี้นักสถิติได้คิดค้นกราฟฟังก์ชันการแจกแจงสะสมเ (ecdfs) และแปลงควอนไทล์ — ควอไทล์ (q-q) การสร้างภาพข้อมูลประเภทนี้ไม่ต้องการตัวเลือกพารามิเตอร์เองและจะแสดงข้อมูลทั้งหมดพร้อมกัน น่าเสียดายที่ไม่ค่อยมีคนใช้บ่อยนัก นอกเหนือจากงานทางวิชาการขั้นสูง อย่างไรก็ตามการแสดงภาพแบบนี้ค่อนข้างเป็นที่นิยมในหมู่นักสถิติและฉันคิดว่าใครก็ตามที่สนใจในการสร้างภาพข้อมูลควรคุ้นเคยกับเทคนิคเหล่านี้
8.1 ความน่าจะเป็นของผลการทดลอง(Empirical cumulative distribution functions)
เพื่อแสดงความน่าจะเป็นของผลการทดลอง เราจะเริ่มต้นด้วยชุดข้อมูลของคะแนนนักเรียน สมมติว่าชั้นเรียนของเรามีนักเรียน 50 คนและนักเรียนเพิ่งสอบเสร็จซึ่งสามารถทำคะแนนได้ระหว่าง 0 ถึง 100 คะแนน เราจะเห็นภาพการเรียนในชั้นเรียนได้ดีที่สุด เพื่อตัดเกรดที่เหมาะสมได้อย่างไร
เราสามารถสร้างกราฟจำนวนนักเรียนทั้งหมดที่ได้รับคะแนนมากที่สุดเมื่อเทียบกับคะแนนที่เป็นไปได้ทั้งหมด พล็อตนี้จะเป็นฟังก์ชันจากน้อยไปมากเริ่มต้นที่ 0 สำหรับ 0 คะแนนและสิ้นสุดที่ 50 สำหรับ 100 คะแนน วิธีคิดที่แตกต่างเกี่ยวกับการสร้างภาพแสดงข้อมูลนี้คือ: เราสามารถจัดอันดับนักเรียนทั้งหมดตามจำนวนคะแนนที่ได้รับตามลำดับจากน้อยไปมาก (ดังนั้นนักเรียนที่มีคะแนนน้อยที่สุดจะได้รับอันดับต่ำสุดและนักเรียนที่มีคะแนนมากที่สุด) แล้วจัดอันดับกับจุดที่ได้รับจริง ผลลัพธ์คือ Empirical cumulative distribution functions (ecdf) หรือการแจกแจงสะสมแบบง่ายๆ แต่ละจุดเป็นตัวแทนของนักเรียนหนึ่งคนและเส้นแสดงให้เห็นระดับสูงสุดของนักเรียนที่สังเกตได้สำหรับค่าจุดที่เป็นไปได้ใด ๆ (รูปที่ 8.1)
คุณอาจสงสัยว่าจะเกิดอะไรขึ้นถ้าเราจัดอันดับนักเรียนในทางตรงกันข้ามโดยเรียงจากมากไปน้อย การเรียงลพดับนี้ ผลลัพธ์ยังคงเป็นฟังก์ชัน Empirical cumulative distribution functions แต่เส้นแสดงระดับนักเรียนต่ำสุดที่สังเกตได้สำหรับค่าจุดที่เป็นไปได้ใด ๆ (รูปที่ 8.2)
เราสามารถอ่านคุณสมบัติหลัก ๆ ของการแจกแจงคะแนนของนักเรียนโดยตรงจากพล็อตนี้ ตัวอย่างเช่นนักเรียนประมาณหนึ่งในสี่ (25%) ได้รับคะแนนน้อยกว่า 75 คะแนน ค่ามัธยฐานคะแนน (สอดคล้องกับความถี่สะสม 0.5) คือ 81 ประมาณ 20% ของนักเรียนที่ได้รับ 90 คะแนนหรือมากกว่า
ฉันพบว่า ecdfs มีประโยชน์สำหรับการกำหนดขอบเขตของเกรดเพราะช่วยทำให้สะดวกในการตัดเกรดมากขึ้น ตัวอย่างเช่นในตัวอย่างนี้มีเส้นแนวนอนค่อนข้างยาวอยู่ต่ำกว่า 80 คะแนนตามด้วยการเพิ่มขึ้นที่สูงชันที่ 80 คุณลักษณะนี้เกิดจากนักเรียนสามคนได้รับ 80 คะแนนจากการสอบของพวกเขาในขณะที่นักเรียนที่ยากจนกว่า ในสถานการณ์สมมตินี้ฉันอาจตัดสินใจว่าทุกคนที่มีคะแนน 80 หรือมากกว่านั้นได้รับ B และทุกคนที่มี 79 หรือน้อยกว่าได้รับ C นักเรียนทั้งสามที่มี 80 คะแนนมีความสุขที่พวกเขาได้เกรด B และนักเรียนที่มี 76 ตระหนักดีว่าพวกเขาจะต้องตั้งใจเรียนกว่านี้ หากเราตัดเกรดที่ 77 การกระจายตัวของคะแนนจะเหมือนกันทุกประการ แต่ฉันอาจพบว่านักเรียนที่มี 76 คะแนนที่ไปห้องทำงานของฉันหวัง เพื่อเจรจาเกรดของพวกเขา ในทำนองเดียวกันถ้าฉันตั้งค่าตัดยอดที่ 81 ฉันน่าจะมีนักเรียนสามคนในห้องเรียนของฉันพยายามเจรจาเกรดของพวกเขา
8.2 การแจกแจงความเบ้
ชุดข้อมูลจำนวนมากมีความเบ้สูง โดยเฉพาะอย่างยิ่งกับการเบ้ขวาและการแจกแจงเหล่านี้สามารถท้าทายในการมองเห็น ตัวอย่างของการแจกแจงของจำนวนผู้คนที่อาศัยอยู่ในเมืองหรือรัฐต่าง ๆ จำนวนผู้ติดต่อในเครือข่ายสังคมความถี่ที่แต่ละคำปรากฏในหนังสือจำนวนเอกสารทางวิชาการที่เขียนโดยนักเขียนคนต่าง ๆ การแจกแจงทั้งหมดเหล่านี้มีสิ่งที่เหมือนกันคือจะเบ้ขวา ในทางปฏิบัติหมายความว่าค่าที่มีขนาดใหญ่มากนั้นหายากแม้ว่าค่าเฉลี่ยของการแจกแจงจะน้อย คลาสที่สำคัญของการแจกแจงดังกล่าวคือการแจกแจงพลังงาน — กฎซึ่งโอกาสที่จะสังเกตเห็นค่าที่มี x ใหญ่กว่าจุดอ้างอิงบางจุดลดลงเมื่อพลังของ x เพื่อยกตัวอย่างที่เป็นรูปธรรมให้พิจารณามูลค่าสุทธิในสหรัฐอเมริกาซึ่งมีการแจกจ่ายตามกฎหมายพลังงานที่มีเลขชี้กำลัง 2 ในทุกระดับของมูลค่าสุทธิ ( $ 1 ล้าน) ค่าที่มีมูลค่าสุทธิครึ่งหนึ่งถึงสี่เท่าบ่อยครั้ง และค่าที่มีสองเท่าของมูลค่าสุทธินั้นเป็นหนึ่งในสี่เช่นเดียวกับที่พบบ่อย ที่สำคัญความสัมพันธ์แบบเดียวกันนั้นมีอยู่ถ้าเราใช้ $ 10,000 เป็นจุดอ้างอิงหรือถ้าเราใช้ $ 100 ล้าน ด้วยเหตุผลนี้การแจกแจงกฎหมายพลังงานก็เรียกว่าการแจกแจงแบบไม่มีสเกล
ที่นี่ฉันจะพูดคุยเกี่ยวกับจำนวนของผู้คนที่อาศัยอยู่ในรัฐต่าง ๆ ของสหรัฐอเมริกาตามการสำรวจสำมะโนประชากรสหรัฐปี 2010 การกระจายนี้มีเบ้ไปทางขวา แม้ว่ารัฐส่วนใหญ่จะมีจำนวนประชากรค่อนข้างน้อย (ค่ามัธยฐานคือ 25,857) แต่มีเพียงไม่กี่รัฐที่มีผู้อยู่อาศัยจำนวนมาก (เช่นลอสแองเจลิสเคาน์ตี้กับผู้อาศัย 9,818,605 คน) หากเราพยายามที่จะเห็นภาพการกระจายตัวของประชากรเป็น density plotหรือ ecdf เราจะได้ตัวเลขที่ไร้ประโยชน์ (รูปที่ 8.4)
density plot(รูปที่ 8.4 a) แสดงยอดแหลมที่ 0 และแทบไม่เห็นรายละเอียดของการกระจาย ในทำนองเดียวกัน ecdf (รูปที่ 8.4b) แสดงการเพิ่มขึ้นอย่างรวดเร็วใกล้ 0 และไม่มีรายละเอียดของการกระจายที่มองเห็นได้ สำหรับชุดข้อมูลเฉพาะนี้เราสามารถบันทึกการแปลงข้อมูลและเห็นภาพการกระจายของค่าการแปลงบันทึก การเปลี่ยนแปลงนี้ทำงานได้ที่นี่เพราะจำนวนประชากรในเขตปกครองนั้นไม่ได้เป็นกฎ แต่ทำตามการกระจายปกติของบันทึกที่สมบูรณ์แบบแทน (ดูหัวข้อ 8.3) อันที่จริงแล้วพล็อตความหนาแน่นของค่าที่บันทึกการเปลี่ยนแปลงแสดงให้เห็นว่าเส้นโค้งระฆังที่ดีและ ecdf ที่สอดคล้องกันแสดงให้เห็นรูปร่างที่ดี sigmoidal (รูปที่ 8.5)
หากต้องการดูว่าการแจกแจงนี้ไม่ได้เป็นกฎเราได้พล็อตมันเป็น ecdf ที่ลดลงพร้อมแกนลอการิทึม x และ y ในการสร้างภาพข้อมูลนี้กฎหมายพลังงานปรากฏเป็นเส้นตรงที่สมบูรณ์แบบ สำหรับประชากรที่นับเป็นมณฑลหางขวาจะก่อตัวขึ้นเป็นเส้นตรง แต่ไม่มากนักบนพล็อตกราฟ ecdf ล็อก (จากรูปที่ 8.6)
เป็นตัวอย่างที่สองฉันจะใช้การแจกแจงความถี่ของคำสำหรับทุกคำที่ปรากฏใน the novel Moby Dick การกระจายนี้เป็นไปตาม power lawที่สมบูรณ์แบบ เมื่อพล็อตเป็น ecdf พร้อมแกนลอการิทึมเราจะเห็นเส้นตรงเกือบสมบูรณ์แบบ (รูปที่ 8.7)
8.3 Quantile–Quantile plots (q-q plot)
Quantile–quantile (q-q) เป็นการสร้างภาพจากข้อมูลที่มีประโยชน์เมื่อเราต้องการกำหนดขอบเขตของจุดข้อมูลที่สังเกตได้หรือไม่ปฏิบัติตามการแจกแจงที่กำหนด เช่นเดียวกับ ecdfs แปลง q-q ก็ขึ้นอยู่กับการจัดอันดับข้อมูลและแสดงภาพความสัมพันธ์ระหว่างอันดับและค่าจริง อย่างไรก็ตามในแปลง q-q เราไม่ได้วางแผนการจัดอันดับโดยตรงเราใช้พวกเขาในการทำนายว่าจุดข้อมูลที่กำหนดควรจะอยู่ตรงไหนหากข้อมูลถูกกระจายไปตามการกระจายการอ้างอิงที่ระบุ โดยทั่วไปแล้วแปลง q-q ถูกสร้างขึ้นโดยใช้การแจกแจงแบบปกติเป็นการอ้างอิง เพื่อให้ตัวอย่างที่เป็นรูปธรรมสมมติว่าค่าข้อมูลจริงมีค่าเฉลี่ย 10 และส่วนเบี่ยงเบนมาตรฐานเท่ากับ 3 จากนั้นสมมติว่ามีการแจกแจงแบบปกติเราคาดว่าจุดข้อมูลจะถูกจัดอันดับในเปอร์เซ็นไทล์ที่ 50 เพื่ออยู่ในตำแหน่งที่ 10 จุดข้อมูลที่เปอร์เซ็นต์ไทล์ 84th นอนที่ตำแหน่ง 13 (ค่าเบี่ยงเบนมาตรฐานหนึ่งค่าเหนือค่าเฉลี่ย) และจุดข้อมูลที่เปอร์เซ็นต์ไทล์ 2.3 เพื่อนอนที่ตำแหน่ง 4 (ค่าเบี่ยงเบนมาตรฐานสองค่าต่ำกว่าค่าเฉลี่ย) เราสามารถทำการคำนวณนี้สำหรับทุกจุดในชุดข้อมูลจากนั้นทำการพล็อตค่าที่สังเกตได้ (เช่นค่าในชุดข้อมูล) เทียบกับค่าทางทฤษฎี (เช่นค่าที่คาดว่าจะได้รับอันดับของจุดข้อมูลแต่ละจุด
เมื่อเราทำขั้นตอนนี้สำหรับการแจกแจงคะแนนของนักเรียนตั้งแต่ต้นบทนี้เราจะได้รับรูปที่ 8.8
เส้นทึบที่นี่ไม่ใช่เส้นถดถอย แต่บ่งบอกถึงจุดที่ x เท่ากับ y, เช่นที่ค่าที่สังเกตได้เท่ากับทฤษฎี ในขอบเขตที่จุดตกอยู่บนเส้นนั้นข้อมูลจะเป็นไปตามการแจกแจงที่สันนิษฐาน (ที่นี่ปกติ) เราเห็นว่าผลการเรียนของนักเรียนเป็นไปตามการแจกแจงแบบปกติโดยมีการเบี่ยงเบนเล็กน้อยที่ด้านล่างและด้านบน (นักเรียนสองสามคนแย่กว่าที่คาดไว้ในตอนท้าย) ความเบี่ยงเบนจากการแจกแจงที่ปลายบนสุดนั้นเกิดจากค่าจุดสูงสุด 100 ในการสอบสมมุติฐาน; ไม่ว่านักเรียนที่ดีที่สุดจะเก่งเพียงใดเขาหรือเธอจะได้รับคะแนนมากที่สุด 100 คะแนน
นอกจากนี้เรายังสามารถใช้พล็อต q-q เพื่อทดสอบการยืนยันของฉันจากก่อนหน้านี้ในบทนี้ว่าจำนวนประชากรในรัฐของสหรัฐอเมริกาเป็นไปตามการแจกแจงแบบล็อกปกติ หากการนับเหล่านี้กระจายตามปกติแล้วค่าการแปลงบันทึกจะถูกกระจายตามปกติและด้วยเหตุนี้ควรวางลงบนบรรทัด x = y เมื่อทำพล็อตนี้เราจะเห็นว่าข้อตกลงระหว่างค่าที่สังเกตได้กับค่าทางทฤษฎีนั้นไม่ธรรมดา(รูปที่ 8.9) สิ่งนี้แสดงให้เห็นว่าการกระจายตัวของจำนวนประชากรในรัฐนั้นเป็นปกติ
References
Clauset, A., C. R. Shalizi, and M. E. J. Newman. 2009. “Power-Law อ่านตอนอื่นๆได้ที่
อ่านบทอื่นๆได้ที่
2 .Visualizing data: การเเสดงข้อมูลอย่างมีศิลปะ
3 การแสดงข้อมูลในรูปพิกัดและแกน
7 การแสดงการแจกแจง: ฮิสโตแกรมและ density plots
8 การแสดงภาพการแจกแจง: ฟังก์ชันการแจกแปล แจงสะสมเชิงประจักษ์และq-q Plots
9 -การแสดงข้อมูลหลายตัวแปลในรูปเดี่ยว
11 การแสดงสัดส่วนข้อมูลที่ซ้อนกัน
12 การแสดงข้อมูลโดยเชื่อมโยงระหว่างตัวแปรเชิงปริมาณตั้งแต่สองตัวขึ้นไป
13 การแสดงข้อมูลอนุกรมเวลาและฟังก์ชั่นของตัวแปรอิสระ
15 การแสดงข้อมูลเชิงภูมิศาสตร์
17 หลักการแสดงข้อมูลที่เป็นสัดส่วน
18 การจัดการข้อมูลที่ซ้อนกันในการแสดงข้อมูล
19 ข้อผิดพลาดที่พบได้บ่อยเมื่อใช้สีแสดงข้อมูล
21 การแสดงข้อมูลหลายกราฟในรูปเดียว
22 ชื่อเรื่อง Captions และตาราง
23 การสร้างสมดุลระหว่างข้อมูลและบริบทแวดล้อมในการแสดงข้อมูล
24 การใช้ labels ที่มีขนาดใหญ่
25 หลีกเลียงการใช้เส้นในการสร้างกราฟ