สถิติเชื่อถือไม่ได้

สถิติเชื่อถือไม่ได้ ? อันนี้จั่วหัวเรียกแขกไปยังงั้นเอง เนื่องจากทุกวันนี้ต้องอ่านรายงาน บทวิจัย นั่นนี่ค่อนข้างมาก (แม้ว่าจะไม่ค่อยเข้าใจนัก) สังเกตอย่างหนึ่งว่า รายงานอะไรเหล่านั้นที่ผ่านตา มักจะมีการอ้างอิงสถิติ และบังเอิ๊ญ บังเอิญ ไปแอบได้ยินอาจารย์ท่านหนึ่ง แอบสอนลูกศิษย์ว่า เวลาทำงานส่งที่หน่วยงานนี้ ให้อ้างอิงสถิติเยอะ ๆ เพื่อความน่าเชื่อถือ ตั้งแต่นั้นมาก็เลยต้องพยายามอ่านเรื่องสถิติให้มาก เพื่อจะได้รู้ว่าโดนหลอกหรือเปล่า

วันนี้จะเขียนถึงเรื่องการทำแบบสำรวจ กับการใช้สถิติเพื่อแสดงค่าของแบบสำรวจนั้น

สถิติเชื่อถือไม่ได้ ?
Photo by Lukas on Pexels.com

สถิติเชื่อถือไม่ได้ เพราะอะไร?

ว่ากันว่า เวลาเราเห็นข้อมูลทางสถิติเรามักเชื่อโดยไม่รู้ตัว เหมือนกับว่า เฮ้ย เขาทำสถิติออกมาแล้ว เป็นสิ่งที่เถียงไม่ได้ ทั้งที่เราไม่ได้ดูที่มาและวิธีการสำรวจและคำนวณข้อมูลด้วยซ้ำ ซึ่งถ้าเราลงลึกไปในรายละเอียดจริงจัง เราอาจจะตระหนักว่า “สถิติเชื่อถือไม่ได้” หรือในความหมายที่แท้จริงก็คือ คนทำสถิติเชื่อถือไม่ได้ เพราะไม่ใช่ความผิดของสถิติ แต่เป็นความผิดพลาด ทั้งจงใจและไม่ตั้งใจ คือบางคนพลาดเพราะลืมเรื่องเล็ก ๆ น้อย ๆ (แต่ดันสำคัญ) ก็มีแหละ แต่คนที่จงใจใช้ “ทริก” ทางสถิติเพื่อผลประโยชน์ของตัวเองก็มี

(อันนี้มีปัญหาจากคน เหมือนกรณี Big Data ก็มีปัญหาว่า ผู้จัดทำโมเดล มีความน่าเชื่อถือ เพียงใด)

ยกตัวอย่าง ในช่วงหนึ่งถึงมี “สงครามสำรวจความคิดเห็น” โดยเอาตัวเลขจากการสำรวจความคิดเห็นมาอ้างตามหลักสถิติไม่ว่าจะทำแบบสำรวจทาง “วิชาการ” หรือเพราะมี “เจตนาแฝงเร้น” ก็ตาม สิ่งที่ตามมาคือการโจมตีว่าความคิดเห็น (หรือโพล) นั้น ๆ ไม่มีความเป็นกลางหรือมีความเบี่ยงเบน

ส่วนทางฝ่ายทำสำรวจความคิดเห็น ก็มักจะอ้างเหตุผลทางสถิติ พร้อมเปรียบเทียบว่าการสำรวจความคิดเห็นก็เหมือนแกงหม้อหนึ่ง ถ้าคนให้ดี ตักมาชิมช้อนหนึ่งก็รู้รส

ปัญหาคือวิธีการ “คน” นี่แหละ เราจะรู้ได้อย่างไรว่าคนทั่วถึง จะรู้ได้อย่างไรว่า ใส่น้ำตาลไปแล้ว คนดีแล้ว ทั้งที่น้ำตาลอาจจะยังไม่ละลายจริง ๆ หรือ มีการหมกเม็ด เล่นเล่ห์ เช่นแอบเติมน้ำไปทางหนึ่ง แล้วชิมตรงนั้นให้คิดไปว่ารสอ่อน หรือ ฯลฯ

ย้อนกลับไปดูผลสำรวจเกี่ยวกับการเลือกตั้งหลายครั้งผลออกมาแตกต่างจากผลสำรวจความคิดเห็นอยู่หลายครั้ง ตั้งแต่พลาดเล็กน้อยยอมรับได้ ไปจนถึงหน้ามือเป็นหลังเท้าก็มี

สิ่งหนึ่งในฐานะ “ผู้เฝ้าดู” ก็คือ การอ่านรายงาน แล้วถามคนทำรายงานว่า สถิตินี้ เชื่อถือได้แค่ไหน การตัดตัวอย่าง “คิดมาดี” แล้วใช่มั้ย อย่างเช่น ราคาซื้อขายที่ดิน เราก็เข้าถึงข้อมูลตรงนั้นได้ ก็รู้อยู่ว่าตรงนั้นในรอบ 5 ปีที่ผ่านมา มีการซื้อขายเปลี่ยนมือเป็น 100 แปลง แต่ในรายงานเลือกแค่ 5 แปลงมาทำ

คำถาม คือ แล้วจะเชื่อได้อย่างไร ว่า คุณเลือกแปลงที่ดินซื้อขาย มาเป็นตัวแทน ได้อย่างเหมาะสม?

คือ ก็รู้ล่ะว่าคงใช้ทั้งหมดไม่ได้ แปลงที่ดินบางแปลง มีราคา “ผิดปรกติ” เพราะอาจจะมีความจำเป็นบางประการเป็นพิเศษ (เช่น ซื้อเป็นทางเข้าออกของหมู่บ้าน หรือ คอนโด) บางแปลงอาจจะซื้อขายในหมู่ญาติพี่น้องคนรู้จัก ที่มีการลดราคาให้กันเป็นพิเศษ การหาแปลงที่ดินที่มีการซื้อขายแบบ “กลาง ๆ” เอามาเป็นมาตรฐานมันยาก โดยเฉพาะความจริงที่ว่า ราคาตลาด เป็นราคาที่ผู้ซื้อผู้ขายตกลงกันตามความพอใจ และ “ความพอใจ” ของแต่ละบุคคลนี้ก็ไม่เท่ากัน

จัดกลุ่มได้ เรียงลำดับได้ ไม่ได้หมายความว่าเอามาคำนวณได้

 ความคลาดเคลื่อน จากเรื่องของ “ความพอใจ” นี้ ทำให้อะไรต่อมิอะไร เบี่ยงเบนไปได้เยอะเหมือนกัน ตั้งแต่การสุ่มเลือกตัวอย่าง การเลือกคำถาม ฯลฯ แต่ที่มีปัญหามากที่สุดคือการสำรวจอารมณ์ความรู้สึกของคน ไม่มีทางที่จะออกมาตรงความเป็นจริง เพราะคนมีความหลากหลายซับซ้อนเกินกว่าการสำรวจความคิดเห็นจะจัดระเบียบออกมาได้ดี

เพื่อให้เห็นภาพ สมมติว่ามีการสำรวจความคิดเห็นเรื่อง ภาพยนตร์เรื่องไหนน่ากลัวที่สุด โดยให้คะแนนความน่ากลัว 1 – 5 โดยคะแนน 1 คือน่ากลัวน้อยที่สุด และ 5 คือน่ากลัวมากที่สุด ได้ผลมาดังนี้

นางนากชัตเตอร์ กดติดวิญญาณสี่แพร่ง
คนที่ 1543
คนที่ 2453
คนที่ 3345
คนที่ 4123
คนที่ 5234
คนที่ 6421
คนที่ 7531

ถ้าไม่คิดอะไรมาก เห็นตัวเลข เห็นการเรียงลำดับ งั้นเราใช้ mean หาความน่ากลัว จะได้ดังนี้ นางนากได้ 3.43 ชัตเตอร์ กดติดวิญญาณได้ 3.29 และ สี่แพร่งได้ 2.86

โอ้ เย่…เราเอาสถิตินี้ไปอ้างได้แล้ว “จากการสำรวจความคิดเห็นของประชาชน สรุปว่านางนากน่ากลัวที่สุด”

แต่…

เรามาดูอีกหน่อยว่าผลที่ได้น่าเชื่อถือหรือไม่?

ถ้าใครรู้เรื่องสถิติสักนิด ก็จะฉุกใจคิดว่ามันมีอะไรผิดพลาดเกิดขึ้นแล้ว การใช้ค่าเฉลี่ย หรือ mean มาตัดสินในการสำรวจรวจแบบนี้ไม่ได้ หากมีการใช้หลักการแบบนี้ในการสำรวจความคิดเห็น ก็แปลความได้อย่างเดียวว่า นี่คือการใช้เล่ห์กลทางสถิติเพื่อบิดเบือน

ความกลัว ความสุข ความเศร้า ความกังวล พวกนี้เป็นความรู้สึกล้วน ๆ และขึ้นอยู่กับประสบการณ์แวดล้อมด้วย การดูภาพยนตร์คนเดียวกับมีคนดูเป็นเพื่อน หรือเคยดูที่น่ากลัวกว่านี้มาก่อนหรือเคยดูที่น่ากลัวน้อยกว่านี้มาก่อน สิ่งเหล่านี้มีผลต่อความรู้สึกที่เกิดขึ้นกับภาพยนตร์เรื่องนั้น ๆ

ที่สำคัญ ตัวเลขความน่ากลัวบอกแค่ระดับที่คนหนึ่งคนมีต่อภาพยนตร์สามเรื่อง แต่ตัวเลขนั้นไม่ได้เป็นตัวบอกระดับความน่ากลัว ในกรณีคนที่ 7 บอกว่า นางนากน่ากลัวกว่าสี่แพร่ง ในระดับ 5 ต่อ 1  แต่นั่นไม่ได้หมายความว่านางนากน่ากลัวกว่าสี่แพร่ง 5 เท่า และค่าความน่ากลัวระดับเดียวกันของคนต่างบุคคลก็ไม่เท่ากัน ความน่ากลัวที่คนที่ 1 ให้ระดับ 5 อาจจะเป็นความน่ากลัวระดับ 1 ของคนที่ 7 ก็ได้ 

ข้อมูลประเภทนี้เป็นข้อมูลเรียงอันดับ หรือ Ordinal จัดกลุ่มได้ เรียงอันดับได้ แต่ตัวเลขที่ได้ไม่อาจนำมาบวก ลบ คูณ หาร กันได้ ข้อมูลประเภทนี้ไม่สามารถนำมาหาค่าเฉลี่ยได้

และไม่ควรเอามาทำแบบสำรวจความคิดเห็น

เรื่องนี้เป็นเรื่องเกี่ยวกับประเภทข้อมูลที่นำมาใช้ ซึ่งเราจะแบ่งประเภทข้อมูลดังนี้

ประเภทข้อมูล แบ่งตามมาตรวัดค่า

Nominal หรือนามบัญญัติคือข้อมูลที่แบ่งกลุ่มได้ เช่น เพศ อาชีพ เป็นการวัดค่าเพื่อจำแนกประเภทให้เห็นความแตกต่างเท่านั้น ไม่มีความหมายในเชิงปริมาณ และไม่สามารถนำตัวเลขเหล่านี้มา บวก ลบ คูณ หารกันได้

Ordinal หรืออันดับคือข้อมูลที่แบ่งกลุ่มและเรียงลำดับได้ เช่น ชั้นปีที่เรียน ระดับความคิดเห็น เป็นการวัดเพื่อจำแนกประเภทเช่นเดียวกับมาตรวัดนามบัญญัติคือไม่มีความหมายในเชิงปริมาณ (แต่ข้อมูลอาจเป็นข้อความหรือตัวเลขก็ได้) แต่สามารถบอกความแตกต่างในแต่ละระดับเป็นลำดับได้ว่าสูงกว่า ต่ำกว่า ดีกว่า หรือด้อยกว่า แต่ตัวเลขเหล่านี้ไม่สามารถนำมา บวก ลบ คูณ หาร กัน

Interval หรือ อันตรภาค หรือข้อมูลที่แบ่งเป็นช่วงชั้นคือข้อมูลที่แบ่งกลุ่ม เรียงลำดับได้ และมี ช่วงห่างเท่ากัน แต่ไม่มีศูนย์แท้ เช่น คะแนบสอบ อุณหภูมิ ข้อมูลอยู่ในรูปตัวเลข บอกได้ว่ามีความแตกต่างกันมากน้อยเพียงใด แต่ตัวเลขเหล่านี้นำมา บวก ลบได้ แต่คูณ หารกันไม่ได้ เช่น ที่อุณหภูมิ 10 องศาเซลเซียส ไม่ใช่มีความร้อนเป็น 2 เท่าของอุณหภูมิ 5 องศาเซลเซียส และศูนย์ของข้อมูลชนิดนี้เป็นศูนย์สมมติ ไม่ใช่ศูนย์แท้ (Non – Absolute Zero) เช่น ที่อุณหภูมิ 0 องศาเซลเซียส ไม่ได้หมายความว่า ณ จุดนั้นไม่มีความร้อน เพราะที่ 0 องศาเซลเซียสยังร้อนกว่า -1 องศาเซลเซียส

Ratio หรืออัตราส่วนคือข้อมูลที่แบ่งกลุ่ม เรียงลำดับได้ มีช่วงห่างเท่ากัน และ มีศูนย์แท้ เช่น อายุ น้ำหนัก ส่วนสูง ข้อมูลอยู่ในรูปตัวเลข บอกความแตกต่างเชิงปริมาณได้ นำค่ามา บวก ลบ คูณ หารกันได้ เช่น ความยาว น้ำหนัก ส่วนสูง ระยะทาง เวลา เป็นต้น

จากข้อมูลทั้ง 4 ประเภท นำมาจัดกลุ่มได้สองกลุ่มคือ

Interval กับ Ratio เป็นข้อมูลเชิงปริมาณ (Quantitative Data) แสดงความแตกต่างในปริมาณหรือขนาดในลักษณะของตัวเลข ซึ่งเป็นข้อมูลที่ได้จาก การชั่ง การตวง การวัด เช่น รายได้ อายุ น้ำหนัก ส่วนสูง คะแนนสอบ เป็นต้น

Nominal กับ Ordinal เป็นข้อมูลเชิงคุณภาพ (Qualitative Data) แสดงความแตกต่างเชิง คุณภาพหรือคุณลักษณะ เช่น เพศ ฐานะ สถานภาพสมรส ศาสนา หมู่เลือด เป็นต้น

อ้างอิง https://www.graphpad.com/support/faq/what-is-the-difference-between-ordinal-interval-and-ratio-variables-why-should-i-care/

ข้อมูล “ความน่ากลัว” ของภาพยนตร์ที่ยกตัวอย่างมาข้างต้น เป็นข้อมูล Ordinal คือเรียงลำดับได้แต่เอามาคูณหารบวกลบไม่ได้ นั่นหมายความว่าจะเอามาใช้หาค่า mean ไม่ได้ ดังนั้นผลสำรวจแบบนี้จะเชื่อถือไม่ได้ นี่คือเล่ห์กลง่าย ที่อาจจะทำให้บางคนหลงทางและเชื่อถือ ทั้งที่ความจริงแล้ว มันไม่มีความหมายอะไรเลย สถิติเป็นวิชาที่ซับซ้อน และทำให้คนที่ไม่สนใจในเรื่องกระบวนการอยากเห็นแต่ผลลัพธ์ โดนหลอกเอาง่าย ๆ มานักต่อนักแล้ว

ดังนั้น ครั้งต่อไปเวลาเจอการสำรวจความคิดเห็นแสดงตัวเลขคำนวณเปอร์เซ็นต์ดูน่าเชื่อถือ ลองตั้งสติว่ามีความเหมาะสมเพียงพอหรือไม่

ความคิดเห็นของคุณ :)

%d bloggers like this: