Big Data ภาครัฐ กับปัญหา Archive

Big Data ภาครัฐ เป็นเรื่องน่าสนใจ Big Data – ข้อมูลขนาดใหญ่กำลังกลายเป็นส่วนสำคัญของธุรกรรมและกระบวนการตัดสินใจ ย้อนกลับไปช่วงปี 2558 – 2560 อะไร ๆ ก็ต้อง Big Data จนเอียนกันไปข้าง ยุทธศาสตร์ของหน่วยงานรัฐหลายแห่ง จะใส่ Big Data เป็นเป้าหมายที่ต้องมุ่งหน้าไป คล้าย ๆ กัน

ซึ่ง Big Data มีข้อดีมากมาย หากรัฐนำ Big Data มาใช้บันทึกธุรกรรมที่เกิดขึ้น – จากทุกแห่งที่เก็บได้ – ย่อมเกิดประโยขน์หลากหลาย ตั้งแต่ระดับนโยบาย ลงไปถึงระดับผู้ปฏิบัติงาน

Big Data ภาครัฐ
Photo by Element5 Digital on Pexels.com

แต่ในแง่การปฏิบัติจริง กับระบบราชการในปัจจุบัน รู้สึกว่ายังมีปัญหาเล็กน้อย ในเรื่องของ “ข้อมูล” และ อคติเอียงเอนจากการเลือกข้อมูล โดยส่วนตัว (อันนี้ก็เป็นอคติแบบหนึ่ง) ยังไม่เคยเจองานวิจัยที่ทำบนพื้นฐานของ “ข้อมูล” อย่างเดียว การเลือกตัด หรือ คัดเลือกข้อมูลที่จะนำมาใช้ บางครั้งก่อให้เกิดข้อสงสัยว่า มีอคติหรือเจตนาแฝงเร้นซ่อนอยู่หรือไม่

แต่สิ่งที่จะเขียนถึงในบล็อกนี้ จะเป็นเรื่องการจัดเก็บข้อมูล Big Data ภาครัฐ ระหว่างการทำ Data Lake ที่ทำไปทำมาแล้วเหมือนจะไม่มีข้อมูล “ที่เอาไปใช้”

ทุกท่านที่ทำงานเกี่ยวกับ ฐานข้อมูล หรือ ข้อมูลจำนวนมาก (ที่ยังไม่ใช่ Big Data) ต่างเรียนรู้ว่าสิ่งสำคัญสำหรับเรื่องข้อมูลที่ยากที่สุด เสียเวลาที่สุด น่าเบื่อที่สุด ก็คือการจัดเก็บข้อมูล (ที่ไม่ได้หมายความว่าสแกนไฟล์เป็น pdf แล้วโยนเก็บในฮาร์ดดิสต์ งมหาแทบตายก็ยังหาสิ่งที่ต้องการไม่เจอ) แต่เป็นการออกแบบโครงสร้างข้อมูลให้พร้อมสำหรับการนำไปใช้งาน หรือ อ้างอิง

แต่เมื่อมันเป็น Big Data แล้ว ความซับซ้อนในการจัดเก็บข้อมูลจะยุ่งยากกว่า

Big Data ภาครัฐ ใน Data Lake

– Data Lake คือที่เก็บส่วนกลางซึ่งช่วยให้จัดเก็บข้อมูลที่มีและไม่มีโครงสร้างในทุกขนาดได้ สามารถจัดเก็บข้อมูลตามที่เป็นโดยไม่ต้องวางโครงสร้าง และยังสามารถใช้การวิเคราะห์ประเภทต่างๆ ได้

ตามทฤษฎีแล้ว Data Lake คือ Archive ประเภทหนึ่ง แต่ ในครั้งนี้ ขอเน้นว่า กำลังพูดถึง Archive ตามทฤษฎี Archive Science กับ Data Lake ภาครัฐ ที่มีอยู่

สิ่งที่อยู่ใน Data Lake อาจจะไม่ได้อย่างที่คิด

ทุกวันนี้ การพูดถึง Big Data ภาครัฐ ยังเป็นเรื่องการนำมาใช้งาน ว่าจะเอาไปทำอะไร แต่สิ่งที่เป็นความท้าทายที่ไม่เคยมีมาก่อนก็คือ การบันทึกข้อมูลต่าง ๆ ในชีวิตประจำวันของประชาชน กับสิทธิส่วนบุคคล  เพราะประชาชนคงไม่ค่อยพอใจเท่าไหร่ ถ้ามีใครจัดเก็บข้อมูลส่วนตัว ไปไหน มาไหน ทำอะไร ซื้ออะไร รับเงินจากไหน แม้ในความเป็นจริง เราโดน Google ดูดข้อมูลส่วนตัวจากโทรศัพท์ไปใช้ไม่รู้เท่าไหร่ต่อเท่าไหร่แล้ว

แต่รัฐบาลไม่เหมือนภาคเอกชน เพราะข้อมูลหลายอย่าง “เป็นส่วนตัวอย่างยิ่ง” และ ประชาชนอาจไม่พอใจหากมีการเปิดเผย และบางอย่าง ถ้าเปิดเผยก็เป็นอันตราย เช่น เลขประจำตัวประชาชน หรือบางเรื่อง อาจจะต้องการความเป็นส่วนตัว เช่น การซื้อขายที่ดิน ประชาชนคนธรรมดาหลายคน คงไม่อยากให้ใครรู้ว่า ได้ซื้อ หรือ ขาย ที่ดินไปในราคาเท่าใด เอ๊ะ หรืออยากประกาศออกไป?

(อันนี้ตัดเรื่องแจ้งราคาซื้อขายไม่ตรงกับความเป็นจริงออกไปก่อนนะ เผื่อจะมีปัญหากับสรรพากร)

ปัญหาเรื่องความเป็นส่วนตัวนี้สำคัญมาก หากรัฐไม่สามารถปกป้องข้อมูลส่วนตัวของประชาชนได้มากพอ ย่อมก่อเกิดปัญหาตามมา การตัดสินใจว่า ข้อมูลใดเป็น Open Data หรือไม่ใช่ ยังไม่หนักเท่า ข้อมูลใด สามารถแลกเปลี่ยนให้หน่วยงานอื่นของรัฐด้วยกันใช้ได้หรือไม่? ถ้าเรามองว่าไม่ว่าหน่วยงานไหนเป็นเจ้าของข้อมูลนั้น ล้วนแล้วแต่เป็นหน่วยงานของรัฐด้วยกันทั้งสิ้น ?

และ พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 เปิดช่องให้รัฐเข้าถึงข้อมูลส่วนบุคคลได้ถ้า

  • จัดทำเอกสารประวัติศาสตร์ หรือจดหมายเหตุเพื่อประโยชน์สาธารณะ การศึกษาวิจัยหรือการจัดทำสถิติ
    • ป้องกันหรือระงับอันตรายต่อชีวิต ร่างกาย หรือสุขภาพของบุคคล
    • จำเป็นเพื่อปฏิบัติกฎหมาย หรือสัญญา
    • จำเป็นเพื่อประโยชน์โดยชอบด้วยกฎหมายของผู้ควบคุมข้อมูลส่วนบุคคลหรือของบุคคลอื่น
    • จำเป็นเพื่อประโยชน์สาธารณะ และการปฏิบัติหน้าที่ในการใช้อำนาจรัฐ

แต่เมื่อเข้าถึงข้อมูลส่วนบุคคลแล้ว จะนำไปแบ่งปันให้หน่วยงานของรัฐอื่น ๆ ก็มี พระราชบัญญัติการบริหารงานและการให้บริการภาครัฐผ่านระบบดิจิทัล พ.ศ. ๒๕๖๒ มาตรา 14 ระบุว่า ข้อมูลที่ร้องขอจากหน่วยงานอื่น ต้องใช้ตามวัตถุประสงค์ในหน้าที่และอำนาจของตนเท่านั้น

ด้วยข้อจำกัดเหล่านี้ เวลาที่ต้องการข้อมูลอะไรสักอย่าง หน่วยงานที่เกี่ยวข้องมักจะคิดแล้วคิดอีก เพื่อที่จะตรวจสอบว่า ให้ข้อมูลใดกับหน่วยงานอื่นได้บ้าง ซึ่งมักจะพบว่า ข้อมูลเหล่านั้นไม่ใช่ข้อมูลที่กำหนดเป็นข้อมูลเปิด (Open Data) จึงไม่สามารถเปิดเผยได้

ยกตัวอย่าง เมื่อปี 2562 (หรือ 2563 ไม่แน่ใจ) กระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคมดำริจะสร้าง “ถังข้อมูล” เพื่อสนับสนุนการเก็บภาษีที่ดินและสิ่งปลูกสร้าง โดยบูรณาการหน่วยงานหลายสิบแห่ง มีแม้กระทั่งขอข้อมูลจาก สำนักงานตรวจคนเข้าเมือง เพื่อตรวจสอบคนต่างชาติที่ถือครอง ที่ดิน สิ่งปลูกสร้าง ในประเทศ  

สิ่งที่กระทรวงดิจิทัลฯ ทำนี้เป็นนิมิตหมายที่ดีสำหรับการเตรียมความพร้อมรับ Big Data ถ้าทำได้สำเร็จก็น่าดีใจ ทว่า ขณะที่เขียนอยู่นี้ (ปลายมกราคม 2564) ดูความคืบหน้าจะไปอย่างช้า ๆ เพราะหน่วยงานรัฐแต่ละแห่งที่เกี่ยวข้อง ต้องพิจารณาว่าข้อมูลใดที่สามารถใส่ลงถังได้ ไม่รวมถึงปัญหาทางด้านเทคนิคต่าง ๆ แต่ข้อมูลเหล่านั้น เช่น ชื่อบุคคล (ถึงแม้จะบอกว่า ไม่เอาชื่อ แต่ก็มี เลขประจำตัวประชาชน) เลขโฉนด จำนวนเงินที่ซื้อขาย ตำแหน่งที่ตั้งแปลงที่ดิน ข้อจำกัด ฯลฯ เหล่านี้จะอยู่ในข้อมูลเฉพาะของรัฐ ซึ่งหน่วยงานที่มีหน้าที่จัดเก็บโดยตรงคือ กรมที่ดิน ถือเป็นข้อมูลส่วนบุคคลไม่สามารถให้กับหน่วยงานอื่นได้ (ถ้าเข้าใจไม่ผิด ข้อมูลซื้อขายเหล่านี้ จะให้กับ กรมธนารักษ์ เพื่อนำไปใช้ประกอบการประเมินราคาที่ดิน ตาม พรบ พระราชบัญญัติการประเมินราคาทรัพย์สินเพื่อประโยชน์แห่งรัฐ พ.ศ. 2562 ส่วนข้อมูลผู้ครอบครองที่ดิน จะส่งให้ องค์กรปกครองส่วนท้องถิ่น ตาม พรบ. ภาษีที่ดินและสิ่งปลูกสร้าง

โดยจำกัดตาม มาตรา 14 ของ พระราชบัญญัติการบริหารงานและการให้บริการภาครัฐผ่านระบบดิจิทัล ตามที่อ้างถึงข้างต้น หน่วยงานอื่นที่ไม่มีอำนาจและหน้าที่ ก็ไม่สามารถนำไปใช้ได้

นี่เป็นตัวอย่างหนึ่งของปัญหาการจัดการเรื่องข้อมูล เราจะทำ Big Data ได้อย่างไร ถ้าไม่มีข้อมูล จะทำ Data Lake โดยที่ไม่มีข้อมูลที่ “น่าจะมี” มันก็ไม่เกิดประโยชน์เท่าใดนัก เพราะข้อมูลต่าง ๆ นำไปเพื่อคำนวณภาษีฯ กลายเป็นข้อมูลส่วนบุคคล “ที่ไม่สามารถเปิดเผย” ให้หน่วยงานที่ไม่เกี่ยวข้องได้

และนี่เป็นแค่ปัญหาส่วนน้อย ภายในความร่วมมือแบบบูรณาการภาครัฐ ยังคงมีปัญหาเรื่องกฎ ระเบียบ อำนาจหน้าที่ อันนี้ไม่ใช่เรื่องการหวงข้อมูล แต่เป็นเรื่องความระมัดระวังที่จะไม่ฝ่าฝืนกฎหมาย และระเบียบต่าง ๆ ที่มีอยู่ รวมถึงต้องตรวจสอบเรื่อง ความโปร่งใส เรื่องทางจริยธรรม ความปลอดภัยของข้อมูล ฯลฯ จึงทำให้ Big Data ภาครัฐ ยังไปอย่างช้า ๆ

ทั้งนี้ หน่วยงานของรัฐ มีการกำหนด Open Data ไว้ตามสมควร https://data.go.th/

Archive กับ Big Data

นอกเหนือจากเรื่อง “ไม่มีข้อมูล” ที่มีปัญหามากก็คือ หน่วยงานของรัฐ เน้นการจัดเก็บมากกว่าหลักการจัดเก็บโดยเฉพาะอย่างยิ่งความถูกต้องและการเก็บรักษาในระยะยาว

หลักการจัดเก็บ ในที่นี้หมายถึงการจัดเก็บในระบบดิจิทัล

ตามนิยาม แล้ว Data Lake ก็คือ Archive ประเภทหนึ่ง แต่ สำหรับ archival theory แล้ว Data Lake ยังมีปัญหาในการจัดการอีกหลายประการ – ถ้าจะบูรณาการร่วมกัน

ถึงแม้ในช่วงหลายปีที่ผ่านมา หน่วยงานของรัฐจะปรับตัวเข้าสู่ยุคดิจิทัล เก็บบันทึกข้อมูลเป็นดิจิทัลแล้ว แต่ การเก็บบันทึก ยังคงเป็นการเก็บตามหลัก Archive แบบเดิม เมื่อพิจารณาถึงบทบาทของ Big Data ในฐานะ เป็น Archive – ในตัวของมันเอง –  กลับเกิดคำถามว่า แล้วการเก็บข้อมูลแบบเดิมที่รัฐใช้อยู่จะต้องปรับเปลี่ยนอย่างไร

โดยทั่วไป ภาษาราชการมักใช้คำว่า จดหมายเหตุ แทนคำว่า Archive แต่พอใช้คำว่าทำจดหมายเหตุ มักจะมีความคิดเรื่องห้องสมุด ห้องเก็บเอกสาร ขึ้นมาแทน

archival theory นี้เป็นหัวใจในการเก็บรักษาข้อมูลของรัฐ เพียงแต่ส่วนใหญ่ ในการปฏิบัติจริง ยังมีการยึดติดในเรื่อง “บันทึก” ซึ่ง หมายถึง “เอกสารที่จัดทำขึ้น หรือเกิดขึ้น ระหว่างปฏิบัติงาน หรือสิ่งที่เป็นผลพลอยได้จากกิจกรรมดังกล่าวเพื่อดำเนินการหรืออ้างอิง”

แต่ Big Data นั้นคือ -ข้อมูลปริมาณมาก – มีการเปลี่ยนแปลงเร็วสูง – มีความหลากหลาย ซึ่งสิ่งเหล่านี้-การเปลี่ยนแปลงในช่วงเวลาหนึ่งเป็นประมาณมาก และ เร็ว – Big Data จะไม่ตอบสนองความหมายของ “บันทึก” ในแบบดั้งเดิมอย่างสมบูรณ์ การเปลี่ยนแปลง “ปริมาณมาก” – “เร็ว” โดนมองว่าเป็นข้อมูลที่ยัง “ไม่แน่นอน” ทำให้เก็บบันทึกในแบบ “ข้อสรุป” หรือ อนุมาน ไม่ใช่ข้อมูลดิบ

นอกจากนี้ การทำ Archive ไม่ใช่แค่การโยนข้อมูลไปเก็บไว้ แต่หมายถึงการดูแลจัดการด้วย

ยกตัวอย่างให้เห็นภาพ – ถ้าใครจำโครงการ One Map ได้ One Map ดำเนินงานโดย คณะกรรมการปรับปรุงแผนที่แนวเขตที่ดินของรัฐแบบบูรณาการ มาตราส่วน 1: 4000 หรือ กปนร. ซึ่งสั่งการให้หน่วยงานที่รับผิดชอบที่ดินของรัฐ แจ้งรายละเอียดขอบเขตการรับผิดชอบของตัวเอง เพื่อที่จะนำมาบูรณการเป็นแผนทีเดียวใช้ทุกหน่วยงานของรัฐ

ผลคือ รายงานครั้งแรก ก่อนเข้ากระบวนการบูรณาการ นำเนื้อที่ดินทั้งหมดมารวมกันแล้ว ได้เนื้อที่ดินทั้งประเทศไทยเป็นจำนวนรวมกัน 464,084,041.13 ไร่

ตีเป็นตัวเลขกลม ๆ 464 ล้านไร่

แต่เดี๋ยวก่อน ในประเทศไทยมีที่ดินประมาณ 320 ล้านไร่ – เท่านั้น

ที่ดินงอกมากจากไหน?

คำตอบคือสิ่งที่ทุกคนที่เกี่ยวข้องรู้แก่ใจแต่แรก นั่นคือ มีการดูแลซ้อนทับกัน ยกตัวอย่าง ตำบล ก. กรมป่าไม้บอกว่า ดูแลในฐานะเขตป่า 100 ไร่ สปก. บอกว่าดูแลในฐานะเขตปฏิรูปที่ดินเพื่อเกษตรกรรม 80 ไร่ แต่ที่ดินในตำบลนนั้น จริง ๆ มีแค่ 110 ไร่ แล้ว 70 ไร่ เกินมาจากไหน? สปก. ครอบครองที่ป่า? หรือมีการยกเลิกที่ป่าแล้ว แต่ข้อมูลกรมป่าไม้หรือกรมอุทยานยังไม่ปรับปรุง หรือมีความผิดพลาดประการใด?

ต้องเข้าใจก่อนว่า แผนที่สมัยก่อน เขียนกันหยาบ ๆ กรมป่าไม้ กรมอุทยาน ยังใช้แผนที่เบส 1:50,000 ของกรมแผนที่ทหาร ซึ่ง แค่เอาปากกาเมจิกขีดขอบเขต ก็กินเนื้อที่ของเส้นปากกาไปร่วม 50 เมตรแล้ว (แล้วแต่หัวเมจิกใหญ่หรือเล็ก) ไม่ต้องพูดถึงความคลาดเคลื่อนจากการเขียนเขตแผนที่ผิด

โครงการ One Map ดำเนินการมาตั้งแต่ปี 2558 และเตรียมปรับปรุงกฎหมาย กฎระเบียบที่เกี่ยวข้องตั้งแต่ปี 2559 มีการรายงานผลอย่างเป็นทางการเมื่อปี 2561 แต่เท่าที่ทราบ ก็ยังมีปัญหาเรื่องแนวเขตที่ดินระหว่างหน่วยงานรัฐยังคง “กำลังดำเนินการปรับปรุง” อยู่

ดังนั้น การมองว่า โยนทุกอย่างไป Data Lake คนที่จะหยิบเอาข้อมูลเหล่านี้ไปใช้เพื่อทำ Model ตามประบวนการ จะเอาไปใช้อย่างไร Big Data ภาครัฐ จะเกิดประโยชน์ได้เต็มประสิทธิภาพหรือไม่?

Big Data ได้เพิ่มความซับซ้อนในการรวบรวมและใช้ข้อมูลจนถึงขนาดที่เป็นอยู่ ในเชิงคุณภาพแตกต่างจากการเก็บบันทึกข้อมูลของรัฐบาลแบบเดิมที่เคยมีมาก่อนหน้านี้

และถึงแม้ว่า เรามี Data Lake ที่หน่วยงานรัฐสามารถใช้ได้ทั้งหมด แต่ประเด็นสำคัญบางประการ เช่น ความโปร่งใส ความปลอดภัยของข้อมูลส่วนบุคคล ต้องการการสนับสนุนด้านการคำนวณเพื่อให้เข้าใจได้ การจัดการกับชุดข้อมูลในรูปแบบไดนามิกเพื่อให้เข้าใจข้อมูล ความซับซ้อนของข้อมูลก็เป็นท้าทายทางเทคนิค การสร้างและจัดการ meta data ซึ่งสิ่งเหล่านี้ เป็นงานสำคัญของ – ระบบการจัดเก็บข้อมูล –

ยังคงมองว่า สิ่งที่รัฐต้องการมากยิ่งกว่านักวิทยาศาสตร์ข้อมูลก็คือ นักจัดเก็บข้อมูล – archivists ตาม Archival Science

ความคิดเห็นของคุณ :)

%d bloggers like this: