Data คืออะไร ? (Data ออกเสียงสำเนียงอเมริกันว่า เดต้า ออกเสียงสำเนียงอังกฤษว่า ดาต้า ในบล็อกนี้จะใช้ว่าดาต้า) ถ้าใช้ตามคำก็คือ “ข้อมูล” นิยามไว้ว่า คือ ชุดของ ข้อเท็จจริง ตัวเลข คำพูด การสังเกต หรือข้อมูลที่มีประโยชน์อื่น ๆ ซึ่งเมื่อผ่านการประมวลผลข้อมูลและการวิเคราะห์ข้อมูล จะทำให้ข้อมูลดิบกลายเป็นข้อมูลเชิงลึก นำไปใช้เป็นตัวช่วยในการตัดสินใจและเพิ่มประสิทธิภาพทางธุรกิจให้ดีขึ้น
คำว่า “data” มาจากพหูพจน์ของคำว่า “datum” ซึ่งเป็นคำภาษาละตินที่แปลว่า “สิ่งที่ได้รับ” ซึ่งเป็นคำจำกัดความที่ใช้มาถึงปัจจุบัน
ข้อมูลเหล่านี้อยู่ในรูปแบบที่แตกต่างกันไป และมาได้จากหลายแหล่ง ตัวอย่างเช่น ความคิดเห็นของลูกค้า ก็เป็นข้อมูลเชิงคุณภาพอย่างหนึ่ง ตัวเลขยอดจำหน่าย ก็เป็นข้อมูลเชิงปริมาณที่เป็นตัวเลข สำมะโนประชากร ก็เป็นข้อมูลเชิงปริมาณ และเป็น ข้อมูลสาธารณะ หรือ ข้อมูลการครอบครองที่ดิน ประวัติการใช้บัตรเครดิต ก็เป็นข้อมูลส่วนตัว (หรือ ข้อมูลส่วนบุคคล) แบบนี้เป็นต้น
ในช่วงทศวรรษที่ผ่านมา คำว่า บิ๊กดาต้า (Big Data) หรือ ข้อมูลมหัต หรือข้อมูลขนาดใหญ่ หรือ ชุดข้อมูลขนาดใหญ่และซับซ้อน กลายเป็นส่วนหนึ่งของธุรกิจในปัจจุบัน ข้อมูลจากแหล่งต่าง ๆ เช่น โซเชียลมีเดีย อีคอมเมิร์ซ และธุรกรรมทางการเงิน ได้ผลักดันการเปลี่ยนแปลงทางดิจิทัลในอุตสาหกรรมต่าง ๆ และกลายเป็นสิ่งมีค่าในฐานะตัวขับเคลื่อนการเติบโตทางธุรกิจและนวัตกรรม

ในช่วงไม่กี่ปีที่ผ่านมา การเติบโตของปัญญาประดิษฐ์ (AI) ทำให้ความสำคัญของข้อมูลเพิ่มสูงมากขึ้น องค์กรต่าง ๆ ต้องใช้ข้อมูลเพื่อฝึกโมเดลการเรียนรู้ของเครื่องจักร (Machine Learning) และปรับแต่งอัลกอริทึมการทำนาย ยิ่งระบบ AI วิเคราะห์ข้อมูลที่มีคุณภาพสูงได้มากเท่าไร ก็ยิ่งแม่นยำและมีประสิทธิภาพมากขึ้นเท่านั้น
เนื่องจากปริมาณ ความซับซ้อน และความสำคัญของข้อมูลเพิ่มมากขึ้น องค์กรต่างๆ จึงจำเป็นต้องมีกระบวนการจัดการข้อมูลที่มีประสิทธิภาพเพื่อให้ข้อมูลเป็นระเบียบและสามารถเข้าถึงได้เพื่อวิเคราะห์ข้อมูล
ในเวลาเดียวกัน ความกังวลที่เพิ่มขึ้นเกี่ยวกับความปลอดภัยและความเป็นส่วนตัวของข้อมูล ทั้งจากผู้ใช้และหน่วยงานกำกับดูแล ทำให้มีการเน้นย้ำถึงการปกป้องข้อมูลและการปฏิบัติตามกฎหมาย เช่น พระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 (PDPA) หรือ ข้อบังคับทั่วไปเกี่ยวกับการคุ้มครองข้อมูล (General Data Protection Regulation – GDPR)
Data คืออะไร แบ่งประเภทอะไรได้บ้าง
ข้อมูลมีอยู่ในหลายรูปแบบ โดยแต่ละรูปแบบจะมีลักษณะเฉพาะ แหล่งที่มา และรูปแบบเฉพาะตัว การเข้าใจความแตกต่างเหล่านี้จะช่วยให้สามารถจัดระเบียบและวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น เนื่องจากข้อมูลประเภทต่าง ๆ เหมาะสำหรับการใช้งานที่แตกต่างกัน
เราจัดหมวดหมู่ของข้อมูลแบบกว้าง ๆ ได้หลายแบบ เช่น
- Quantitative data
- Qualitative data
- Structured data
- Unstructured data
- Semi-structured data
- Metadata
- Big data
Quantitative data
Quantitative data หรือ ข้อมูลเชิงปริมาณประกอบด้วยค่าที่สามารถวัดได้เป็นตัวเลข ตัวอย่างของข้อมูลเชิงปริมาณ ที่เป็นตัวเลข เช่น อุณหภูมิ จำนวนผลิตภัณฑ์ที่ขายได้ รายได้ ซึ่งข้อมูลเชิงปริมาณมักเป็นข้อมูลที่มีโครงสร้าง วิเคราะห์ได้ง่ายโดยใช้เครื่องมือทางคณิตศาสตร์และอัลกอริทึม
กรณีการใช้งานทั่วไปของข้อมูลเชิงปริมาณ ได้แก่ การคาดการณ์แนวโน้ม การวิเคราะห์ทางสถิติ การจัดทำงบประมาณ การระบุรูปแบบ และการวัดประสิทธิภาพ
Qualitative data
Qualitative data หรือข้อมูลเชิงคุณภาพ เป็นข้อมูลเชิงพรรณนาและไม่ใช่ตัวเลข โดยจะระบุลักษณะ แนวคิด หรือประสบการณ์ที่ตัวเลขไม่สามารถวัดได้ ตัวอย่างเช่น ข้อเสนอแนะจากลูกค้า บทวิจารณ์ผลิตภัณฑ์ และความคิดเห็นบนโซเชียลมีเดีย
ข้อมูลเชิงคุณภาพอาจมีโครงสร้าง (เช่น คำตอบจากแบบสำรวจที่จัดรูปแบบคำตอบไว้ชัดเจน) หรือไม่มีโครงสร้าง (เช่น คำตอบแบบข้อความอิสระหรือบทสัมภาษณ์)
กรณีการใช้งานทั่วไปของข้อมูลเชิงคุณภาพ ได้แก่ การทำความเข้าใจพฤติกรรมของลูกค้า แนวโน้มของตลาด และประสบการณ์ของผู้ใช้
Structured Data
Structured Data หรือ ข้อมูลที่มีโครงสร้าง เป็นข้อมูลที่จัดระเบียบและกำหนดรูปแบบที่ชัดเจน มักจะจัดเก็บในฐานข้อมูลเชิงสัมพันธ์หรือสเปรดชีต ข้อมูลดังกล่าวอาจประกอบด้วยข้อมูลเชิงปริมาณ (เช่น ตัวเลขยอดขาย) และข้อมูลเชิงคุณภาพ (เช่น “ใช่หรือไม่”, “มีหรือไม่มี”)
ตัวอย่างของข้อมูลที่มีโครงสร้าง ได้แก่ บันทึกข้อมูลลูกค้าและรายงานทางการเงิน ซึ่งข้อมูลจะพอดีกับแถวและคอลัมน์ที่มีฟิลด์ที่กำหนดไว้ล่วงหน้า
ลักษณะที่จัดระเบียบอย่างดีของข้อมูลที่มีโครงสร้างช่วยให้สามารถค้นหาและวิเคราะห์ข้อมูลได้อย่างรวดเร็ว ทำให้ข้อมูลดังกล่าวมีประโยชน์สำหรับระบบ Business Intelligence และการจัดทำรายงาน
(อ่านเพิ่มเติม https://www.seobility.net/en/wiki/Structured_Data)
Unstructured Data
Unstructured Data หรือข้อมูลที่ไม่มีโครงสร้างไม่มีรูปแบบที่กำหนดไว้อย่างชัดเจน เช่น เอกสารข้อความ รูปภาพ และวิดีโอ ข้อมูลที่ไม่มีโครงสร้างอาจรวมถึงทั้งข้อมูลเชิงคุณภาพ (เช่น ความคิดเห็นของลูกค้า) และองค์ประกอบเชิงปริมาณ (เช่น ค่าตัวเลขที่ฝังอยู่ในข้อความ) ตัวอย่างของข้อมูลที่ไม่มีโครงสร้าง ได้แก่ อีเมล เนื้อหาโซเชียลมีเดีย และไฟล์มัลติมีเดีย
ข้อมูลที่ไม่มีโครงสร้างไม่เหมาะกับฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม และองค์กรมักใช้เทคนิคต่างๆ เช่น การประมวลผลภาษาธรรมชาติ (NLP) และการเรียนรู้ของเครื่องเพื่อปรับปรุงการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้าง
ข้อมูลที่ไม่มีโครงสร้างมักมีบทบาทสำคัญในการวิเคราะห์ความรู้สึก การจดจำรูปแบบที่ซับซ้อน และโครงการวิเคราะห์ขั้นสูงอื่นๆ
Semi-Structured Data
Semi-Structured Data หรือ ข้อมูลกึ่งมีโครงสร้างเป็นการผสมผสานระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ข้อมูลกึ่งมีโครงสร้างจะไม่เป็นไปตามรูปแบบที่ตายตัว แต่สามารถรวมแท็กหรือเครื่องหมายไว้ด้วยกันได้ ซึ่งทำให้จัดระเบียบและวิเคราะห์ได้ง่ายขึ้น ตัวอย่างของข้อมูลกึ่งมีโครงสร้าง ได้แก่ ไฟล์ XML และอ็อบเจ็กต์ JSON
ข้อมูลกึ่งมีโครงสร้างใช้กันอย่างแพร่หลายในสถานการณ์ต่างๆ เช่น การบูรณาการข้อมูล เนื่องจากมีความยืดหยุ่นในขณะที่ยังคงโครงสร้างบางส่วนไว้สำหรับการค้นหาและวิเคราะห์
Metadata
Metadata หรือ เมตาดาต้าคือข้อมูลเกี่ยวกับข้อมูล กล่าวอีกนัยหนึ่งก็คือเป็นข้อมูลเกี่ยวกับแอตทริบิวต์ของจุดข้อมูลหรือชุดข้อมูล เช่น ชื่อไฟล์ ผู้เขียน วันที่สร้าง หรือประเภทข้อมูล
เมตาดาต้าช่วยปรับปรุงการจัดระเบียบข้อมูล การค้นหาข้อมูล และการจัดการข้อมูล เมตาดาต้ามีความสำคัญต่อระบบต่างๆ เช่น ฐานข้อมูล ห้องสมุดดิจิทัล และแพลตฟอร์มการจัดการเนื้อหา เนื่องจากช่วยให้ผู้ใช้จัดเรียงและค้นหาข้อมูลที่ต้องการได้ง่ายขึ้น
Big data
Big Data หรือข้อมูลมหัต หมายถึงชุดข้อมูลขนาดใหญ่และซับซ้อนที่ระบบดั้งเดิมไม่สามารถจัดการได้ โดยประกอบด้วยข้อมูลทั้งแบบมีโครงสร้างและไม่มีโครงสร้างจากแหล่งต่างๆ เช่น เซ็นเซอร์ โซเชียลมีเดีย และธุรกรรมต่าง ๆ
การวิเคราะห์ข้อมูลมหัตช่วยให้องค์กรต่าง ๆ ประมวลผลและวิเคราะห์ชุดข้อมูลขนาดใหญ่เหล่านี้เพื่อดึงข้อมูลเชิงลึกที่มีค่าออกมาอย่างเป็นระบบ โดยมักต้องใช้เครื่องมือขั้นสูง เช่น การเรียนรู้ของเครื่อง (Machine Learning) การวิเคราะห์พฤติกรรมของลูกค้า การตรวจจับการฉ้อโกง และการบำรุงรักษาเชิงคาดการณ์