Please enable JavaScript.
Coggle requires JavaScript to display documents.
การเก็บรวบรวมและสำรวจข้อมูล - Coggle Diagram
การเก็บรวบรวมและสำรวจข้อมูล
การเก็บรวบรวมข้อมูล
แหล่งข้อมูลทุติยภูมิ
รูปแบบ
ไฟล์
ไฟล์ที่ดาวน์โหลดได้แต่มีกระบวนการซับซ้อน
ทำให้ยากต่อการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น
ไฟล์ที่ต้องเขียนโปรแกรมในการนำข้อมูลมาใช้
ไฟล์ที่สามารถดาวน์โหลดไปใช้ได้
โดยไม่ต้องเขียนโปรแกรมเพิ่มเติม
รายงานหรือตารางบนเว็บไซต์
ทั่วไปจะเป็นข้อมูลที่ผ่านการสรุปมาแล้ว
ไม่มีข้อมูลดิบประกอบ
ยากต่อการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น
แหล่ง
ข้อมูลในระดับนานาชาติ
เว็บไซต์ Data Wold
เว็บไซต์ UCL Machine Learning Repository
เว็บไซต์ Kaggle
ข้อมูลเกี่ยวกับประเทศไทย
เว็บไซต์ data.go.th
แหล่งข้อมูลทุตยภูมิที่เผยแพร่ในประเทศไทย
สำนักงานพัฒนารัฐบาลดิจิทัล
http://data.go.th
ข้อมูลที่รวบรวมมาจากแหล่งต่าง ๆ จัดเป็นหมวดหมู่
และเผยแพร่ในเว็บไซต์ที่มีรูปแบบเดียวกัน
สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ
http://www.nesdb.go.th
ข้อมูลด้านเศรษฐกิจและสังคม
ข้อมูลด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม
สำนักงานสถิติแห่งชาติ
http://www.nso.go.th
ข้อมูลเกี่ยวกับแรงงาน
ข้อมูลสถิติประชากร
แอตทริบิวต์(Attribute)
ความหมาย
เป็นคุณลักษณะเฉพาะที่ระบุคุณสมบัติ
ของวัตถุ สิ่งของ หรือสิ่งที่สนใจ
โดยค่าที่เก็บของแต่ละแอตทริบิวต์ สามารถ
ใช้อ้างอิงไปถึงวัตถุ สิ่งของ หรือสิ่งที่สนใจได้
ตัวอย่าง
เพศ
น้ำหนัก
ชื่อ - นามสกุล
ส่วนสูง
รหัสนักเรียน
ความเหมาะสมของแหล่งข้อมูล
ความน่าเชื่อถือของแหล่งข้อมูล (authority)
ความถูกต้องแม่นยำ (accuracy)
ความสอดคล้องกับการใช้งาน (relevance)
จุดมุ่งหมายของแหล่งข้อมูล (purpose)
ความทันสมัยของข้อมูล (currency)
การเตรียมข้อมูล (data preparation)
การแปลงข้อมูล (data transformation)
เตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวณผล
รูปแบบ
การเพิ่มจำนวนข้อมูล
จัดระเบียบข้อมูล
แบ่งแยกข้อมูลเพื่อช่วยให้การนำไปประมวลผลง่ายยิ่งขึ้น
การรวมข้อมูล
จัดกลุ่มข้อมูล
ค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ
การลดจำนวนข้อมูล
เลือกเฉพาะข้อมูลที่สนใจ
เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล
การเชื่อมโยงข้อมูล (combining data)
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน
ทำได้โดย
ใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม
ตัวอย่าง
ข้อมูลรายได้เฉลี่ยต่อครัวเรือน
มีแอตทริบิวต์ที่เหมือนกัน คือ จังหวัด
ข้อมูลรายจ่ายเฉลี่ยต่อครัวเรือน
ใช้ จังหวัด เป็นตัวเชื่อม
การทำความสะอาดข้อมูล (data cleansing)
ข้อมูลที่รวบรวมมาอาจมีข้อผิดพลาดที่เกิดจากหลากหลายสาเหตุ
ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด
ขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน
กระบวนการ
อยู่นอกขอบเขต
หน่วยนับผิด
ค่าว่าง
ค่าผิดปกติ
พิมพ์ผิด
การสำรวจข้อมูล (data exploration)
ขั้นตอนหลัก
ระหว่างการสำรวจอาจพบข้อผิดพลาด
หรือพบปัญหาอื่น ๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล
พิจารณาภาพรวมของข้อมูล
ต้องดำเนินการแก้ไขให้ถูกต้อง
คือการทดลองวาดแผนภาพหรือกราฟของข้อมูลในรูปแบบต่าง ๆ
ตัวอย่าง
ข้อมูลสูญหาย
ข้อมูลผิดพลาด
ข้อมูลมีค่าผิดปกติ
เครื่องมือพื้นฐาน
การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย
ตัวอย่าง
รายได้เฉลี่ยต่อครัวเรือน
รายจ่ายเฉลี่ยต่อครัวเรือน
เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์
การสำรวจข้อมูลโดยใช้ฮิสโทแกรม
ตัวอย่าง
การใช้ฮิสโทรแกรมสำรวจรายได้เฉลี่ยของประชากรในแต่ละจังหวัด
ในชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน
ใช้ในการสำรวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ
การสำรวจข้อมูลโดยใช้แผนภาพกล่อง
จะทำให้เห็นรายละเอียดข้อมูลมากขึ้น
นำค่าต่าง ๆ มาวาดแผนภาพกล่อง (box plot)
โดยหาค่าสูงสุด ต่ำสุด และค่าควอไทล์ต่าง ๆ ของแต่กลุ่มข้อมูล
ตัวอย่าง
ข้อมูลรายได้ในแต่ละจังหวัด
โดยนำเสนอรายได้เฉลี่ยต่อครัวเรือนรายภาค
พิจารณารายละเอียดในแต่ละภาค
การสำรวจข้อมูลโดยใช้กราฟเส้น
ทำให้มองเห็นภาพรวมแนวโน้มของข้อมูลว่ามากขึ้นหรือลดลง
ตัวอย่าง
การใช้กราฟเส้นพิจารณาชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน
เพื่อแสดงรายได้เฉลี่ยต่อครัวเรือนแต่ละปีจำแนกตามภูมิภาค
การสำรวจข้อมูลด้วยการเขียนโปรแกรม
โดยเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป
หรือการเขียนโปรแกรม
หากข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูป
จะสามารถจัดเก็บหรือประมวลผลได้
นำข้อมูลเข้าสู่โปรแกรมที่ใช้สำหรับการประมวลผล
จะต้องนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา
หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการคำนวณ
ข้อมูลส่วนบุคคล
การปลอมแปลง
ข้อมูลส่วนบุคคลถ้ามีผู้อื่นทราบนอกจากเจ้าของข้อมูล
อาจทำให้เกิดการปลอมแปลงตัวตนเจ้าของข้อมูลได้
ข้อมูลส่วนบุคคลอาจมีมูลค่าทางธุรกิจเช่นกัน
จึงต้องระมัดระวังไม่ให้ผู้อื่นนำข้อมูลไปใช้ได้
บุคคลภายนอก
เนื่องจากความผิดพลาดของการรักษาความปลอดภัย
หรือความผิดพลาดและประมาทของเจ้าของข้อมูลเอง
บางกรณีข้อมูลถูกเข้าถึงโดยบุคคลภายนอก
ข้อมูลเกี่ยวกับสิ่งเฉพาะของตัวบุคคล
ประวัติสุขภาพ
ประวัติอาชญากรรม
ฐานะการเงิน
ประวัติกิจกรรมต่าง ๆ
มีชื่อของบุคคลนั้น
มีหมายเลขรหัส
สิ่งบอกลักษณะอื่นที่ทำให้รู้ตัวบุคคลนั้นได้
ข้อมูลลักษณะเสียง
รูปถ่าย
ลายพิมพ์นิ้วมือ
การศึกษา
นางสาวเพียงตะวัน ศรีภักดี เลขที่ 17 ชั้นม.5/3