ปกฟกปฟปกฟปกฟ

1รวบรวมข้อมูล

3การสำรวจข้อมูล

การทำความสะอาดข้อมูล (Data cleansing)

click to edit

ข้อมูลทุติยภูมิบนโลกอินเตอร์เน็ตมีหลายรูปแบบดังนี้

click to edit

1.ไฟล์

2.รายงานหรือตารางบนเว็บไซต์

นามสกุลcsvเป็นไฟล์แบบข้อความ(text)โดยไฟล์เหล่านี้สามารถดาวน์โหลดไปใช้ได้โดยไม่ต้องเขียนโปรแกรมเพิ่มเติม

ไฟล์ที่มีนามสกุล xls,xlsx หรือodpเป็นไฟล์ที่ได้จากกากโปรแกรมตารางทำงาน

การสำรวจข้อมูลมีหลายรูปแบบดังนี้

3.แผนภาพการกระจาย

1.กราฟเส้น

รายได้เฉลี่ยต่อครัวเรือนมีแนวโน้มเพิ่มขึ้น

click to edit

click to edit

รายได้เฉลี่ยต่อครัวเรือนแตกต่างกันตามภูมภาค

4.แผนภาพกล่อง

click to edit

click to edit

.
2.1แหล่งข้อมูลทุติยภูมิ data.go.th เป็นแหล่งข้อมูลทุติยภูมิสถิติจากศูนย์กลางข้อมูลภาครัฐ เพื่อประโยชน์ต่อสาธารณชนและหน่วยงานทั้งภาครัฐและเอกชน

click to edit

click to edit

ภาคกลาง(กรุงเทพมหานคร,จังหวัดใกล้เคียง)รายได้มีแนวโน้มลดลง

เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนถัดไปคือ การเตรียมข้อมูล เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้องครบถ้วนสมบูรณ์

2เตรียมข้อมูล

.
2.1.2ความเหมาะสมของแหล่งข้อมูล
การเลือกใช้แหล่งช้อมูลที่มีการบิดเบือน ขาดความน่าเชื่อถือ อาจทำให้ข้อสรุปที่ได้เกิดความผิดพลาดหรือชี้นำไปในทางที่ผิด นอกจากนี้อาจเกิดอันตรายและสร้างความเสียหาย ดังนั้นก่อนเลือกใช้แหล่งข้อมูล ควรพิจารณาความเหมาะสมของแหล่งข้อมูลตามมุมมองดังนี้

2เตรียมข้อมูล

การรวมข้อมูล

การเชื่อมข้อมูล

การเพิ่มจำนวนข้อมูล

การลดจำนวนข้อมูล

การแปลงข้อมูล

เป้าหมายของการแปลงข้อมูล คือ เตรียมข้อมูลให้อยู๋ในรูปแบบที่พร้อมสำหรับการประมวลผล

click to edit

2.ฮิสโทแกรม

การสำรวจรายได้เฉลี่ยของประชากรอิสโทแกรมจะแสดงผลข้อมูลความถี่

การลดจำนวนข้อมูลเป็นการเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการปรระมวลผล ตัวอย่าง เช่น จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน

มีความสัมพันธ์ระหว่างรายได้และรายจ่าย โดยมีแนวโน้มว่าถ้ารายได้เพิ่มขึ้น รายจ่ายก็จะเพิ่มขึ้นด้วย

click to edit

จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือนจำแนกตามภาคและจังหวัด สามารถจัดระเบียบข้อมูล โดยแยกข้อมูลภาคและจังหวัดออกเป็น2คอลัมน์

สำรวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ

click to edit

การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู๋ในระดับต่ำ ปานกลาง และสูง

การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกัน จากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูล รายจ่ายเฉลี่ยต่อครัวเรือนและข้อมูลรายได้เฉลี่ยต่อครัวเรือน มีแอตทรริบิวต์ที่เหมือนกัน คือ จังหวัด

click to edit

click to edit

จังหวัดส่วนใหญ่มีรายได้ต่อครัวเรือนอยู๋ระหว่าง18,000 - 24,000 บาท

เพื่อแสดงความสัมพันธ์ระหว่าง2แอตทริบิวต์

ในกรณีของข้อมูลรายได้ในแต่ล่ะจังหวัดมีการนำเสนอรายได้เฉลี่ยต่อครัวเรือนภาค

เสือ

click to edit

click to edit

click to edit

click to edit

click to edit

click to edit

ข้อมูลที่รวบรวมมานั้นอาจมีข้อผิดพลาดึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน

ข้อผิดพลาดนี้เกิดจากหลายสาเหตุ เฃ่นผู้ให้ข้อมูลกรอก