การจัดเตรียมข้อมูล
จากการรวบรวมอาจยังไม่สามารถนำไปประมวลผลได้ในทันที จึงจำเป็นต้องทำความสะอาดข้อมูลก่อน เช่นข้อมูลมีความซ้ำช้อนหรือลักษณะที่ผิดปกติจากข้อมูลอื่นหรือมีรายการข้อมูลที่ขาดหายไป
แนวทางการตรวจสอบความผิดปกติของข้อมูลเพื่อทำความสะอาดข้อมูลมีดังนี้
1. ความสมบูรณ์ (validity) ข้อมูลที่รวบรวมมีความถูกต้องตามข้อกำหนด
1.1 ชนิดของข้อมูลมีความสอดคล้องกัน เช่น อายุเป็นข้อมูลชนิด ตัวเลข ชื่อเป็นข้อมูลชนิดข้อความ
1.2 ข้อมูลมีค่าสอดคล้องกับความเป็นจริง เช่น
- น้ำหนักต้องไม่เป็นจำนวนลบ
- วันเกิดต้องเป็นวันที่ในอดีต
- คะแนนต้องมีค่าอยู่ช่วง 0 ถึง 100 จาก คะแนนเต็ม 100 คะแนน
- วันที่ 30 ต้องไม่ใช่ในเดือนกุมภาพันธ์
1.3 ข้อมูลบางอย่างจะมีค่าไม่ซ้ำกัน เช่น
- รหัสประจำตัวนักเรียนในโรงเรียนเดียวกัน
- เลขทะเบียนรถยนต์
- เลขประจำตัวประชาชน
1.4 ข้อมูลบางอย่างต้องไม่เป็นค่าว่าง เช่น
- ชื่อนักเรียน
- วันเดือนปีเกิด
1.5 ข้อมูลมีค่าผิดปกติจากข้อมูลนั้น เช่น
- เก็บรวบรวมอายุของนักเรียนแต่มีข้อมูลอายุเป็น 150 ปี
2. รูปแบบเดียวกัน (uniformity) ข้อมูลเรื่องเดียวกันต้องเก็บอยู่ในรูปแบบเดียวกัน เช่น
- วันที่ในรูปแบบ วว/ดด/ปป/ หรือ ดด/วว/ปปหรือรูปแบบ พ.ศ. หรือ ค.ศ.
3. ความครบถ้วน (completeness) ข้อมูลที่เกี่ยวข้องต้องถูกรวบรวมอย่างครบถ้วน4. ความทันสมัย (timeliness) ข้อมูลต้องเกี่ยวข้องกับเวลาและสถานการณ์
0 ความคิดเห็น