การจัดเตรียมข้อมูล

                จากการรวบรวมอาจยังไม่สามารถนำไปประมวลผลได้ในทันที จึงจำเป็นต้องทำความสะอาดข้อมูลก่อน เช่นข้อมูลมีความซ้ำช้อนหรือลักษณะที่ผิดปกติจากข้อมูลอื่นหรือมีรายการข้อมูลที่ขาดหายไป
                
                แนวทางการตรวจสอบความผิดปกติของข้อมูลเพื่อทำความสะอาดข้อมูลมีดังนี้

 

1. ความสมบูรณ์ (validity) ข้อมูลที่รวบรวมมีความถูกต้องตามข้อกำหนด 
            1.1 ชนิดของข้อมูลมีความสอดคล้องกัน เช่น อายุเป็นข้อมูลชนิด ตัวเลข ชื่อเป็นข้อมูลชนิดข้อความ
            1.2 ข้อมูลมีค่าสอดคล้องกับความเป็นจริง เช่น
                    - น้ำหนักต้องไม่เป็นจำนวนลบ
                    - วันเกิดต้องเป็นวันที่ในอดีต
                    - คะแนนต้องมีค่าอยู่ช่วง 0 ถึง 100 จาก คะแนนเต็ม 100 คะแนน
                    - วันที่ 30 ต้องไม่ใช่ในเดือนกุมภาพันธ์
            1.3 ข้อมูลบางอย่างจะมีค่าไม่ซ้ำกัน เช่น
                    - รหัสประจำตัวนักเรียนในโรงเรียนเดียวกัน
                    - เลขทะเบียนรถยนต์
                    - เลขประจำตัวประชาชน
            1.4 ข้อมูลบางอย่างต้องไม่เป็นค่าว่าง เช่น
                    - ชื่อนักเรียน
                    - วันเดือนปีเกิด
            1.5 ข้อมูลมีค่าผิดปกติจากข้อมูลนั้น เช่น
                    - เก็บรวบรวมอายุของนักเรียนแต่มีข้อมูลอายุเป็น 150 ปี

 

2. รูปแบบเดียวกัน (uniformity) ข้อมูลเรื่องเดียวกันต้องเก็บอยู่ในรูปแบบเดียวกัน เช่น
            - วันที่ในรูปแบบ วว/ดด/ปป/ หรือ ดด/วว/ปปหรือรูปแบบ พ.ศ. หรือ ค.ศ.

 

3. ความครบถ้วน (completeness) ข้อมูลที่เกี่ยวข้องต้องถูกรวบรวมอย่างครบถ้วน

4. ความทันสมัย (timeliness) ข้อมูลต้องเกี่ยวข้องกับเวลาและสถานการณ์