การคัดเลือกข้อมูล (Data
Selection)
เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้
เช่น คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์
และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน
เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน
เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี
ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้นคัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้
เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่
สาขาวิชาวิศวกรรมเคมี สาขาวิชาวิศวกรรมโยธา สาขาวิชาวิศวกรรมคอมพิวเตอร์
สาขาวิชาวิศวกรรมไฟฟ้า สาขาวิชาวิศวกรรมอุตสาหการ และสาขาวิชาวิศวกรรมเครื่องกล
สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่าง ๆ
อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่น ๆ
ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก
ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อผิดพลาดได้ในการทดสอบได้ หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้ว
จะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น
ไม่มีความคิดเห็น:
แสดงความคิดเห็น