หน้าเว็บ

วันเสาร์ที่ 3 มีนาคม พ.ศ. 2555

Data Mining และ OLAP


Data Mining และ OLAP

On-Line Analytical Processing (OLAP) สามารถรับการกำหนดเป็นการวิเคราะห์อย่างรวดเร็วจากข้อมูลหลายมิติที่ใช้ร่วมกัน OLAP และการทำเหมืองข้อมูลที่แตกต่างกันเป็นกิจกรรมเสริม
OLAP สนับสนุนกิจกรรมต่าง ๆ เช่นการสรุปข้อมูลการจัดสรรค่าใช้จ่ายในการวิเคราะห์อนุกรมเวลาและการวิเคราะห์ What-If แต่ส่วนใหญ่ระบบ OLAP ไม่ได้มีความสามารถในการอนุมานแบบอุปนัยเกินสนับสนุนสำหรับการพยากรณ์อนุกรมเวลา อนุมาน Inductive กระบวนการในการเข้าถึงข้อสรุปทั่วไปจากตัวอย่างเฉพาะที่เป็นลักษณะของการทำเหมืองข้อมูล การอนุมานแบบอุปนัยที่รู้จักกันว่าการเรียนรู้การคำนวณ
ระบบ OLAP ให้มุมมองหลายมิติของข้อมูลรวมทั้งการสนับสนุนอย่างเต็มที่สำหรับลำดับชั้น มุมมองของข้อมูลนี้เป็นวิธีธรรมชาติในการวิเคราะห์ธุรกิจและองค์กร การทำเหมืองข้อมูลในมืออื่น ๆ ที่มักจะไม่ได้มีแนวคิดของขนาดและลำดับชั้น
Data MiningและOLAP สามารถบูรณาการในหลายวิธี ตัวอย่างเช่นการทำเหมืองข้อมูลสามารถนำมาใช้เพื่อเลือกขนาดสำหรับคิวบ์สร้างค่านิยมใหม่สำหรับมิติหรือสร้างมาตรการใหม่สำหรับคิวบ์ OLAP สามารถใช้ในการวิเคราะห์ผลการทำเหมืองข้อมูลในระดับต่างๆของเมล็ด
การทำเหมืองข้อมูลสามารถช่วยให้คุณสร้างข้อมูลที่น่าสนใจและมีประโยชน์ ตัวอย่างเช่นผลจากการทำเหมืองข้อมูลการคาดการณ์อาจจะเพิ่มเป็นมาตรการที่กำหนดเองไปยังคิวบ์มาตรการดังกล่าวอาจให้ข้อมูลดังกล่าวเป็น "แนวโน้มที่จะเริ่มต้น" หรือ "แนวโน้มที่จะซื้อ" สำหรับลูกค้าแต่ละราย OLAP การประมวลผลได้รวมแล้วและสรุปความน่าจะเป็น

Data Mining Software


Data  Mining Software

ซอฟแวร์การทำเหมืองข้อมูลจะถูกใช้เป็นเครื่องมือวิเคราะห์สำหรับการวิเคราะห์ข้อมูล เป็นความสามารถในการวิเคราะห์ข้อมูลจากขนาดที่แตกต่างกันหรือมุมมองการจัดหมวดหมู่และในที่สุดจะสรุปความสัมพันธ์ทั้งหมด ซอฟแวร์มีหลากหลายของการใช้งาน; สำหรับคนที่อินสแตนซ์การทำงานในการขายและฝ่ายการตลาด, บัญชีแผนกการพยากรณ์หน่วยงานอื่น ๆ สามารถได้รับความช่วยเหลือจากซอฟต์แวร์เมื่อใดก็ตามที่พวกเขาต้องการ
ซอฟแวร์การทำเหมืองข้อมูลนั้นเป็นเครื่องมือที่ใช้เพื่อวัตถุประสงค์ในการให้ซอฟแวร์ทันสมัยโดยรวมความรู้ของตัวมันเอง ซอฟแวร์จะหมายถึงการสกัดและพัฒนารูปแบบบางส่วนจากข้อมูลที่มีอยู่และข้อมูล ในแง่อื่น ๆ สามารถอธิบายซอฟต์แวร์นี้เป็นเครื่องมือที่เกี่ยวข้องกับวิศวกรรมต่างๆ วิธีการทำเหมืองแร่ที่ใช้ในการพัฒนาและการทำของเครื่องมือนี้ ดังนั้นจึงเป็นการแนะนำให้มีความรู้ของเครื่องมือเหล่านี้ การทำเหมืองข้อมูลและวิธีการเพื่อให้มีการทำงานที่ดีกว่าของซอฟต์แวร์ การเรียงลำดับของหลักสูตรวิทยาการคอมพิวเตอร์ของบางคนอาจช่วยทำให้คุณได้ทราบวิธีขั้นตอนการทำเหมืองข้อมูล ซอฟแวร์การทำเหมืองข้อมูลสามารถลดความซับซ้อนในชีวิตของคุณโดยการแก้งานที่ซับซ้อนมาก เจ้าหน้าที่ฝ่ายขายการตลาดพวกเขาใช้ซอฟแวร์การทำเหมืองข้อมูลที่จะขุดเอาข้อมูลที่สำคัญ
ในโลกปัจจุบันเมื่อคุณจำเป็นต้องมีประสิทธิภาพและรวดเร็วในการให้ข้อมูล ซอฟแวร์นี้จะทำให้คุณออกจากความเครียดของการทำงาน ในยุคนี้ที่ข้อมูลเป็นองค์ประกอบที่มีประสิทธิภาพมากที่สุด ซอฟแวร์การทำเหมืองข้อมูลอาจจะมีสิ่งสำคัญในการประกอบอาชีพในอนาคตความสำเร็จของคุณและในทางกลับกันมันเป็นเรื่องง่ายที่จะจัดการและใช้มัน
ระบบคอมพิวเตอร์จะถูกโหลดโดยจะมีชุดข้อมูลที่ไม่ซ้ำกันของฐานข้อมูล ข้อมูลนี้จะต้องมีการใช้ในสถานการณ์ต่างๆของธุรกิจด้วยความช่วยเหลือของซอฟแวร์

การปรับเปลี่ยนรูปแบบข้อมูล (Data Transformation)


จากตารางที่ 4 จะเห็นได้ว่าข้อมูลอยู่ในระดับรายวิชาเพื่อให้ได้ตรงตามเป้าหมายที่ต้องการจะศึกษาพฤติกรรมและลักษณะของนิสิตแต่ละคน เราจะต้องแปลงข้อมูลให้อยู่ในระดับของนิสิต โดยแบ่งกลุ่มของวิชาต่าง ๆ ที่ลงทะเบียนตามรหัสนิสิต และคอลัมน์แทนรายชื่อวิชาต่าง ๆ จากนั้นจะนำตารางที่ 3 และ 4 มารวมกัน ทำให้ได้เป็นตารางข้อมูลนิสิตขั้นต้นที่แต่ละแถวของตารางแสดงทั้งประวัติส่วนตัวของนิสิตและผลการเรียนของนิสิตในแต่ละรายวิชา เพื่อที่เราจะได้สามารถนำตารางนี้ไปปรับเปลี่ยนเพื่อให้เหมาะสมกับเทคนิคต่าง ๆ ของดาต้าไมน์นิงต่อไป
ผลลัพธ์ที่ได้ทั้งหมดแสดงได้ดังตารางที่ 5

   ตารางที่ 5 ตัวอย่างตารางข้อมูลนิสิตที่ขั้นต้น

 จากข้อมูลในตารางที่ 5 นี้ถือได้ว่าเป็นข้อมูลเบื้องต้นในรูปแบบสมบูรณ์ที่พร้อมจะนำไปทำดาตาไมน์นิงแล้ว แต่เราอาจต้องปรับเปลี่ยนรูปแบบของข้อมูลเพื่อให้เหมาะสมกับแต่ละเทคนิคของดาต้าไมน์นิงที่เราจะเลือกใช้

การคัดเลือกข้อมูล (Data Selection)


การคัดเลือกข้อมูล (Data Selection)

เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้ เช่น คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์ และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้นคัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่ สาขาวิชาวิศวกรรมเคมี สาขาวิชาวิศวกรรมโยธา สาขาวิชาวิศวกรรมคอมพิวเตอร์ สาขาวิชาวิศวกรรมไฟฟ้า สาขาวิชาวิศวกรรมอุตสาหการ และสาขาวิชาวิศวกรรมเครื่องกล สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่าง ๆ อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่น ๆ ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อผิดพลาดได้ในการทดสอบได้ หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้ว จะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น

การเตรียมข้อมูลสำหรับ Data Mining และ การทำข้อมูลให้สมบูรณ์ (Data Cleaning)


การเตรียมข้อมูลสำหรับ Data Mining

สิ่งแรกที่ต้องทำคือ เราต้องมาคิดกันก่อนว่าจะนำเทคนิคดาต้าไมน์นิงไปประยุกต์กับด้านใด เพราะเหตุใด และต้องการจะหาความรู้แบบใดออกมาจากการทำดาต้าไมน์นิงสมมุติว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่าง ๆ นิสิตที่ได้ถูกจัดเก็บไว้เป็นเวลานาน แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้เป็นอย่างดี โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร
เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา ต่อมาเราต้องหาเป้าหมาย (Mining Objective) ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้าง ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงเพื่อนำมาช่วยนิสิตในการเลือกสาขาวิชา เช่น สำหรับที่นิสิตคณะวิศวกรรมศาสตร์ จะเห็นได้ว่ามีสาขาวิชาต่าง ๆ มากมายกว่า 10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิต โดยความรู้ (knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้เมื่อเราได้เป้าหมายในการทำดาต้าไมน์นิงแล้ว เราก็ต้องมาหาข้อมูลนิสิตกัน สมมุติว่าเราได้ข้อมูลนิสิตย้อนหลังทั้งหมด 10 ปี มีทั้งหมด 2 ส่วน คือ ข้อมูลประวัติส่วนตัวนิสิตดังตารางที่ 1 และข้อมูลการลงทะเบียนเรียนในแต่ละรายวิชาของนิสิตดังตารางที่ 2

ตารางที่ 1 ตัวอย่างข้อมูลประวัติส่วนตัวนิสิต

จากตารางที่ 1 เป็นตัวอย่างข้อมูลประวัติส่วนตัวต่าง ๆ ของนิสิต เช่น รหัสประจำตัวนิสิต ชื่อ เพศสัญชาติ ที่อยู่ วันเกิด สถานภาพทางครอบครัว คะแนนสอบเข้า ผลการเรียนระดับมัธยม สาขาวิชาที่นิสิตศึกษาอยู่ เกรดเฉลี่ยสะสมจนถึงปีปัจจุบัน ฯลฯ

ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิต


จากตารางที่ 2 เป็นตารางข้อมูลการลงทะเบียนของนิสิตในแต่ละรายวิชา ในแต่ละภาคการศึกษา พร้อมทั้งหมู่ที่เรียน และผลการเรียนในรายวิชานั้น ๆ ของนิสิตแต่ละคน

เมื่อเราได้ข้อมูลทั้งหมดแล้ว ขั้นต่อมาก็คือ การเตรียมข้อมูลเพื่อให้พร้อมที่จะนำไปทำดาต้าไมน์นิง ซึ่งแบ่งเป็นขั้นต่าง ๆ ได้ดังนี้


ข้อมูลที่ได้มานั้น เป็นข้อมูลที่ยังไม่สมบูรณ์ที่จะสามารถนำไปใช้ผ่านกระบวนการดาต้าไมน์นิงได้ จึงต้องมีการจัดการข้อมูล การเตรียมข้อมูลเบื้องต้นมีวิธีการดังนี้ เลือกเฉพาะคอลัมน์สำคัญที่คาดว่าจะสามารถนำมาใช้ประโยชน์ได้ และเป็นคอลัมน์ที่มีข้อมูลค่อนข้างครบถ้วนเมื่อเทียบกับจำนวนนิสิต เช่น จากในตารางที่ 1 คอลัมน์สำคัญที่มีข้อมูลค่อนข้างมาก ได้แก่ ข้อมูลรหัสนิสิต ที่อยู่ อายุ เพศ ประวัติครอบครัวโรงเรียน เกรดเฉลี่ยที่จบการศึกษาในมหาวิทยาลัย เป็นต้น ส่วนในบางคอลัมน์ที่มีความสำคัญ แต่มีข้อมูลน้อยมากนั้นจะไม่นำมาพิจารณา เช่น ข้อมูลคะแนนสอบเอ็นทรานซ์ในแต่ละวิชา เหตุผลในการสอบเข้า เป็นต้น 
สำหรับคอลัมน์ที่มีค่าสำหรับทุกแถวเป็นค่าเดียวกัน เช่น “สัญชาติไทย” จะเป็นข้อมูลที่ไม่สามารถแยกความแตกต่างของแต่ละแถวได้เลย ดังนั้นในการทำดาต้าไมน์นิงจะไม่สามารถใช้ประโยชน์จากคอลัมน์นี้ ดังนั้น จึงไม่นำคอลัมน์นี้มาพิจารณา คอลัมน์ที่มีค่าที่ไม่ซ้ำกันเลย จากตารางที่ 1 ได้แก่ ชื่อผู้ปกครอง หมายเลขโทรศัพท์ เป็นต้น ข้อมูลเหล่านี้ไม่สามารถหาแถวที่มีข้อมูลสัมพันธ์กันได้เลย การทำดาต้าไมน์นิงจึงไม่สามารถนำข้อมูลเหล่านี้มาใช้ประโยชน์ได้ ดังนั้นในการทำดาต้าไมน์นิงควรกำจัดคอลัมน์ที่มีข้อมูลไม่ซ้ำกันเลยออก แก้ไขข้อมูลให้ถูกต้องสมบูรณ์ ได้แก่ การแก้ไขค่าว่างของข้อมูล ซึ่งสามารถแก้ไขได้หลายวิธี เช่น แก้ไขโดยกำจัดข้อมูลที่ในแถวเป็นค่าว่าง (NULL) ยกตัวอย่างเช่น จากในตารางที่ 2 ข้อมูลบางแถวค่าในคอลัมน์ Grade หายไป ซึ่งจะเห็นได้ว่าถ้ามีแต่รหัสนิสิตและวิชาที่ลงทะเบียน โดยที่ไม่มีข้อมูลเกรดแล้ว เราก็ไม่สามารถจะนำแถวนั้นพิจารณาเพื่อหาความสัมพันธ์ที่น่าสนใจได้
ปรับเปลี่ยนข้อมูลให้มีค่าเหมาะสมในการตัดสินใจ เช่น จากตารางที่ 1 ข้อมูลที่เป็นที่อยู่นั้นไม่สามารถที่จะนำมาใช้โดยตรงได้ เพราะจะเป็นปัญหาดังข้อ 1.3 คือ ข้อมูลที่อยู่ของนิสิตแต่ละคนไม่ซ้ำกันเลย ดังนั้นจึงต้องปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่จะสามารถนำไปใช้ได้ ในกรณีนี้จะปรับข้อมูลในคอลัมน์ที่อยู่ของนิสิตให้เป็น Bangkok และ Non-Bangkok อย่างใดอย่างหนึ่ง เป็นต้นการจัดกลุ่มข้อมูลเพื่อลดการกระจาย (Binning Data) ทั้งนี้เนื่องมาจากข้อมูลของนิสิตมีจำนวนไม่มาก แต่เกรดในแต่ละวิชาที่สามารถมีได้นั้นมีจำนวนมากถึง 10 ตัวด้วยกันคือ {A, B+, B, C+, C, D+ ,D, F, W, I} ดังนั้นเพื่อลดการกระจายของข้อมูลเกรดของนิสิตที่มีมากเมื่อเทียบกับจำนวนนิสิต จึงได้จัดกลุ่มเกรดของนิสิตเป็น 3 กลุ่ม ดังนี้ คือ เกรด {A, B+, B} เป็น High, เกรด{C+, C} เป็น Medium และ เกรด {D+, D, F, W, I} เป็น Low 
จากตารางที่ 1 ที่เป็นข้อมูลประวัตินิสิต เราได้นำมาปรับเปลี่ยนข้อมูลบางส่วนเพื่อให้สมบูรณ์ขึ้น ได้แก่ 
-การตัดคอลัมน์ที่ไม่จำเป็นในการทำดาต้าไมน์นิงออก เช่น คอลัมน์ชื่อนิสิต เพราะชื่อนิสิตแต่ละคนไม่สามารถนำมาทำดาต้าไมน์นิงได้
-คัดเลือกเฉพาะคอลัมน์ที่คาดว่าจะสามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกคอลัมน์โรงเรียน แต่เนื่องจากชื่อโรงเรียนของนิสิตแต่ละคนมีมากมาย เราจึงต้องปรับข้อมูลโรงเรียนให้เป็นกลุ่มอย่างสมดุลเพื่อที่จะได้สามารถนำไปใช้ในการทำดาต้าไมน์นิงได้ เช่น แบ่งข้อมูลโรงเรียนเป็น 2 กลุ่ม คือ สอบเทียบ และจบจากมัธยมศึกษาปีที่ 6 โดยกำหนดว่าSchool = 0 คือจบการศึกษาจากมัธยมศึกษาปีที่ 6 และ School = 1 คือสอบเทียบ เป็นต้น
ปรับเปลี่ยนข้อมูลในบางคอลัมน์เพื่อให้สามารถนำไปไมน์นิงได้ เช่น คอลัมน์ที่อยู่
ปรับข้อมูลให้เป็นกลุ่มว่านิสิตอยู่ในกรุงเทพฯ หรือไม่ เป็นต้น 

ผลที่ได้จากการทำข้อมูลจากตารางที่ 1 ให้สมบูรณ์แสดงดังตารางที่ 3

ตารางที่ 3 ตัวอย่างข้อมูลประวัตินิสิตที่ทำให้สมบูรณ์

จากตารางที่ 3 ที่เป็นตารางข้อมูลการลงทะเบียนเรียนของนิสิต เราได้ปรับข้อมูลบางส่วนให้สมบูรณ์ขึ้น ได้แก่
    ·   การตัดบางคอลัมน์ที่ไม่น่าสนใจที่จะนำมาทำดาต้าไมน์นิงออก เช่น คอลัมน์หมู่การเรียน
    ·   จับกลุ่มข้อมูลในคอลัมน์เกรดเพื่อลดการกระจายของข้อมูล เป็นต้น

ผลที่ได้จากการทำข้อมูลในตารางที่ 2 ให้สมบูรณ์แสดงดังตารางที่ 4

 
ตารางที่ 4 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิตที่ทำให้สมบูรณ์

วัฎจักรขั้นตอนการทํางานของ Data Mining


วัฎจักรขั้นตอนการทํางานของ Data Mining 

วัฎจักรขั้นตอนการทํางานของData Miningประกอบไปด้วย 4 ขั้นตอนหลักๆ ดังนี้
   1. การระบุโอกาสทางธุรกิจหรือการระบุปัญหาที่เกิดขึ้นกับธุรกิจ
เป็นการระบุขอบเขตของข้อมูลที่จะนํามาทําการวิเคราะห์เพื่อหาความได้เปรียบทางการตลาดหรือเพื่อนํามาทําการแก้ไขปัญหา
   2. ส่วนของ Data Mining
เป็นการนําเทคนิคของ
 Data Mining ไปใช้ถ้ายทอดหรือทําการเปลี่ยนแปลงข้อมูลดิบให้อยู่ในรูปของข้อมูลที่จะนําไปใช้ได้จริงในทางธุรกิจ
  
 3. การปฏิบัติตามข้อมูล
คือการนําเอาข้อมูลที่เป็นผลลัพธ์ของส่วน
 Data Mining มาลองปฏิบัติจริงกับธุรกิจ
   4. การวัดประสิทธิภาพจากผลลัพธ์
การวัดประสิทธิภาพของเทคนิคของ
 Data Mining ที่จะนํามาใช้จากผลลัพธ์ ซึ่งสามารถตรวจสอบได้หลายทาง เช่น วัดจากส่วนแบ่งของตลาด วัดจากปริมาณลูกค่า หรือ วัดจากกําไรสุทธิ เป็นต้น จากทั้ง 4 ขั้นตอนที่กล่าวมาข้างต้นคือการนําเอา Data Mining ไปใช้กับระบบทางธุรกิจ โดยแต่ละขั้นตอนจะพึ่งพาอาศัยกันผลลัพธ์จากขั้นตอนหนึ่งจะกลายมาเป็นอินพุทจากอีกขั้นตอนต่อไป ซึ่ง Data Mining จะเปลี่ยนข้อมูลดิบให้เป็นข้อมูลประยุกต์ ดังนั้นการระบุแหล่งข้อมูลที่ถูกต้องจึงเป็นสิ่งที่สําคัญอย่างยิ่งต่อผลลัพธ์ที่ได้จากการวิเคราะห์

งานของ Data Mining (Task of data mining)


งานของ Data Mining (Task of data mining)

ในทางปฏิบัติจริง
 Data Mining จะประสบความสําเร็จกับงานบางกลุ่มเท่านั้น และต้องอยู่ภายใต้ภาวะที่จํากัดปัญหาเหมาะสมกับการใช้เทคนิคData Miningจะเป็นปัญหาที่ต้องใช้เหตุผลในการแก้ เป็นปัญหาที่เกี่ยวข้องกับเศรษฐศาสตร์และการเงิน ซึ่งจะสามารถจัดรูปแบบของธุรกิจให้อยู่ในรูปแบบของงานทั้ง 6 งานได้ ดังนี้
1. การจัดหมวดหมู่ (Classification)
2. การประเมินค่า (Estimation)
3. การทํานายล่วงหน้า (Prediction)
4. การจัดกลุ่มโดยอาศัยความใกล้ชิด (Affinity Group)
5. การรวมตัว (Clustering)
6. การบรรยาย (Description)
ไม่มีเทคนิคหรือเครื่องมือเพียงชนิดเดียวของData Miningที่เหมาะสมกับงานทุกชนิด งานในแต่ละชนิดก็จะมีเทคนิคของData Miningที่แตกต่างกันไปขึ้นอยู่กับชนิดของงาน
1.การจัดหมวดหมู่
การจัดหมวดหมู่ถือว่าเป็นงานธรรมดาทั่วไปของ
 Data Mining เพราะการทําความเข้าใจและการติดต่อสื่อสารต่างๆ ก็เกี่ยวข้องกับการแบ่งเป็นหมวดหมู่การจัดแยกประเภทและการแบ่งแยกชนิดโดยการจัดหมวดหมู่ประกอบด้วยการสํารวจจุดเด่นของวัตถุที่ปรากฏออกมา และทําการกําหนด จุดเด่นนั้นๆ เป็นตัวที่ใช้แบ่งหมวดหมู่ งานในการแบ่งหมวดหมู่คือการบ?งบอกลักษณะ โดยการอธิบายจุดเด่นที่เป็นที่รู้จักดีในหมวดหมู่นั้น และเทรนนิ่งเซต (TrAI (Artificial Intelligence) ning Set) ของตัวอย่างในแต่ละหมวดหมู่ ซึ่งมีภาระหน้าที่ในการสร้างโมเดลของบางชนิดที่ไม่สามารถจะจัดหมวดหมู่ของข้อมูลได้ ให้สามารถจัดเป็น หมวดหมู่ได้ ตัวอย่างของการจัดหมวดหมู่ เช่น การจัดหมวดหมู่ของผู้ยื่นขอเครดิต (Credits) เป็นระดับต่ำระดับกลาง และระดับสูง ของความเสี่ยงที่จะได้รับ เป็นต้น  
2. การประเมินค่า
การประเมินค่าทางธุรกิจอย่างต่อเนื่องจะก่อให้เกิดผลลัพธ์ที่มีประโยชน์กับธุรกิจ การป้อนข้อมูล
ที่เรามีอยู่เข้าไป เพื่อใช้ในการประเมินสิ่งต่างๆ ที่จะก่อให้เกิดประโยชน์ หรือสําหรับตัวแปรที่เราไม่รู้ค่า แน่นอนเช่น รายได้จากการค่า จุดสูงสุดทางธุรกิจ หรือดุลยภาพของบัตรเครดิต ในทางปฏิบัติการประเมิน ค่าจะถูกใช้ในการทํางานการจัดหมวดหมู่ ตัวอย่างของการประเมินค่าเช่น การประเมินรายได้รวมของ ครอบครัว หรือการประเมินจํานวนบุตรในครอบครัว
 
3.
 การทํานายล่วงหน้า
การทํานายล่วงหน้าก็เป็นงานที่มีลักษณะคล้ายกับการจัดหมวดหมู่หรือการประเมินค่า ยกเว้น เพียงแต่จะใช้สถิติการบันทึกของการจัดหมวดหมู่ในการทํานายอนาคตของพฤติกรรมหรือการประเมิน ค่าที่จะเกิดขึ้นในอนาคต ตัวอย่างของงานการทํานายล่วงหน้า เช่น การทํานายการเปลี่ยนแปลงพฤติกรรม ของตลาด หรือการทํานายจํานวนลูกค่าที่จะออกจากธุรกิจของเราใน
 6 เดือนข้างหน้า เป็นต้น

 4. การจัดกลุ่มโดยอาศัยความใกล้ชิดกัน หรือการวิเคราะห์ของตลาด
งานในการจัดกลุ่มหรือการวิเคราะห์ตลาด คือการตัดสินใจรวมสิ่งที่สามารถไปด้วยกันเข้าไว้ในกลุ่มเดียวกันตัวอย่างของการจัดกลุ่มโดยอาศัยความใกล้ชิดกันหรือการวิเคราะห์ตลาด เช่น การตัดสินใจว่าสิ่งใดบ้างที่จะไปอยู่ด้วยกันอย่างสม่ำเสมอในรถเข็นในซุปเปอร์มาร์เกต
5.
 การรวมตัว
การรวมตัวคืองานที่ทําการรวมส่วนต่างๆ ในแต่ละส่วนที่ต่างชนิดกันให้อยู่ในรวมกันเป็นกลุ่มย่อย หรือคลัสเตอร์
 (Clusters) โดยในแต่ละคลัสเตอร์อาจจะประกอบด้วยส่วนต่างๆที่ต่างชนิดกัน ซึ่งความแตกต่างของการรวมตัวจากการจัดหมวดหมู่คือ การรวมตัวจะไม่พึ่งพาอาศัยการกําหนดหมวดหมู่ล่วงหน้า และไม่ใช้ตัวอย่าง ข้อมูลจะรวมตัวกันบนพื้นฐานของความคล้ายในตัวเอง
  6.
 การบรรยาย
ในบางครั้งวัตถุประสงค์ของData Mining
 คือต้องการอธิบายความสับสนของฐานข้อมูลในทางที่จะเพิ่มความเข้าใจในส่วนของประชากร ผลิตภัณฑ์ หรือขบวนการให้มากขึ้น
เทคนิคData Miningส่วนใหญ่ต้องการเทรนนิ่งข้อมูลจํานวนมากที่ประกอบด้วยหลายๆ ตัวอย่างเพื่อจะสร้างกฎที่ใช้ในการจัดหมวดหมู่ กฎของความสัมพันธ์ คลัสเตอร์ การทํานายล่วงหน้า ดังนั้นชุดของข้อมูลขนาดเล็กจะนําไปสู่ความไม่น่าไว้วางใจของผลสรุปทีได้ ไม่มีเทคนิคใดเลยที่จะสามารถแก้ปัญหาของData Miningได้ทุกปัญหา ดังนั้นความหลากหลายของเทคนิคจึงเป็นสิ่งที่จําเป็นในการไปสู่วิธีการแก้ปัญหาของData Miningได้ดีที่สุด

การทำเหมืองข้อมูลเว็บ (Web Mining)


การทำเหมืองข้อมูลเว็บ (Web Mining)

          การทําเหมืองข้อมูลเว็บคือการใช้เทคนิคการทําเหมืองข้อมูลเพื่อค้นหาและสกัดข้อมูลและสารสนเทศจากเอกสารเว็บและบริการบนเว็บโดยอัตโนมัติ เพื่อนําความรู้ที่ได้มาแก้ปัญหาที่ต้องการทั้งทางตรงและทางอ้อม นอกจากนี้ยังได้แบ่งประเภทของการทําเหมืองข้อมูลเว็บโดยพิจารณาจากข้อมูลที่นํามาวิเคราะห์ออกเป็น 3 ประเภท คือ Web Content Mining, Web Structure Mining และ Web Usage Mining
          Web Content Mining เป็นการค้นหาข้อมูลที่มีประโยชน์จากข้อมูลที่อยู่ภายในเว็บ เช่น ข้อความ รูปภาพ เป็นต้น โดย Web Content Mining สามารถแบ่งออกเป็น 2 ประเภทตามมุมมองคือ มุมมองทางด้านการสืบค้นสารนิเทศ (Information Retrieval) และมุมมองทางด้านฐานข้อมูล (Database) สําหรับเป้าหมายของ Web Content Mining จากมุมมองของการสืบค้นสารนิเทศคือการทําเหมืองข้อมูลเว็บเพื่อปรับปรุงการหาข้อมูลหรือกรองข้อมูลให้ผู้ใช้โดยพิจารณาจากข้อมูลที่ผู้ใช้อ้างอิงหรือร้องขอ ในขณะที่เป้าหมายของ Web Content Mining ในมุมมองของฐานข้อมูลส่วนใหญ่พยายามจําลองข้อมูลบนเว็บและรวมข้อมูลนั้น เพื่อให้การสอบถามทํางานดีขึ้นมากกว่าการใช้คําหลักเป็นตัวค้นหาเพียงอย่างเดียว
          Web Structure Mining เป็นวิธีการที่พยายามค้นหารูปแบบโครงสร้างการเชื่อมโยงที่สําคัญและซ่อนอยู่ในเว็บ ซึ่งรูปแบบนี้จะขึ้นอยู่กับรูปแบบการเชื่อมโยงเอกสารภายในเว็บ โดยนํารูปแบบที่ได้มาใช้เพื่อจัดกลุ่มเว็บเพจและใช้สร้างข้อมูลสารสนเทศที่เป็นประโยชน์ เช่น นํามาใช้ในการปรับโครงสร้างของเว็บให้สามารถให้บริการผู้ใช้ได้อย่างรวดเร็ว
           Web Usage Mining เป็นวิธีการที่พยายามค้นหาความหมายของข้อมูลที่สร้างจากช่วงการทํางานหนึ่งของผู้ใช้หรือสร้างจากพฤติกรรมของผู้ใช้เรียกอีกชื่อหนึ่งว่า Web Log Mining โดยในขณะที่ Web Content Mining และ Web Structure Mining ใช้ประโยชน์จากข้อมูลจริง หรือข้อมูลพื้นฐานบนเว็บแต่ Web Usage Mining ทําการค้นหาความรู้จากข้อมูลการติดต่อสื่อสารระหว่างกันของผู้ใช้ที่ติดต่อกับเว็บ โดย Web Usage Mining ทําการรวบรวมข้อมูลจากบันทึกในการดําเนินการต่างๆ เช่น บันทึกการใช้งานของ Proxy (Proxy Server Log) ข้อมูลการลงทะเบียน (Registration Data) หรือข้อมูลอื่นอันเป็นผลจากการทํางานร่วมกันมาใช้วิเคราะห์ ดังนั้น Web Usage Mining จึงเป็นวิธีการทํางานที่เน้นใช้เทคนิคที่สามารถทํานายพฤติกรรมของผู้ใช้ในขณะที่ผู้ใช้ทํางานกับเว็บ กระบวนการทํางานของ Web Usage Mining สามารถแบ่งออกเป็น 2 วิธีคือ
           1. ทําการจับคู่ข้อมูลการใช้งานของเครื่องให้บริการเว็บให้อยู่ในรูปของตารางความสัมพันธ์ ก่อนที่นําข้อมูลนี้มาปรับใช้กับเทคนิคการทําเหมืองข้อมูลการใช้เว็บ  
           2. ใช้ประโยชน์จากข้อมูลในบันทึกการใช้งานโดยตรงซึ่งจะใช้เทคนิคการเตรียมข้อมูล (Preprocessing) เพื่อเตรียมข้อมูลก่อนหาความสัมพันธ์ (Pattern Discovery) และวิเคราะห์รูปแบบ (Pattern Analysis)

ส่วนประกอบของระบบการทำเหมืองข้อมูล


ส่วนประกอบของระบบการทำเหมืองข้อมูล

               สถาปัตยกรรมของระบบการทำเหมืองข้อมูล ประกอบด้วยส่วนประกอบที่สำคัญ
ดังภาพที่1

 สถาปัตยกรรมระบบการทำเหมืองข้อมูล
                -Database, Data Warehouse, World Wide Web และ Other Info Repositories เป็นแหล่งข้อมูลสำหรับการทำเหมืองข้อมูล
-Database หรือ Data Warehouse Server ทำหน้าที่นำเข้าข้อมูลตามคำขอของผู้ใช้
-Knowledge Base ได้แก่ ความรู้เฉพาะด้านในงานที่ทำจะเป็นประโยชน์ต่อการสืบค้น หรือประเมินความน่าสนใจของรูปแบบผลลัพธ์ที่ได้
-Data Mining Engine เป็นส่วนประกอบหลักประกอบด้วยโมดูลที่รับผิดชอบงานทำเหมืองข้อมูลประเภทต่างๆ ได้แก่ การหากฎความสัมพันธ์ การจำแนกประเภท การจัดกลุ่ม
-Pattern Evaluation Module ทำงานร่วมกับ Data Mining Engine โดยใช้มาตรวัดความน่าสนใจในการกลั่นกรองรูปแบบผลลัทธ์ที่ได้ เพื่อให้การค้นหามุ่งเน้นเฉพาะรูปแบบที่น่าสนใจ
                -Graphic User Interface ส่วนติดต่อประสานระหว่างผู้ใช้กับระบบการทำเหมืองข้อมูล ช่วยให้ผู้ใช้สามารถระบุงานทำเหมืองข้อมูลที่ต้องการทำ ดูข้อมูลหรือโครงสร้างการจัดเก็บข้อมูล ประเมินผลลัพธ์ที่ได้

ขั้นตอนการทำเหมืองข้อมูล


ขั้นตอนการทำเหมืองข้อมูล

             ประกอบด้วยขั้นตอนการทำงานย่อยที่จะเปลี่ยนข้อมูลดิบให้กลายเป็นความรู้ ประกอบด้วยขั้นตอนดังนี้
           -    Data Cleaning เป็นขั้นตอนสำหรับการคัดข้อมูลที่ไม่เกี่ยวข้องออกไป
           -    Data Integration เป็นขั้นตอนการรวมข้อมูลที่มีหลายแหล่งให้เป็นข้อมูลชุดเดียวกัน
           -    Data Selection เป็นขั้นตอนการดึงข้อมูลสำหรับการวิเคราะห์จากแหล่งที่บันทึกไว้
           -    Data Transformation เป็นขั้นตอนการแปลงข้อมูลให้เหมาะสมสำหรับการใช้งาน
           -    Data Mining เป็นขั้นตอนการค้นหารูปแบบที่เป็นประโยชน์จากข้อมูลที่มีอยู่
           -    Pattern Evaluation เป็นขั้นตอนการประเมินรูปแบบที่ได้จากการทำเหมืองข้อมูล
           -    Knowledge Representation เป็นขั้นตอนการนำเสนอความรู้ที่ค้นพบ โดยใช้เทคนิคในการนำเสนอเพื่อให้เข้าใจ

วิเคราะห์ข้อมูลด้วย Data Mining


วิเคราะห์ข้อมูลด้วย Data Mining

การวิเคราะห์พฤติกรรมลูกค้า โดยอาศัยเงื่อนไขเกี่ยวกับจิตวิทยาผู้บริโภคที่ยกตัวอย่างมาข้างตน ดดยปกติมักจะเป็นเรื่องที่นักการตลาดของแต่ละหน่วยงานจะต้องมานักพินิจพิเคราะห์กันเอาเอง  แต่เมื่อระบบ Data Mining ได้ถูกพัฒนาขึ้นมา มันก็ถูกนำมาใช้แทนที่แรงงานสมองของมนุษย์ ได้อย่างเหมาะเจาะลงตัว โดยมันจะจัดการวิเคราะห์รูปแบบ (pattern) แล้วจัดกลุ่มข้อมูล (cluster) ของลูกค้าที่ผ่านเข้ามาทางเว็บไซต์ให้อย่างอัตโนมัติ มีการซอยย่อยประเภทของลุกค้าออกเป็นหลายๆรูปแบบด้วยเงื่อนไขต่างๆกัน เพื่อแสวงหาความคล้ายคลึงกันระหว่างลูกค้าเหล่านั้น และเพื่อให้ผู้บริหารเว็บไซต์สามารถกำหนดรูปแบบการนำเสนอสินค้า และการประชาสัมพันธ์องค์กร ซึ่งจะเหมาะสมตรงใจลุกค้ากลุ่มเป้าหมายมากที่สุด อันจะส่งผลให้ลูกค้ากลุ่มนี้เกิดติดอกติดใจ (loyalty) และย้อนกลับมาเป็นลูกค้าขาประจำในที่สุด
พื้นฐานการทำงานหลักของระบบ Data Mining ประกอบไปด้วย 2 ส่วนสำคัญ คือ กระบวนการวิเคราะห์ทางสถิติ (statistics) และเทคโนโลยีปัญญาประดิษฐ์ (Artificial Intelligence) ซึ่งเรียนแบบกระบวนการความรู้ของมนุษย์ที่หลายคนนิยมเรียกว่า เป็นการเรียนรู้ของเครื่องจักร (machine-learning) กระนั้นก็ดี มีความพยายามนำเอารูปแบบการทำงานของ Data Mining ไปเปรียบเทียบกับกลุ่มโปรแกรมจัดการฐานข้อมูล และระบุว่าการทำงานของ Data Mining ไปเปรียบเทียบกับกลุ่มโปรแกรมจัดการฐานข้อมูล และระบุว่าการทำงานของ Data Mining นั้น ไม่เห็นจะมีอะไรโดดเด่นเป็นพิเศษเลย แค่เป็นการจับโน่นมานิดจับนี้มาหน่อย จากบรรดาโปรแกรมจัดการฐานข้อมูลที่มีๆใช้งานอยู่แล้ว ไม่ว่าจะเป็น database query program, report generators, และ statistical packages ฯลฯ
อย่างไรก็ตาม นั่นกลับยิ่งเป็นการแสดงให้เห็นประสิทธิภาพของโปรแกรม Data Mining ให้เห็นชัดแจ้งยิ่งขึ้นในฐานะที่มันสามารถเรียนรู้และดึงเอารูปแบบการจัดการฐานข้อมูลลักษณะต่างๆ ที่ได้รับความนิยมใช้งานอยู่โดยทั่วไปอยู่แล้ว มาประยุกต์ใช้ร่วมกันได้อย่างอัตโนมัติ แถมยังจัดแจงสรุปผลลัพธ์ออกมาในรูปภาษาอังกฤษตามมาตรฐานไวยากรณ์ที่มนุษย์มนาทั่วๆไปรู้จักคุ้นเคยกันเป็นอย่างดีอยู่แล้ว ผู้ใช้โปรแกรม Data Mining จึงไม่จำเป็นต้องมานั่งกำหนดรูปแบบเงื่อนไขการวิเคราะห์ให้ยุ่งยากปวดสมองและเมื่อได้ผลวิเคราะห์ออกมาก็สามารถนำไปใช้งานต่อได้ทันที ตัวอย่างง่ายๆ ของข้อมูลที่เราอาจจะได้จากการวิเคราะห์ของโปรแกรม Data Mining ก็เช่น
ถ้าหาก มีลูกค้ากลุ่มหนึ่งใช้บริการขององค์กรมาตั้งแต่ ค.ศ. 1994 และเป็นลูกค้าที่มีเครดิตชำระด้วยระบบเงินเชื่อระหว่าง $1500-$3300 มันก็มีความเป็นไปได้สูงที่ลูกค้ากลุ่มนี้น่าจะซื้อสินค้าจากองค์กรของเราได้ในเกณฑ์ $900
ผลวิเคราะห์ทำนองนี้ แม้ว่าจะดูง่ายๆ แต่อย่าลืมว่ามันมิได้เป็นรูปแบบเดียวที่โปรแกรม Data Mining สามารถวิเคราะห์ได้ มันเป็นเพียงหนึ่งในร้อยหนึ่งในพันของรูปแบบวิเคราะห์ที่โปรแกรมดึงมาเปรียบเทียบข้อมูลจำนวนมหาศาลในฐานข้อมูล โดยอัลกอริทึมหลักๆที่มีการนำมาประยุกต์ใช้กับโปรแกรม Data Mining นั้น ได้แก่ CART, CHAD, ID3, และ C4.5 ฯลฯ สมมติง่ายๆ เหมือนว่าเรามีข้อมูลอยู่เพียงสองประเภทในฐานข้อมูล เป็นข้อมูลลูกค้าแทนด้วยอักษร c และข้อมูลของผู้ที่มิใช่ลูกค้าแทนที่ด้วยตัวอักษร n วางกระจัดกระจายอยู่บนโต๊ะ เจ้าแรแกรม Data mining ก็จะเข้ามาจัดแบ่งกลุ่มข้อมูลเหล่านี้ออกเป็นกลุ่มย่อยๆ ซึ่งมีรูปแบบการจัดวางลักษณะเดียวกัน โดยอาจจะรองวางกรอบกลุ่มย่อยเหล่านี้ในลักษณะต่างๆ เช่น ลองใช้กรอบสามเหลี่ยมสี่เหลี่ยมผืนผ้าบ้าง จัตุรัส วงกลมหรือวงรีบ้างตามแต่ความเหมาะสม
ผลการศึกษาเปรียบเทียบรูปแบบที่คล้ายคลึงกันระหว่างข้อมูลลูกค้า และผู้เข้าเยี่ยมชมเว็บไซต์ด้วยอัลกอริทึมหลายๆลักษณะ เช่น จากผลการวิเคราะห์ด้วยเงื่อนไขดังนี้
IF ZIP CODE (93011-94123)
AND REGISTRATION NO.(0051-0943)
AND USER ID NO. (4566jk33-4558dl01)
THEN /WEBSELL/PRODUCT8.HTM 87%
โปรแกรม Data Mining ก็อาจจะสรุปมาให้เสร็จสรรพเลยว่า ในบรรดาผู้สมัครสมาชิกกับเว็บไซต์จำนวนเกือบเก้าร้อยคน (Reg NO 0051-0943) ซึ่งมีที่อยู่อาศัยในเขตไปรษณีย์ 93011-94123 ของมลรัฐแคลิฟอร์เนียนั้นกว่า 87% จะต้องแวะเวียนเข้าไปที่เว็บเพจดังกล่าว ต้องมีสิ่งดึงดูดใจลูกค้าเหล่านี้มากพอสมควรทีเดียว ฉะนั้น หากจะมีการปรับปรุงดีไซต์รูปแบบของเว็บไซต์ใหม่ ก็อาจจะนำเอาจุดเด่นดังกล่าวมาใช้ในการออกแบบด้วย หรือหากไม่ต้องการปรับปรุงอะไรมาก ผู้ควบคุมเว็บไซต์ก็ควรจะหาทางใช้ประโยชน์ข้อสรุปที่ได้จาก Data mining  ให้มากที่สุด ทำนองว่าอยากจะโฆษณาประชาสัมพันธ์อะไรไปสู่ลูกค้าในเขตพื้นที่รหัสไปรษณีย์ 93011-94123 ก็เห็นจะต้องใช้เว็บเพจ produc8.htm นี่แหละ
นอกจากนั้นระบบ Data mining ยังเปิดโอกาสให้มีการเปรียบเทียบข้อมูลระหว่างเพจต่อเพจได้อีกด้วย  เช่น อาจจะยกข้อมูลจากเว็บเพจ produc8.htm ที่ได้กล่าวมาข้างต้น ไปเปรียบเทียบกับข้อมูลจากเว็บเพจ produc5.htm และเว็บเพจ order_form.htm ต่อไปอีก ซึ่งก็จะทำให้ได้ผลลัพธ์ที่ยิ่งน่าสนใจขึ้นไปอีก โดยเฉพาะข้อมูลจากเว็บเพจ order_form.htm นั้น บอกให้ผู้บริหารเว็บไซต์รู้ได้อย่างชัดเจนว่ามีผู้เยี่ยมชมเว็บไซต์ผ่านเพจ produc8.htm ถึงกว่า 83% ซึ่งตกลงปลงใจซื้อหาบริการจากหน่วยงานของเราในที่สุด โดยอาศัยแบบฟอร์มสั่งซื้อสินค้าที่บรรจุอยู่ในเพจ order_form.htm ดังรายละเอียดต่อไปนี้
                IF ZIP CODE (93001 - 94123)
                AND REGISTRATION NO. (0051-0943)
                AND PRIOR PAGE /WEBSELL/PRODUCT8.HTM
THEN /WEBSELL/PRODUCT5.HTM 73%

และ
IF ZIP CODE (93011-94123)
AND REGISTERATION NO. (0051-0943)
AND PRIOR PAGE /WEBSELL/PRODUCT8.HTM
THEN /WEBSELL/ORDER_FORM.HTM 83%

การประยุกต์ใช้งาน Data Mining


การประยุกต์ใช้งาน  Data Mining              
- ธุรกิจค้าปลีกสามารถใช้งาน Data Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจกับผู้บริโภคในรูปแบบต่าง ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่มยอดขายได้ เช่นที่ Midas ซึ่งเป็นผู้แทนจำหน่ายอะไหล่สำหรับอุตสาหกรรมรถยนต์ งานที่ต้องทำคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด ซึ่งจะต้องทำการรวบรวมและวิเคราะห์อย่างทันท่วงที
- กิจการโทรคมนาคม เช่นที่ Bouygues Telecom ได้นำมาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น คาบเวลาที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ และคาดการณ์ข้อบกพร่องที่เป็นไปได้ในการชำระเงิน เทคนิคนี้ยังได้ถูกนำมาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน France Telecom ได้ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและพัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
- การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้างโมเดลด้วยเทคนิค Data Mining และใช้โมเดลในการทำนายราคาผลิตภัณฑ์ตัวอื่น ๆ
- การวิเคราะห์บัตรเครดิต
        - ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
        - แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่ำ ปานกลาง หรือสูง
        - ป้องกันปัญหาเรื่องการทุจริตบัตรเครดิต
- การวิเคราะห์ลูกค้า
         - ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตามกลุ่มเป้าหมายแต่ละกลุ่ม
         - ทำนายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
- การวิเคราะห์การขาย
         - พบว่า 70 % ของลูกค้าที่ซื้อโทรทัศน์แล้วจะซื้อวิดีโอตามมา ดังนั้นผู้จัดการจึงควรมุ่งไป ลูกค้าที่ซื้อโทรทัศน์ แล้วจึง              ส่งเมล์ไปยังลูกค้าเหล่านั้นเพื่อที่จะเชิญชวน หรือให้ข้อเสนอที่ดี เพื่อให้ลูกค้ามาซื้อวิดีโอในครั้งต่อไป
         - ช่วยในการโฆษณาสินค้าได้อย่างเหมาะสมและตรงตามเป้าหมาย
         - ช่วยในการจัดวางสินค้าได้อย่างเหมาะสม
-  Text Mining
           เป็นการปรับใช้ Data Mining มาอยู่ในรูปของข้อมูลตัวอักษรซึ่งเป็นรูปแบบของภาษาเครื่อง SDP  Infoware ตัวอย่างของงานคือใช้เป็นเครื่องมือตรวจระดับความพึงพอใจของผู้ที่เข้าชมนิทรรศการโดยผ่านการประมวลผลจากแบบสอบถาม
- E-Commerce
         - ช่วยให้เข้าใจพฤติกรรมของลูกค้า เช่น ลูกค้ามักเข้าไปที่ web ใดตามลำดับก่อนหลัง
         - ช่วยในการปรับปรุง web site เช่น พิจารณาว่าส่วนใดของ web ที่ควรปรับปรุงหรือควรเรียงลำดับการเชื่อมโยงในแต่ละหน้าอย่างไรเพื่อให้สะดวกกับผู้เข้าเยี่ยมชม

ตัวอย่างการประยุกต์ Data Mining ทางด้านการศึกษา

เราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่างๆ นิสิตที่ได้ถูกจัดเก็บไว้ในเวลานาน แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้อย่างดี โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร
เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา ต่อมาเราต้องหาเป้าหมาย (Mining Objective) ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้างเช่น ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงมาช่วยนิสิตในการเลือกสาขาวิชาต่างๆมากมายกว่า 10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่ เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิตโดยความรู้ (knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้
เมื่อเราได้เป้าหมายในการทำดาต้าไมน์นิงแล้ว เราก็ต้องมาหาข้อมูลนิสิตกันสมมุติว่าเราได้ข้อมูลนิสิตย้อนหลังทั้งหมด 10 ปี มีทั้งหมด 2 ส่วน คือ ข้อมูลประวัติส่วนตัวนิสิตดังตารางที่ 1 และข้อมูลการลงทะเบียนเรียนในแต่ละรายวิชาของนิสิตดังตารางที่ 2

ID
Sex
ชื่อ
Address
SchoolGPA
Major
GPA
1
นาย

วิโรจน์ พัฒนากุล

86/9 หมู่ 2 ...
2.5
...
ไฟฟ้า
2.3
2
น.ส.
ดวงพร เอี่ยมสุข
54/2 หมู่ 7 ...
3.4
...
โยธา
3.2
ตารางที่ 1 ตัวอย่างข้อมูลประวัติส่วนตัวนิสิต

จากตารางที่ 1 เป็นตัวอย่างข้อมูลประวัติส่วนตัวต่างๆ ของนิสิต เช่น รหัสประจำตัวนิสิต ชื่อ เพศสัญชาติ ที่อยู่ วันเกิด สถานภาพทางครอบครัว คะแนนสอบเข้า ผลการเรียนระดับมัธยม สาขาวิชาที่นิสิตศึกษาอยู่ เกรดเฉลี่ยสะสมจนถึงปีปัจจุบัน ฯลฯ

ID
Subject
Section
Term
Year
Grade
1
001
1
1
2537
C+
1
002
1
1
2537
D
1
005
1
1
2537
B+
ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิต

จากตารางที่ 2 เป็นตารางข้อมูลการลงทะเบียนของนิสิตในแต่ละรายวิชา ในแต่ละภาคการศึกษา พร้อมทั้งหมู่ที่เรียน และผลการเรียนในรายวิชานั้นๆ ของนิสิตแต่ละคน
เมื่อเราได้ข้อมูลทั้งหมดแล้ว ขั้นต่อมาก็คือ การเตรียมข้อมูลเพื่อให้พร้อมที่จะนำไปทำดาต้าไมน์นิง ซึ่งแบ่งเป็นขั้นต่างๆ ได้ดังนี้


1. การทำข้อมูลให้สมบูรณ์ (data cleaning)
ข้อมูลที่ได้มานั้น เป็นข้อมูลที่ยังไม่สมบูรณ์ ที่จะสามารถนำไปใช้ผ่านกระบวนการดาต้าไมน์นิงได้ จึงต้องมีการจัดการข้อมูล การเตรียมข้อมูลเบื้องต้น มีวิธีการดังนี้
-เลือกเฉพาะคอลัมน์สำคัญที่คาดว่าจะสามารถนำมาใช้ประโยชน์ได้ และเป็นคอลัมน์ที่มีข้อมูลค่อนข้างครบถ้วน เมื่อเทียบกับจำนวนนิสิต เช่น จากในตรารางที่ 1 คอลัมน์สำคัญที่มีข้อมูลค่อนข้างมาก ได้แก่ ข้อมูลรหัสนิสิต ที่อยู่ อายุ เพศ ประวัติครอบครัวโรงเรียน เกรดเฉลี่ยที่จบการศึกษาในมหาวิทยาลัย เป็นต้น  ส่วนในบางคอลัมน์ที่มีความสำคัญ แต่มีข้อมูลน้อยมากนั้นจะไม่นำพิจารณา เช่น ข้อมูลคะแนนสอบเอ็นทรานซ์ในแต่ละวิชา เหตุผลในการสอบเข้า เป็นต้น
สำหรับคอลัมน์ที่มีค่าสำหรับทุกแถวเป็นค่าเดียวกัน เช่น สัญชาติไทยจะเป็นข้อมูลที่ไม่สามารถแยกความแตกต่างของแต่ละแถวได้เลย ดังนั้นในการทำดาต้าไมน์นิงจะไม่สามรถใช้ประโยชน์จากคอลัมน์นี้ ดังนั้น จึงไม่นำคอลัมน์นี้มาพิจารณา
คอลัมน์ที่มีค่าที่ไม่ซ้ำกันเลย จากตารางที่ 1 ได้แก่ ชื่อผู้ปกครอง หมายเลขโทรศัพท์  เป็นต้นข้อมูลเหล่านี้ไม่สามารถหาแถวที่มีข้อมูลสัมพันธ์กันได้เลย การทำดาต้าไมน์นิงจึงไม่สามารถนำข้อมูล เหล่านี้มาใช้ประโยชน์ได้ ดังนั้นในการทำดาต้าไมน์นิงควรจำกัดคอลัมน์ที่มีข้อมูลไม่ซ้ำกันเลยออก
-แก้ไขข้อมูลให้ถูกต้องสมบูรณ์ ได้แก่ การแก้ไขค่าว่างของข้อมูล ซึ่งสามารถแก้ไขได้หลายวิธี เช่น แก้ไขโดยจำกัดข้อมูลที่ในแถวเป็นค่าว่าง (NULL) ยกตัวอย่างเช่น จากในตารางที่ 2 ข้อมูลบางแถวค่าในคอลัมน์ Grade หายไป ซึ่งจะเห็นได้ว่าถ้ามีแต่รหัสนิสิตและวิชาที่ลงทะเบียน โดยที่ไม่มีข้อมูลเกรดแล้ว เราก็ไม่สามารถจะนำแถวนั้นพิจารณาเพื่อหาความสัมพันธ์ที่น่าสนใจได้
-ปรับเปลี่ยนข้อมูลให้มีค่าเหมาะสมในการตัดสินใจ เช่น จากตารางที่ 1 ข้อมูลที่เป็นอยู่นั้นไม่สามารถที่จะนำไปใช้โดยตรงได้ เพราะจะเป็นปัญหาดังข้อ 1.3 คือ ข้อมูลที่อยู่ของนิสิตแต่ละคนไม่ซ้ำกันเลย ดังนั้นจึงต้องปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่จะสามารถนำไปใช้ได้ ในกรณีนี้จะปรับข้อมูลในคอลัมน์ที่อยู่ของนิสิตให้เป็น Bangkok และ Non-Bangkok อย่างใดอย่างหนึ่ง เป็นต้น
การจัดกลุ่มข้อมูลเพื่อลดการกระจาย (Binning Data) ทั้งนี้เนื่องมาจากข้อมูลของนิสิตมีจำนวนไม่มาก แต่เกรดในแต่ละวิชา ที่สามารถมีได้นั้นมีจำนวนมากถึง 10 ตัวด้วยกันคือ {A,B+,B,C+,C,D+,D,F,W,I}ดังนั้นเพื่อลดการกระจายของข้อมูลเกรดของนิสิตที่มีมากเมื่อเทียบกับจำนวนนิสิต จึงได้จัดกลุ่มเกรดของนิสิตเป็น 3 กลุ่ม ดังนี้ คือ เกรด {A,B+,B}เป็น High , เกรด {C+,C}เป็น Meduim และ เกรด {D+,D,F,W,I}เป็น Low
จากตารางที่ 1 ที่เป็นข้อมูลประวัตินิสิต เราได้นำมาปรับเปลี่ยนข้อมูลบางส่วนเพื่อให้สมบูรณ์ขึ้นได้แก่
-การตัดคอลัมน์ที่ไม่จำเป็นในการทำดาต้าไมน์นิงออก เช่น คอลัมน์ชื่อนิสิต เพราะ ชื่อนิสิตแต่ละคนไม่สามารถนำมาทำดาต้าไมน์นิงได้
-คัดเลือกเฉพาะคอลัมน์ที่คาดว่าจะสามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกคอลัมน์โรงเรียน แต่เนื่องจากชื่อโรงเรียนของนิสิตแต่ละคนมีมากมาย เราจึงต้องปรับข้อมูลโรงเรียนให้เป็นกลุ่มอย่างสมดุลเพื่อที่จะได้สามารถนำไปใช้ในการทำดาต้าไมน์นิงได้ เช่น แบ่งข้อมูลโรงเรียนเป็น 2 กลุ่ม คือ สอบเทียบ และจบจากมัธยมศึกษาปีที่ 6 โดยกำหนดว่า School = 0 คือจบการศึกษาจากมัธยมศึกษาปีที่ 6 และ School = 1 คือสอบเทียบ เป็นต้น
-ปรับเปลี่ยนข้อมูลในบางคอลัมน์เพื่อให้สามารถนำไปไมน์นิงได้ เช่น คอลัมน์ที่อยู่ปรับข้อมูลให้เป็นกลุ่มว่านิสิตอยู่ในกรุงเทพฯ หรือไม่ เป็นต้น
ผลที่ได้จากการทำข้อมูลจากตารางที่ 1 ให้สมบูรณ์แสดงดังตารางที่ 3

ID
Sex
Term
School
Major
GPA
1
Female
Bangkok
1
ELEC
2.3
2
Male
Non-Bangkok
0
CIVIL
3.2
ตารางที่ 3 ตัวอย่างข้อมูลประวัตินิสิตที่ทำให้สมบูรณ์

จากตารางที่ 2 ที่เป็นตารางข้อมูลการลงทะเบียนเรียนของนิสิต เราได้ปรับข้อมูลบางส่วนให้สมบูรณ์ขึ้นได้แก่
-การตัดบางคอลัมน์ที่ไม่น่าสนใจที่จะนำมาทำดาต้าไมน์นิงออก เช่น คอลัมน์หมู่การเรียน
-จับกลุ่มข้อมูลในคอลัมน์เกรดเพื่อลดการกระจายของข้อมูล เป็นต้น
ผลที่ได้จากการทำข้อมูลในตารางที่ 2 ให้สมบูรณ์แสดงดังตารางที่ 4

ID
Subject
Term
Year
Grade
1
001
1
2537
Meduim
1
002
1
2537
Low
1
005
1
2537
High
ตารางที่ 4 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิตที่ทำให้สมบูรณ์

1.การคัดเลือกข้อมูล (Data Selection)
เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้ เช่น
-คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์ และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้น
-คัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่ สาขาวิชาวิศวกรรมเคมี สาขาวิศวกรรมโยธา สาขาวิชาวิศวกรรมคอมพิวเตอร์  สาขาวิศวกรรมไฟฟ้า สาขาวิศวกรรมอุตสาหการ และสาขาวิศวกรรมเครื่องกล สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่างๆ อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่นๆ ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อมูลผิดพลาดได้ในการทดสอบได้
หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้วจะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น
1.การปรับเปลี่ยนรูปแบบข้อมูล(Data Transformation)
จากตารางที่ 4 จะเห็นได้ว่าข้อมูลอยู่ในระดับรายวิชา เพื่อให้ได้ตรงตามเป้าหมายที่ต้องการจะศึกษาพฤติกรรมและลักษณะของนอสิตแต่ละคน เราจะต้องแปลงข้อมูลให้อยู่ในระดับของนิสิต โดยแบ่งกลุ่มของวิชาต่างๆ จากนั้นจะนำตารางที่ 3 และ 4 มารวมกัน ทำให้ได้เป็นตารางข้อมูลนิสิตขั้นต้นที่แต่ละแถวของตารางแสดงทั้งประวัติส่วนตัวของนิสิตและผลการเรียนของนิสิตในแต่ละรายวิชา เพื่อที่เราจะได้สามารถนำตารางนี้ไปปรับเปลี่ยนเพื่อให้เหมาะสมกับเทคนิคต่างๆ ของดาต้าไมน์นิงต่อไป ผลลัพธ์ที่ได้ทั้งหมดแสดงได้ดังตารางที่ 5

ID
Sex
Address
001
002
Major
GPA
1
Male
Bangkok
Meduim
Low
ELEC
2.3
2
Female
Non-Bangkok
High
High
CIVIL
3.2
ตารางที่ 5 ตัวอย่างตารางข้อมูลนิสิตที่ขั้นต้น

จากข้อมูลในตารางที่ 5 นี้ถือได้ว่าเป็นข้อมูลเบื้องต้นในรูปแบบสมบูรณ์ที่พร้อมจะนำไปทำดาต้าไมน์นิงแล้ว แต่เราอาจต้องปรับเปลี่ยนรูปแบบของข้อมูลเพื่อให้เหมาะสมกับแต่ละเทคนิคของดาต้าไมน์นิงที่เราจะเลือกใช้