หน้าเว็บ

วันเสาร์ที่ 3 มีนาคม พ.ศ. 2555

การประยุกต์ใช้งาน Data Mining


การประยุกต์ใช้งาน  Data Mining              
- ธุรกิจค้าปลีกสามารถใช้งาน Data Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจกับผู้บริโภคในรูปแบบต่าง ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่มยอดขายได้ เช่นที่ Midas ซึ่งเป็นผู้แทนจำหน่ายอะไหล่สำหรับอุตสาหกรรมรถยนต์ งานที่ต้องทำคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด ซึ่งจะต้องทำการรวบรวมและวิเคราะห์อย่างทันท่วงที
- กิจการโทรคมนาคม เช่นที่ Bouygues Telecom ได้นำมาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น คาบเวลาที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ และคาดการณ์ข้อบกพร่องที่เป็นไปได้ในการชำระเงิน เทคนิคนี้ยังได้ถูกนำมาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน France Telecom ได้ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและพัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
- การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้างโมเดลด้วยเทคนิค Data Mining และใช้โมเดลในการทำนายราคาผลิตภัณฑ์ตัวอื่น ๆ
- การวิเคราะห์บัตรเครดิต
        - ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
        - แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่ำ ปานกลาง หรือสูง
        - ป้องกันปัญหาเรื่องการทุจริตบัตรเครดิต
- การวิเคราะห์ลูกค้า
         - ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตามกลุ่มเป้าหมายแต่ละกลุ่ม
         - ทำนายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
- การวิเคราะห์การขาย
         - พบว่า 70 % ของลูกค้าที่ซื้อโทรทัศน์แล้วจะซื้อวิดีโอตามมา ดังนั้นผู้จัดการจึงควรมุ่งไป ลูกค้าที่ซื้อโทรทัศน์ แล้วจึง              ส่งเมล์ไปยังลูกค้าเหล่านั้นเพื่อที่จะเชิญชวน หรือให้ข้อเสนอที่ดี เพื่อให้ลูกค้ามาซื้อวิดีโอในครั้งต่อไป
         - ช่วยในการโฆษณาสินค้าได้อย่างเหมาะสมและตรงตามเป้าหมาย
         - ช่วยในการจัดวางสินค้าได้อย่างเหมาะสม
-  Text Mining
           เป็นการปรับใช้ Data Mining มาอยู่ในรูปของข้อมูลตัวอักษรซึ่งเป็นรูปแบบของภาษาเครื่อง SDP  Infoware ตัวอย่างของงานคือใช้เป็นเครื่องมือตรวจระดับความพึงพอใจของผู้ที่เข้าชมนิทรรศการโดยผ่านการประมวลผลจากแบบสอบถาม
- E-Commerce
         - ช่วยให้เข้าใจพฤติกรรมของลูกค้า เช่น ลูกค้ามักเข้าไปที่ web ใดตามลำดับก่อนหลัง
         - ช่วยในการปรับปรุง web site เช่น พิจารณาว่าส่วนใดของ web ที่ควรปรับปรุงหรือควรเรียงลำดับการเชื่อมโยงในแต่ละหน้าอย่างไรเพื่อให้สะดวกกับผู้เข้าเยี่ยมชม

ตัวอย่างการประยุกต์ Data Mining ทางด้านการศึกษา

เราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่างๆ นิสิตที่ได้ถูกจัดเก็บไว้ในเวลานาน แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้อย่างดี โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร
เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา ต่อมาเราต้องหาเป้าหมาย (Mining Objective) ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้างเช่น ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงมาช่วยนิสิตในการเลือกสาขาวิชาต่างๆมากมายกว่า 10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่ เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิตโดยความรู้ (knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้
เมื่อเราได้เป้าหมายในการทำดาต้าไมน์นิงแล้ว เราก็ต้องมาหาข้อมูลนิสิตกันสมมุติว่าเราได้ข้อมูลนิสิตย้อนหลังทั้งหมด 10 ปี มีทั้งหมด 2 ส่วน คือ ข้อมูลประวัติส่วนตัวนิสิตดังตารางที่ 1 และข้อมูลการลงทะเบียนเรียนในแต่ละรายวิชาของนิสิตดังตารางที่ 2

ID
Sex
ชื่อ
Address
SchoolGPA
Major
GPA
1
นาย

วิโรจน์ พัฒนากุล

86/9 หมู่ 2 ...
2.5
...
ไฟฟ้า
2.3
2
น.ส.
ดวงพร เอี่ยมสุข
54/2 หมู่ 7 ...
3.4
...
โยธา
3.2
ตารางที่ 1 ตัวอย่างข้อมูลประวัติส่วนตัวนิสิต

จากตารางที่ 1 เป็นตัวอย่างข้อมูลประวัติส่วนตัวต่างๆ ของนิสิต เช่น รหัสประจำตัวนิสิต ชื่อ เพศสัญชาติ ที่อยู่ วันเกิด สถานภาพทางครอบครัว คะแนนสอบเข้า ผลการเรียนระดับมัธยม สาขาวิชาที่นิสิตศึกษาอยู่ เกรดเฉลี่ยสะสมจนถึงปีปัจจุบัน ฯลฯ

ID
Subject
Section
Term
Year
Grade
1
001
1
1
2537
C+
1
002
1
1
2537
D
1
005
1
1
2537
B+
ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิต

จากตารางที่ 2 เป็นตารางข้อมูลการลงทะเบียนของนิสิตในแต่ละรายวิชา ในแต่ละภาคการศึกษา พร้อมทั้งหมู่ที่เรียน และผลการเรียนในรายวิชานั้นๆ ของนิสิตแต่ละคน
เมื่อเราได้ข้อมูลทั้งหมดแล้ว ขั้นต่อมาก็คือ การเตรียมข้อมูลเพื่อให้พร้อมที่จะนำไปทำดาต้าไมน์นิง ซึ่งแบ่งเป็นขั้นต่างๆ ได้ดังนี้


1. การทำข้อมูลให้สมบูรณ์ (data cleaning)
ข้อมูลที่ได้มานั้น เป็นข้อมูลที่ยังไม่สมบูรณ์ ที่จะสามารถนำไปใช้ผ่านกระบวนการดาต้าไมน์นิงได้ จึงต้องมีการจัดการข้อมูล การเตรียมข้อมูลเบื้องต้น มีวิธีการดังนี้
-เลือกเฉพาะคอลัมน์สำคัญที่คาดว่าจะสามารถนำมาใช้ประโยชน์ได้ และเป็นคอลัมน์ที่มีข้อมูลค่อนข้างครบถ้วน เมื่อเทียบกับจำนวนนิสิต เช่น จากในตรารางที่ 1 คอลัมน์สำคัญที่มีข้อมูลค่อนข้างมาก ได้แก่ ข้อมูลรหัสนิสิต ที่อยู่ อายุ เพศ ประวัติครอบครัวโรงเรียน เกรดเฉลี่ยที่จบการศึกษาในมหาวิทยาลัย เป็นต้น  ส่วนในบางคอลัมน์ที่มีความสำคัญ แต่มีข้อมูลน้อยมากนั้นจะไม่นำพิจารณา เช่น ข้อมูลคะแนนสอบเอ็นทรานซ์ในแต่ละวิชา เหตุผลในการสอบเข้า เป็นต้น
สำหรับคอลัมน์ที่มีค่าสำหรับทุกแถวเป็นค่าเดียวกัน เช่น สัญชาติไทยจะเป็นข้อมูลที่ไม่สามารถแยกความแตกต่างของแต่ละแถวได้เลย ดังนั้นในการทำดาต้าไมน์นิงจะไม่สามรถใช้ประโยชน์จากคอลัมน์นี้ ดังนั้น จึงไม่นำคอลัมน์นี้มาพิจารณา
คอลัมน์ที่มีค่าที่ไม่ซ้ำกันเลย จากตารางที่ 1 ได้แก่ ชื่อผู้ปกครอง หมายเลขโทรศัพท์  เป็นต้นข้อมูลเหล่านี้ไม่สามารถหาแถวที่มีข้อมูลสัมพันธ์กันได้เลย การทำดาต้าไมน์นิงจึงไม่สามารถนำข้อมูล เหล่านี้มาใช้ประโยชน์ได้ ดังนั้นในการทำดาต้าไมน์นิงควรจำกัดคอลัมน์ที่มีข้อมูลไม่ซ้ำกันเลยออก
-แก้ไขข้อมูลให้ถูกต้องสมบูรณ์ ได้แก่ การแก้ไขค่าว่างของข้อมูล ซึ่งสามารถแก้ไขได้หลายวิธี เช่น แก้ไขโดยจำกัดข้อมูลที่ในแถวเป็นค่าว่าง (NULL) ยกตัวอย่างเช่น จากในตารางที่ 2 ข้อมูลบางแถวค่าในคอลัมน์ Grade หายไป ซึ่งจะเห็นได้ว่าถ้ามีแต่รหัสนิสิตและวิชาที่ลงทะเบียน โดยที่ไม่มีข้อมูลเกรดแล้ว เราก็ไม่สามารถจะนำแถวนั้นพิจารณาเพื่อหาความสัมพันธ์ที่น่าสนใจได้
-ปรับเปลี่ยนข้อมูลให้มีค่าเหมาะสมในการตัดสินใจ เช่น จากตารางที่ 1 ข้อมูลที่เป็นอยู่นั้นไม่สามารถที่จะนำไปใช้โดยตรงได้ เพราะจะเป็นปัญหาดังข้อ 1.3 คือ ข้อมูลที่อยู่ของนิสิตแต่ละคนไม่ซ้ำกันเลย ดังนั้นจึงต้องปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่จะสามารถนำไปใช้ได้ ในกรณีนี้จะปรับข้อมูลในคอลัมน์ที่อยู่ของนิสิตให้เป็น Bangkok และ Non-Bangkok อย่างใดอย่างหนึ่ง เป็นต้น
การจัดกลุ่มข้อมูลเพื่อลดการกระจาย (Binning Data) ทั้งนี้เนื่องมาจากข้อมูลของนิสิตมีจำนวนไม่มาก แต่เกรดในแต่ละวิชา ที่สามารถมีได้นั้นมีจำนวนมากถึง 10 ตัวด้วยกันคือ {A,B+,B,C+,C,D+,D,F,W,I}ดังนั้นเพื่อลดการกระจายของข้อมูลเกรดของนิสิตที่มีมากเมื่อเทียบกับจำนวนนิสิต จึงได้จัดกลุ่มเกรดของนิสิตเป็น 3 กลุ่ม ดังนี้ คือ เกรด {A,B+,B}เป็น High , เกรด {C+,C}เป็น Meduim และ เกรด {D+,D,F,W,I}เป็น Low
จากตารางที่ 1 ที่เป็นข้อมูลประวัตินิสิต เราได้นำมาปรับเปลี่ยนข้อมูลบางส่วนเพื่อให้สมบูรณ์ขึ้นได้แก่
-การตัดคอลัมน์ที่ไม่จำเป็นในการทำดาต้าไมน์นิงออก เช่น คอลัมน์ชื่อนิสิต เพราะ ชื่อนิสิตแต่ละคนไม่สามารถนำมาทำดาต้าไมน์นิงได้
-คัดเลือกเฉพาะคอลัมน์ที่คาดว่าจะสามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกคอลัมน์โรงเรียน แต่เนื่องจากชื่อโรงเรียนของนิสิตแต่ละคนมีมากมาย เราจึงต้องปรับข้อมูลโรงเรียนให้เป็นกลุ่มอย่างสมดุลเพื่อที่จะได้สามารถนำไปใช้ในการทำดาต้าไมน์นิงได้ เช่น แบ่งข้อมูลโรงเรียนเป็น 2 กลุ่ม คือ สอบเทียบ และจบจากมัธยมศึกษาปีที่ 6 โดยกำหนดว่า School = 0 คือจบการศึกษาจากมัธยมศึกษาปีที่ 6 และ School = 1 คือสอบเทียบ เป็นต้น
-ปรับเปลี่ยนข้อมูลในบางคอลัมน์เพื่อให้สามารถนำไปไมน์นิงได้ เช่น คอลัมน์ที่อยู่ปรับข้อมูลให้เป็นกลุ่มว่านิสิตอยู่ในกรุงเทพฯ หรือไม่ เป็นต้น
ผลที่ได้จากการทำข้อมูลจากตารางที่ 1 ให้สมบูรณ์แสดงดังตารางที่ 3

ID
Sex
Term
School
Major
GPA
1
Female
Bangkok
1
ELEC
2.3
2
Male
Non-Bangkok
0
CIVIL
3.2
ตารางที่ 3 ตัวอย่างข้อมูลประวัตินิสิตที่ทำให้สมบูรณ์

จากตารางที่ 2 ที่เป็นตารางข้อมูลการลงทะเบียนเรียนของนิสิต เราได้ปรับข้อมูลบางส่วนให้สมบูรณ์ขึ้นได้แก่
-การตัดบางคอลัมน์ที่ไม่น่าสนใจที่จะนำมาทำดาต้าไมน์นิงออก เช่น คอลัมน์หมู่การเรียน
-จับกลุ่มข้อมูลในคอลัมน์เกรดเพื่อลดการกระจายของข้อมูล เป็นต้น
ผลที่ได้จากการทำข้อมูลในตารางที่ 2 ให้สมบูรณ์แสดงดังตารางที่ 4

ID
Subject
Term
Year
Grade
1
001
1
2537
Meduim
1
002
1
2537
Low
1
005
1
2537
High
ตารางที่ 4 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิตที่ทำให้สมบูรณ์

1.การคัดเลือกข้อมูล (Data Selection)
เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้ เช่น
-คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์ และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้น
-คัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้ เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่ สาขาวิชาวิศวกรรมเคมี สาขาวิศวกรรมโยธา สาขาวิชาวิศวกรรมคอมพิวเตอร์  สาขาวิศวกรรมไฟฟ้า สาขาวิศวกรรมอุตสาหการ และสาขาวิศวกรรมเครื่องกล สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่างๆ อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่นๆ ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อมูลผิดพลาดได้ในการทดสอบได้
หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้วจะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น
1.การปรับเปลี่ยนรูปแบบข้อมูล(Data Transformation)
จากตารางที่ 4 จะเห็นได้ว่าข้อมูลอยู่ในระดับรายวิชา เพื่อให้ได้ตรงตามเป้าหมายที่ต้องการจะศึกษาพฤติกรรมและลักษณะของนอสิตแต่ละคน เราจะต้องแปลงข้อมูลให้อยู่ในระดับของนิสิต โดยแบ่งกลุ่มของวิชาต่างๆ จากนั้นจะนำตารางที่ 3 และ 4 มารวมกัน ทำให้ได้เป็นตารางข้อมูลนิสิตขั้นต้นที่แต่ละแถวของตารางแสดงทั้งประวัติส่วนตัวของนิสิตและผลการเรียนของนิสิตในแต่ละรายวิชา เพื่อที่เราจะได้สามารถนำตารางนี้ไปปรับเปลี่ยนเพื่อให้เหมาะสมกับเทคนิคต่างๆ ของดาต้าไมน์นิงต่อไป ผลลัพธ์ที่ได้ทั้งหมดแสดงได้ดังตารางที่ 5

ID
Sex
Address
001
002
Major
GPA
1
Male
Bangkok
Meduim
Low
ELEC
2.3
2
Female
Non-Bangkok
High
High
CIVIL
3.2
ตารางที่ 5 ตัวอย่างตารางข้อมูลนิสิตที่ขั้นต้น

จากข้อมูลในตารางที่ 5 นี้ถือได้ว่าเป็นข้อมูลเบื้องต้นในรูปแบบสมบูรณ์ที่พร้อมจะนำไปทำดาต้าไมน์นิงแล้ว แต่เราอาจต้องปรับเปลี่ยนรูปแบบของข้อมูลเพื่อให้เหมาะสมกับแต่ละเทคนิคของดาต้าไมน์นิงที่เราจะเลือกใช้

ไม่มีความคิดเห็น:

แสดงความคิดเห็น