การประยุกต์ใช้งาน Data Mining
- ธุรกิจค้าปลีกสามารถใช้งาน
Data
Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจกับผู้บริโภคในรูปแบบต่าง
ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่มยอดขายได้ เช่นที่ Midas
ซึ่งเป็นผู้แทนจำหน่ายอะไหล่สำหรับอุตสาหกรรมรถยนต์
งานที่ต้องทำคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด
ซึ่งจะต้องทำการรวบรวมและวิเคราะห์อย่างทันท่วงที
- กิจการโทรคมนาคม
เช่นที่ Bouygues
Telecom ได้นำมาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์
เช่น คาบเวลาที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ
และคาดการณ์ข้อบกพร่องที่เป็นไปได้ในการชำระเงิน
เทคนิคนี้ยังได้ถูกนำมาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน
France Telecom ได้ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและพัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
- การวิเคราะห์ผลิตภัณฑ์
เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้างโมเดลด้วยเทคนิค Data
Mining และใช้โมเดลในการทำนายราคาผลิตภัณฑ์ตัวอื่น ๆ
- การวิเคราะห์บัตรเครดิต
- ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
- แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่ำ ปานกลาง หรือสูง
- ป้องกันปัญหาเรื่องการทุจริตบัตรเครดิต
- การวิเคราะห์ลูกค้า
- ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตามกลุ่มเป้าหมายแต่ละกลุ่ม
- ทำนายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
- การวิเคราะห์การขาย
- พบว่า 70 % ของลูกค้าที่ซื้อโทรทัศน์แล้วจะซื้อวิดีโอตามมา
ดังนั้นผู้จัดการจึงควรมุ่งไป ลูกค้าที่ซื้อโทรทัศน์
แล้วจึง ส่งเมล์ไปยังลูกค้าเหล่านั้นเพื่อที่จะเชิญชวน หรือให้ข้อเสนอที่ดี
เพื่อให้ลูกค้ามาซื้อวิดีโอในครั้งต่อไป
- ช่วยในการโฆษณาสินค้าได้อย่างเหมาะสมและตรงตามเป้าหมาย
- ช่วยในการจัดวางสินค้าได้อย่างเหมาะสม
- Text Mining
เป็นการปรับใช้ Data
Mining มาอยู่ในรูปของข้อมูลตัวอักษรซึ่งเป็นรูปแบบของภาษาเครื่อง SDP
Infoware ตัวอย่างของงานคือใช้เป็นเครื่องมือตรวจระดับความพึงพอใจของผู้ที่เข้าชมนิทรรศการโดยผ่านการประมวลผลจากแบบสอบถาม
- E-Commerce
- ช่วยให้เข้าใจพฤติกรรมของลูกค้า เช่น ลูกค้ามักเข้าไปที่ web
ใดตามลำดับก่อนหลัง
- ช่วยในการปรับปรุง web
site เช่น พิจารณาว่าส่วนใดของ web ที่ควรปรับปรุงหรือควรเรียงลำดับการเชื่อมโยงในแต่ละหน้าอย่างไรเพื่อให้สะดวกกับผู้เข้าเยี่ยมชม
ตัวอย่างการประยุกต์ Data Mining ทางด้านการศึกษา
เราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา
เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่างๆ
นิสิตที่ได้ถูกจัดเก็บไว้ในเวลานาน
แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น
เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้อย่างดี
โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร
เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา
ต่อมาเราต้องหาเป้าหมาย (Mining Objective)
ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้างเช่น
ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงมาช่วยนิสิตในการเลือกสาขาวิชาต่างๆมากมายกว่า
10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่
เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา
นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด
ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิตโดยความรู้
(knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้
เมื่อเราได้เป้าหมายในการทำดาต้าไมน์นิงแล้ว
เราก็ต้องมาหาข้อมูลนิสิตกันสมมุติว่าเราได้ข้อมูลนิสิตย้อนหลังทั้งหมด 10 ปี
มีทั้งหมด 2 ส่วน คือ ข้อมูลประวัติส่วนตัวนิสิตดังตารางที่ 1 และข้อมูลการลงทะเบียนเรียนในแต่ละรายวิชาของนิสิตดังตารางที่ 2
ID
|
Sex
|
ชื่อ
|
Address
|
SchoolGPA
|
…
|
Major
|
GPA
|
1
|
นาย
|
วิโรจน์ พัฒนากุล
|
86/9
หมู่ 2 ...
|
2.5
|
...
|
ไฟฟ้า
|
2.3
|
2
|
น.ส.
|
ดวงพร
เอี่ยมสุข
|
54/2
หมู่ 7 ...
|
3.4
|
...
|
โยธา
|
3.2
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
ตารางที่
1 ตัวอย่างข้อมูลประวัติส่วนตัวนิสิต
จากตารางที่ 1 เป็นตัวอย่างข้อมูลประวัติส่วนตัวต่างๆ ของนิสิต เช่น รหัสประจำตัวนิสิต ชื่อ
เพศสัญชาติ ที่อยู่ วันเกิด สถานภาพทางครอบครัว คะแนนสอบเข้า ผลการเรียนระดับมัธยม
สาขาวิชาที่นิสิตศึกษาอยู่ เกรดเฉลี่ยสะสมจนถึงปีปัจจุบัน ฯลฯ
ID
|
Subject
|
Section
|
Term
|
Year
|
Grade
|
1
|
001
|
1
|
1
|
2537
|
C+
|
1
|
002
|
1
|
1
|
2537
|
D
|
1
|
005
|
1
|
1
|
2537
|
B+
|
…
|
…
|
…
|
…
|
…
|
…
|
ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิต
จากตารางที่ 2 เป็นตารางข้อมูลการลงทะเบียนของนิสิตในแต่ละรายวิชา ในแต่ละภาคการศึกษา
พร้อมทั้งหมู่ที่เรียน และผลการเรียนในรายวิชานั้นๆ ของนิสิตแต่ละคน
เมื่อเราได้ข้อมูลทั้งหมดแล้ว
ขั้นต่อมาก็คือ การเตรียมข้อมูลเพื่อให้พร้อมที่จะนำไปทำดาต้าไมน์นิง
ซึ่งแบ่งเป็นขั้นต่างๆ ได้ดังนี้
1. การทำข้อมูลให้สมบูรณ์
(data
cleaning)
ข้อมูลที่ได้มานั้น
เป็นข้อมูลที่ยังไม่สมบูรณ์ ที่จะสามารถนำไปใช้ผ่านกระบวนการดาต้าไมน์นิงได้
จึงต้องมีการจัดการข้อมูล การเตรียมข้อมูลเบื้องต้น มีวิธีการดังนี้
-เลือกเฉพาะคอลัมน์สำคัญที่คาดว่าจะสามารถนำมาใช้ประโยชน์ได้
และเป็นคอลัมน์ที่มีข้อมูลค่อนข้างครบถ้วน เมื่อเทียบกับจำนวนนิสิต เช่น
จากในตรารางที่ 1 คอลัมน์สำคัญที่มีข้อมูลค่อนข้างมาก ได้แก่ ข้อมูลรหัสนิสิต
ที่อยู่ อายุ เพศ ประวัติครอบครัวโรงเรียน เกรดเฉลี่ยที่จบการศึกษาในมหาวิทยาลัย
เป็นต้น ส่วนในบางคอลัมน์ที่มีความสำคัญ
แต่มีข้อมูลน้อยมากนั้นจะไม่นำพิจารณา เช่น ข้อมูลคะแนนสอบเอ็นทรานซ์ในแต่ละวิชา
เหตุผลในการสอบเข้า เป็นต้น
สำหรับคอลัมน์ที่มีค่าสำหรับทุกแถวเป็นค่าเดียวกัน
เช่น “สัญชาติไทย” จะเป็นข้อมูลที่ไม่สามารถแยกความแตกต่างของแต่ละแถวได้เลย
ดังนั้นในการทำดาต้าไมน์นิงจะไม่สามรถใช้ประโยชน์จากคอลัมน์นี้ ดังนั้น
จึงไม่นำคอลัมน์นี้มาพิจารณา
คอลัมน์ที่มีค่าที่ไม่ซ้ำกันเลย
จากตารางที่ 1 ได้แก่ ชื่อผู้ปกครอง หมายเลขโทรศัพท์
เป็นต้นข้อมูลเหล่านี้ไม่สามารถหาแถวที่มีข้อมูลสัมพันธ์กันได้เลย
การทำดาต้าไมน์นิงจึงไม่สามารถนำข้อมูล เหล่านี้มาใช้ประโยชน์ได้
ดังนั้นในการทำดาต้าไมน์นิงควรจำกัดคอลัมน์ที่มีข้อมูลไม่ซ้ำกันเลยออก
-แก้ไขข้อมูลให้ถูกต้องสมบูรณ์
ได้แก่ การแก้ไขค่าว่างของข้อมูล ซึ่งสามารถแก้ไขได้หลายวิธี เช่น
แก้ไขโดยจำกัดข้อมูลที่ในแถวเป็นค่าว่าง (NULL) ยกตัวอย่างเช่น
จากในตารางที่ 2 ข้อมูลบางแถวค่าในคอลัมน์ Grade หายไป
ซึ่งจะเห็นได้ว่าถ้ามีแต่รหัสนิสิตและวิชาที่ลงทะเบียน โดยที่ไม่มีข้อมูลเกรดแล้ว
เราก็ไม่สามารถจะนำแถวนั้นพิจารณาเพื่อหาความสัมพันธ์ที่น่าสนใจได้
-ปรับเปลี่ยนข้อมูลให้มีค่าเหมาะสมในการตัดสินใจ
เช่น จากตารางที่ 1 ข้อมูลที่เป็นอยู่นั้นไม่สามารถที่จะนำไปใช้โดยตรงได้
เพราะจะเป็นปัญหาดังข้อ 1.3 คือ ข้อมูลที่อยู่ของนิสิตแต่ละคนไม่ซ้ำกันเลย
ดังนั้นจึงต้องปรับเปลี่ยนข้อมูลให้อยู่ในรูปแบบที่จะสามารถนำไปใช้ได้
ในกรณีนี้จะปรับข้อมูลในคอลัมน์ที่อยู่ของนิสิตให้เป็น Bangkok
และ Non-Bangkok อย่างใดอย่างหนึ่ง เป็นต้น
การจัดกลุ่มข้อมูลเพื่อลดการกระจาย
(Binning
Data) ทั้งนี้เนื่องมาจากข้อมูลของนิสิตมีจำนวนไม่มาก
แต่เกรดในแต่ละวิชา ที่สามารถมีได้นั้นมีจำนวนมากถึง 10 ตัวด้วยกันคือ {A,B+,B,C+,C,D+,D,F,W,I}ดังนั้นเพื่อลดการกระจายของข้อมูลเกรดของนิสิตที่มีมากเมื่อเทียบกับจำนวนนิสิต
จึงได้จัดกลุ่มเกรดของนิสิตเป็น 3 กลุ่ม ดังนี้ คือ เกรด {A,B+,B}เป็น High , เกรด {C+,C}เป็น Meduim
และ เกรด {D+,D,F,W,I}เป็น Low
จากตารางที่ 1
ที่เป็นข้อมูลประวัตินิสิต เราได้นำมาปรับเปลี่ยนข้อมูลบางส่วนเพื่อให้สมบูรณ์ขึ้นได้แก่
-การตัดคอลัมน์ที่ไม่จำเป็นในการทำดาต้าไมน์นิงออก
เช่น คอลัมน์ชื่อนิสิต เพราะ ชื่อนิสิตแต่ละคนไม่สามารถนำมาทำดาต้าไมน์นิงได้
-คัดเลือกเฉพาะคอลัมน์ที่คาดว่าจะสามารถนำมาทำดาต้าไมน์นิงได้
เช่น คัดเลือกคอลัมน์โรงเรียน แต่เนื่องจากชื่อโรงเรียนของนิสิตแต่ละคนมีมากมาย
เราจึงต้องปรับข้อมูลโรงเรียนให้เป็นกลุ่มอย่างสมดุลเพื่อที่จะได้สามารถนำไปใช้ในการทำดาต้าไมน์นิงได้
เช่น แบ่งข้อมูลโรงเรียนเป็น 2 กลุ่ม คือ สอบเทียบ และจบจากมัธยมศึกษาปีที่ 6
โดยกำหนดว่า School = 0 คือจบการศึกษาจากมัธยมศึกษาปีที่
6 และ School = 1 คือสอบเทียบ เป็นต้น
-ปรับเปลี่ยนข้อมูลในบางคอลัมน์เพื่อให้สามารถนำไปไมน์นิงได้
เช่น คอลัมน์ที่อยู่ปรับข้อมูลให้เป็นกลุ่มว่านิสิตอยู่ในกรุงเทพฯ หรือไม่ เป็นต้น
ผลที่ได้จากการทำข้อมูลจากตารางที่
1 ให้สมบูรณ์แสดงดังตารางที่ 3
ID
|
Sex
|
Term
|
School
|
…
|
Major
|
GPA
|
1
|
Female
|
Bangkok
|
1
|
…
|
ELEC
|
2.3
|
2
|
Male
|
Non-Bangkok
|
0
|
…
|
CIVIL
|
3.2
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
ตารางที่ 3 ตัวอย่างข้อมูลประวัตินิสิตที่ทำให้สมบูรณ์
จากตารางที่
2 ที่เป็นตารางข้อมูลการลงทะเบียนเรียนของนิสิต
เราได้ปรับข้อมูลบางส่วนให้สมบูรณ์ขึ้นได้แก่
-การตัดบางคอลัมน์ที่ไม่น่าสนใจที่จะนำมาทำดาต้าไมน์นิงออก
เช่น คอลัมน์หมู่การเรียน
-จับกลุ่มข้อมูลในคอลัมน์เกรดเพื่อลดการกระจายของข้อมูล
เป็นต้น
ผลที่ได้จากการทำข้อมูลในตารางที่
2 ให้สมบูรณ์แสดงดังตารางที่ 4
ID
|
Subject
|
Term
|
Year
|
Grade
|
1
|
001
|
1
|
2537
|
Meduim
|
1
|
002
|
1
|
2537
|
Low
|
1
|
005
|
1
|
2537
|
High
|
…
|
…
|
…
|
…
|
…
|
ตารางที่ 4 ตัวอย่างข้อมูลการลงทะเบียนเรียนของนิสิตที่ทำให้สมบูรณ์
1.การคัดเลือกข้อมูล
(Data
Selection)
เราจำเป็นต้องคัดเลือกเฉพาะข้อมูลนิสิตที่สามารถนำมาใช้ประโยชน์ได้
เช่น
-คัดเลือกข้อมูลนิสิตเฉพาะนิสิตคณะวิศวกรรมศาสตร์
และรายวิชาที่นิสิตเรียนทั้งหมดเป็นรายวิชาเดียวกัน
เนื่องมาจากถ้าข้อมูลที่เราได้มานั้นย้อนหลังไปถึง 10 ปี
ข้อมูลรายวิชาในอดีตอาจเป็นคนละตัวกับรายวิชาในปัจจุบัน
เนื่องมาจากความแตกต่างของหลักสูตรการศึกษาในแต่ละปี
ดังนั้นเราต้องคัดเลือกเฉพาะข้อมูลนิสิตในปีที่มีรายวิชาแบบเดียวกันเท่านั้น
-คัดเลือกข้อมูลนิสิตในภาควิชาที่สามารถนำมาทำดาต้าไมน์นิงได้
เช่น คัดเลือกมา 6 สาขาวิชาหลัก ได้แก่ สาขาวิชาวิศวกรรมเคมี สาขาวิศวกรรมโยธา
สาขาวิชาวิศวกรรมคอมพิวเตอร์
สาขาวิศวกรรมไฟฟ้า สาขาวิศวกรรมอุตสาหการ และสาขาวิศวกรรมเครื่องกล
สาเหตุที่เลือก 6 สาขาวิชาดังเนื่องมาจากทั้ง 6 สาขาวิชาเป็นสาขาวิชาหลักที่มีทั้งนิสิตและข้อมูลต่างๆ
อยู่มากพอสมควรที่จะสามารถนำมาวิเคราะห์ได้ สำหรับสาขาวิชาอื่นๆ
ที่ไม่ได้คัดเลือกมานั้นอาจเป็นสาขาวิชาที่เพิ่งก่อตั้งมาได้ไม่นานนัก
ทำให้ข้อมูลไม่เพียงพอในการนำมาวิเคราะห์ อาจทำให้มีข้อมูลผิดพลาดได้ในการทดสอบได้
หลังจากที่ทำตามขั้นตอนข้างต้นทั้งหมดแล้วจะได้ข้อมูลที่มีความสมบูรณ์มากขึ้น
1.การปรับเปลี่ยนรูปแบบข้อมูล(Data
Transformation)
จากตารางที่ 4 จะเห็นได้ว่าข้อมูลอยู่ในระดับรายวิชา เพื่อให้ได้ตรงตามเป้าหมายที่ต้องการจะศึกษาพฤติกรรมและลักษณะของนอสิตแต่ละคน
เราจะต้องแปลงข้อมูลให้อยู่ในระดับของนิสิต โดยแบ่งกลุ่มของวิชาต่างๆ
จากนั้นจะนำตารางที่ 3 และ 4 มารวมกัน
ทำให้ได้เป็นตารางข้อมูลนิสิตขั้นต้นที่แต่ละแถวของตารางแสดงทั้งประวัติส่วนตัวของนิสิตและผลการเรียนของนิสิตในแต่ละรายวิชา
เพื่อที่เราจะได้สามารถนำตารางนี้ไปปรับเปลี่ยนเพื่อให้เหมาะสมกับเทคนิคต่างๆ
ของดาต้าไมน์นิงต่อไป ผลลัพธ์ที่ได้ทั้งหมดแสดงได้ดังตารางที่ 5
ID
|
Sex
|
Address
|
001
|
002
|
…
|
Major
|
GPA
|
1
|
Male
|
Bangkok
|
Meduim
|
Low
|
…
|
ELEC
|
2.3
|
2
|
Female
|
Non-Bangkok
|
High
|
High
|
…
|
CIVIL
|
3.2
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
…
|
ตารางที่ 5 ตัวอย่างตารางข้อมูลนิสิตที่ขั้นต้น
จากข้อมูลในตารางที่
5
นี้ถือได้ว่าเป็นข้อมูลเบื้องต้นในรูปแบบสมบูรณ์ที่พร้อมจะนำไปทำดาต้าไมน์นิงแล้ว
แต่เราอาจต้องปรับเปลี่ยนรูปแบบของข้อมูลเพื่อให้เหมาะสมกับแต่ละเทคนิคของดาต้าไมน์นิงที่เราจะเลือกใช้
ไม่มีความคิดเห็น:
แสดงความคิดเห็น