สวัสดีปีใหม่ 2551 ครับ ผมตั้งใจว่าจะเขียนชุด Data mining เป็นตอน ๆ ตั้งแต่ปลายปีที่แล้ว แต่แล้วก็ยังไม่ได้เขียนซักที วันนี้ผมพอมีว่างเพราะพลาดการเดินทางโดยสารรถทัวร์ในช่วงหลังปีใหม่ ได้มีโอกาสเขียน เนื้อหา คงไม่เป็นในเชิงวิชาการมากนัก เพราะว่าการค้นคว้า การแปลเอกสารต้องใช้เวลานาน ผู้อ่านอย่าเพิ่งเชื่อในเนื้อหามากนัก ถ้าผิดพลาดหรือต้องการเพิ่มเติมเชิญ comment มาได้นะครับ สำหรับนักศึกษาจะเอาไปทำรายงานส่งอาจารย์ ต้องค้นคว้าเพิ่มเติมนะครับ ในตอนแรกจะกล่าวถึงความเป็นมา และแนะนำ data mining กันก่อน
Data mining ความหมายและวิวัฒนาการ
Data mining แปลตามตัว คือ เหมืองข้อมูล เพราะคำว่า mining แปลว่า การทำเหมือง(แร่) แต่ถ้าให้ความหมายตาม Pang-Ning Tan และคณะจะให้ความหมายว่า Data mining หมายถึง กระบวนการค้นหาให้ได้มาซึ่งสารสนเทศที่มีประโยชน์ในด้านต่าง ๆ ที่ต้องการจากแหล่งข้อมูลที่มีขนาดใหญ่ สารสนเทศที่ได้นิยมนำมาใช้การทำนาย แนวโน้ม พฤติกรรมต่าง ๆ ของลูกค้าได้ โดยใช้เทคนิคการสร้าง pattern
นับตั้งแต่มีการเก็บข้อมูลในระบบคอมพิวเตอร์ตั้งแต่ยุคแรก โดยการเขียนโปรแกรมในรูปแบบระบบไฟล์ (File System) แล้วเปลี่ยนมาเป็นระบบฐานข้อมูล (Database System) ซึ่งประกอบด้วยตารางที่ใช้เก็บข้อมูลในรูปแบบแถวและคอลัมน์แทน ดาต้าเบสส่วนใหญ่จะเก็บเป็นทรานเซคชั่น หรือธุรกรรม กิจกรรมการเก็บข้อมูล จากการขาย หรืออื่น ๆ ฐานข้อมูลในแต่ละระบบจะมีหลายตาราง เช่น ตารางสินค้าเก็บรายการสินค้าต่าง ๆ ประกอบด้วยฟิลด์ (คอลัมน์) P_ID, Name, Supplier, price, cost, #inlnven เป็นต้น และมีตาราง sale ใช้สำหรับเก็บข้อมูลการขายสินค้า
เมื่อฐานข้อมูลที่จัดเก็บข้อมูลทรานเซคชั่นทุก ๆ วันจึงมีข้อมูลเป็นจำนวนมากขึ้นเรื่อย ๆ จึงเกิดแนวคิดที่นำเอาข้อมูลเหล่านี้มาใช้ให้เกิดประโยชน์ได้อย่างไรบ้าง โดยเริ่มจากการใช้คำสั่ง เพื่อสรุปการขายสินค้าแต่ละชนิดในแต่ละวัน หรือนำมาจัดหมวดหมู่สินค้า กระบวนการนี้เรียกว่าการทำ analytical processing แต่บางคนเรียกกระบวนทั้งหมดว่าการทำ data warehouse
เมื่อมีการนำเอาฐานข้อมูลมาจัดทำสารสนเทศ สรุปผลต่าง ๆ ได้มากขึ้น หลังจากนั้นจึงมีการประยุกต์ เป็น data cube (จากข้อมูลเดิม 2 มิติ ทำเป็น 3 มิติ) หรือเรียกกันว่าการทำ OLAP = online analytical processing หลังจากนั้นจึงวิวัฒนาการพัฒนาเป็น Data mining ขึ้นในปัจจุบัน
Data mining จำแนกงานออกเป็น 2 แบบ
- Predictive tasks เป็นการนำเอาข้อมูลสารสนเทศมาทำนาย โดยอาศัยการทำโมเดล และใช้ข้อมูลเยอะ ๆ ยกตัวอย่างเช่น การทำนายชนิดของดอกไม้ โดยอาศัย species ที่แตกต่างกันของดอกไม้แต่ละชนิด
- Descriptive tasks เป็นการอธิบายข้อมูล เช่น มีลูกค้าอยู่กลุ่มหนึ่ง มีพฤติกรรมการซื้อสินค้า ที่พบบ่อย ๆ ว่าเขาชอบซื้อสินค้ากลุ่มใด ประเภทใด ควบคู่กับอะไรบ้าง เป็นต้น เป็นการอธิบายภาพรวม หรือหาสิ่งที่ไม่เคยเกิดขึ้นมาก็ได้
แต่ก่อนจะไปศึกษาในเนื้อหาเชิงลึก ในตอนต่อไปจะขอกล่าวถึง โมเดลที่เขานิยมนำมาอ้างอิงในการทำ Data mining กัน นั่นคือ โมเดล CRISP-DM ครับ โปรดติดตามตอนต่อไป
เอกสารอ้างอิง
Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data mining, Pearson International Edition;
๒ ความคิดเห็น:
สวัสดีครับพี่ทวีรัตน์ .. นึกว่าพี่จะไม่อัพบล็อกซะแล้ว เห็นค้างเดือนธ.ค.เอาไว้ ... บทความที่พี่เขียนเป็นบทความที่ดีมากครับ ผมจะคอยติดตามอ่านจนจบนะคร้าบ ... ส่วนวันที่พี่พลาดรถ ผมได้พิมพ์คำบรรยายเป็นเท็กซ์ไฟล์เอาไว้ เดี๋ยวส่งไปให้อีกครั้งนะครับ
ดูเว็บบล็อกของพี่แล้วบล็อกของผมไร้สาระเลยอ่ะ T_T
สวัสดีค่ะ อ.
กำลังศึกษาข้อมูลเรื่องนี้อยู่พอดี เจอ blog ของ อ.เป็นประโยชน์อย่างมากเลยค่ะ ขอบคุณมากเลยน่ะค่ะ
จาก ลูกศิษย์ มรภ.สงขลา
แสดงความคิดเห็น