วันเสาร์ที่ ๕ มกราคม พ.ศ. ๒๕๕๑

Data mining ตอนที่ 1

สวัสดีปีใหม่ 2551 ครับ ผมตั้งใจว่าจะเขียนชุด Data mining เป็นตอน ๆ ตั้งแต่ปลายปีที่แล้ว แต่แล้วก็ยังไม่ได้เขียนซักที วันนี้ผมพอมีว่างเพราะพลาดการเดินทางโดยสารรถทัวร์ในช่วงหลังปีใหม่ ได้มีโอกาสเขียน เนื้อหา คงไม่เป็นในเชิงวิชาการมากนัก เพราะว่าการค้นคว้า การแปลเอกสารต้องใช้เวลานาน ผู้อ่านอย่าเพิ่งเชื่อในเนื้อหามากนัก ถ้าผิดพลาดหรือต้องการเพิ่มเติมเชิญ comment มาได้นะครับ สำหรับนักศึกษาจะเอาไปทำรายงานส่งอาจารย์ ต้องค้นคว้าเพิ่มเติมนะครับ ในตอนแรกจะกล่าวถึงความเป็นมา และแนะนำ data mining กันก่อนData mining ความหมายและวิวัฒนาการData mining แปลตามตัว คือ เหมืองข้อมูล เพราะคำว่า mining แปลว่า การทำเหมือง(แร่) แต่ถ้าให้ความหมายตาม Pang-Ning Tan และคณะจะให้ความหมายว่า Data mining หมายถึง กระบวนการค้นหาให้ได้มาซึ่งสารสนเทศที่มีประโยชน์ในด้านต่าง ๆ ที่ต้องการจากแหล่งข้อมูลที่มีขนาดใหญ่ สารสนเทศที่ได้นิยมนำมาใช้การทำนาย แนวโน้ม พฤติกรรมต่าง ๆ ของลูกค้าได้ โดยใช้เทคนิคการสร้าง pattern


นับตั้งแต่มีการเก็บข้อมูลในระบบคอมพิวเตอร์ตั้งแต่ยุคแรก โดยการเขียนโปรแกรมในรูปแบบระบบไฟล์ (File System) แล้วเปลี่ยนมาเป็นระบบฐานข้อมูล (Database System) ซึ่งประกอบด้วยตารางที่ใช้เก็บข้อมูลในรูปแบบแถวและคอลัมน์แทน ดาต้าเบสส่วนใหญ่จะเก็บเป็นทรานเซคชั่น หรือธุรกรรม กิจกรรมการเก็บข้อมูล จากการขาย หรืออื่น ๆ ฐานข้อมูลในแต่ละระบบจะมีหลายตาราง เช่น ตารางสินค้าเก็บรายการสินค้าต่าง ๆ ประกอบด้วยฟิลด์ (คอลัมน์) P_ID, Name, Supplier, price, cost, #inlnven เป็นต้น และมีตาราง sale ใช้สำหรับเก็บข้อมูลการขายสินค้า

เมื่อฐานข้อมูลที่จัดเก็บข้อมูลทรานเซคชั่นทุก ๆ วันจึงมีข้อมูลเป็นจำนวนมากขึ้นเรื่อย ๆ จึงเกิดแนวคิดที่นำเอาข้อมูลเหล่านี้มาใช้ให้เกิดประโยชน์ได้อย่างไรบ้าง โดยเริ่มจากการใช้คำสั่ง เพื่อสรุปการขายสินค้าแต่ละชนิดในแต่ละวัน หรือนำมาจัดหมวดหมู่สินค้า กระบวนการนี้เรียกว่าการทำ analytical processing แต่บางคนเรียกกระบวนทั้งหมดว่าการทำ data warehouse

เมื่อมีการนำเอาฐานข้อมูลมาจัดทำสารสนเทศ สรุปผลต่าง ๆ ได้มากขึ้น หลังจากนั้นจึงมีการประยุกต์ เป็น data cube (จากข้อมูลเดิม 2 มิติ ทำเป็น 3 มิติ) หรือเรียกกันว่าการทำ OLAP = online analytical processing หลังจากนั้นจึงวิวัฒนาการพัฒนาเป็น Data mining ขึ้นในปัจจุบัน

Data mining จำแนกงานออกเป็น 2 แบบ
- Predictive tasks เป็นการนำเอาข้อมูลสารสนเทศมาทำนาย โดยอาศัยการทำโมเดล และใช้ข้อมูลเยอะ ๆ ยกตัวอย่างเช่น การทำนายชนิดของดอกไม้ โดยอาศัย species ที่แตกต่างกันของดอกไม้แต่ละชนิด
- Descriptive tasks เป็นการอธิบายข้อมูล เช่น มีลูกค้าอยู่กลุ่มหนึ่ง มีพฤติกรรมการซื้อสินค้า ที่พบบ่อย ๆ ว่าเขาชอบซื้อสินค้ากลุ่มใด ประเภทใด ควบคู่กับอะไรบ้าง เป็นต้น เป็นการอธิบายภาพรวม หรือหาสิ่งที่ไม่เคยเกิดขึ้นมาก็ได้


แต่ก่อนจะไปศึกษาในเนื้อหาเชิงลึก ในตอนต่อไปจะขอกล่าวถึง โมเดลที่เขานิยมนำมาอ้างอิงในการทำ Data mining กัน นั่นคือ โมเดล CRISP-DM ครับ โปรดติดตามตอนต่อไป

เอกสารอ้างอิง
Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data mining, Pearson International Edition;

๒ ความคิดเห็น:

เอกชลิต บุศราทิจ กล่าวว่า...

สวัสดีครับพี่ทวีรัตน์ .. นึกว่าพี่จะไม่อัพบล็อกซะแล้ว เห็นค้างเดือนธ.ค.​เอาไว้ ... บทความที่พี่เขียนเป็นบทความที่ดีมากครับ ผมจะคอยติดตามอ่านจนจบนะคร้าบ ... ส่วนวันที่พี่พลาดรถ ผมได้พิมพ์คำบรรยายเป็นเท็กซ์ไฟล์เอาไว้ เดี๋ยวส่งไปให้อีกครั้งนะครับ

ดูเว็บบล็อกของพี่แล้วบล็อกของผมไร้สาระเลยอ่ะ T_T

praipat kanatong กล่าวว่า...

สวัสดีค่ะ อ.
กำลังศึกษาข้อมูลเรื่องนี้อยู่พอดี เจอ blog ของ อ.เป็นประโยชน์อย่างมากเลยค่ะ ขอบคุณมากเลยน่ะค่ะ

จาก ลูกศิษย์ มรภ.สงขลา