1 / 36

แนะนำการทำเหมืองข้อมูล ( Data Mining ) ด้วยซอฟต์แวร์วีก้า (WEKA)

แนะนำการทำเหมืองข้อมูล ( Data Mining ) ด้วยซอฟต์แวร์วีก้า (WEKA). Part 2 : Preprocess. Agenda. วิธีการนำเข้าข้อมูล. ARFF. วิธีการนำเข้าข้อมูล.  ไฟล์ ( File). แฟ้มข้อมูลประเภท ARFF. ARFF. ARFF = Attribute-Relation File Format ส่วนประกอบ

aileen
Download Presentation

แนะนำการทำเหมืองข้อมูล ( Data Mining ) ด้วยซอฟต์แวร์วีก้า (WEKA)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. แนะนำการทำเหมืองข้อมูลแนะนำการทำเหมืองข้อมูล (Data Mining) ด้วยซอฟต์แวร์วีก้า (WEKA) Part 2 : Preprocess

  2. Agenda

  3. วิธีการนำเข้าข้อมูล ARFF

  4. วิธีการนำเข้าข้อมูล  ไฟล์ (File) แฟ้มข้อมูลประเภท ARFF ARFF • ARFF = Attribute-Relation File Format • ส่วนประกอบ @relation name บอกชื่อตารางข้อมูลเชิงสัมพันธ์ @attribute บอกชื่อลักษณะประจำและชนิด @data เป็นข้อมูลแถวละหนึ่งระเบียนคั่นด้วยเครื่องหมายคอมมา

  5. วิธีการนำเข้าข้อมูล  ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท Arff ARFF • ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad • บรรทัดแรกให้ใส่ชื่อตารางข้อมูลเชิงสัมพันธ์ • @relation weather • บรรทัดต่อมาให้ใส่แอททริบิวท์เรียงตามลำดับ • @attribute outlook {sunny, overcast, rainy} • @attribute temperature real • @attribute windy {TRUE, FALSE}

  6. วิธีการนำเข้าข้อมูล  ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท Arff ARFF • ใส่ข้อมูลเรียงตามลำดับของแอททริบิวท์ • @data • sunny,85, FALSE • sunny,80, TRUE • overcast,83, FALSE • เซฟไฟล์เป็นนามสกุล .arff • wether.arff

  7. วิธีการนำเข้าข้อมูล  ไฟล์ (File) ตัวอย่างแฟ้มข้อมูลประเภท Arff ARFF @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85, FALSE sunny,80, TRUE overcast,83, FALSE

  8. วิธีการนำเข้าข้อมูล  ไฟล์ (File) แฟ้มข้อมูลประเภท CSV • CSV = Comma-separated values • มีข้อมูลเป็นรูปแบบของตารางฐานข้อมูล • นำมาใช้ในการถ่ายโอนข้อมูลจากโปรแกรมฐานข้อมูลเป็นสเปรดชีท (spreadsheet)

  9. วิธีการนำเข้าข้อมูล  ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท CSV • ใช้โปรแกรมในการสร้าง table file ใดก็ได้ เช่น excel • ใส่หัวข้อลงในแถวแรกของตาราง • บรรทัดต่อมาให้ใส่ข้อมูลตามหัวข้อที่กำหนด • เซฟไฟล์เป็นนามสกุล .csv • student.csv

  10. วิธีการนำเข้าข้อมูล  ไฟล์ (File) ตัวอย่างแฟ้มข้อมูลประเภท CSV

  11. วิธีการนำเข้าข้อมูล  อินเทอร์เน็ต (Internet) • กรณีแฟ้มข้อมูลอยู่ในเครือข่ายผู้ใช้สามารถเรียกใช้โดยอาศัย URL • กดปุ่ม ใส่ URL ที่เก็บข้อมูลของไฟล์ที่ต้องการ

  12. วิธีการนำเข้าข้อมูล  ฐานข้อมูล (Database) • กรณีแฟ้มข้อมูลเก็บอยู่ในฐานข้อมูล • เชื่อมโยงผ่าน JDBC

  13. วิธีการนำเข้าข้อมูล  ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 1. คลิกปุ่ม Open DB จะปรากฏหน้าต่าง SQL-Viwer 1

  14. วิธีการนำเข้าข้อมูล  ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 2. ระบุฐานข้อมูลจากนั้นคลิกปุ่ม User เพื่อล็อคอินเข้าฐานข้อมูล 2 3 4 5

  15. วิธีการนำเข้าข้อมูล  ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 3.Click ที่ปุ่ม Connectเพื่อทำการเชื่อมต่อกับฐานข้อมูล 6

  16. วิธีการนำเข้าข้อมูล  การสร้างข้อมูลจำลอง (Generate Data) • วิธีการสร้างข้อมูลขึ้นเองด้วยฟังก์ชัน Generate Data • กระบวนการ Generate • Classifiers • Classification • Regresstion • Cluseterers

  17. วิธีการนำเข้าข้อมูล  การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 1. คลิกปุ่ม Generate จะปรากฏหน้าต่าง Data Generate 1

  18. วิธีการนำเข้าข้อมูล  การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 3 2 2. คลิกปุ่ม Choose เพื่อเลือก กระบวนการที่จะจำลองข้อมูล 3. หลังจากเลือกเสร็จกดปุ่ม Generate โปรแกรมก็จะจำลอง ข้อมูลที่เลือกขึ้นมาให้ 4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit 5. สามารถบันทึกข้อมูลจำลองได้ที่ ปุ่ม Save

  19. วิธีการนำเข้าข้อมูล  การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit 5. สามารถบันทึกข้อมูลจำลองได้ที่ ปุ่ม Save

  20. การแสดงผลข้อมูล  แฟ้ม weather.arff • ส่วนประกอบที่สำคัญ • Current Relation • Attributes • Selected attributes • Visualize 3 1 2 4

  21. การแสดงผลข้อมูล  การอ่านผลลัพธ์ • ข้อมูลที่กำลังวิเคราะห์คือ weather • จำนวนแอททริบิวท์ที่มีทั้งหมด 5 ตัวเรียงตามลำดับดังนี้ outlook, temperature, humidity, windy, play • มีจำนวนระเบียนทั้งหมด 14 ระเบียน • สำหรับแอททริบิวท์ outlook • เป็นแอททริบิวท์ประเภท Nominal • ไม่มีข้อมูลในระเบียนที่ขาดหายไป • มีค่าที่แตกต่างกันทั้งหมด 3 ค่า • แต่ละค่าไม่มีเพียงค่าเดียวเลย

  22. การแสดงผลข้อมูล  การอ่านผลลัพธ์ • ค่าของแอทริบิวท์ (Attribute value) คือ • sunny มี 5 ระเบียน • overcast มี 4 ระเบียน • rainy มี 5 ระเบียน

  23. การแสดงผลข้อมูล  แอททริบิวท์>> temperature

  24. การแสดงผลข้อมูล  แอททริบิวท์อื่นๆ >> humidity

  25. การแสดงผลข้อมูล  แอททริบิวท์อื่นๆ >> windy

  26. เครื่องมือทางสถิติในซอฟต์แวร์ WEKA  สถิติหนึ่งตัวแปร (Univariate Statistic) • เป็นการวิเคราะห์สถิติที่ใช้เพียงหนึ่งแอททริบิวท์ = ตัวแปร ประกอบด้วย • ชื่อของแอททริบิวท์ • ชนิดของแอททริบิวท์ • Nominal • Numeric • จำนวนข้อมูลที่ขาดหายไปเทียบเป็นเปอร์เซ็นต์กับจำนวนข้อมูลทั้งหมด • ค่าที่แตกต่างกันทั้งหมดในแอททริบิวท์ • ค่าที่มีเพียงค่าเดียว คิดเป็นเปอร์เซ็นต์เทียบกับค่าทั้งหมด

  27. เครื่องมือทางสถิติในซอฟต์แวร์ WEKA  ตัวอย่างสถิติที่สำคัญ สถิติของแอททริบิวท์SEX • ชื่อแอททริบิวท์ SEX • ชนิดของค่าของแอททริบิวท์เป็น Nominal • ในแอททริบิวท์นี้ไม่มีค่าที่หายไป • ค่าที่แตกต่างกันมีเพียงสองค่าคือ M กับ F • ค่าที่เป็น M มีจำนวน 5 ตัว • ค่าที่เป็น F มีจำนวน 5 ตัว • ค่าที่ไม่ซ้ำไม่มี

  28. เครื่องมือทางสถิติในซอฟต์แวร์ WEKA  ตัวอย่างสถิติที่สำคัญ สถิติของแอททริบิวท์SCORE • ชื่อแอททริบิวท์ Score • ชนิดของค่าของแอททริบิวท์เป็น Numeric • ในแอททริบิวท์ไม่มีข้อมูลที่ขาดหายไป • จำนวนค่าที่แตกต่างกันทั้งหมดมี 10 ตัว • ค่าแต่ละตัวมีเพียงหนึ่งเดียว (ไมมีค่าที่ซ้ำกันเลย) • ค่าต่ำสุด Minimum = 10 • ค่าสูงสุด Maximum = 89 • ค่าเฉลี่ยเลขคณิต Mean = 48.728 • ส่วนเบี่ยงเบนมาตรฐาน StdDev = 26.585

  29. กราฟแสดงความสัมพันธ์  กราฟหนึ่งตัวแปร • กราฟแท่ง • แสดงมุมมองของแต่ละลักษณะประจํา • สามารถดูได้ทั้งหมดโดยคลิกปุ่ม Visualize all

  30. กราฟแสดงความสัมพันธ์  กราฟสองตัวแปร • แสดงกราฟระหว่างแอททริบิวท์สองลักษณะแถบ Visualize • เรียกว่า Scatter plot • แต่ละจุดแสดงระเบียนหนึ่งระเบียน • แต่ละแกนแทนค่าของแอททริบิวท์แต่ละค่า • สีของจุดสื่อแต่ละคลาสที่ปรากฎในข้อมูล • การแก้ไขกราฟสองตัวแปร • ปรับขนาดของกราฟโดยเปลี่ยน PlotSize • เปลี่ยนขนาดของจุด โดยเปลี่ยน PointSize • กดปุ่ม Update

  31. กราฟแสดงความสัมพันธ์  กราฟสองตัวแปร

  32. การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) • เป็นโมดูลที่ทำหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง • แบ่งออกเป็นสองลักษณะ คือ • Supervised • แปลงข้อมูลแบบอัตโนมัติ • ควบคุมด้วยพารามิเตอร์ทีผู้ใช้กำหนด • Unsupervised • แปลงข้อมูลที่ผู้ใช้กำหนดเอง

  33. การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) ตัวกรองแบบอัตโนมัติ (Supervised) • แอททริบิวท์ (Attribute) • AttributeSelection • ClassOrder • Discretize • NorminalToBinary • ลักษณะระเบียน(Instance) • Resample • SpreadSubsample • StratifiedRemoveFolds

  34. การเรียกใช้ตัวกรอง (Filter)  ตัวกรอง (Filter) ตัวกรองที่ผู้ใช้กำหนดเอง (Unsupervised) • แอททริบิวท์ (Attribute) • Add • Discretize (unsupervised) • Normalize • NumbericToBinary • ลักษณะระเบียน(Instance) • Randomize • RemoveFold • ReplaceMissing Value • Resample

  35. สรุป • วิธีการนำเข้าข้อมูล มี 4 วิธี • ไฟล์ • อินเทอร์เน็ต • ฐานข้อมูล • การสร้างข้อมูลจำลอง • ประเภทแฟ้มข้อมูลที่สามารถใช้ได้ • แฟ้มข้อมูลประเภท ARFF • แฟ้มข้อมูลประเภท CSV

  36. สรุป • การแสดงผลข้อมูล แสดงได้ 2 แบบ • ข้อความ • กราฟ • ตัวกรอง (Filter) • ตัวกรองแบบอัตโนมัติ (Supervised) • ตัวกรองที่ผู้ใช้กำหนดเอง (Unsupervised)

More Related