450 likes | 911 Views
แนะนำการทำเหมืองข้อมูล ( Data Mining ) ด้วยซอฟต์แวร์วีก้า (WEKA). Part 2 : Preprocess. Agenda. วิธีการนำเข้าข้อมูล. ARFF. วิธีการนำเข้าข้อมูล. ไฟล์ ( File). แฟ้มข้อมูลประเภท ARFF. ARFF. ARFF = Attribute-Relation File Format ส่วนประกอบ
E N D
แนะนำการทำเหมืองข้อมูลแนะนำการทำเหมืองข้อมูล (Data Mining) ด้วยซอฟต์แวร์วีก้า (WEKA) Part 2 : Preprocess
วิธีการนำเข้าข้อมูล ARFF
วิธีการนำเข้าข้อมูล ไฟล์ (File) แฟ้มข้อมูลประเภท ARFF ARFF • ARFF = Attribute-Relation File Format • ส่วนประกอบ @relation name บอกชื่อตารางข้อมูลเชิงสัมพันธ์ @attribute บอกชื่อลักษณะประจำและชนิด @data เป็นข้อมูลแถวละหนึ่งระเบียนคั่นด้วยเครื่องหมายคอมมา
วิธีการนำเข้าข้อมูล ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท Arff ARFF • ใช้โปรแกรมในการสร้าง text file ใดก็ได้ เช่น notepad • บรรทัดแรกให้ใส่ชื่อตารางข้อมูลเชิงสัมพันธ์ • @relation weather • บรรทัดต่อมาให้ใส่แอททริบิวท์เรียงตามลำดับ • @attribute outlook {sunny, overcast, rainy} • @attribute temperature real • @attribute windy {TRUE, FALSE}
วิธีการนำเข้าข้อมูล ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท Arff ARFF • ใส่ข้อมูลเรียงตามลำดับของแอททริบิวท์ • @data • sunny,85, FALSE • sunny,80, TRUE • overcast,83, FALSE • เซฟไฟล์เป็นนามสกุล .arff • wether.arff
วิธีการนำเข้าข้อมูล ไฟล์ (File) ตัวอย่างแฟ้มข้อมูลประเภท Arff ARFF @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85, FALSE sunny,80, TRUE overcast,83, FALSE
วิธีการนำเข้าข้อมูล ไฟล์ (File) แฟ้มข้อมูลประเภท CSV • CSV = Comma-separated values • มีข้อมูลเป็นรูปแบบของตารางฐานข้อมูล • นำมาใช้ในการถ่ายโอนข้อมูลจากโปรแกรมฐานข้อมูลเป็นสเปรดชีท (spreadsheet)
วิธีการนำเข้าข้อมูล ไฟล์ (File) การเตรียมแฟ้มข้อมูลประเภท CSV • ใช้โปรแกรมในการสร้าง table file ใดก็ได้ เช่น excel • ใส่หัวข้อลงในแถวแรกของตาราง • บรรทัดต่อมาให้ใส่ข้อมูลตามหัวข้อที่กำหนด • เซฟไฟล์เป็นนามสกุล .csv • student.csv
วิธีการนำเข้าข้อมูล ไฟล์ (File) ตัวอย่างแฟ้มข้อมูลประเภท CSV
วิธีการนำเข้าข้อมูล อินเทอร์เน็ต (Internet) • กรณีแฟ้มข้อมูลอยู่ในเครือข่ายผู้ใช้สามารถเรียกใช้โดยอาศัย URL • กดปุ่ม ใส่ URL ที่เก็บข้อมูลของไฟล์ที่ต้องการ
วิธีการนำเข้าข้อมูล ฐานข้อมูล (Database) • กรณีแฟ้มข้อมูลเก็บอยู่ในฐานข้อมูล • เชื่อมโยงผ่าน JDBC
วิธีการนำเข้าข้อมูล ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 1. คลิกปุ่ม Open DB จะปรากฏหน้าต่าง SQL-Viwer 1
วิธีการนำเข้าข้อมูล ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 2. ระบุฐานข้อมูลจากนั้นคลิกปุ่ม User เพื่อล็อคอินเข้าฐานข้อมูล 2 3 4 5
วิธีการนำเข้าข้อมูล ฐานข้อมูล (Database) การเชื่อมต่อฐานข้อมูล MySQLกับ WEKA ขั้นตอนการติดต่อฐานข้อมูล 3.Click ที่ปุ่ม Connectเพื่อทำการเชื่อมต่อกับฐานข้อมูล 6
วิธีการนำเข้าข้อมูล การสร้างข้อมูลจำลอง (Generate Data) • วิธีการสร้างข้อมูลขึ้นเองด้วยฟังก์ชัน Generate Data • กระบวนการ Generate • Classifiers • Classification • Regresstion • Cluseterers
วิธีการนำเข้าข้อมูล การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 1. คลิกปุ่ม Generate จะปรากฏหน้าต่าง Data Generate 1
วิธีการนำเข้าข้อมูล การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 3 2 2. คลิกปุ่ม Choose เพื่อเลือก กระบวนการที่จะจำลองข้อมูล 3. หลังจากเลือกเสร็จกดปุ่ม Generate โปรแกรมก็จะจำลอง ข้อมูลที่เลือกขึ้นมาให้ 4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit 5. สามารถบันทึกข้อมูลจำลองได้ที่ ปุ่ม Save
วิธีการนำเข้าข้อมูล การสร้างข้อมูลจำลอง (Generate Data) วิธีการจำลองข้อมูล 4. สามารถแก้ไขข้อมูลได้ที่ปุ่ม Edit 5. สามารถบันทึกข้อมูลจำลองได้ที่ ปุ่ม Save
การแสดงผลข้อมูล แฟ้ม weather.arff • ส่วนประกอบที่สำคัญ • Current Relation • Attributes • Selected attributes • Visualize 3 1 2 4
การแสดงผลข้อมูล การอ่านผลลัพธ์ • ข้อมูลที่กำลังวิเคราะห์คือ weather • จำนวนแอททริบิวท์ที่มีทั้งหมด 5 ตัวเรียงตามลำดับดังนี้ outlook, temperature, humidity, windy, play • มีจำนวนระเบียนทั้งหมด 14 ระเบียน • สำหรับแอททริบิวท์ outlook • เป็นแอททริบิวท์ประเภท Nominal • ไม่มีข้อมูลในระเบียนที่ขาดหายไป • มีค่าที่แตกต่างกันทั้งหมด 3 ค่า • แต่ละค่าไม่มีเพียงค่าเดียวเลย
การแสดงผลข้อมูล การอ่านผลลัพธ์ • ค่าของแอทริบิวท์ (Attribute value) คือ • sunny มี 5 ระเบียน • overcast มี 4 ระเบียน • rainy มี 5 ระเบียน
การแสดงผลข้อมูล แอททริบิวท์>> temperature
การแสดงผลข้อมูล แอททริบิวท์อื่นๆ >> humidity
การแสดงผลข้อมูล แอททริบิวท์อื่นๆ >> windy
เครื่องมือทางสถิติในซอฟต์แวร์ WEKA สถิติหนึ่งตัวแปร (Univariate Statistic) • เป็นการวิเคราะห์สถิติที่ใช้เพียงหนึ่งแอททริบิวท์ = ตัวแปร ประกอบด้วย • ชื่อของแอททริบิวท์ • ชนิดของแอททริบิวท์ • Nominal • Numeric • จำนวนข้อมูลที่ขาดหายไปเทียบเป็นเปอร์เซ็นต์กับจำนวนข้อมูลทั้งหมด • ค่าที่แตกต่างกันทั้งหมดในแอททริบิวท์ • ค่าที่มีเพียงค่าเดียว คิดเป็นเปอร์เซ็นต์เทียบกับค่าทั้งหมด
เครื่องมือทางสถิติในซอฟต์แวร์ WEKA ตัวอย่างสถิติที่สำคัญ สถิติของแอททริบิวท์SEX • ชื่อแอททริบิวท์ SEX • ชนิดของค่าของแอททริบิวท์เป็น Nominal • ในแอททริบิวท์นี้ไม่มีค่าที่หายไป • ค่าที่แตกต่างกันมีเพียงสองค่าคือ M กับ F • ค่าที่เป็น M มีจำนวน 5 ตัว • ค่าที่เป็น F มีจำนวน 5 ตัว • ค่าที่ไม่ซ้ำไม่มี
เครื่องมือทางสถิติในซอฟต์แวร์ WEKA ตัวอย่างสถิติที่สำคัญ สถิติของแอททริบิวท์SCORE • ชื่อแอททริบิวท์ Score • ชนิดของค่าของแอททริบิวท์เป็น Numeric • ในแอททริบิวท์ไม่มีข้อมูลที่ขาดหายไป • จำนวนค่าที่แตกต่างกันทั้งหมดมี 10 ตัว • ค่าแต่ละตัวมีเพียงหนึ่งเดียว (ไมมีค่าที่ซ้ำกันเลย) • ค่าต่ำสุด Minimum = 10 • ค่าสูงสุด Maximum = 89 • ค่าเฉลี่ยเลขคณิต Mean = 48.728 • ส่วนเบี่ยงเบนมาตรฐาน StdDev = 26.585
กราฟแสดงความสัมพันธ์ กราฟหนึ่งตัวแปร • กราฟแท่ง • แสดงมุมมองของแต่ละลักษณะประจํา • สามารถดูได้ทั้งหมดโดยคลิกปุ่ม Visualize all
กราฟแสดงความสัมพันธ์ กราฟสองตัวแปร • แสดงกราฟระหว่างแอททริบิวท์สองลักษณะแถบ Visualize • เรียกว่า Scatter plot • แต่ละจุดแสดงระเบียนหนึ่งระเบียน • แต่ละแกนแทนค่าของแอททริบิวท์แต่ละค่า • สีของจุดสื่อแต่ละคลาสที่ปรากฎในข้อมูล • การแก้ไขกราฟสองตัวแปร • ปรับขนาดของกราฟโดยเปลี่ยน PlotSize • เปลี่ยนขนาดของจุด โดยเปลี่ยน PointSize • กดปุ่ม Update
กราฟแสดงความสัมพันธ์ กราฟสองตัวแปร
การเรียกใช้ตัวกรอง (Filter) ตัวกรอง (Filter) • เป็นโมดูลที่ทำหน้าที่ระบุข้อมูลย่อยของระเบียนที่จะถูกแสดง • แบ่งออกเป็นสองลักษณะ คือ • Supervised • แปลงข้อมูลแบบอัตโนมัติ • ควบคุมด้วยพารามิเตอร์ทีผู้ใช้กำหนด • Unsupervised • แปลงข้อมูลที่ผู้ใช้กำหนดเอง
การเรียกใช้ตัวกรอง (Filter) ตัวกรอง (Filter) ตัวกรองแบบอัตโนมัติ (Supervised) • แอททริบิวท์ (Attribute) • AttributeSelection • ClassOrder • Discretize • NorminalToBinary • ลักษณะระเบียน(Instance) • Resample • SpreadSubsample • StratifiedRemoveFolds
การเรียกใช้ตัวกรอง (Filter) ตัวกรอง (Filter) ตัวกรองที่ผู้ใช้กำหนดเอง (Unsupervised) • แอททริบิวท์ (Attribute) • Add • Discretize (unsupervised) • Normalize • NumbericToBinary • ลักษณะระเบียน(Instance) • Randomize • RemoveFold • ReplaceMissing Value • Resample
สรุป • วิธีการนำเข้าข้อมูล มี 4 วิธี • ไฟล์ • อินเทอร์เน็ต • ฐานข้อมูล • การสร้างข้อมูลจำลอง • ประเภทแฟ้มข้อมูลที่สามารถใช้ได้ • แฟ้มข้อมูลประเภท ARFF • แฟ้มข้อมูลประเภท CSV
สรุป • การแสดงผลข้อมูล แสดงได้ 2 แบบ • ข้อความ • กราฟ • ตัวกรอง (Filter) • ตัวกรองแบบอัตโนมัติ (Supervised) • ตัวกรองที่ผู้ใช้กำหนดเอง (Unsupervised)