1 / 16

Weka

Weka. Data Mining software. Εισαγωγή. Weka: W ekato E nvironment for k nowledge A nalysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για : Προεπεξεργασία Δεδομένων Ταξινόμηση Συσταδοποίηση Εύρεση Κανόνων Συσχέτισης.

lilith
Download Presentation

Weka

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Weka Data Mining software

  2. Εισαγωγή • Weka: Wekato Environment for knowledge Analysis • Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το οποίο περιέχει υλοποιημένες μεθόδους για: • Προεπεξεργασία Δεδομένων • Ταξινόμηση • Συσταδοποίηση • Εύρεση Κανόνων Συσχέτισης

  3. Εγκατάσταση • To software είναι διαθέσιμο για εγκατάσταση από την ιστοσελίδα: http://www.cs.waikato.ac.nz/ml/weka/ • Για το περιβάλλον των windows, σε περίπτωση που κάποια έκδοση της java δεν είναι ήδηεγκατεστημένη, το εκτελέσιμο που θα αποθηκευτεί είναι η έκδοση (stable version) που περιλαμβάνει την javaVM 1.6

  4. Περιβάλλον weka • Ανοίγοντας το πρόγραμμα,μέσω του μενού Application →Exporer→Open file δίνεται η δυνατότητα να επιλεγεί ένα σύνολο δεδομένων στο οποίο μπορούν να εφαρμοστούν τεχνικές που αφορούν : • Preprocess • Classify • Cluster • Associate • Select Attributes • Visualize • Επιλέγοντας ένα σύνολο δεδομένων (αρχείο .arff), εμφανίζονται γραφικά τα δεδομένα για καθένα από τα γνωρίσματα ξεχωριστά καθώς και στατιστικές πληροφορίες για αυτά. Εάν στο σύνολο δεδομένων δίνεται και κάποια κλάση στην οποία ταξινομούνται, τα δεδομένα που ανήκουν στην ίδια κλάση εμφανίζονται με το ίδιο χρώμα

  5. Αρχεία .arff • Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση .arff • Στον φάκελο C:\Program Files\Weka-3-5\data περιέχονται κάποια παραδείγματα τέτοιων αρχείων. • Δεδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση.

  6. Παράδειγμα @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present ...

  7. Οπτικοποίηση δεδομένων • Από την καρτέλα visualize υπάρχει η δυνατότητα να εμφανιστεί η γραφική αναπαράσταση κάθε γνωρίσματος σε συνάρτηση με κάθε άλλο γνώρισμα.

  8. Συσταδοποίηση δεδομένων • Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων ‘όμοιων’ δεδομένων). • Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.

  9. Επιλογή αλγορίθμου • Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι: • Cobweb (ιεραρχική συσταδοποίηση) • DBScan • EM • Farthest First • OPTICS • SimpleKmeans (K-means) • Xmeans

  10. Πληροφορίες σχετικά με τα αποτελέσματα του clustering στα δεδομένα

  11. Παράμετροι Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν νατροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί.

  12. Οπτικοποίηση αποτελέσματος Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται έναμενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων,με βάση τις ομάδες που έχουν προκύψει από το clustering

  13. Οπτικοποίηση αποτελέσματος

  14. Οπτικοποίηση αποτελέσματος

More Related