1 / 40

Εξόρυξη Χωρικών Δεδομένων

Εξόρυξη Χωρικών Δεδομένων. Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham ). Θεματολογία Εξόρυξης Χωρικών Δεδομένων. Στόχος : Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων Εισαγωγή Σύνοψη Χωρικών Δεδομένων

alta
Download Presentation

Εξόρυξη Χωρικών Δεδομένων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Εξόρυξη Χωρικών Δεδομένων Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham)

  2. Θεματολογία Εξόρυξης Χωρικών Δεδομένων Στόχος: Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων • Εισαγωγή • Σύνοψη Χωρικών Δεδομένων • Βασικές Αρχές Εξόρυξης Χωρικών Δεδομένων • Γενίκευση / Εξειδίκευση • Χωρικοί Κανόνες • Χωρική Κατηγοριοποίηση • Χωρική Συσταδοποίηση

  3. Χωρικό Αντικείμενο (Spatial Object) • Περιέχει τόσο χωρικά όσο και μη χωρικά χαρακτηριστικά. • Πρέπει να έχει χαρακτηριστικά προσδιορισμού της θέσης όπως: • Γεωγραφικό Πλάτος/Γεωγραφικό Μήκος • Ταχυδρομικός κώδικας • Διεύθυνση, οδός, κλπ • Το χωρικό αντικείμενο μπορεί να ανακτάται χρησιμοποιώντας χωρικά ή/και μη χωρικά χαρακτηριστικά.

  4. Εφορμογές Εξόρυξης Χωρικών Δεδομένων • Γεωλογία • Γεωγραφικά Πληροφορικά Συστήματα (GIS) • Επιστήμες Περιβάλλοντος • Γεωργία • Ιατρική • Ρομποτική • Μπορεί να περιέχει τόσο χωρικές όσο και χρονικές πτυχές

  5. Χωρικά (Spatial) Queries • Η χωρική επιλογή περιλαμβάνει λειτουργίες εξειδικευμένης σύγκρισης: • Κοντά • Βόρεια, Νότια, Ανατολικά, Δυτικά • Περιέχεται σε • Επικαλύπτεται • Ερώτηση περιοχής (Region (Range) Query) – βρες αντικείμενα που επικαλύπτουν μια συγκεκριμένη περιοχή • Ερώτηση πλησιέστερου γείτονα (Nearest Neighbor Query)– βρες αντικείμενα που είναι γειτονικά ως προς ένα γνωστό αντικείμενο • Σάρωση απόστασης (Distance Scan)– βρες αντικείμενα που βρίσκονται εντός συγκεκριμένης απόστασης από ένα γνωστό αντικείμενο όπου η απόσταση αυξάνει βαθμιαία

  6. Δομές Χωρικών Δεδομένων • Δομές δεδομένων ειδικά σχεδιασμένες για την αποθήκευση ή τη δεικτοδότηση χωρικών δεδομένων • Συχνά βασίζονται στο B-δένδροή στο Δένδρο Δυαδικής Αναζήτησης • Συσταδοποίηση δεδομένων στο δίσκο με βάση τη γεωγραφική τοποθεσία • Μπορούν να αναπαριστούν μια σύνθετη χωρική δομή τοποθετώντας το χωρικό αντικείμενο σε μια δομή συγκεκριμένου γεωγραφικού σχήματος • Τεχνικές: • Τετραδικό Δένδρο (Quad Tree) • R- Δένδρο • k-D Δένδρο

  7. Ελάχιστο Περιβάλλον Ορθογώνιο • Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle, MBR) • Το μικρότερο ορθογώνιο που περιέχει πλήρως το αντικείμενο

  8. Παραδείγματα Ελαχίστου Περιβάλλοντος Ορθογωνίου

  9. Τετραδικό Δένδρο (Quad Tree) • Ιεραρχικός διαχωρισμός του χώρου σε τεταρτημόρια (MBRs) • Κάθε επίπεδο του δένδρου αναπαριστά το αντικείμενο ως σύνολο τεταρτημορίων τα οποία περιέχουν κάποιο μέρος του αντικειμένου • Κάθε επίπεδο είναι μια πιο ακριβή αναπαράσταση του αντικειμένου • Το πλήθος των επιπέδων καθορίζεται από το βαθμό της επιθυμητής ακρίβειας

  10. Παράδειγμα Τετραδικού Δένδρου

  11. R-Δένδρο • Όπως και στο Τετραδικό Δένδρο, η περιοχή χωρίζεται σε διαδοχικά μικρότερα ορθογώνια (MBRs). • Τα ορθογώνια δεν χρειάζεται να είναι του ίδιου μεγέθους ή αριθμού σε κάθε επίπεδο. • Τα ορθογώνια μπορεί να επικαλύπτονται. • Τα κελιά χαμηλότερου επιπέδου έχουν μόνο ένα αντικείμενο. • Αλγόριθμοι συντήρησης (maintenance) του δένδρου παρόμοιοι με τα B-δένδρα.

  12. Παράδειγμα R-Δένδρου

  13. K-D Δένδρο • Σχεδιασμένο για δεδομένα πολλών χαρακτηριστικών, όχι απαραίτητα χωρικά • Παραλλαγή του δυαδικού δένδρου αναζήτησης • Κάθε επίπεδο χρησιμοποιείται για τη δεικτοδότηση μίας από τις διαστάσεις του χωρικού αντικειμένου • Τα κελιά κατώτατου επίπεδου έχουν μόνο ένα αντικείμενο • Διαιρέσεις που δεν βασίζονται σε MBRs αλλά σε διαδοχικές διαιρέσεις του εύρους διαστάσεων

  14. Παράδειγμα k-D Δένδρου

  15. Τοπολογικές Συσχετίσεις Χωρική περιοχή: • Ξένη ή αμοιβαίως αποκλειόμενη (Disjoint) • Έχει επικάλυψη ή τέμνει(Overlaps ή Intersects) • Ίση • Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε • Καλύπτει ή περιέχει

  16. Απόσταση Μεταξύ Αντικειμένων • Euclidean • Manhattan • Επεκτάσεις:

  17. Προοδευτική Βελτίωση (Progressive Refinement) • Δώσε προσεγγιστικές απαντήσεις πριν από τις πιο βελτιωμένες απαντήσεις. • Φίλτραρε τα δεδομένα που δεν είναι μέρος της απάντησης • Ιεραρχική παρουσίαση των δεδομένων βασισμένη σε χωρικές σχέσεις • Αδρό κατηγόρημα που επαναληπτικά βελτιώνεται

  18. Χωρική Ιεραρχία: Progressive Refinement – Προοδευτική Βελτίωση

  19. Spatial Data Dominant Algorithm – Γενίκευση Χωρικής Τάξης

  20. STING • STatistical Information Grid-based • Ιεραρχική τεχνική για το διαχωρισμό μιας περιοχής σε ορθογώνια κελια • Δομή δεδομένων πλέγματος που περιέχει συνοπτικές πληροφορίες για κάθε κελί • Τεχνική ιεραρχικής συσταδοποίησης • Παρόμοιο με το τετραδικό δένδρο

  21. STING

  22. STING Build Αλγόριθμος

  23. STING Αλγόριθμος

  24. Χωρικοί Κανόνες • Κανόνας χωρικού χαρακτηριστικού(Characteristic Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι$50,000. • Διακρίνων Κανόνας – Κανόνας Χωρικού Διαχωρισμού (Discriminant Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι $50,000, ενώ στοPlano το μέσο οικογενειακό εισόδημα είναι $75,000. • Κανόνας χωρικής συσχέτισης (Association Rule) Το μέσο οικογενειακό εισόδημα στο Dallas για οικογένειες που ζουν κοντά στην ΛίμνηWhite Rock είναι$100,000.

  25. Κανόνες Χωρικής Συσχέτισης • Είτε το πρότερο (antecedent) είτε το απότοκο (consequent)του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα. • Αντιμετώπισε την underlying βάση δεδομένων ως σύνολο χωρικών αντικειμένων. • Μπορεί να δημιουργηθεί χρησιμοποιώντας ένα είδος προοδευτικής βελτίωσης

  26. Αλγόριθμος Δημιουργίας ΚανόνωνΧωρικών Συσχετίσεων Παρόμοιος με τον Aprioriαλγόριθμο στον οποίο καθορίζονται συχνά «σύνολα κατηγορημάτων»

  27. Χωρική Συσταδοποίηση • Διαχωρισμός χωρικών αντικειμένων • Μπορεί να βασίζεται σε μη χωρικά ή/και χωρικά χαρακτηριστικά • Μπορεί να χρησιμοποιεί γενίκευση και προοδευτική βελτίωση

  28. Επέκταση ID3 – Κατηγοριοποίηση Χωρικών Αντικειμένων • Neighborhood Graph (Γράφοι γειτνίασης) • Κόμβοι– αντικείμενα • Ακμές – συνδέουν γείτονες • Ο ορισμός της «γειτονίας» ποικίλει (απόσταση μικρότερη κάποιου κατωφλίου, ικανοποίηση μιας τοπολογικής σχέσης μεταξύ των αντικειμένων, κ.α.) • Ο αλγόριθμος ID3 για την κατηγοριοποίηση εξετάζει τα μη χωρικά χαρακτηριστικά όλων των αντικειμένων σε μια γειτονιά

  29. Δένδρο Χωρικής Απόφασης • Προσέγγιση παρόμοια με αυτή που χρησιμοποιήθηκε για τους χωρικούς κανόνες συσχέτισης. • Τα χωρικά αντικείμενα μπορούν να περιγραφούν με βάση τα γειτονικότερα ως προς αυτά αντικείμενα– (buffer(ενδιάμεση ζώνη)). • Περιγραφή της κλάσης με βάση τη συνάθροιση γειτονικών αντικειμένων

  30. Αλγόριθμος Δένδρου Χωρικής Απόφασης Καθορίζεται οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Έτσι υπολογίζεται το κέρδος της πληροφορίας

  31. Χωρική Συσταδοποίηση • Ανιχνεύει συστάδες ή ακανόνιστα σχήματα • Χρήση κεντροειδών και προσεγγίσεις απλής απόστασης μπορεί να μην δουλεύουν αποδοτικά. • Οι συστάδες μπορεί να είναι ανεξάρτητες της σειράς εισόδου.

  32. Χωρική Συσταδοποίηση

  33. CLARANS Επεκτάσεις • Αφαίρεσε τις υποθέσεις κύριας μνήμης τουCLARANS. • Χρησιμοποίησε τεχνικές χωρικής δεικτοδότησης • Χρησιμοποίησε δειγματοληψία χρησιμοποιώντας τα R*-δένδρα για να ταυτοποιήσεις κεντρικά αντικείμενα. • Άλλαξε τους υπολογισμούς κόστους μειώνοντας το πλήθος των εξεταζόμενων αντικειμένων • Αντί να εξετάζεται όλη η βάση, εξετάζονται μόνο τα αντικείμενα στις συστάδες που επηρεάζονται κατά την αλλαγή ενός medoid. • Η ανάκτηση των αντικειμένων σε μια δοθείσα συστάδα βασίζεται στην κατασκευή ενός διαγράμματοςVoronoi

  34. Voronoi

  35. SD(CLARANS) • Spatial Dominant (SD) • Πρώτα συσταδοποιεί τις χωρικές συνιστώσες χρησιμοποιώντας τον CLARANSκαι έπειτα εξετάζει τα μη χωρικά γνωρίσματα εντός κάθε συστάδας για να εξάγει την περιγραφή της • Επαναληπτικά αντικαθιστά τα κεντροειδή αλλά περιορίζει το πλήθος των ζευγαριών που αναζητούνται • Χρησιμοποιεί γενίκευση • Χρησιμοποιεί εκμάθηση για να εξάγει την περιγραφή της συστάδας

  36. SD(CLARANS) Algorithm

  37. DBCLASD • Distribution Based Clustering of LArge Spatial Databases • Επέκταση τουDBSCAN • Θεωρεί ότι τα αντικείμενα στη συστάδα είναι ομοιόμορφα κατανεμηνένα • Ταυτοποιεί κατανομές που ικανοποιούν περιορισμούς απόστασης μεταξύ πλησιέστερων γειτόνων. • Αντικείμενα προστίθενται αν η κατανομή είναι ομοιόμορφη

  38. DBCLASD Αλγόριθμος

  39. Aggregate Proximity(Συναθροιστική Εγγύτητα) • Aggregate Proximity – μετρά πόσο κοντά είναι μια συστάδα σε ένα χαρακτηριστικό • Η σχέση συναθροιστικής εγγύτητας εντοπίζει τα k πιο κοντινά χαρακτηριστικά σε μια συστάδα • The CRH Algorithm – χρησιμοποιεί διαφορετικά σχήματα: • Περικλείων Κύκλος (Encompassing Circle) • Ισοθετικό Ορθογώνιο (IsotheticRectangle) • Κυρτό Περίβλημα (Convex Hull) • Μια προσέγγιση φιλτραρίσματος των χαρακτηριστικών που χρησιμοποιεί πρώτα τον περικλείοντα κύκλο, μετά το ισοθετικό ορθογώνιο και τέλος το κυρτό περίβλημα

  40. CRH

More Related