400 likes | 574 Views
Εξόρυξη Χωρικών Δεδομένων. Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham ). Θεματολογία Εξόρυξης Χωρικών Δεδομένων. Στόχος : Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων Εισαγωγή Σύνοψη Χωρικών Δεδομένων
E N D
Εξόρυξη Χωρικών Δεδομένων Βασίλειος Μεγαλοοικονόμου, Χρήστος Μακρής (βασισμένο σε σημειώσεις της Μ. Dunham)
Θεματολογία Εξόρυξης Χωρικών Δεδομένων Στόχος: Μια εισαγωγή σε μερικές τεχνικές εξόρυξης χωρικών δεδομένων • Εισαγωγή • Σύνοψη Χωρικών Δεδομένων • Βασικές Αρχές Εξόρυξης Χωρικών Δεδομένων • Γενίκευση / Εξειδίκευση • Χωρικοί Κανόνες • Χωρική Κατηγοριοποίηση • Χωρική Συσταδοποίηση
Χωρικό Αντικείμενο (Spatial Object) • Περιέχει τόσο χωρικά όσο και μη χωρικά χαρακτηριστικά. • Πρέπει να έχει χαρακτηριστικά προσδιορισμού της θέσης όπως: • Γεωγραφικό Πλάτος/Γεωγραφικό Μήκος • Ταχυδρομικός κώδικας • Διεύθυνση, οδός, κλπ • Το χωρικό αντικείμενο μπορεί να ανακτάται χρησιμοποιώντας χωρικά ή/και μη χωρικά χαρακτηριστικά.
Εφορμογές Εξόρυξης Χωρικών Δεδομένων • Γεωλογία • Γεωγραφικά Πληροφορικά Συστήματα (GIS) • Επιστήμες Περιβάλλοντος • Γεωργία • Ιατρική • Ρομποτική • Μπορεί να περιέχει τόσο χωρικές όσο και χρονικές πτυχές
Χωρικά (Spatial) Queries • Η χωρική επιλογή περιλαμβάνει λειτουργίες εξειδικευμένης σύγκρισης: • Κοντά • Βόρεια, Νότια, Ανατολικά, Δυτικά • Περιέχεται σε • Επικαλύπτεται • Ερώτηση περιοχής (Region (Range) Query) – βρες αντικείμενα που επικαλύπτουν μια συγκεκριμένη περιοχή • Ερώτηση πλησιέστερου γείτονα (Nearest Neighbor Query)– βρες αντικείμενα που είναι γειτονικά ως προς ένα γνωστό αντικείμενο • Σάρωση απόστασης (Distance Scan)– βρες αντικείμενα που βρίσκονται εντός συγκεκριμένης απόστασης από ένα γνωστό αντικείμενο όπου η απόσταση αυξάνει βαθμιαία
Δομές Χωρικών Δεδομένων • Δομές δεδομένων ειδικά σχεδιασμένες για την αποθήκευση ή τη δεικτοδότηση χωρικών δεδομένων • Συχνά βασίζονται στο B-δένδροή στο Δένδρο Δυαδικής Αναζήτησης • Συσταδοποίηση δεδομένων στο δίσκο με βάση τη γεωγραφική τοποθεσία • Μπορούν να αναπαριστούν μια σύνθετη χωρική δομή τοποθετώντας το χωρικό αντικείμενο σε μια δομή συγκεκριμένου γεωγραφικού σχήματος • Τεχνικές: • Τετραδικό Δένδρο (Quad Tree) • R- Δένδρο • k-D Δένδρο
Ελάχιστο Περιβάλλον Ορθογώνιο • Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle, MBR) • Το μικρότερο ορθογώνιο που περιέχει πλήρως το αντικείμενο
Παραδείγματα Ελαχίστου Περιβάλλοντος Ορθογωνίου
Τετραδικό Δένδρο (Quad Tree) • Ιεραρχικός διαχωρισμός του χώρου σε τεταρτημόρια (MBRs) • Κάθε επίπεδο του δένδρου αναπαριστά το αντικείμενο ως σύνολο τεταρτημορίων τα οποία περιέχουν κάποιο μέρος του αντικειμένου • Κάθε επίπεδο είναι μια πιο ακριβή αναπαράσταση του αντικειμένου • Το πλήθος των επιπέδων καθορίζεται από το βαθμό της επιθυμητής ακρίβειας
R-Δένδρο • Όπως και στο Τετραδικό Δένδρο, η περιοχή χωρίζεται σε διαδοχικά μικρότερα ορθογώνια (MBRs). • Τα ορθογώνια δεν χρειάζεται να είναι του ίδιου μεγέθους ή αριθμού σε κάθε επίπεδο. • Τα ορθογώνια μπορεί να επικαλύπτονται. • Τα κελιά χαμηλότερου επιπέδου έχουν μόνο ένα αντικείμενο. • Αλγόριθμοι συντήρησης (maintenance) του δένδρου παρόμοιοι με τα B-δένδρα.
K-D Δένδρο • Σχεδιασμένο για δεδομένα πολλών χαρακτηριστικών, όχι απαραίτητα χωρικά • Παραλλαγή του δυαδικού δένδρου αναζήτησης • Κάθε επίπεδο χρησιμοποιείται για τη δεικτοδότηση μίας από τις διαστάσεις του χωρικού αντικειμένου • Τα κελιά κατώτατου επίπεδου έχουν μόνο ένα αντικείμενο • Διαιρέσεις που δεν βασίζονται σε MBRs αλλά σε διαδοχικές διαιρέσεις του εύρους διαστάσεων
Τοπολογικές Συσχετίσεις Χωρική περιοχή: • Ξένη ή αμοιβαίως αποκλειόμενη (Disjoint) • Έχει επικάλυψη ή τέμνει(Overlaps ή Intersects) • Ίση • Καλύπτεται από ή βρίσκεται εντός ή περιέχεται σε • Καλύπτει ή περιέχει
Απόσταση Μεταξύ Αντικειμένων • Euclidean • Manhattan • Επεκτάσεις:
Προοδευτική Βελτίωση (Progressive Refinement) • Δώσε προσεγγιστικές απαντήσεις πριν από τις πιο βελτιωμένες απαντήσεις. • Φίλτραρε τα δεδομένα που δεν είναι μέρος της απάντησης • Ιεραρχική παρουσίαση των δεδομένων βασισμένη σε χωρικές σχέσεις • Αδρό κατηγόρημα που επαναληπτικά βελτιώνεται
Χωρική Ιεραρχία: Progressive Refinement – Προοδευτική Βελτίωση
Spatial Data Dominant Algorithm – Γενίκευση Χωρικής Τάξης
STING • STatistical Information Grid-based • Ιεραρχική τεχνική για το διαχωρισμό μιας περιοχής σε ορθογώνια κελια • Δομή δεδομένων πλέγματος που περιέχει συνοπτικές πληροφορίες για κάθε κελί • Τεχνική ιεραρχικής συσταδοποίησης • Παρόμοιο με το τετραδικό δένδρο
Χωρικοί Κανόνες • Κανόνας χωρικού χαρακτηριστικού(Characteristic Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι$50,000. • Διακρίνων Κανόνας – Κανόνας Χωρικού Διαχωρισμού (Discriminant Rule) Το μέσο οικογενειακό εισόδημα στο Dallas είναι $50,000, ενώ στοPlano το μέσο οικογενειακό εισόδημα είναι $75,000. • Κανόνας χωρικής συσχέτισης (Association Rule) Το μέσο οικογενειακό εισόδημα στο Dallas για οικογένειες που ζουν κοντά στην ΛίμνηWhite Rock είναι$100,000.
Κανόνες Χωρικής Συσχέτισης • Είτε το πρότερο (antecedent) είτε το απότοκο (consequent)του κανόνα πρέπει να περιέχει κάποια χωρικά κατηγορήματα. • Αντιμετώπισε την underlying βάση δεδομένων ως σύνολο χωρικών αντικειμένων. • Μπορεί να δημιουργηθεί χρησιμοποιώντας ένα είδος προοδευτικής βελτίωσης
Αλγόριθμος Δημιουργίας ΚανόνωνΧωρικών Συσχετίσεων Παρόμοιος με τον Aprioriαλγόριθμο στον οποίο καθορίζονται συχνά «σύνολα κατηγορημάτων»
Χωρική Συσταδοποίηση • Διαχωρισμός χωρικών αντικειμένων • Μπορεί να βασίζεται σε μη χωρικά ή/και χωρικά χαρακτηριστικά • Μπορεί να χρησιμοποιεί γενίκευση και προοδευτική βελτίωση
Επέκταση ID3 – Κατηγοριοποίηση Χωρικών Αντικειμένων • Neighborhood Graph (Γράφοι γειτνίασης) • Κόμβοι– αντικείμενα • Ακμές – συνδέουν γείτονες • Ο ορισμός της «γειτονίας» ποικίλει (απόσταση μικρότερη κάποιου κατωφλίου, ικανοποίηση μιας τοπολογικής σχέσης μεταξύ των αντικειμένων, κ.α.) • Ο αλγόριθμος ID3 για την κατηγοριοποίηση εξετάζει τα μη χωρικά χαρακτηριστικά όλων των αντικειμένων σε μια γειτονιά
Δένδρο Χωρικής Απόφασης • Προσέγγιση παρόμοια με αυτή που χρησιμοποιήθηκε για τους χωρικούς κανόνες συσχέτισης. • Τα χωρικά αντικείμενα μπορούν να περιγραφούν με βάση τα γειτονικότερα ως προς αυτά αντικείμενα– (buffer(ενδιάμεση ζώνη)). • Περιγραφή της κλάσης με βάση τη συνάθροιση γειτονικών αντικειμένων
Αλγόριθμος Δένδρου Χωρικής Απόφασης Καθορίζεται οι αριθμοί των αντικειμένων που ικανοποιούν ή δεν ικανοποιούν κάθε κατηγόρημα. Έτσι υπολογίζεται το κέρδος της πληροφορίας
Χωρική Συσταδοποίηση • Ανιχνεύει συστάδες ή ακανόνιστα σχήματα • Χρήση κεντροειδών και προσεγγίσεις απλής απόστασης μπορεί να μην δουλεύουν αποδοτικά. • Οι συστάδες μπορεί να είναι ανεξάρτητες της σειράς εισόδου.
CLARANS Επεκτάσεις • Αφαίρεσε τις υποθέσεις κύριας μνήμης τουCLARANS. • Χρησιμοποίησε τεχνικές χωρικής δεικτοδότησης • Χρησιμοποίησε δειγματοληψία χρησιμοποιώντας τα R*-δένδρα για να ταυτοποιήσεις κεντρικά αντικείμενα. • Άλλαξε τους υπολογισμούς κόστους μειώνοντας το πλήθος των εξεταζόμενων αντικειμένων • Αντί να εξετάζεται όλη η βάση, εξετάζονται μόνο τα αντικείμενα στις συστάδες που επηρεάζονται κατά την αλλαγή ενός medoid. • Η ανάκτηση των αντικειμένων σε μια δοθείσα συστάδα βασίζεται στην κατασκευή ενός διαγράμματοςVoronoi
SD(CLARANS) • Spatial Dominant (SD) • Πρώτα συσταδοποιεί τις χωρικές συνιστώσες χρησιμοποιώντας τον CLARANSκαι έπειτα εξετάζει τα μη χωρικά γνωρίσματα εντός κάθε συστάδας για να εξάγει την περιγραφή της • Επαναληπτικά αντικαθιστά τα κεντροειδή αλλά περιορίζει το πλήθος των ζευγαριών που αναζητούνται • Χρησιμοποιεί γενίκευση • Χρησιμοποιεί εκμάθηση για να εξάγει την περιγραφή της συστάδας
DBCLASD • Distribution Based Clustering of LArge Spatial Databases • Επέκταση τουDBSCAN • Θεωρεί ότι τα αντικείμενα στη συστάδα είναι ομοιόμορφα κατανεμηνένα • Ταυτοποιεί κατανομές που ικανοποιούν περιορισμούς απόστασης μεταξύ πλησιέστερων γειτόνων. • Αντικείμενα προστίθενται αν η κατανομή είναι ομοιόμορφη
Aggregate Proximity(Συναθροιστική Εγγύτητα) • Aggregate Proximity – μετρά πόσο κοντά είναι μια συστάδα σε ένα χαρακτηριστικό • Η σχέση συναθροιστικής εγγύτητας εντοπίζει τα k πιο κοντινά χαρακτηριστικά σε μια συστάδα • The CRH Algorithm – χρησιμοποιεί διαφορετικά σχήματα: • Περικλείων Κύκλος (Encompassing Circle) • Ισοθετικό Ορθογώνιο (IsotheticRectangle) • Κυρτό Περίβλημα (Convex Hull) • Μια προσέγγιση φιλτραρίσματος των χαρακτηριστικών που χρησιμοποιεί πρώτα τον περικλείοντα κύκλο, μετά το ισοθετικό ορθογώνιο και τέλος το κυρτό περίβλημα