400 likes | 664 Views
6. Αβεβαιότητα. Περίγραμμα. Ορισμός της αβεβαιότητας, και η σχέση της με τη γεωγραφική αναπαράσταση Σύλληψη, μέτρηση, ανάλυση της αβεβαιότητας Οι έννοιες της αοριστίας και της ασάφειας Στατιστικά μοντέλα της αβεβαιότητας Διάδοση σφάλματος Πώς να ζούμε με την αβεβαιότητα. Εισαγωγή.
E N D
Περίγραμμα • Ορισμός της αβεβαιότητας, και η σχέση της με τη γεωγραφική αναπαράσταση • Σύλληψη, μέτρηση, ανάλυση της αβεβαιότητας • Οι έννοιες της αοριστίας και της ασάφειας • Στατιστικά μοντέλα της αβεβαιότητας • Διάδοση σφάλματος • Πώς να ζούμε με την αβεβαιότητα
Εισαγωγή • Ο συμβιβασμός του ατελούς ήαβέβαιου • [επιστήμη, πρακτική] • [αφηρημένες έννοιες, εφαρμογή] • [ικανότητα ανάλυσης, κοινωνικά συμφραζόμενα] • Είναι αδύνατο να έχουμε μια τέλεια αναπαράσταση του κόσμου, οπότε η αβεβαιότητα είναι αναπόφευκτη
Πηγές αβεβαιότητας • Σφάλμα μέτρησης: διαφορετικές παρατηρήσεις, όργανα μέτρησης • Σφάλμα προδιαγραφών: μεταβλητές που έχουμε παραλείψει • Αμφισημία, αοριστία και η ποιότητα της αναπαράστασης σε ένα GIS • Μια συνολική προσέγγιση για τις ‘ατελείς’ αναπαραστάσεις ή ένα μέτρο ‘ποιότητας’
Μια αντιληπτική άποψη της αβεβαιότητας (τρία φίλτρα)
1ο φίλτρο: Αβεβαιότητα στην αντίληψη • Χωρική αβεβαιότητα • Φυσικές γεωγραφικές μονάδες; • Διμεταβλητές / πολυμεταβλητές επεκτάσεις; • Διακριτά αντικείμενα • Αοριστία • Στατιστική, Χαρτογραφική, Γνωστική • Αμφισημία • Τιμές, γλώσσα
Κλίμακα και γεωγραφικές μονάδες • Περιοχές • Ομοιόμορφες ζώνες • Λειτουργικές ζώνες • Οι συσχετίσεις συνήθως ισχυροποιούνται όταν βασίζονται σε μεγαλύτερες γεωγραφικές μονάδες
Γεωγραφική κατανομή 3 επιθέτων επαγγελματικής προέλευσης – Fuller, Tucker και Walker
Γεωγραφική κατανομή 3 επιθέτων επαγγελματικής προέλευσης – Fuller, Tucker και Walker
Ασαφείς προσεγγίσεις της αβεβαιότητας • Στη θεωρία ασαφών συνόλων επιτρέπεται η μερική συμμετοχή σε ένα σύνολο • Η συμμετοχή ποικίλει, π.χ. από 0 έως 1 • αυτό προσθέτει μια τρίτη εκδοχή στην κατηγοριοποίηση: ‘ναι’, ‘όχι’, και ‘ίσως’ • Ασαφείς προσεγγίσεις έχουν εφαρμοστεί σε χαρτογράφηση εδάφους, κάλυψη βλάστησης, χρήση γης
Κλίμακα και χωρική αυτοσυσχέτιση Αρ. γεωγραφικών περιοχώνΣυσχέτιση 48 0,2189 24 0,2963 12 0,5757 6 0,7649 3 0,9902
2ο φίλτρο: Μέτρηση / αναπαράσταση • Διαφορετικά μοντέλα αναπαράστασης μοντελοποιούν διαφορετικά την πραγματικότητα • Vector μοντέλο • Raster μοντέλο
Η αντίθεση μεταξύ των εννοιών διακριτών αντικειμένων (πάνω) και πεδίων (κάτω) μιας αβέβαιης ακτογραμμής 0.9 – 1.0 0.5 – 0.9 0.1 – 0.5 0.0 – 0.1
Στατιστικά μοντέλα αβεβαιότητας: η περίπτωση των ονομαστικών δεδομένων • Πώς μπορούμε να μετρήσουμε την ακρίβεια των ονομαστικών δεδομένων; • Π.χ. ένας χάρτης με την κάλυψη από καλιέργειες • Μήτρα σύγχυσης(confusion matrix) • Συγκρίνει τις κατηγορίες-κλάσεις που έχουν καταγραφεί (οιπαρατηρήσεις) με τις κατηγορίες που προκύπτουν από μια διαδικασία ή πηγή που θεωρείται ότι έχει μεγαλύτερη ακρίβεια (ηαναφορά)
Α Β Γ Δ Ε Α 80 4 0 15 7 106 Β 2 17 0 9 2 30 Σύνολο Γ 12 5 9 4 8 38 Δ 7 8 0 65 0 80 Ε 3 2 1 6 38 50 104 36 10 99 55 304 Σύνολο Παράδειγμα μήτρας εσφαλμένης ταξινόμησης ή σύγχυσης. Έγινε έλεγχος σε 304 αγροτεμάτια. Οι γραμμές του πίνακα αντιστοιχούν στη χρήση γης όπως καταγράφηκε στη βάση δεδομένων και οι στήλες του πίνακα αντιστοιχούν στη χρήση γης όπως καταγράφηκε επιτόπου. Οι αριθμοί που εμφανίζοντα στην κύρια διαγώνιο της μήτρας αντιπροσωπεύουν τη σωστή ταξινόμηση.
Στατιστική μήτρας σύγχυσης • Σωστά ταξινομημένο ποσοστό (percent correctly classified – PCC) • Το σύνολο των στοιχείων στην κύρια διαγώνια δια του ολικού συνόλου • 209/304 = 68.8% • αλλά η τυχαιότητα θα έδινε σκορ μεγαλύτερο από το 0 • Δείκτης κάπα (kappa index) • Κανονικοποιημένος ώστε να κυμαίνεται από 0 (τυχαιότητα) σε 100% (απόλυτα επιτυχημένη ταξινόμηση) • Στο παράδειγμά μας, δίνει 58.3% Να μπει ο μαθηματικός τύπος εδώ (σελ. 231 βιβλίου)
Δειγματοληψία για τη μήτρα σύγχυσης • Η εξέταση καθενός αγροτεμαχίου μπορεί να μην είναι πρακτική λύση • Οι κατηγορίες που εμφανίζονται πιο σπάνια πρέπει να δειγματοληπτούνται πιο συχνά ώστε η ακρίβεια που μετράμε να είναι αξιόπιστη • Δειγματοληψία στρωματωμένη κατά κατηγορία
Εκτίμηση ακρίβειας ανά-πολύγωνο και ανά-πίξελ • Μπορεί να έχουμε σφάλμα τόσο στα χαρακτηριστικά των πολυγώνων όσο και στις θέσεις των συνόρων • Καλύτερα να εκλαμβάνουμε το χάρτη ως πεδίο, και να κάνουμε δειγματοληψία σημείων • αυτό αντανακλά το πώς αναμένεται να χρησιμοποιηθούν τα δεδομένα, να ρωτάμε δηλαδή τι κατηγορία ισχύει σε συγκεκριμένο σημείο
Ένα παράδειγμα χάρτη βλάστησης. Έχουμε στη διάθεσή μας δύο στρατηγικές εκτίμησης της ακρίβειας: τον έλεγχο ανά επιφάνεια (πολύγωνο) ή τον έλεγχο ανά σημείο. Στην πρώτη περίπτωση πρέπει να βρούμε μια στρατηγική για τον επιτόπιο έλεγχο κάθε έκτασης, ώστε να προσδιορίσουμε τη σωστή κατηγορία της. Στη δεύτερη περίπτωση, πρέπει να πάρουμε δείγματα σημείων από ολόκληρη την πολιτεία και να προσδιορίσουμε τη σωστή κατηγορία σε κάθε σημείο.
Η περίπτωση των ισοδιαστημικών και των αναλογικών δεδομένων • Τα σφάλματα επηρεάζουν τις μετρήσεις κατά ένα ποσό • Η ακρίβεια μέτρησης (accuracy) αναφέρεται στο ποσό της απόκλισης από την αληθινή τιμή • Ακρίβεια τιμής (precision) • Αναφέρεται στη διακύμανση μεταξύ επαναλαμβανόμενων μετρήσεων • και στο ποσό της λεπτομέρειας που περιέχεται στην αναφορά μιας μέτρησης
Ο όρος ακρίβεια τιμήςχρησιμοποιείται συχνά σε σχέση με την επαναληψιμότητα των μετρήσεων. Και στα δύο διαγράμματα έχουν ληφθεί έξι μετρήσεις για την ίδια θέση, η οποία αντιστοιχεί στο κέντρο του κύκλου. Στο αριστερό διάγραμμα, οι διαδοχικές μετρήσεις έχουν παρόμοιες τιμές (παρουσιάζουν υψηλή ακρίβεια τιμής - precision), αλλά δείχνουν μια απόκλιση από τη σωστή τιμή (παρουσιάζουν χαμηλήακρίβεια μέτρησης - accuracy). Στο δεξί διάγραμμα, η ακρίβεια τιμής είναι μικρότερη αλλά η ακρίβεια μέτρησης μεγαλύτερη.
Αναφορά μετρήσεων • Το ποσό της λεπτομέρειας σε μια αναφορά μέτρησης (π.χ. η έξοδος από ένα GIS) πρέπει να αντανακλά την ακρίβεια (τιμής) της • Αναφορά “14,4 μ.” υπονοεί ακρίβεια 0,1 μ. • Αναφορά “14 μ.” υπονοεί ακρίβεια 1 μ. • Η επιπλέον ακρίβεια πρέπει να αφαιρείται με στρογγυλοποίηση
Μέτρηση της ακρίβειας τιμής • Root Mean Square Error (RMSE): η τετραγωνική ρίζα του μέσου τετραγωνικού σφάλματος • Αποτελεί τη βασική τεχνική μέτρησης ακρίβειαςστα πρότυπα χαρτογράφησης και στις γεωγραφικές βάσεις δεδομένων • Π.χ., τα υψόμετρα σε ένα ψηφιακό μοντέλο υψομέτρων μπορεί να έχουν RMSE της τάξης των 2 μ. • Η αφθονία των διαφορετικών μεγεθών σφαλμάτων συχνά ακολουθεί την κατανομή Γκάους (ή κανονική κατανομή) Να μπει ο μαθηματικός τύπος εδώ (σελ. 234 βιβλίου)
Ηκατανομή ΓκάουςήΚανονική. Το ύψος της καμπύλης για οποιαδήποτε τιμή του xδίνει τη σχετική αφθονία παρατηρήσεων με τη συγκεκριμένη τιμή του x. Η περιοχή κάτω από την καμπύλη μεταξύ δύο οποιωνδήποτε σημείων του xδίνει την πιθανότητα οι παρατηρήσεις να βρίσκονται σε αυτήν την περιοχή. Η περιοχή της τυπικής απόκλισης μεταξύ –1 και +1 απεικονίζεται με μπλε χρώμα. Περικλείει το 68% του εμβαδού κάτω από την καμπύλη και σημαίνει ότι το 68% των παρατηρήσεων θα βρίσκονται μέσα σε αυτά τα όρια.
Η αβεβαιότητα στη θέση της υσοϋψούς των 350 μ. με ένα τποθετικό RMSE 7 μ. Η κατανομή Γκάους με μέση τιμή τα 350 μ. και τυπική απόκλιση 7 μ. δίνει 95% πιθανότητα η πραγματική θέση της υσοϋψούς των 350 μ. να βρίσκεται στη χρωματίσμένη περιοχή και 5% πιθανότητα να βρίσκεται εκτός. Σχεδίαση της υσοϋψούς των 350 μ. στην περιοχή του State College στην Pennsylvania των ΗΠΑ. Η ισοϋψής έχει υπολογιστεί από το DEM της Υπηρεσίας Γεωλογικής Επισκόπησης των ΗΠΑ.
Ένας χρήσιμος πρακτικός κανόνας για την ακρίβεια θέσης • Η ακρίβεια της θέσης των στοιχείων που εμφανίζονται σ’ ένα χάρτη είναι είναι περίπου 0,5mm πάνω στο χάρτη • π.χ., 0,5mm σε ένα χάρτη κλίμακας 1:24.000 δίνει ακρίβεια θέσης 12μ. • περίπου ίσο με το επιτρεπόμενο σφάλμα σύμφωνα Εθνικό Πρότυπο Ακρίβειας Μέτρησης Χαρτών των ΗΠΑ • Αυτή η ανοχή μπορεί να καλύψει το σφάλμα ψηφιοποίησης, τη στρέβλωση του χαρτιού, καθώς και άλλες συνήθεις πήγες σφάλματος θέσης.
Κλίμακα χάρτη 1:1250 62,5 cm 1:2500 1,25 m 1:5000 2,5 m 1:10.000 5 m 1:24.000 12 m 1:50.000 25 m 1:100.000 50 m 1:250.000 125 m 1:1.000.000 500 m 1:10.000.000 5 km Ένας χρήσιμος πρακτικός κανόνας είναι ότι οι θέσεις που μετρώνται στους χάρτες έχουν ακρίβεια περίπου 0,5 mm πάνω στο χάρτη. Αν αυτό πολλαπλασιαστεί με την κλίμακα του χάρτη παίρνουμε την αντίστοιχη πραγματική απόσταση πάνω στο έδαφος. Απόσταση στο έδαφος που αντιστοιχεί σε απόσταση0,5 mm πάνω στο χάρτη
Συσχέτιση των σφαλμάτων • Τααπόλυτασφάλματα θέσης μπορεί να είναι μεγάλα • αντανακλούν την τεχνική δυσκολία μέτρησης των αποστάσεωνσημείων από τον Ισημερινό και τον Μεσημβρινό του Γκρίνουιτς • Τασχετικάσφάλματα θέσης για μικρές αποστάσεις είναι πολύ μικρότερα • Τα σφάλματα θέσης τείνουν να έχουν ισχυρή συσχέτιση για μικρές αποστάσεις • Ως αποτέλεσμα, τα σφάλματα θέσης μπορούν να μη λυφθούν υπόψη κατά τον υπολογισμό κάποιων χαρακτηριστικών, όπως η απόσταση ή το εμβαδό
3ο φίλτρο: Ανάλυση, διάδοση σφάλματος • Αφορά στις επιπτώσεις του σφάλματος και της αβεβαιότητας στα αποτελέσματα της GIS ανάλυσης • Σχεδόν κάθε είσοδος σε ένα GIS υπόκειται σε σφάλμα και αβεβαιότητα • Κατά συνέπεια, κάθε έξοδος έχει περιορισμούς στην ορθότητά της ή ένα βαθμό αβεβαιότητας
Σφάλμα στη μέτρηση του εμβαδού ενός τετραγώνου πλευράς 100 μ. Έχει γίνει τοπογραφικός προσδιορισμός κάθε μίας από τις τέσσερις γωνίες, με το σφάλμα να ακολουθεί διμεταβλητή κατανομή Γκάους με τυπική απόκλιση 1 μ. στα xκαιy (διακεκομμένοι κύκλοι). Το κόκκινο πολύγωνο δείχνει ένα πιθανό τοπογραφημένο τετράγωνο (μία υλοποίηση του μοντέλου σφάλματος). Σε αυτή την περίπτωση η μέτρηση του εμβαδού υπόκειται σε μια τυπική απόκλιση 200 τ.μ., με ένα αποτέλεσμα κάτι σαν 10.014,603 να είναι αρκετά πιθανό παρόλο που το πραγματικό εμβαδό είναι 10.000 τ.μ. Βασικά, το αποτέλεσμα 10.014,603 πρέπει να στρογγυλοποιηθεί βάσει της ακρίβειας που ισχύει και να αναφερθεί ως 10.000.
Τρείς υλοποιήσεις ενός μοντέλου οι οποίες προσομοιώνουν τις επιπτώσεις των σφαλμάτων σε ένα ψηφιακό μοντέλο υψομέτρων. Τα τρία μοντέλα διαφέρουν μόνο σε βαθμό που είναι σύμφωνος με το γνωστό σφάλμα. Το σφάλμα έχει προσομοιωθεί με τη χρήση μοντέλου που σχεδιάστηκε έτσι ώστε να αναπαράγει τις γνωστές ιδιότητες σφάλματος του συγκεκριμένου συνόλου δεδομένων -- την κατανομή μοντέλου σφάλματος και τη χωρική αυτοσυσχέτιση μεταξύ σφαλμάτων.
Το πρόβλημα της οικολογικής πλάνης. Πριν κλείσει, το εργοστάσιο υποδημάτων αντλούσε το εργατικό του δυναμικό από τις εργατικές περιοχές στους νότιους και δυτικούς τομείς. Το κλείσιμό του οδήγησε σε υψηλά ποσοστά τοπικής ανεργίας αλλά όχι στους κατοίκους της Chinatown, οι οποίοι διατήρησαν την απασχόληση στις βιομηχανίες υπηρεσιών. Ωστόσο, η σύγκριση των χωροπληθών χαρτών Β και Γ δείχνει μια παραπλανητική σχέση μεταξύ Κινέζικης εθνικής καταγωγής και ανεργίας.
Υπέρθεση δύο βάσεων δεδομένων δρόμων. Οι κόκκινες και πράσινες γραμμές παρουσιάζουν διαφορές σύμπτωσης μέχρι 100 μ. Σε κάποιες περιπτώσεις οι δρόμοι από το ένα σύνολο δεδομένων δεν εμφανίζονται στο άλλο ή έχουν διαφορετικές διασταυρώσεις. Το φόντο είναι σκοτεινό στα σημεία που υπάρχει καλύτερη ταύτιση και λευκό εκεί που η ταύτιση είναι χειρότερη.
Πρόβλημα Τροποποιήσιμης Επιφανειακής Μονάδας • MAUP (Modifiable Areal Unit Problem) • Κλίμακα + συνάθροιση = MAUP • Μπορεί να μελετηθεί μέσω προσομοίωσης μεγάλων αριθμών εναλλακτικών σχημάτων ζωνών
Αριστερά: μια επιφάνεια δεδομένων που αναπαριστά το δείκτη δραστηριότητας στο κέντρο μιας πόλης (οι πιο σκούρες αποχρώσεις σημαίνουν μεγαλύτερη δραστηριότητα). Δεξιά: η έκθεση για το κέντρο της πόλης: τα όρια του κέντρου είναι μπλε, οι πορτοκαλί γραμμές δείχνουν εμπορικούς πυρήνες, οι πιο σκούρες αποχρώσεις σημαίνουν μεγαλύτερη δραστηριότητα
Συμβιώνοντας με την αβεβαιότητα • Είναι εύκολο να αντιληφθούμε τη σημασία της αβεβαιότητας στα GIS • Αλλά είναι πολύ πιο δύσκολο να τη διαχειριστούμε αποτελεσματικά • Δεν υπάρχει όμως δυνατότητα επιλογής, ειδικά σε δικαστικές διενέξεις
Κάποιες βασικές αρχές • Η αβεβαιότητα είναι αναπόφευκτη στα GIS • Τα δεδομένα που μας παρέχονται από τρίτους δεν πρέπει άκριτα να θεωρούνται ως αληθή • Πρέπει να γίνεται προσπάθεια να προσδιοριστεί η ποιότητά τους • Οι επιπτώσεις στις εξόδους ενός GIS είναι συχνά πιο μεγάλες από τις αναμενόμενες • Υπάρχει αυτόματα μια τάση να θεωρείται η έξοδος ενός υπολογιστικού προγράμματος ως αλήθεια
Κάποιες ακόμη βασικές αρχές • Πρέπει να χρησιμοποιούμε όσο το δυνατό περισσότερες πηγές δεδομένων • και να γίνεται διασταύρωση σχετικά με την ακρίβειά τους • Πρέπει να είμαστε ειλικρινείς και κατατοπιστικοί όταν αναφέρουμε αποτελέσματα • Να προσθέτουμε αρκετές προειδοποιήσειςκαι συστάσεις
Σύνοψη • Η αβεβαιότητα είναι κάτι περισσότερο από σφάλμα • Οι πλούσιες αναπαραστάσειςδημιουργούναβεβαιότητα! • Προκύπτει η ανάγκη γιαεκ των προτέρωνκατανόηση των δεδομένωνκαι ανάλυση ευαισθησίας