130 likes | 263 Views
Ιδιωτικότητα και διαχείριση δεδομένων. Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου ). Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων?.
E N D
Ιδιωτικότητα και διαχείριση δεδομένων Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου)
Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? • Διάφοροι οργανισμοί (νοσοκομεία, δημόσιοι οργανισμοί,…) δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν χρήσιμα συμπεράσματα (π.χ., «σε ποιες περιοχές έχουμε αυξημένο ποσοστό καρκίνου του δέρματος?» • Επειδή τα δεδομένα περιέχουν προσωπικές πληροφορίες, συνήθως οι πληροφορίες αυτές αποκρύβονται. • Είναι εφικτό όμως, κάποιος «επιτιθέμενος» να μπορέσει να συνδυάσει δημοσιευμένα δεδομένα από διάφορες πηγές, καθώς και δική του πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων
Ο κυβερνήτης της Μασαχουσέτης • Η πιο διάσημη περίπτωση είναι ο συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του κυβ. της Μασαχουσέτης • Προσέξτε πώς υπάρχει μόνο μία εγγραφή με ημ. γέννησης 1/21/76, zipcode 53715 και φύλο Male. • Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους εκλογικούς καταλόγους • + • Ήταν γνωστό ότι μπήκε στο νοσοκομείο • => • Μπορεί κανείς να συνάγει την πάθησή του
Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών Ben, the benevolent data miner Detailed microdata T Anonymized public data T* Alice, the external attacker Bob (the victim) to be hidden
Βασικοί Ορισμοί • Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με κάποιες εξωτερικές πληροφορίες μπορούν να προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα (zip code, birth date, sex,…). • Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίες γενίκευσης • Sensitive Attributes:Είναι πεδία των οποίων την πληροφορία θέλουμε να αποκρύψουμε (disease, salary,…) • Identifiers: Είναι πεδία που αποκαλύπτουν απ’ ευθείας την ταυτότητα ενός ατόμου (name, SNN,..).
Γενίκευση και ανωνυμία • Για να διατηρηθεί η ιδιωτικότητα των δεδομένων πρέπει: • Να αφαιρεθούν από τα δεδομένα τα πεδία εκείνα που απ’ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή • Οι εγγραφές και οι τιμές των πεδίων του να μετασχηματιστούν / οργανωθούν σε ομάδες / … με τέτοιο τρόπο ώστε: • Οι στατιστικές ιδιότητες του συνόλου των δεδομένων να διατηρηθούν • Ο κακόβουλος επιτιθέμενος να μη μπορεί να «μαντέψει» σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα
k-anonymity • Ένας πίνακας Τείναι k-anonymousόταν κάθε εγγραφή του πίνακα είναι ίδια ως προς τα Quasi-Identifier πεδία του με k-1 άλλες εγγραφές.
l-diversity Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversityόταν κάθε group του πίνακα έχει τουλάχιστον lδιαφορετικές τιμές στα sensitive πεδία.
Παράμετροι του προβλήματος • Υπάρχουν 3 παράμετροι του προβλήματος • Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης • Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο γενίκευσης • Anonymity: ποιο είναι το ελάχιστο ανεκτό μέγεθος k για κάθε group (παρόμοια: ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση των ευαίσθητων τιμών σε ένα group) • οι οποίες είναι ανταγωνιστικές στο πόσο χρήσιμη πληροφορία έχω
Κατηγορίες γενίκευσης • Global recoding • Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιο level στην ιεραρχία του [Swee02a][Sama01][LeDR05]. • Multidimensional • Οι τιμές ενός χαρ/κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικά επίπεδα. Αλλά η εμφάνιση ενός QI-value γενικεύεται στην ίδια τιμή[LeDR06]. • Local recoding • Οι εμφανίσεις ενός χαρ/κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικές τιμές. Οι εμφανίσεις ενός QI-value μπορεί να γενικευτούν σε διαφορετική τιμή[Xu+06].
Αναφορές (1) • [Sama01]P. Samarati. Protecting respondents’ identities in microdata release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. • [Swee02a]Latanya Sweeney. k-Anonymity: A Model for Protecting Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002) • [Swee02b]Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002) • [LeDR05]K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005. • [LeDR06]Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25 • [MaGK06]A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.
Αναφορές (2) • [Xu+06]JianXu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile Shi, AdaWai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790 • [Agg05]CharuC.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005. • [PaSh07]Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007. • [UCI]U.C. Irvine Repository of Machine Learning Databases. 1998.http://www.ics.uci.edu/~mlearn • [IPUMS]Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html