1 / 13

Ιδιωτικότητα και διαχείριση δεδομένων

Ιδιωτικότητα και διαχείριση δεδομένων. Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου ). Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων?.

hans
Télécharger la présentation

Ιδιωτικότητα και διαχείριση δεδομένων

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ιδιωτικότητα και διαχείριση δεδομένων Π. Βασιλειάδης 2010-09-09 (βασισμένο στις διαφάνειες της Α. Πιλαλίδου)

  2. Γιατί είναι σημαντική η ιδιωτικότητα των δεδομένων? • Διάφοροι οργανισμοί (νοσοκομεία, δημόσιοι οργανισμοί,…) δημοσιεύουν δεδομένα με σκοπό να εξυπηρετήσουν αναλυτές που μπορεί να εξάγουν χρήσιμα συμπεράσματα (π.χ., «σε ποιες περιοχές έχουμε αυξημένο ποσοστό καρκίνου του δέρματος?» • Επειδή τα δεδομένα περιέχουν προσωπικές πληροφορίες, συνήθως οι πληροφορίες αυτές αποκρύβονται. • Είναι εφικτό όμως, κάποιος «επιτιθέμενος» να μπορέσει να συνδυάσει δημοσιευμένα δεδομένα από διάφορες πηγές, καθώς και δική του πληροφόρηση για να σπάσει την ανωνυμοποίηση των δεδομένων

  3. Ο κυβερνήτης της Μασαχουσέτης • Η πιο διάσημη περίπτωση είναι ο συνδυασμός δημοσίων εκλογικών καταλόγων και δημοσιευθέντων ιατρικών δεδομένων για να ανευρεθεί ο ιατρικός φάκελος του κυβ. της Μασαχουσέτης • Προσέξτε πώς υπάρχει μόνο μία εγγραφή με ημ. γέννησης 1/21/76, zipcode 53715 και φύλο Male. • Επειδή τα στοιχεία αυτά του κυβερνήτη ήταν γνωστά από τους εκλογικούς καταλόγους • + • Ήταν γνωστό ότι μπήκε στο νοσοκομείο • => • Μπορεί κανείς να συνάγει την πάθησή του

  4. Δημοσιοποίηση δεδομένων με απόκρυψη ευαίσθητων πληροφοριών Ben, the benevolent data miner Detailed microdata T Anonymized public data T* Alice, the external attacker Bob (the victim) to be hidden

  5. Βασικοί Ορισμοί‏ • Quasi-Identifier: Πεδία τα οποία αν συνδυαστούν με κάποιες εξωτερικές πληροφορίες μπορούν να προσδιορίσουν μοναδικά μια εγγραφή ενός πίνακα (zip code, birth date, sex,…). • Συχνά συνοδεύουμε τους quasi-identifiers με ιεραρχίες γενίκευσης • Sensitive Attributes:Είναι πεδία των οποίων την πληροφορία θέλουμε να αποκρύψουμε (disease, salary,…) • Identifiers: Είναι πεδία που αποκαλύπτουν απ’ ευθείας την ταυτότητα ενός ατόμου (name, SNN,..).

  6. Γενίκευση και ανωνυμία • Για να διατηρηθεί η ιδιωτικότητα των δεδομένων πρέπει: • Να αφαιρεθούν από τα δεδομένα τα πεδία εκείνα που απ’ ευθείας δηλώνουν σε ποιο πρόσωπο ανήκει μια εγγραφή • Οι εγγραφές και οι τιμές των πεδίων του να μετασχηματιστούν / οργανωθούν σε ομάδες / … με τέτοιο τρόπο ώστε: • Οι στατιστικές ιδιότητες του συνόλου των δεδομένων να διατηρηθούν • Ο κακόβουλος επιτιθέμενος να μη μπορεί να «μαντέψει» σε ποιον ανήκει μια εγγραφή με στατιστικά σημαντική πιθανότητα

  7. k-anonymity • Ένας πίνακας Τείναι k-anonymousόταν κάθε εγγραφή του πίνακα είναι ίδια ως προς τα Quasi-Identifier πεδία του με k-1 άλλες εγγραφές.

  8. l-diversity Ένας πίνακας T ικανοποιεί την ιδιότητα του l-diversityόταν κάθε group του πίνακα έχει τουλάχιστον lδιαφορετικές τιμές στα sensitive πεδία.

  9. Παράμετροι του προβλήματος • Υπάρχουν 3 παράμετροι του προβλήματος • Suppression: πόσες εγγραφές αφαιρούνται από τα δεδομένα στη διαδικασία της ανωνυμοποίησης • Generalization: πόση πληροφορία χάνεται γενικεύοντας τα δεδομένα σε κάποιο επίπεδο γενίκευσης • Anonymity: ποιο είναι το ελάχιστο ανεκτό μέγεθος k για κάθε group (παρόμοια: ποιο είναι το ελάχιστο ανεκτό μέγεθος l για τη διαφοροποίηση των ευαίσθητων τιμών σε ένα group) • οι οποίες είναι ανταγωνιστικές στο πόσο χρήσιμη πληροφορία έχω

  10. Κατηγορίες γενίκευσης • Global recoding • Όλες οι εμφανίσεις ενός πεδίου γενικεύονται στο ίδιο level στην ιεραρχία του [Swee02a][Sama01][LeDR05]. • Multidimensional • Οι τιμές ενός χαρ/κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικά επίπεδα. Αλλά η εμφάνιση ενός QI-value γενικεύεται στην ίδια τιμή[LeDR06]. • Local recoding • Οι εμφανίσεις ενός χαρ/κου σε διαφορετικά groups μπορούν να γενικεύονται σε διαφορετικές τιμές. Οι εμφανίσεις ενός QI-value μπορεί να γενικευτούν σε διαφορετική τιμή[Xu+06].

  11. Αναφορές (1) • [Sama01]P. Samarati. Protecting respondents’ identities in microdata release. IEEE Trans. Knowl. Data Eng. (TKDE), 13(6):1010–1027, 2001. • [Swee02a]Latanya Sweeney. k-Anonymity: A Model for Protecting Privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 557-570 (2002) • [Swee02b]Latanya Sweeney. Achieving k-Anonymity Privacy Protection Using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10(5): 571-588 (2002) • [LeDR05]K. LeFevre, D. J. DeWitt, and R. Ramakrishnan. Incognito: Efficient full-domain k-anonymity. In SIGMOD, pages 49–60, 2005. • [LeDR06]Kristen LeFevre, David J. DeWitt, Raghu Ramakrishnan. Mondrian Multidimensional K-Anonymity. ICDE 2006: 25 • [MaGK06]A. Machanavajjhala, J. Gehrke, and D. Kifer. l-diversity: Privacy beyond k-anonymity. ICDE, 2006.

  12. Αναφορές (2) • [Xu+06]JianXu, Wei Wang, Jian Pei, Xiaoyuan Wang, Baile Shi, AdaWai-Chee Fu. Utility-based anonymization using local recoding. KDD 2006: 785-790 • [Agg05]CharuC.Aggarwal. On k-anonymity an the curse of Dimensionality. VLDB 2005. • [PaSh07]Hyoungmin Park, Kyuseok Shim. Approximate Algorithms for k-anonymity. SIGMOD 2007. • [UCI]U.C. Irvine Repository of Machine Learning Databases. 1998.http://www.ics.uci.edu/~mlearn • [IPUMS]Data set obtained from the web site of Y. Tao for the [XiTa07] paper http://www.cse.cuhk.edu.hk/~taoyf/paper/sigmod07.html

More Related