230 likes | 347 Views
Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen. Erhalt der Privatsphäre beim Data Mining. Ulrich Graf Betreuer: Frank Eichinger. Institut für Programmstrukturen und Datenorganisation (IPD) – Universität Karlsruhe (TH).
E N D
Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit in modernen Informationssystemen Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Institut für Programmstrukturen und Datenorganisation (IPD) – Universität Karlsruhe (TH)
Motivation • Data Mining gewinnt immer mehr an Bedeutung: • Analysen auf Kundendaten (z.B. Payback), Datensammlung im Internet, … • Sorge um Gefährdung der Privatsphäre beim Mining naturgemäß besonders hoch • Gründe auch für Entwicklerinteresse: • Kundenbindung durch Vertrauen • Schlechte Miningergebnisse durch falsche Kundenangaben Ulrich Graf, Seminar DSDS SS 2007
Agenda • Übersicht Data Mining • Privatsphäre – Gefährdungsszenarien • Klassifizierung von Algorithmen anhand verschiedener Parameter • Beispielalgorithmen • Ausblick und Zusammenfassung Ulrich Graf, Seminar DSDS SS 2007
Data Mining Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • „We´re drowning in information and starving for knowledge.“ • Data Mining = „Knowledge“ Mining: Finden von interessanten Mustern in großen Datenbeständen Ulrich Graf, Seminar DSDS SS 2007
Data Mining – Techniken Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Clusteranalyse: gruppiere „ähnliche“ Datensätze, z.B. Kunden mit ähnlichem Musikgeschmack • Assoziationsregeln, z.B. Warenkorbanalyse: „Wenn Kunde Käse und Wurst kauft, kauft er mit hoher Wahrscheinlichkeit auch Brot.“ Ulrich Graf, Seminar DSDS SS 2007
A < 0.5 A >= 0.5 … … … … hoch niedrig niedrig hoch Data Mining – Techniken • Klassifikation: benutze Merkmale, um Datentupel in Klasse einzuteilen, z.B. Risikoanalyse • Entscheidungsbaum, Neuronale Netze Ulrich Graf, Seminar DSDS SS 2007
A < 0.5 A >= 0.5 Data Mining - Entscheidungsbaum Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Aufbau des Baums mit Trainingsdaten • Binärbaum wird von der Wurzel ausgehend rekursiv aufgebaut: • Falls Split notwendig: Ermittle Attribut A, das die Daten optimal nach Klassen trennt • Bilde Partitionen P, P´, wiederhole Algorithmus für beide Partitionen • Vermeidung von Überanpassung des Modells an Trainingsdaten: Pruning • Zusammenfassen von Blättern mit wenigen Datensätzen P‘ P Ulrich Graf, Seminar DSDS SS 2007
Was ist Privatsphäre? Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Unterschiedliche Definitionen: • „Individual's right to be let alone“ (1890) • „Das aktive Recht, darüber zu bestimmen, welche Daten über sich [...] von anderen gebraucht werden und welche Daten auf einen selbst einwirken dürfen." (Kuhlen) • „Personal data […]: any information relating to an identified or identifiable natural person […]“ (EG 1995) • Schutz vor Missbrauch und Identifi-zierbarkeit muss angestrebt werden Ulrich Graf, Seminar DSDS SS 2007
Identifizierbarkeit Missbrauch A < 0.5 A >= 0.5 … … … … Modifikation hoch niedrig niedrig hoch Szenario Zentralisiertes Mining Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Schutz individueller Daten Data Mining Mining-Ergebnis Ulrich Graf, Seminar DSDS SS 2007
A A < 0.5 A >= 0.5 … … Mining … … B A+B+C C nicht sicher hoch niedrig niedrig hoch Szenario Verteiltes Mining Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Secure Multiparty Computation (SMC): mehrere Parteien möchten Mining gemeinsam durchführen, aber jede Partei will ihre Daten geheim halten Ulrich Graf, Seminar DSDS SS 2007
A Sicheres Protokoll B C Szenario Verteiltes Mining Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Vertrauenswürdiger Server nicht realistisch – sicheres Protokoll für direkte Kommunikation unter den Parteien notwendig Ulrich Graf, Seminar DSDS SS 2007
Parameter für Algorithmen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Vielzahl von Algorithmen verfügbar • Parameter: • Verteilung der Daten: zentralisiert, horizontal, vertikal vertikal verteilt horizontal verteilt zentralisiert DM DM DM Datentupel Attribute Ulrich Graf, Seminar DSDS SS 2007
Parameter für Algorithmen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Parameter: • Data-Mining-Ziel: Clusteranalyse, Klassifikation, … • Modifikation der Eingangsdaten: • Rauschfunktionen • Blockieren von Werten • Vertauschen von 0- und 1-Werten • Swapping • Sampling • Aggregation • Grad verbleibender Funktionalität bzw. Privatsphäre Ulrich Graf, Seminar DSDS SS 2007
Algorithmen für SMC Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Jede polynomiell berechenbare Funktion kann sicher berechnet werden (Goldreich et al.) • Beweis läuft über logische Gatter: • Jede Partei besitzt eine Inputvariable • Inputvariablen durch Zufallszahlen modifiziert • Jede Partei berechnet ihre Outputvariable • Zusammensetzen der Outputvariablen eliminiert die Zufallszahlen Ulrich Graf, Seminar DSDS SS 2007
SMC – Beispiel Sichere Summe Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Summation wichtig für Data Mining • Voraussetzung: Intervall [0,n) für die Summe bekannt (Addition in Fn). • Jede der m Parteien besitzt Summand si , i = 1, …, m. • Algorithmus: • 1. Partei generiert Zufallszahl R aus [0,n) und leitet V = (R+s1) mod n weiter an Partei 2. • Partei i = 2,…, n-1 berechnet V = (si+V) mod n und leitet V weiter an Partei i+1. • Partei n berechnet den gleichen Schritt und leitet das Ergebnis an Partei 1 weiter. • Subtrahieren von R ergibt das Ergebnis. Ulrich Graf, Seminar DSDS SS 2007
s1 = 5, R = 13 1 2 3 4 s2 = 4 s4 = 2 s3 = 8 SMC – Sichere Summe Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • n = 20 • Im F20: 12-13 = 19 V = 12 V = 18 V = 2 V = 10 Ulrich Graf, Seminar DSDS SS 2007
SMC Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Ähnliche Algorithmen für: • Durchschnitt • Vereinigung • Skalarprodukt • Berechnung der Inversen Matrix • Annahme: alle Parteien stellen korrekte Inputdaten bereit • Bei falschen Inputdaten wird gesamtes Ergebnis verfälscht, kein Vorteil für Datensaboteur • Problem: für viele Attribute sehr aufwändig Ulrich Graf, Seminar DSDS SS 2007
Auf Datenmodifikation beruhende Algorithmen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Herausforderungen: • Modifikation muss Privatsphäre sicherstellen • Mining nicht möglich, ohne dass Information zu großem Teil in den Daten erhalten bleibt => Gegensätzliche Ziele, Kompromisse erforderlich A < 0.5 A >= 0.5 Data Mining … … … … hoch niedrig niedrig hoch Modifikation Mining-Ergebnis Ulrich Graf, Seminar DSDS SS 2007
Datenmodifikation Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Beobachtung: einzelne Werte oftmals nicht entscheidend für das Mining, sondern Verteilung der Werte • Addition von Rauschfunktion • zufällige Werte aus Gleichverteilung bzw. Gauß´scher Verteilung • Originaldaten geschützt, wenn Rauschfunktion und Originaldaten nicht unkorreliert • Verteilung der Originaldaten iterativ annäherbar Ulrich Graf, Seminar DSDS SS 2007
Mining mit modifizierten Daten Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Klassifikation mit Entscheidungsbaum • Verschiedene Rekonstruktionsansätze: • Global: Einmalige Rekonstruktion für jedes Attribut • Nach Klassen: • Trenne Daten für jedes Attribut nach den Klassen • Rekonstruiere Verteilung • Baue Entscheidungsbaum auf • Lokal: • Vorgehen wie nach Klassen getrennt • Zusätzlich Rekonstruktion bei jedem Baumknoten • Sehr akkurate Ergebnisse möglich: Abweichung normalerweise < 10% vom Mining-Ergebnis mit nicht modifizierten Daten • Global zu ungenau, Lokal sehr aufwändig, Nach Klassen liefert fast so gute Ergebnisse wie Lokal => Nach Klassen guter Kompromiss Ulrich Graf, Seminar DSDS SS 2007
Bewertung von Algorithmen Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Generelle Maßstäbe: • Performanz • Nutzbarkeit der Daten • Grad der Privatsphäre • Robustheit von Modifikationen gegenüber anderen Algorithmen • SMC: • Sicher, aber sehr hoher Aufwand – Ansätze weg von der beweisbaren Sicherheit zu mehr Performanz • Datenmodifikation: • Wenn Originaldaten und Rauschfunktion unkorreliert sind, kann Sicherheitslücke entstehen • Bei erhältlichen Algorithmen guter Erhalt von Privatsphäre und Performanz Ulrich Graf, Seminar DSDS SS 2007
Zusammenfassung / Ausblick Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss • Data Mining nicht mehr wegzudenken • Ruf nach Mining, das die Privatsphäre respektiert, wird lauter • Forschungsgebiet noch sehr jung, aber bereits mit guten Ergebnissen: viele Algorithmen verfügbar, die Privatsphäre und Funktionalität sichern • Größte Herausforderungen in Zukunft: • weg von vielen Speziallösungen hin zu performanten, generalisierbaren Lösungen • Integration in Mining-Tools und DBMS • Standardisierung steht noch ganz am Anfang Ulrich Graf, Seminar DSDS SS 2007
Schluss Motivation Data Mining Privatsphäre Parameter Algorithmen Schluss Vielen Dank für die Aufmerksamkeit! Ulrich Graf, Seminar DSDS SS 2007