Prof. Dr. Rainer Lenz, [email protected] Data Privacy: Algorithmen für t-Closeness und Differential Privacy Das Angebot an sensiblen Daten über Personen und Unternehmen ist in den letzten Jahren sprunghaft gewachsen und wird weiter zunehmen. Daher werden Algorithmen benötigt, die zu veröffentlichende Daten derart schützen, dass eine Identifikation der Merkmalsträger nach menschlichem Ermessen ausgeschlossen werden kann. Andererseits dürfen die Daten nicht zu stark verfremdet bzw. ihr Informationsgehalt zu sehr reduziert werden, damit eine vernünftige Datenanalyse weiterhin möglich ist. In der Informatik werden verschiedene Konzepte zur Sicherung des Datenschutzes vorgeschlagen: Seien Q1, …, Qn so genannte Quasi-Identifikatoren (das sind Merkmale, die zur Verknüpfung mit einem anderen Datensatz verwendet werden können wie z.B. „Geschlecht“, „Alter“, „Nationalität“ bei Personendaten oder „Wirtschaftszweig“, „Umsatz“, „Unternehmenssitz“ bei Unternehmensdaten); seien weiterhin C1, …, Cm sensible Merkmale (z. B. Angaben über Krankheiten, das Einkommen von Personen oder die Investitionen von Unternehmen), die ein potentieller Datenangreifer auf keinen Fall aufdecken darf. Eine Datei D heißt (1) k-anonym, wenn es zu jeder vorkommenden Kombination der QuasiIdentifikatoren mindestens k Einheiten bzw. Datensätze in D gibt. (2) l-divers für das Merkmal xj, wenn dieses Merkmal für jede Kombination der Quasi-Identifikatoren mindestens l deutlich unterscheidbare Ausprägungen aufweist (d.h. bei numerischen Merkmalen wie etwa Einkommen dürfen die Werte nicht zu nah beieinander liegen). Eine Anforderung, die über k-Anonymität und l-Diversität hinausgeht, ist die tCloseness. Dazu teilt man die Datei D in Klassen K1, …, Kl auf. D erfüllt diese Anforderung, wenn die Verteilung eines Merkmales xj sich in jeder Klasse Ki von der Verteilung des Merkmals für die ganze Datei D anteilig um höchstens t unterscheidet. Domingo-Ferrer und Soria-Comas schlagen in [1] (Kapitel 6) einen neuen Algorithmus zur Erreichung von t-Closeness vor, der auf einer so genannten Bucketisierung des Datensatzes beruht. Eine Beschreibung findet sich in [3]. Hauptziel der Projektarbeit soll die Implementierung dieses Algorithmus und die Anwendung auf ausgewählte Dateien sein. Es soll für ausgewählte Analysen verglichen werden, wie stark sich die Ergebnisse mit Original- und veränderten Daten unterscheiden. Domingo-Ferrer und Soria-Comas schlagen in [1] (Kapitel 4) ferner eine Erweiterung der t-Closeness zu einer stochastischen t-Closeness vor. Eine mögliche Erweiterung der Projektarbeit besteht in der Abänderung des Algorithmus‘ derart, dass eine stochastische t-Closeness erreicht wird und in einem Vergleich der Ergebnisse der beiden Ansätze. Ausgangspunkt für einen anderen Strang der Data Privacy – Forschung stellt das Konzept der Differential Privacy dar. Dabei soll erreicht werden, dass sich Analyseergebnisse nur um einen kleinen Faktor ε unterscheiden, wenn man eine beliebige Einheit aus der Datei entfernt. Eine formale Definition und einen guten Überblick über die aktuelle Forschung bieten Dwork und Roth [2]. Je nach Rückmeldung der Studierenden bzw. bei größerer Teilnehmerzahl wäre die zusätzliche Implementierung eines Algorithmus‘ aus diesem Bereich zu Vergleichszwecken denkbar. Die Anforderungen an die Programmoberfläche können ebenfalls an die Teilnehmerzahl angepasst werden. Literatur [1] Domingo-Ferrer, J. und Soria-Comas, J.: From t-Closeness to Differential Privacy and Vice Versa in Data Anonymization, crises2-deim.urv.cat/docs/publications/journals/841.pdf. [2] Dwork, C. und Roth, A.: The Algorithmic Foundations of Differential Privacy, www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf. [3] Soria-Comas, J.: Improving data utility in differential privacy and k-anonymity, Doctoral Thesis, crises2-deim.urv.cat/docs/publications/theses/jSoria.pdf.
© Copyright 2024 ExpyDoc