imageBugfix.png
Präsidiumsarbeitskreis
DS und IT-Sicherheit
ÜberlegungBlogbeitrag

Deanonymisierung

Die Anonymisierung von personenbezogenen Daten erscheint dem Laien als ein einfaches und wirkungsvolles Mittel, um sich irgendwelcher Datenschutzprobleme zu entledigen: Man löscht einfach in den Daten diejenigen Elemente mit eindeutigem Bezug zu einer konkreten Person wie den Namen, die Telefonnummer und die Adresse. Andere Daten wie das Geschlecht, das Geburtsdatum oder die Postleitzahl erscheinen unkritisch, denn es gibt auf der Erde zahlreiche Menschen mit demselben Geburtstag. Nur durch dieses Datum allein ist eine Person also nicht identifizierbar.

Das Problem besteht nur darin, dass diejenigen, die am selben Tag Geburtstag feiern, sich ansonsten unterscheiden. Sie wohnen beispielsweise in verschiedenen Städten. Daraus folgt, dass eine Kombination aus mehreren Informationen durchaus eine Deanonymisierung erlaubt, das heißt, dass ein anonymisierter Datensatz wieder einem bestimmten Menschen zugeordnet werden kann. Anonymisierung schützt also personenbezogene Daten keinesfalls.  

Schon seit Jahrzehnten ist dies bekannt, nur nicht allen verantwortlichen Entscheidern. Die grundlegende Forschungsarbeit zur Deanonymisierung war die von Latanya Sweeney, die herausfand: 87 % der US-amerikanischen Bevölkerung lassen sich anhand von Postleitzahl, Geschlecht und Geburtsdatum eindeutig identifizieren:
dataprivacylab.org/projects/identifiability/paper1.pdf

Eine andere Studie deanonymisierte Datensätze in der Filmkritik-Datenbank von Netflix:
www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf

Besonders kritisch wird diese Deanonymisierung, wenn es um sensible Informationen wie Gesundheitsdaten geht:
techscience.org/a/2015092903/

Gleichzeitig wird auch in Deutschland diskutiert, Gesundheitsdaten publik zu machen:
www.aerztezeitung.de/Wirtschaft/Die-Gesundheitsdaten-als-wertvolle-Quelle-fuer-Kuenstliche-Intelligenz-314278.html

Eine Lösung des Problems besteht darin, die Anonymität von Daten vor ihrer Veröffentlichung zu prüfen und durch entsprechende Anonymisierung möglichst groß zu halten: de.wikipedia.org/wiki/K-Anonymität
Noch besser wäre es jedoch, personenbeziehbare und sensible Daten grundsätzlich vertraulich zu behandeln. Ein Mal publiziert, lassen sie sich nicht zurückholen.

Andrea Herrmann