Page 124 - HTW_25_Jahre_Forschung
P. 124
Unternehmens nur das Bundesland anstelle der Die einzelnen Werte dieser synthetischen Daten
Gemeinde angegeben werden. Ebenfalls eine zeigen eine hinreichend große Abweichung von
sehr effektive Schutzwirkung stellt die Klassie- den Originaldaten, so dass eine Zuordnung zu
rung von numerischen Merkmalen dar. Anstelle den ursprünglichen Merkmalsträgern (Unter-
des exakten Einkommens in Euro kann etwa nehmen oder Betriebe) weitestgehend ausge-
eine Einkommensklasse angegeben werden, schlossen werden kann. Andererseits zeigen die
wobei die letzte Klasse alle Einkommen enthält, deskriptiven Maße wie etwa der Mittelwert für
die einen bestimmten Betrag übersteigen. Das die einzelnen Merkmale eine hohe Übereinstim-
bekannteste datenverändernde Verfahren ist die mung mit den Originaldaten.
Mikroaggregation. Hierbei werden die Werte ei-
nes numerischen Merkmals aufsteigend sortiert, DMAS-Mitarbeiter waren an mehreren vom
jeweils mindestens drei benachbarte Einheiten Bundesministerium für Bildung und Forschung
zu einer Klasse zusammengefasst und für alle (BMBF) geförderten Projekten beteiligt, wobei
Einheiten der jeweiligen Klasse der Mittelwert Kooperationspartner einerseits aus der amtli-
der Originalwerte ausgewiesen. Somit gibt es chen Statistik und andererseits von Wirtschafts-
immer mindestens drei identische Werte. forschungsinstituten stammten.
Bei der Anwendung von Anonymisierungsme- Langfristiges Ziel dieser Projekte ist die Ent-
thoden sind Schutzwirkung und Erhalt des wicklung der methodischen und technischen
Analysepotentials gegeneinander abzuwägen. Voraussetzungen für ein echtes Fernrechnen als
Die Daten dürfen nicht so stark anonymisiert Datenzugang der Zukunft. Die Vision ist, dass
werden, dass sich signifikant andere Ergebnisse Wissenschaftler/innen von ihrem Arbeitsplatz
ergeben als bei Verwendung der Originaldaten. aus über eine sichere Verbindung direkt auf
Ebenso wenig sollten die Analysemöglichkeiten einen Server in den Räumen des Datenproduzen-
zu stark eingeschränkt werden, wie dies etwa bei ten zugreifen können und direkt mit den Regeln
der kompletten Entfernung von Merkmalen der der Datengeheimhaltung konforme Ergebnisse
Fall wäre. erhalten, die automatisiert (d. h. ohne manuel-
les Eingreifen eines FDZ-Mitarbeiters) erzeugt
Erzeugung synthetischer Datensätze werden. Nach der derzeitigen rechtlichen Lage
wäre es bei einem solchen Szenario aber nicht
Eine neue Herangehensweise zur Anonymi- erlaubt, dass die Originaldaten am Bildschirm
sierung von Einzeldaten stellt die Generierung angezeigt werden. Daher sind im Vorfeld gute
sogenannter synthetischer Daten dar. In diesem Testdaten nötig, mit denen der Wissenschaftler
Forschungsthema gehört DMAS zu den wenigen seine Hypothesen entwickeln kann. Dazu können
deutschen wissenschaftlichen Einrichtungen, synthetische Daten dienen.
die wichtige Beiträge zur Weiterentwicklung
geleistet haben . 1 Insbesondere bei Längsschnittdaten (Daten über
mehrere Berichtsjahre für die gleichen Einheiten)
Die Vorgehensweise bei der Erzeugung syntheti- und bei Daten, die Ausreißer (Einzelwerte, die
scher Datensätze besteht im Wesentlichen aus deutlich höher oder – seltener – niedriger als die
den folgenden beiden Schritten: übrigen Werte sind) enthalten, sind vergleichen-
de Analysen zwischen Original- und syntheti-
1. Aus den Originaldaten wird eine gemeinsame schen Daten bislang nicht zufriedenstellend.
Verteilung für alle Merkmale geschätzt. Diese Aspekte werden in einem aktuellen Projekt
2. Aus der in (1) geschätzten Verteilung wird intensiv bearbeitet.
122
eine Stichprobe gezogen.
123