Page 124 - HTW_25_Jahre_Forschung
P. 124

Unternehmens nur das Bundesland anstelle der   Die einzelnen Werte dieser synthetischen Daten
            Gemeinde angegeben werden. Ebenfalls eine   zeigen eine hinreichend große Abweichung von
            sehr effektive Schutzwirkung stellt die Klassie-  den Originaldaten, so dass eine Zuordnung zu
            rung von numerischen Merkmalen dar. Anstelle   den ursprünglichen Merkmalsträgern (Unter-
            des exakten Einkommens in Euro kann etwa   nehmen oder Betriebe) weitestgehend ausge-
            eine Einkommensklasse angegeben werden,   schlossen werden kann. Andererseits zeigen die
            wobei die letzte Klasse alle Einkommen enthält,   deskriptiven Maße wie etwa der Mittelwert für
            die einen bestimmten Betrag übersteigen. Das   die einzelnen Merkmale eine hohe Übereinstim-
            bekannteste datenverändernde Verfahren ist die   mung mit den Originaldaten.
            Mikroaggregation. Hierbei werden die Werte ei-
            nes numerischen Merkmals aufsteigend sortiert,   DMAS-Mitarbeiter waren an mehreren vom
            jeweils mindestens drei benachbarte Einheiten   Bundesministerium für Bildung und Forschung
            zu einer Klasse zusammengefasst und für alle   (BMBF) geförderten Projekten beteiligt, wobei
            Einheiten der jeweiligen Klasse der Mittelwert   Kooperationspartner einerseits aus der amtli-
            der Originalwerte ausgewiesen. Somit gibt es   chen Statistik und andererseits von Wirtschafts-
            immer mindestens drei identische Werte.  forschungsinstituten stammten.

            Bei der Anwendung von Anonymisierungsme-  Langfristiges Ziel dieser Projekte ist die Ent-
            thoden sind Schutzwirkung und Erhalt des   wicklung der methodischen und technischen
            Analysepotentials gegeneinander abzuwägen.   Voraussetzungen für ein echtes Fernrechnen als
            Die Daten dürfen nicht so stark anonymisiert   Datenzugang der Zukunft. Die Vision ist, dass
            werden, dass sich signifikant andere Ergebnisse   Wissenschaftler/innen von ihrem Arbeitsplatz
            ergeben als bei Verwendung der Originaldaten.   aus über eine sichere Verbindung direkt auf
            Ebenso wenig sollten die Analysemöglichkeiten   einen Server in den Räumen des Datenproduzen-
            zu stark eingeschränkt werden, wie dies etwa bei   ten zugreifen können und direkt mit den Regeln
            der kompletten Entfernung von Merkmalen der   der Datengeheimhaltung konforme Ergebnisse
            Fall wäre.                            erhalten, die automatisiert (d. h. ohne manuel-
                                                  les Eingreifen eines FDZ-Mitarbeiters) erzeugt
            Erzeugung synthetischer Datensätze    werden. Nach der derzeitigen rechtlichen Lage
                                                  wäre es bei einem solchen Szenario aber nicht
            Eine neue Herangehensweise zur Anonymi-  erlaubt, dass die Originaldaten am Bildschirm
            sierung von Einzeldaten stellt die Generierung   angezeigt werden. Daher sind im Vorfeld gute
            sogenannter synthetischer Daten dar. In diesem   Testdaten nötig, mit denen der Wissenschaftler
            Forschungsthema gehört DMAS zu den wenigen   seine Hypothesen entwickeln kann. Dazu können
            deutschen wissenschaftlichen Einrichtungen,   synthetische Daten dienen.
            die wichtige Beiträge zur Weiterentwicklung
            geleistet haben . 1                   Insbesondere bei Längsschnittdaten (Daten über
                                                  mehrere Berichtsjahre für die gleichen Einheiten)
            Die Vorgehensweise bei der Erzeugung syntheti-  und bei Daten, die Ausreißer (Einzelwerte, die
            scher Datensätze besteht im Wesentlichen aus   deutlich höher oder – seltener – niedriger als die
            den folgenden beiden Schritten:       übrigen Werte sind) enthalten, sind vergleichen-
                                                  de Analysen zwischen Original- und syntheti-
            1.  Aus den Originaldaten wird eine gemeinsame   schen Daten bislang nicht zufriedenstellend.
               Verteilung für alle Merkmale geschätzt.  Diese Aspekte werden in einem aktuellen Projekt
            2.  Aus der in (1) geschätzten Verteilung wird   intensiv bearbeitet.
    122
               eine Stichprobe gezogen.
    123
   119   120   121   122   123   124   125   126   127   128   129