Zugang zu Mikrodaten - Universität Freiburg

Zugang zu Mikrodaten
Albert-Ludwigs-Universität Freiburg
Dr. Markus Zwick, Dipl. Soz. Tim Hochgürtel, Dipl.-Volksw. Christopher Gürke
Sommersemester 2010
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Übersicht
„
Ausgewählte Mikrodaten
„
Formen des Zugangs
„
Differenzierungsebenen
„
Grad der Anonymität
„
Ort der Nutzung
„
Personenkreis
„
Analysepotential vs. Datenschutz
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Ausgewählte Mikrodaten für
Forschungszwecke
„ aktuell stehen über die Forschungsdatenzentren des Bundes und der
Länder über 60 Statistiken für Forschungszwecke zur Verfügung
„ Ziele der Einrichtung der FDZ‘s
„ Nutzungsmöglichkeiten amtlicher Daten verbessern
„ Verbesserung der Dateninfrastruktur
„ Schnittstelle zwischen Wissenschaft und Statistik
„ www.forschungsdatenzentrum.de
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Ausgewählte Mikrodaten für
Forschungszwecke
„ Aktuelles Datenangebot nach Fachgebieten
„ Sozialstatistiken (z.B. Mikrozensus, Zeitbudgeterhebung, EVS, etc.)
Wirtschaftsstatistiken (Investitionserhebung, Statistik für das verarb. Gewerbe,
Jahreserhebung im Handel, Gastgewerbe, etc.)
„
„
Finanz und Steuerstatistiken (LEST, Umsatzsteuerstatistik, ErbschaftsSchenkungssteuerstatistik)
„
Rechtspflegestatistiken (Strafverfolgungs-, Strafvollzugsstatistik)
„
Agrar- und Umweltstatistiken (Wasserversorgung, Bodennutzung,
Viehbestände)
© Statistisches Bundesamt
und
www.forschungsdatenzentrum.de
Übersicht
„
Ausgewählte Mikrodaten
„
Formen des Zugangs
„
Differenzierungsebenen
„
Grad der Anonymität
„
Ort der Nutzung
„
Personenkreis
„
Analysepotential vs. Datenschutz
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Formen des Zugangs
„ Public-Use-Files
„ absolut anonym, hohe Aggregation, geringe räumliche Gliederung
„ Zugang auch für Personen im Ausland, kommerzielle Nutzer
„ Scientific-Use-Files
„ faktisch anonym, höheres Analysepotential
„ WissenschaftlerInnen nach §16 (6) BSTATG
„ Gastwissenschaftsarbeitsplatz (GaWi)
„ Arbeitsplätze an den reg. Standorten; „geschützte“ Räume der amtl. Statistik, Stichprobe
von faktisch anonymem Material, hohes Analysepotential
„ WissenschaftlerInnen nach §16 (6) BSTATG
„ Fernrechnen
(KDFV)
„ kein direkter Kontakt mit Einzeldaten, Strukturdatenfiles, keine Stichprobe
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Statistische Geheimhaltung in der amtlichen
Statistik I
„ Ziele der Statistischen Geheimhaltung
„
Schutz des Einzelnen vor der Offenlegung seiner persönlichen und
sachlichen Verhältnisse
„
Erhaltung des Vertrauensverhältnisses zwischen Befragten und
den statistischen Ämtern
„
Gewährleistung der Zuverlässigkeit der Angaben und der
Berichtswilligkeit der Befragten
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Statistische Geheimhaltung in der
amtlichen Statistik II
ƒ Drei Ebenen der Durchbrechung
„
„
„
Nutzung statistische Angaben für andere Zwecke
z.B. Nutzung von Einkommensangaben in Befragungen mit
Auskunftspflicht durch Steuerbehörden
Offenlegung von direkten Angaben durch Indiskretion der
Erhebungsorgane
Offenlegung von direkten Angaben durch die Art der
Veröffentlichung
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Was ist Statistik?
„ Aufgaben
Erhebung,
„ Sammlung,
„ Aufbereitung,
„ Darstellung,
„
„
Analyse von Daten über Massenerscheinungen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Was ist Statistik?
„ Aufgaben
Erhebung,
„ Sammlung,
„ Aufbereitung,
„ Darstellung,
„
„
Analyse von Daten über Massenerscheinungen
„ Ziele
Kontinuität
„ Erkenntnisse über Größenordnungen
„ keine personen- oder institutionsbezogene Nachweise
„ Einzelangaben sollen im stat. Ergebnis als Zusammenfassung untergehen
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Wie begegnet uns Statistik i.d.R.?
„ Daten über Massenerscheinungen
verdichtet/aggregiert
„ in Form von Tabellen veröffentlicht
„ absolute Anonymität
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Mikrodatenanalysen
Tabellendaten vs. Einzeldatum
„ Datenschutz in Tabellen
„ Werte einzelner Merkmalsträger eher selten
„ Methoden primärer und sekundärer Tabellengeheimhaltung
„ Datenschutz von Einzelangaben
„ Nachweis der Merkmalsausprägungen einzelner Befragten möglich
„ großes Analysepotential bei hohen Datenschutzanforderungen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Mikrodatenanalysen
Zielkonflikt mit Verfassungsrang
„Recht auf informationelle Selbstbestimmung (Art. 2 Abs. 1 GG)
„Wissenschaftsfreiheit (Art. 5 Abs. 3 GG)
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Datenschutz vs. Wissenschaftsfreiheit
„ Funktionsfähigkeit der Bundesstatistik durch
„ Zuverlässigkeit der Angaben
„ Erhaltung des Vertrauensverhältnisses
„ (Daten-) Schutz des Einzelnen
„ Potential von Mikroanalysen
„ gesellschaftsrelevante Zusammenhänge
„ Vielzahl wissenschaftlicher Fragestellungen
„ Erkenntnisgewinn
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Zunächst: BStatG81 §11
„
Diskussion
Haben nicht aggregierte Einzeldaten einen eigenen „Wert“?
„ Wie können Mikrodaten genutzt werden?
„ Wie und an wen können Mikrodaten übermittelt werden?
„
„
BStatG81 §11
Übermittlung von absolut anonymen Einzeldaten
„ nicht nur an WissenschaftlerInnen
„
„
Ergebnis
drastische Informationsreduktion führte zu
„ geringem Analysepotential
„ kaum noch Nachfrage
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Einführung des BStatG87 §16
„ Verbesserter Zugang zu amtlichen Einzeldaten durch
Einführung des Begriffs der faktischen Anonymität
„ das Wissenschaftsprivileg
„ kostengünstiger Erwerb der Mikrodaten durch Subventionierung des BMBF
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Geheimhaltung
„ Regelt im Einzelnen
Grundsätzliche Geheimhaltungspflicht
„ Ausnahmen
„ Pflichten der Empfänger
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Definition Geheimhaltungspflicht
-„ Einzelangaben [...] die für eine Bundesstatistik gemacht
werden, sind von [...] für den öffentlichen Dienst besonders
Verpflichteten [...] geheimzuhalten.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Ausnahmen
-„ Einzelangaben [...] die für eine Bundesstatistik gemacht
werden, sind von [...] für den öffentlichen Dienst besonders
Verpflichteten [...] geheimzuhalten.
-Dies gilt nicht für...“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Ausnahmen
„ schriftliche Einwilligungen der Befragten (§16 Abs.1 Nr.1)
„ Einzelangaben öffentlicher Stellen aus allgemein zugänglichen
Quellen, z.B. Pressemitteilungen (§16 Abs.1 Nr.2)
„ aggregierte Tabellen, wie z.B. auf www.destatis.de (§16 Abs.1 Nr.3)
„ absolut anonymisierte Einzelangaben (§16 Abs.1 Nr.4)
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Ausnahmen
„ Übermittlung von Einzelangaben zwischen den statistischen
Ämtern des Bundes und der Länder zum Zweck der zentralen
Datenhaltung (§16 Abs.2)
„ Übermittlung von Einzelangaben von Bundesebene auf
Landesebene, wenn diese Angaben das Land betreffen (§16 Abs.3)
„ Übermittlung von Tabelleneinsen an gesetzgebende
Körperschaften zum Zwecke der Planung (§16 Abs.4)
„ Übermittlung von Einzelangaben an Gemeinden, insofern dies in
einem Statistikgesetz verordnet ist (§16 Abs.5)
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 Abs. 6 BStatG: Ausnahmen
-„ Für die Durchführung wissenschaftlicher Vorhaben dürfen vom
Statistischen Bundesamt und den statistischen Ämtern der Länder
Einzelangaben an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung übermittelt
werden, wenn die Einzelangaben nur mit einem unverhältnismäßig
großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden
können und die Empfänger Amtsträger, für den öffentlichen Dienst
besonders Verpflichtete oder Verpflichtete nach Absatz 7 sind.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 Abs. 6 BStatG: Ausnahmen
-„ Für die Durchführung wissenschaftlicher Vorhaben dürfen vom
Statistischen Bundesamt und den statistischen Ämtern der Länder
Einzelangaben an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung übermittelt
werden, wenn die Einzelangaben nur mit einem unverhältnismäßig
großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden
können und die Empfänger Amtsträger, für den öffentlichen Dienst
besonders Verpflichtete oder Verpflichtete nach Absatz 7 sind.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 Abs. 6 BStatG: Ausnahmen
-„ Für die Durchführung wissenschaftlicher Vorhaben dürfen vom
Statistischen Bundesamt und den statistischen Ämtern der Länder
Einzelangaben an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung übermittelt
werden, wenn die Einzelangaben nur mit einem unverhältnismäßig
großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden
können und die Empfänger Amtsträger, für den öffentlichen Dienst
besonders Verpflichtete oder Verpflichtete nach Absatz 7 sind.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 Abs. 6 BStatG: Ausnahmen
-„ Für die Durchführung wissenschaftlicher Vorhaben dürfen vom
Statistischen Bundesamt und den statistischen Ämtern der Länder
Einzelangaben an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung übermittelt
werden, wenn die Einzelangaben nur mit einem unverhältnismäßig
großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden
können und die Empfänger Amtsträger, für den öffentlichen Dienst
besonders Verpflichtete oder Verpflichtete nach Absatz 7 sind.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 Abs. 6 BStatG: Ausnahmen
-„ Für die Durchführung wissenschaftlicher Vorhaben dürfen vom
Statistischen Bundesamt und den statistischen Ämtern der Länder
Einzelangaben an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung übermittelt
werden, wenn die Einzelangaben nur mit einem unverhältnismäßig
großen Aufwand an Zeit, Kosten und Arbeitskraft zugeordnet werden
können und die Empfänger Amtsträger, für den öffentlichen Dienst
besonders Verpflichtete oder Verpflichtete nach Absatz 7 sind.“
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
...die Durchführung wissenschaftlicher Vorhaben…
„Vorhaben“ im Sinne des § 16 Abs. 6 BStatG ist eine
Auseinandersetzung mit einem Forschungsgegenstand
„ Forschungsprojekte, Diplomarbeiten, Dissertationen,
Habilitationen etc.
„
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
...an Hochschulen oder sonstige Einrichtungen mit der
Aufgabe unabhängiger wissenschaftlicher Forschung…
„
Wissenschaftsprivileg
„
„Einrichtung“ schließt Einzelpersonen als Empfänger aus
„
„Hochschulen“: Prototyp für Einrichtungen „mit der Aufgabe
unabhängiger Forschung“
„
Forschungsaufgabe ist wesentlicher Zweck
„
Keine Gewinnerzielung
„
Ergebnisse veröffentlichen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
...nur mit einem unverhältnismäßig großen Aufwand
an Zeit, Kosten und Arbeitskraft zugeordnet werden
können..
-
„
Definition der faktischen Anonymität
„
Ergänzung zur Übermittlung von absolut anonymisierten Daten
„
„Unverhältnismäßigkeitskriterium“: Deanonymisierung kann
nicht mehr 100%ig ausgeschlossen werden
„
Rationalkalkül des Angreifers
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
... und die Empfänger gemäß §16 Abs. 7 verpflichtet
werden.
„
Zusätzliche Sicherungsmaßnahme der Zweckbindung und
Geheimhaltung übermittelter Einzelangaben
„
Durch Verpflichtung strafrechtlich belangbar
-
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
§ 16 BStatG: Pflichten der Empfänger
„ Verpflichtung der Empfänger der Einzelangaben (§16 Abs. 7)
„ Zweckbindung der Einzelangaben (§16 Abs. 8)
„ Dokumentationspflicht (§16 Abs. 9)
„ Geheimhaltungspflicht für die Empfänger von Einzelangaben
„ (§16 Abs. 10)
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
EUROSTAT
„ Gemeinschaftsstatistiken
„
„
LFS
EU-SILC
„ Datenzugang zentral über EUROSTAT
„ Zustimmung der Mitgliedstaaten
„ Aktuell: Forschungsprojekt zur Einrichtung von RDC‘s
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Anonymisierung von Einzeldaten
„ gemäß § 16 Abs. 6 BStatG dürfen Einzelangaben zweckgebunden an die
Wissenschaft weitergegeben werden, wenn diese nur mit
unverhältnismäßig hohem Aufwand dem einzelnen Merkmalsträger
zuzuordnen sind
„ faktische Anonymität
„ keine Operrationalisierung durch das Gesetz
„ Unterschiede bei personen- und unternehmens-bezogenen Daten
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Anonymisierung von Einzeldaten
Maßnahmen
Weitergabe von (Unter)stichproben
Verfremden
Vergröbern
Anonymisierungsmaßnahmen
Weglassen
systemfreie Sortierung
der Datensätze
© Statistisches Bundesamt
Weitergabe älterer Daten
www.forschungsdatenzentrum.de
Anonymisierungsverfahren
traditionelle Verfahren
Unterdrückung
VariablenObjekten
unterdrückung von
oder Werten
datenverändernde Verfahren
Informationsreduktion
für Objekte
ohne Ersatzinformation
Stichprobenziehung
Gruppierung
Variablenkonstruktion
local
suppression
stetige
Merkmale
Beziehungsu.Verhältniszahlen
Einschränk.
der Grundgesamtheit
diskrete
Merkmale
Indexbildung
Abschneideverfahren
aussortierte Verfahren
Tests für Paneldaten
© Statistisches Bundesamt
geeignete Verfahren
Rundung
Censoring /
Replacement
Mikroaggregation
eindimensional
nach einer
Variable
nach
mehreren
Variablen
unabhängig
je Variable
Zufallsüberlagerung
mehrdimensional
feste
Gruppengröße
variable
Gruppengröße
SAFE
Simulationsverfahren
additiv
multiplikativ
diskrete
Merkmale
Zufallsvertauschung
Klonen
Imputationen
DataSwapping
Zerlegung
LHS
www.forschungsdatenzentrum.de
RankSwapping
Anonymisierung von Einzeldaten
vor der Anonymisierung
M erkm al 1
(N am e)
M erkm al 2
(W oh no rt)
M erkm al 3
(G eschle cht)
M erkm al 4
(A lter)
M erkm al 5
(Staatsa ngehö rigkeit)
M erkm al 6
(m onatliches
N etto -Einkom m en
in D M )
D atensatz 1
M eyer
M ün ch en
m ännlich
18
D eutschland
4 60 0
D atensatz 2
M üller
Ro dgau
w eiblich
89
D eutschland
5 25 0
D atensatz 3
Schm id t
D inslaken
m ännlich
45
Kub a
3 57 5
D atensatz 4
A rno ld
Saarb rück en
w eiblich
30
Irland
2 43 0
D atensatz 5
Franz
D arm stad t
w eiblich
29
Italien
4 58 0
D atensatz 6
Koser
Schw erin
m ännlich
59
Türkei
1 80 0
D atensatz 7
W ickm an n
G otha
w eiblich
D atensatz 8
Rathg eb er
Zw ickau
m ännlich
50
D atensatz 9
Sch ulze
N ürnb erg
m ännlich
18
© Statistisches Bundesamt
10 1
M arokko
A nm erku ng en
N atio nalität
selten in D .
N atio nalität
selten in D .
55 0
auffallend hohe s
A lter
D eutschland
15 0 0 0
auffallend hohe s
Einkom m en
D eutschland
4 80 0
www.forschungsdatenzentrum.de
Anonymisierung von Einzeldaten
nach der Anonymisierung
M e rk m a l 1
(N a m e )
M e rk m a l 2
(W o h n o rt)
M e rk m a l 3
(G e s c h le c h t)
M e rk m a l 4
(A lte r)
M e rk m a l 5
(S ta a ts a n g e h ö rig k e it)
M e rk m a l 6
( m o n a t li c h e s
N e tto -E in k o m m e n
in D M )
D a te n s a tz 1
(v o rh e r 4 )
S y s t e m fre ie
N um m er
S a a rla n d
w e i b l ic h
30
ü b rig e E U
D a te n s a tz 2
(v o rh e r 8 )
S y s t e m fre ie
N um m er
Sachsen
m ä n n li c h
50
D e u ts c h la n d
D a te n s a tz 3
(v o rh e r 6 )
S y s t e m fre ie
N um m er
M e c k le n b u rg V o rp o m m e rn
m ä n n li c h
59
T ü rk e i
1 500 - 2 000
D a te n s a tz 4
(v o rh e r 9 )
S y s t e m fre ie
N um m er
B a ye rn
m ä n n li c h
18
D e u ts c h la n d
4 500 - 5 000
D a te n s a tz 5
(v o rh e r 1 )
S y s t e m fre ie
N um m er
B a ye rn
m ä n n li c h
18
D e u ts c h la n d
4 500 - 5 000
D a te n s a tz 6
(v o rh e r 7 )
S y s t e m fre ie
N um m er
T h ü rin g e n
w e i b l ic h
> 95
D a te n s a tz 7
(v o rh e r 2 )
S y s t e m fre ie
N um m er
H essen
w e i b l ic h
89
D e u ts c h la n d
5 000 - 5 500
D a te n s a tz 8
(v o rh e r 3 )
S y s t e m fre ie
N um m er
N o rd rh e in W e s tfa le n
m ä n n li c h
45
ü b rig e s A m e rik a
3 500 - 4 000
D a te n s a tz 9
(v o rh e r 5 )
S y s t e m fre ie
N um m er
H essen
w e i b l ic h
29
Ita lie n
4 500 - 5 000
© Statistisches Bundesamt
M a ro k k o
2 000 - 2 500
> 7 500
500 - 1 000
A n m e rk u n g e n
N a tio n a litä t
s e lt e n i n D .
a u f f a l le n d h o h e s
E in k o m m e n
a u f f a l le n d h o h e s
A lte r
N a tio n a litä t
s e lt e n i n D .
www.forschungsdatenzentrum.de
Projekte
ƒFaktische Anonymisierung wirtschaftsstatistischer Einzeldaten (FAWE)
ƒAnonymisierung wirtschaftsstatistischer Paneldaten (FAWE-Panel)
ƒKombinierte Firmendaten für Deutschland (KombiFiD)
ƒEine informationelle Infrastruktur für das E-Science Age (infinitE)
ƒDecentralised Access to EU Microdata Sets
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Übersicht
„
Ausgewählte Mikrodaten
„
Formen des Zugangs
„
Differenzierungsebenen
„
Grad der Anonymität
„
Ort der Nutzung
„
Personenkreis
„
Analysepotential vs. Datenschutz
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Differenzierungsebenen
Public-Use-Files
Scientific-Use-Files
GaWi
Fernrechnen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Differenzierungsebenen
Anonymität
absolut anonym
Anonymität
Public-Use-Files
Scientific-Use-Files
faktisch anonym
GaWi
formal anonym
Analysepotential
© Statistisches Bundesamt
Fernrechnen
www.forschungsdatenzentrum.de
Level of Anonymisation
Anonymität
delete direct
identificator
original
Mikrodaten
anonymisation
method
pseudon.
Mikrodaten
stronger anonym.
method
faktisch
anonym. MD
absolut
anonym. MD
Analysepotential
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Differenzierungsebenen
Ort
Off-Site
Public-Use-Files
Scientific-Use-Files
GaWi
On-Site
© Statistisches Bundesamt
Fernrechnen
www.forschungsdatenzentrum.de
Differenzierungsebenen
Personenkreis
Public-Use-Files
Scientific-Use-Files
WissenschaftlerInnen
nach §16 (6), BStatG
GaWi
Alle, also auch
ausländische &
kommerzielle Nutzer
Fernrechnen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Formen des Zugangs: Ausblick 2025
„ Bislang: Kontrollierte Datenfernverarbeitung
„ Kontrolle durch Mitarbeiter an zwei Schnittstellen
„ Syntax (technisch) und Ergebnisse (Datenschutz)
„ Timelag
„ Geplant: Remote Access
„ kein Human Interface
„
Fehlermeldungen zeitnah übermittelt
„ automatisierte Geheimhaltung
„ Anstoßen der Syntax 24*365
© Statistisches Bundesamt
www.forschungsdatenzentrum.de