Data Provenance im Internet der Dinge

FACHARTIKEL
Daten-Knigge fürs IoT: Die Datenherkunft bekommt ein Facelift
Data Provenance im Internet der Dinge
Smarte Objekte waren das beherrschende Thema des Mobile World Congress. Sie arbeiten mit Sensoren und
Aktoren, die große Datenmengen produzieren. Doch wie stellt man die Integrität von Daten im Internet der Dinge
sicher? Wie kann ein Unternehmen mit großen Datenmengen und vielen Verarbeitungspunkten die Sicherheitsanforderungen für vertrauliche Daten wahren? Wie erkennt man potenzielle Fehlerquellen und Manipulationsmöglichkeiten? Der Artikel führt das Konzept der Data Provenance mit dem Internet der Dinge zusammen. Ziel ist es,
die Integrität von Daten zu gewährleisten.
Auf dem Mobile World Congress in Barcelona präsentieren
Hersteller Smartwatch-Modelle, die mehr können, als den
Blick auf das Smartphone zu ersetzen: Sie erstellen beispielsweise aus den zurückgelegten Schritten ein individuelles Fitnessprogramm. In der Haustechnik halten die smarten Objekte schon länger Einzug. Sensoren steuern Licht und Heizung
und kommunizieren mit dem Smartphone. Sie schicken die
Abrechnung über eine Internetschnittstelle an Strom- und
Gasversorger. Die wachsende Menge an smarten Objekten
verursacht ein Mehr an Datenquellen und datenverarbeitenden Stellen. Die ständige Generierung und der Austausch der
Daten sind nicht mehr aufzuhalten. Ein Ergebnis dessen sind
die neuen, datengetriebenen Geschäftsmodelle bei etablierten
Unternehmen und Start-ups jeglicher Couleur.
ausgeführt wurden, etwa Ändern, Kopieren und Löschen
[MMS10]. Die Herkunft von Daten war ursprünglich von
besonderer Bedeutung für Kunst und Archäologie, sie vermittelte Informationen über den Künstler. Im Laufe der Zeit
änderte sich die Intention: Neben dem Ursprung und dem
Ersteller der Daten wurden die Verarbeitung der Daten und
mögliche Manipulationen wichtig [HSW09]. Insbesondere
digitale Dokumente aus den Sektoren Finanzen, Wirtschaft
und Recht sind davon betroffen, da sie oft gesetzlichen Vorgaben unterliegen und Wissen über die Herkunft der Daten
und ihre Verarbeitung notwendig ist. Nur so kann den Daten
ein gewisses Maß an Vertrauen entgegengebracht werden.
Qualität und Integrität von Daten sichern
Die Provenance-Informationen müssen einige Anforderungen
erfüllen, um eine sichere Datenverarbeitung zu gewährleisten:
Kein Verarbeitungsschritt darf verloren gehen. Die Inte­grität
der Provenance-Informationen schließt eine ungewollte Änderung oder eine Manipulation durch einen Angreifer aus.
Sie muss sichergestellt werden. Datenschutzaspekte wie der
Schutz personenbezogener Daten und Transparenz über die
Datenverarbeitungsschritte dürfen nicht außer Acht gelassen
werden [Bie13], um beispielsweise das Recht auf informationelle Selbstbestimmung (Art. 2 Abs. 1 GG in Verbindung
mit Art. 1 Abs. 1 GG) sicherstellen zu können. Außerdem ist
eine Charakterisierung der Provenance-Informationen erforderlich, um präzise Aussagen über die Herkunft der Daten
treffen zu können und die Weiterverarbeitung zu veranlassen.
Basierend auf der Forschung von Peter Buneman
[BKT01] erfolgt eine Unterteilung in
ÂÂ Why-Provenance für die Beschreibung der Datenquelle,
die die Existenz der Daten begründet,
ÂÂ Where-Provenance für die Tabelle in der Quelldatenbank, in der die Daten gespeichert werden und die auch
die Fehlerquelle sein kann,
ÂÂ Who-Provenance für die erstellende und verarbeitende
Person und
ÂÂ When-Provenance für die Zeitpunkte der Erstellung und
Verarbeitung der Daten.
Mit dieser Aufteilung können Daten anhand von definierten
Kriterien selektiert werden, zum Beispiel nach einer speziellen Nutzergruppe innerhalb der Datenbank oder einem gewissen Zeitraum. Das Konzept der Data Provenance macht
Dimensionen der Informationsqualität [ITW] sichtbar, die
zur Messung von Datenqualität dienen und Auskunft über
Mit den großen Datenmengen stellt sich die Frage nach
Qualität und Integrität von Daten auf einer neuen Ebene:
Je größer die Datenmenge, auf der Vorhersagen und Auswertungen beruhen, desto schwerer ist es, einzelne Fehler
oder Manipulationen zu identifizieren. Wie steht es also bei
dieser scheinbar perfekten Kommunikation mit der Datenintegrität? Wie lassen sich die Sicherheitsanforderungen
für vertrauliche Daten bei großen Datenmengen und vielen
Verarbeitungspunkten – und damit Manipulationsmöglichkeiten – einhalten? Wie erkennt man Fehlerquellen und Manipulationsmöglichkeiten, die die Einhaltung der Vorgaben
aus dem Bundesdatenschutzgesetz (BDSG) verhindern?
Eine Möglichkeit, um die Datenintegrität im Internet der
Dinge (IoT) zu gewährleisten, ist das Konzept der Data Provenance. Data Provenance fasst die Herkunfts- und Verarbeitungsgeschichte von Daten zusammen, die sogenannten
Provenance-Informationen. Dadurch ermöglicht sie es, den
Datenursprung zu identifizieren, und sie hält die Schritte
der Datenverarbeitung fest. Der Artikel beschreibt die Anforderungen an das Konzept der Data Provenance und an
die Kategorisierung für Provenance-Informationen, um das
Konzept abschließend mit der Komponente Provenance-Ereignisbehandlung auf die Aktoren und Sensoren im Internet
der Dinge zu übertragen.
Anforderungen an Provenance-Informationen
Data Provenance fasst die Geschichte von Daten zusammen.
Sie gibt Auskunft über alle Aktionen, die mit diesen Daten
30BI-SPEKTRUM 03-2015
Anforderungen an Provenance-Informationen
FACHARTIKEL
Typ: Dokument
Version: 1
Entität
Prov_Dok01
Aktivität
wurde generiert von
Erstellen
Rolle: Author
Rolle: Editor
Agent
Alice
Agent
Bob
Abb. 1: Prov_Dok01 ist eine Entität, die mit der Aktivität Erstellen vom Agenten Alice generiert wurde. Agent Bob, der die Rolle
Editor innehat, wird auch mit der Aktivität assoziiert. Strukturen
wie Typ, Version und Rolle beschreiben die einzelnen Klassen und
Relationen (©MaibornWolff).
die Konsistenz und Verfügbarkeit der Daten geben. Dadurch
sind Aussagen über die Einheitlichkeit, Aktualität, Vollständigkeit und Fehlerfreiheit möglich.
Das Data-Provenance-Modell
Die smarten Objekte im Internet der Dinge übernehmen
durch den Einsatz von Sensoren und Aktoren die Interaktion
mit der Umwelt und sammeln Daten selbstständig und automatisch. Die menschliche Interaktion kann sogar vollständig
reduziert werden, da die smarten Objekte auch untereinander
kommunizieren können, wie der Austausch von Informationen zwischen dem Smartphone und dem Auto zeigt. Es werden nicht nur Daten über die durchgeführten Aktionen, sondern auch semantische Informationen wie das Datum und die
durchführende Person der Aktion verarbeitet und gespeichert.
In den meisten Fällen ist es nicht notwendig, die vollständigen Informationen zusammenzutragen; eine Auswahl
der Informationen vereinfacht jedoch die Messung der
Datenqualität. Das World Wide Web Consortium (W3C)
stellte Ende April 2013 einen Standard zur Erstellung von
Datenmodellen für Provenance-Informationen vor. Das Provenance Data Model (PROV-DM) ermöglicht die Rekonstruktion von Datenverarbeitungsschritten und dadurch die
Überprüfung der Daten gemäß Vorgaben zur Datenqualität
oder Gesetzeskonformität [PRO] (siehe Abbildung 1).
Data Provenance für das Internet der Dinge
Ein Modell, das das Konzept der Data Provenance in das
Internet der Dinge integriert, setzt an den Sensoren und
Aktoren an und kontrolliert deren Informationsflüsse: die
„Provenance-Ereignisbehandlung“.
Smarte Objekte wie Smartphones oder Haushaltsgeräte
sind mit Sensoren und Aktoren ausgestattet, um Informati-
onen zu sammeln und mit der Umwelt zu kommunizieren.
Ein Server, mit dem Nutzer beispielsweise über ein Web-Interface kommunizieren können, fungiert als Schnittstelle zu
den Nutzern. Er kann Informationen von einer zentralen Datenbank abrufen, in der die Provenance-Informationen aus
allen Verarbeitungsschritten gespeichert werden. Zusätzlich
ist ein flexibles Zugriffskontrollkonzept erforderlich, das
nicht nur die Einhaltung unternehmensinterner Sicherheitsund Datenschutzvorgaben und gesetzlicher Bestimmungen
gewährleistet. Auch persönliche Vorgaben von Nutzern, deren Provenance-Informationen gesammelt und ausgewertet
werden, müssen eingehalten werden können [Ni09].
Für die Umsetzung des Konzepts der Data Provenance
wird die Komponente „Provenance-Ereignisbehandlung“
eingeführt (vgl. Abbildung 2). Sie setzt auf den Sensoren
und Aktoren auf und kontrolliert deren Informationsflüsse.
Vier Algorithmen müssen implementiert werden, die die
Handhabung der Provenance-Informationen steuern:
ÂÂ Der Erhebungsalgorithmus spezifiziert das Sammeln der
erforderlichen Informationen und legt das Datenformat fest.
ÂÂ Der Verifizierungsalgorithmus stellt das Sammeln der
gewünschten und erforderlichen Informationen sicher
und erkennt manipulierte Daten.
ÂÂ Der Kategorisierungsalgorithmus ermöglicht die Klassifizierung der gesammelten Informationen. Dafür müssen
in einem vorhergehenden Konfigurationsschritt verschiedene Vertrauensstufen für die smarten Objekte und Identifikationscharakteristika hinterlegt werden.
ÂÂ Der Selektierungsalgorithmus kann die gesammelten Informationen anhand von Kriterien wie einem bestimmten
Zeitraum einschränken.
Innerhalb der zentralen Datenbank, in der alle durch die
Sensoren und Aktoren identifizierten Aktionen gespeichert
werden, werden zusätzlich zu den Tabellen für die gesammelten Informationen Tabellen für die assoziierten Provenance-Informationen hinterlegt. Beide Informationsarten
sind über eindeutige IDs miteinander verknüpft.
Nutzer
Benutzeroberfläche
Zugriffskontrollkonzept
Datenbank
Server
EVENT
Sensoren
& Aktoren
Provenance
Ereignisbehandlung
Smarte Objekte
Abb. 2: Die „Provenance-Ereignisbehandlung“ setzt an den Sensoren und Aktoren an (©MaibornWolff)
BI - SPEKTRUM 03-2015
31
FACHARTIKEL
Das vorgestellte konzeptuelle Modell, das Data Provenance
im Internet der Dinge einführt, gewährleistet durch die Einbindung der „Provenance-Ereignisbehandlung“ die Kontrolle
über die gesammelten Informationen und deren sichere Verarbeitung. Der Verifizierungsalgorithmus prüft auf mögliche
ungewollte Änderungen und bewusst durchgeführte Manipulationen und kann dadurch die Integrität der Daten sicherstellen.
Über das Zugriffskontrollkonzept werden Anforderungen aus
dem Datenschutz wie die Verarbeitung personenbezogener Daten in Verbindung mit deren Vertraulichkeit erfüllt.
Fazit
Alle datengetriebenen Geschäftsmodelle setzen implizit auf
die Qualität und Integrität von Daten. In der großen Datenmenge, die durch das Internet der Dinge entsteht, lassen
sich Manipulationen jedoch nur schwer erkennen. Der hier
vorgeschlagene Ansatz verbindet Data Provenance mit dem
Internet der Dinge durch die Einführung der „ProvenanceEreignisbehandlung“. Dadurch lassen sich die Daten, die erhoben, verarbeitet und gespeichert werden, selektieren und
verifizieren. Datenverarbeitungsschritte können jederzeit
rekonstruiert und Vorgaben zur Datenqualität oder Gesetzeskonformität eingehalten werden.
[ Literatur & Links ]
[Bie13] Bier, C.: How Usage Control and Provenance Tracking Get Together – A Data Protection Perspective. In: IEEE
Security and Privacy Workshops, 2013
BI-SPEKTRUM ist eine Fachpublikation des Verlags:
SIGS DATACOM GmbH | Lindlaustraße 2c | 53842 Troisdorf
Tel.: +49 (0) 22 41.2341-100 | Fax: +49 (0) 22 41.2341-199
E-mail: [email protected]
www.javaspektrum.de | www.objektspektrum.de
www.bi-spektrum.de
[BKT01] Buneman, P. / Khanna, S. / Tan, W.-C.: Why and
Where: A Characterization of Data Provenance. In: Proceedings of the 8th International Conference on Database
Theory, 2001
[HSW09] Hasan, R. / Sion, R. / Winslett, M.: Preventing History Forgery with Secure Provenance. In: ACM Transactions
on Storage, 2009
[ITW] IT-Wissen: Datenqualität, siehe: www.itwissen.info/
definition/lexikon/Datenqualitaet-data-quality.html, abgerufen am 9.7.2015
[MMS10] Muniswamy-Reddy, K.-K. / Macko, P. / Seltzer, M.:
Provenance for the Cloud. In: FAST 8th USENIX Conference
on File and Storage Technologies, 2010
[Ni09] Ni, Q. et al.: An Access Control Language for a General Provenance Model. In: Proceedings of the 6th VLDB
Workshop, 2009
[PRO] Moreau, L. / Missier, P. (Hrsg.): PROV-DM: The PROV
Data Model – W3C Empfehlung 2013. www.w3.org/TR/
prov-dm/, abgerufen am 9.7.2015
Sabine Bauer arbeitet als IT-Consultant bei MaibornWolff. Die Informatikerin beschäftigte sich bereits während ihres
Studiums mit dem Thema „Sicherheit im Internet der Dinge“. Der Artikel basiert auf einem Forschungspapier von 2013.
E-Mail: [email protected]
32BI-SPEKTRUM 03-2015