15.10 BDS15 Dr. Wegner DTAG ohne Video

XDR - Future Analytics
Fabrizieren von synthetischen daten
Dr.
Susan Wegner, Telekom Innovation Laboratories
Dr. Susan Wegner, Telekom Innovation Laboratories
25.
Februar2015,
2015,BITKOM
BITKOM
Summit,
25. Februar
BigBig
DataData
Summit,
HanauHanau
Der Datenzugang birgt diverse Hürden
Durch verschiedene Technologien und Datenquellen
www.laboratories.telekom.com
@T_Labs
2
100% Datenschutz mit Synthetischen Daten
http://youtu.be/z3Aet2MS7c0
www.laboratories.telekom.com
@T_Labs
3
Vergleich der unterschiedlichen Ansätze
Anonymisieren
Das Anonymisieren ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr einer Person zugeordnet
werden können.
Synthetisieren
Beim Synthetisieren werden auf Basis von Realdaten Muster gebildet, die die Merkmale der Realdaten weitestgehend beibehalten.
Diese Muster werden genutzt um neue Daten zu erzeugen, die keinen Bezug mehr zu einem Individuum der Realdaten haben.
Damit ist eine Rückverfolgung und Verknüpfung nicht mehr möglich.
www.laboratories.telekom.com
@T_Labs
4
Synthetisierungsprozess
kein Bezug mehr zu Realdaten
www.laboratories.telekom.com
@T_Labs
5
Das Mathematische Modell einfach erklärt
www.laboratories.telekom.com
@T_Labs
6
Branchen zeigen grosses interesse
Handel


Großer Bedarf eCommerce Daten zu analysieren und verschiedene Datenquellen zu integrieren/verbinden
Entwicklung spartenspezifischer (Technik, Möbel, usw.) Standardlösungen
Tourismus


Involvierung vieler Partner, Verbände und Organisationen benötigt eine übergreifende Lösung zum Austausch verschiedenster Daten
Personenbezug durch Daten wie Herkunft, Kultur, Interessen, Dauer des Aufenthaltes, Art des Besuches, etc.
Marktforschung


Bewegungsprofile von Personen und Mobilfunk-/Lokationsdaten sind generell interessant
Bedarf an historischen Daten für Monitoring, als auch längerfristige Beobachtungen für Städte
Stadtplanung


Bedarf an Lösungen für Standortanalysen wie Verkehrszählung und zukünftiger Entwicklungen spielen eine große Rolle (Personendaten
sind für die Planung von höchster Relevanz)
Ein starker Bezug zur Echtzeit ist neben den verschiedenen Datenquellen von großer Bedeutung

Bedarf an Messung und Analyse von „Frequenzdaten“ benötigt und Verknüpfbarkeit mit eigenen soziodemografischen Daten
Geomarketing
Bedarf an Echtzeitinformationen
Bedarf an historischen Informationen
www.laboratories.telekom.com
*Quelle: Interviews mit Industrieexperten und T-Labs UDI experten, Research in Sep 2014
@T_Labs
7
Vision – alle Informationen in einem bild
100% Datenschutzkonform
www.laboratories.telekom.com
@T_Labs
8
Dankeschön
WE SHAPE THE FUTURE
www.laboratories.telekom.com
@T_Labs
9
BACKUP
Future Analytics – exemplary application
www.laboratories.telekom.com
@T_Labs
11
Warum Synthetische daten?
Challenges/Needs:
 Its use, particularly when this includes personal data obtained from ICT, is always subject to strict data protection
regulations and often also to ethical principles.
 This can in some cases impede the use of data, which means that useful services cannot be offered.
 Conventional data anonymization processes provide one way of getting around this.
 However, with a certain amount of effort, data can be traced back to the person affected.
www.laboratories.telekom.com
@T_Labs
12
Warum Synthetische daten?
The Solution/USP :
 The method developed in the T-Labs Project ”Future Analytics” overcomes the disadvantages of well - known
processes by generating synthetic data that is no longer related to the source data, but that shares its features,
allowing a broad spectrum of analyses.
 The market research showed so far that there are no comparable competitors who are offering synthesized data or
the ability to enable firms to synthesize their data.
 This makes new services, including individualized services, possible and provides fertile ground for the useful
exploitation of data.
www.laboratories.telekom.com
@T_Labs
13
XDR FAB
PROOF OF CONCEPT - DATA FLOW
XDR-TEST3 (local)
(ibm3650, 8GB RAM)
XDR-TEST1
(ibm3550, 64GB RAM)
Motionlogic





Original Motionlogic Anonymized
(Mediation) with 90min hashes – 3
streamd (sms.lup,online)
15days around holidays, Berlin,
Munich, Bonn
11.8-1.9 (22 days) and 8-22.9(15
days) = 37 days
Approx 4TB
Handed over manually – single and
one time
Data Normalization




XDR Applications
XDR Core
XDR Agent and Data
Manual
Reduction by
area
XDR-TEST2
(ibm3650, 8GB RAM)
Test / Train
Data Splitter
Manual read and filter of the data – filter criteria:
LAC (Location area codes) of munich/berlin/bonn
Aggregate reduced data streams into one and
create synthetic unique identifier (8byte integer)
out of hashed TMSI/Hashed IMEI & Hashed
CID
Replace cell info with cellplan WGS84 info
(blurred info of cellplan)
Generalize Output Format:
<ObjectID,SequenceID,FACTORS>
XDR Patterns
Generation




Synthetic
Data
Generation
Manually transferred via sftp
Learn data & patterns and store them –
pattenrs depending on Factors like
Holiday/weekday
Local mysql patterns DB
Output format (via https:)
<ObjectID,SequenceID,FACTORS>
www.laboratories.telekom.com
Query
(& Data Marketplace
Cache)




Dashboard (Tomcat)
Transferred via https/rest
Local caching of historic requests in
Marketplace Cache
Aggregate requests of synthesized data (collect
counts of specific cell tower locations in defined
areas)
Access and Usage of Dashboard Demo from TLabs staff only
@T_Labs
14
Architektur
www.laboratories.telekom.com
@T_Labs
15