XDR - Future Analytics Fabrizieren von synthetischen daten Dr. Susan Wegner, Telekom Innovation Laboratories Dr. Susan Wegner, Telekom Innovation Laboratories 25. Februar2015, 2015,BITKOM BITKOM Summit, 25. Februar BigBig DataData Summit, HanauHanau Der Datenzugang birgt diverse Hürden Durch verschiedene Technologien und Datenquellen www.laboratories.telekom.com @T_Labs 2 100% Datenschutz mit Synthetischen Daten http://youtu.be/z3Aet2MS7c0 www.laboratories.telekom.com @T_Labs 3 Vergleich der unterschiedlichen Ansätze Anonymisieren Das Anonymisieren ist das Verändern personenbezogener Daten derart, dass diese Daten nicht mehr einer Person zugeordnet werden können. Synthetisieren Beim Synthetisieren werden auf Basis von Realdaten Muster gebildet, die die Merkmale der Realdaten weitestgehend beibehalten. Diese Muster werden genutzt um neue Daten zu erzeugen, die keinen Bezug mehr zu einem Individuum der Realdaten haben. Damit ist eine Rückverfolgung und Verknüpfung nicht mehr möglich. www.laboratories.telekom.com @T_Labs 4 Synthetisierungsprozess kein Bezug mehr zu Realdaten www.laboratories.telekom.com @T_Labs 5 Das Mathematische Modell einfach erklärt www.laboratories.telekom.com @T_Labs 6 Branchen zeigen grosses interesse Handel Großer Bedarf eCommerce Daten zu analysieren und verschiedene Datenquellen zu integrieren/verbinden Entwicklung spartenspezifischer (Technik, Möbel, usw.) Standardlösungen Tourismus Involvierung vieler Partner, Verbände und Organisationen benötigt eine übergreifende Lösung zum Austausch verschiedenster Daten Personenbezug durch Daten wie Herkunft, Kultur, Interessen, Dauer des Aufenthaltes, Art des Besuches, etc. Marktforschung Bewegungsprofile von Personen und Mobilfunk-/Lokationsdaten sind generell interessant Bedarf an historischen Daten für Monitoring, als auch längerfristige Beobachtungen für Städte Stadtplanung Bedarf an Lösungen für Standortanalysen wie Verkehrszählung und zukünftiger Entwicklungen spielen eine große Rolle (Personendaten sind für die Planung von höchster Relevanz) Ein starker Bezug zur Echtzeit ist neben den verschiedenen Datenquellen von großer Bedeutung Bedarf an Messung und Analyse von „Frequenzdaten“ benötigt und Verknüpfbarkeit mit eigenen soziodemografischen Daten Geomarketing Bedarf an Echtzeitinformationen Bedarf an historischen Informationen www.laboratories.telekom.com *Quelle: Interviews mit Industrieexperten und T-Labs UDI experten, Research in Sep 2014 @T_Labs 7 Vision – alle Informationen in einem bild 100% Datenschutzkonform www.laboratories.telekom.com @T_Labs 8 Dankeschön WE SHAPE THE FUTURE www.laboratories.telekom.com @T_Labs 9 BACKUP Future Analytics – exemplary application www.laboratories.telekom.com @T_Labs 11 Warum Synthetische daten? Challenges/Needs: Its use, particularly when this includes personal data obtained from ICT, is always subject to strict data protection regulations and often also to ethical principles. This can in some cases impede the use of data, which means that useful services cannot be offered. Conventional data anonymization processes provide one way of getting around this. However, with a certain amount of effort, data can be traced back to the person affected. www.laboratories.telekom.com @T_Labs 12 Warum Synthetische daten? The Solution/USP : The method developed in the T-Labs Project ”Future Analytics” overcomes the disadvantages of well - known processes by generating synthetic data that is no longer related to the source data, but that shares its features, allowing a broad spectrum of analyses. The market research showed so far that there are no comparable competitors who are offering synthesized data or the ability to enable firms to synthesize their data. This makes new services, including individualized services, possible and provides fertile ground for the useful exploitation of data. www.laboratories.telekom.com @T_Labs 13 XDR FAB PROOF OF CONCEPT - DATA FLOW XDR-TEST3 (local) (ibm3650, 8GB RAM) XDR-TEST1 (ibm3550, 64GB RAM) Motionlogic Original Motionlogic Anonymized (Mediation) with 90min hashes – 3 streamd (sms.lup,online) 15days around holidays, Berlin, Munich, Bonn 11.8-1.9 (22 days) and 8-22.9(15 days) = 37 days Approx 4TB Handed over manually – single and one time Data Normalization XDR Applications XDR Core XDR Agent and Data Manual Reduction by area XDR-TEST2 (ibm3650, 8GB RAM) Test / Train Data Splitter Manual read and filter of the data – filter criteria: LAC (Location area codes) of munich/berlin/bonn Aggregate reduced data streams into one and create synthetic unique identifier (8byte integer) out of hashed TMSI/Hashed IMEI & Hashed CID Replace cell info with cellplan WGS84 info (blurred info of cellplan) Generalize Output Format: <ObjectID,SequenceID,FACTORS> XDR Patterns Generation Synthetic Data Generation Manually transferred via sftp Learn data & patterns and store them – pattenrs depending on Factors like Holiday/weekday Local mysql patterns DB Output format (via https:) <ObjectID,SequenceID,FACTORS> www.laboratories.telekom.com Query (& Data Marketplace Cache) Dashboard (Tomcat) Transferred via https/rest Local caching of historic requests in Marketplace Cache Aggregate requests of synthesized data (collect counts of specific cell tower locations in defined areas) Access and Usage of Dashboard Demo from TLabs staff only @T_Labs 14 Architektur www.laboratories.telekom.com @T_Labs 15
© Copyright 2025 ExpyDoc