PREDON - CNRS

PREDON
Préserva(on des données scien(fiques C. Diaconu pour le Groupe d’Etudes PREDON h"p://predon.org Big data: explosion des données digitales Credit: P. Buncic, ECFA Workshop, 4 Oct. 2013 Tweeter Stock database Library of Congres Digital collec(on Clima(c Data Center database LHC raw data per year YouTube videos per year Digital Health records Google index Facebook new content per year 0 20 40 60 80 C.Diaconu 100 120 140 160 180 200 PB PB 2 Big Scien(fic Data •  Scien(fic research observes a drama(c increase in data and are ques(oning the long term future of this data LHC Phase 2 HEP Data Mb 1E+10 LHC Phase 1 1E+09 ATLAS/CMS LHC 2012 100000000 10000000 BELLE D0 Babar CDF JLAB H1 1000000 E791 100000 E831 E665 E691 100 BC72 Travail au sein de PREDON 10 Telescope Collec(ng Area RHIC ALEPH 10000 1000 NA48 1980 C.Diaconu 1990 2000 2010 2020 2030 3 Est-­‐ce que les données scien(fiques sont spéciales? •  Riches en informa(on car structurées suivant un plan de recherche et une démarche scien(fique •  De plus en plus diverses, la plus part des disciplines se sont mises à produire massivement des données •  Souvent produites avec des efforts financiers et humains significa(fs (voir gigantesques) –  Plus ça coute cher, moins c’est reproduc(ble •  Englobent des connaissances uniques –  « Time stamped » •  De plus en plus dans une logique « observatoire »: –  Les données con(ennent plus que ce qu’on voulait au départ •  Il est évident qu’on doit réfléchir (à deux fois) sur le sort de ces données –  PRESERVATION! C.Diaconu 4 Préserva(on: where is the problem? Constat quasi-­‐général: Nous pensons que c’est important, Mais le problème est loin d’être traité de maniére sa(sfaisante C.Diaconu 5 Study over 516 ecology papers published between 1991 and 2011. C.Diaconu 6 C.Diaconu Technologie, méthodologie Organisa(on •  Publica(ons •  Documenta(on •  Raw •  Donées Processées •  Meta-­‐données •  Workflows •  Sooware •  Diffuse knowledge ….more… Complexité, couts U(lité Données Scien(fiques 7 Est-­‐ce que ça vaut le coup de garder des données « anciennes » « Scien2fic case » Fin collabora(on Fin acquisi(on C.Diaconu 8 MASTODONS •  Stockage et ges(on de données (par exemple, dans le Cloud), sécurité, confiden(alité. •  Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données. •  Visualisa(on de grandes masses de données. •  Extrac(on de connaissances, datamining et appren(ssage. •  Qualité des données, confiden(alité et sécurité des données. •  Problèmes de propriété, de droit d’usage, droit à l’oubli. •  Préserva2on/archivage des données pour les généra2ons futures. –  PREDON (PREserva2on des DONnees) C.Diaconu 9 PREDON: Plan mul(-­‐annuel (Dec. 2012) Animation Partenariat
Harmonisation R&D
Architecture Pilotage
•  Court terme (2012/2013 et après): Anima2on et partenariat –  Elargir le champ de réflexion, cons(tuer un consor(um mul(-­‐disciplinaire •  Medium terme (2013/2014) : Harmonisa2on et projets R&D –  Communica(on: exchanges and workshops –  Livre blanc sur la préserva(on et la mise à disposi(on des données scien(fiques dans un contexte mul(-­‐disciplinaire –  Démonstrateur accès et préserva(on de données scien(fiques complexes •  Long term (2015/2016) Architecture et pilotage –  “Observatoire Na(onal des Données Scien(fiques” •  Coali(on de grands centres de données et projets mul(-­‐disciplinaires •  Support et suivi des lots de données scien(fiques : accès et préserva(on C.Diaconu 10 2013 2012 Prop. >
Groupe d’études PREDON IN2P3
§ Cristinel Diaconu, Dirk Hofmann, Angélique Pèpe, Magali Damoiseaux, D. Christofol (CPPM, Marseille)
§ Sabine Kraml (LPSC, Grenoble)
§ Giovanni Lamanna (LAPP, Annecy)
§ Volker Beckmann (APC, Centre Francois Arago, Paris 7)
>
CCIN2P3
§ Ghita Rahal, Jean-Yves Nief (CC-IN2P3)
>
INSU
§ Christian Surace (LAM/OAMP Cesam, Marseille)
>
INS2I
§ Mustapha Lebbah (LIPN, Paris 13)
§ Salima Benbernou (LIPADE, Paris 5)
§ Anne Laurent, Sophie Nicoud (LIRMM, Montpellier)
>
CINES
§ Stéphane Coutin, Marion Massol (CINES, Montpellier)
>
IRD
§ Thérèse Libourel, Yuan Lin (Espace DEV)
Nouveau contacts en 2013 suite aux workshops: Daniel Chateigner, CRISMAT/ENSICAEN, données cristallographie Marc Schaming, Ins(tut de Physique du Globe (CNRS/UNISTRA), IPG Strasbourg Catherine Boisson de l'Observatoire de Meudon / LUTH/INSU CTA Danièle Boucon, expert en préserva(on de données CNES 11 PREDON : complementarité Volume données Complexité Diversifica2on des sources Structura2on au niveau interna2onal Algorithmes et methodologies pour la preserva2on IN2P3 HEP +++ +++ + ++ + INSU, IRD ++ ++ ++ +++ ++ CINES INS2I + ++ +++ + +++ Astrophysics Earth Sciences IT, Algorithms, workflows C.Diaconu 12 •  Ac(ons: PREDON 2013 –  Réunions téléphoniques –  Réunion du groupe de travail PREDON à Montpellier : 17 juin 2013 –  Atelier PREDONx sur la préserva(on de données à Marseille 14/15 Novembre 2013 –  Par(cipa(on à des groupes de travail interna(onaux sur la préserva(on de données –  Présence dans des colloques et conférences au niveau na(onal (par exemple les journées Frédocs Octobre 2013) –  Démarrage d’un mini-­‐projet d’interface de données de physique de haute énergie au sein d’un projet générique au CINES –  Le groupe a déposé un projet ANR en janvier 2013. •  Résultats : –  extension du groupe de travail sur des nouvelles disciplines: cristallographie, sismologie, droit, documenta(on (IST) –  publica(on d’un document commun (en impression) –  présence dans des media scien(fique (interview du porteur de projet dans Nature), contribu(on a un livre édité par CNRS –  accepta(on d’un workshop proposé par les membres du groupe au sein de la conférence ICDE2014 C.Diaconu 13 Livre blanc sur la préserva(on de données (« facts finding ») C.Diaconu 14 Physique des Par(cules dphep.org Système de préserva(on et migra(on Virtualisa(on, valida(on intensive (DESY, Hambourg, Allemagne) Préserva(on d’un système d’accès et calcul à des données complexes (SLAC/Stanford USA) DPHEP: « Project Manager » nommé au CERN en Octobre 2012 (Scien(fic chair: CD) Collabora(on Interna(onale en cours d’installa(on( MoU signé par CERN, DESY,…) C.Diaconu 15 Exemple projet astrophysique: Virtual Observatories hwp://www.ivoa.org C.Diaconu 16 Archival exper(se CINES Les services d’archivage au CINES PAC ISAAC à  Archivage intermédiaire de données scien(fiques à  Archivage à long terme de données scien(fiques, patrimoniales, administra(ves Assurance qualité OAIS Compétences archivis(ques Exper(se formats Processus mé(er Ges(on des risques C.Diaconu EUDAT à  Archivage de données scien(fiques pour des communautés européennes structurées 17 Workflows et préserva(on Similarité entre les disciplines Besoin d’une approche théorique rigoureuse C.Diaconu 18 Nouveau Contact 2013 Long and CCSDS standards Term A rchiving Danièle Boucon, CNES The primary objec(ve of the Producer-­‐Archive Interface Specifica(on (PAIS) standard is to provide concrete XML files suppor(ng the descrip(on and the control of transfers from a Producer to an Archive. C.Diaconu 19 Crystallography Open Databases and Preserva(on: a World-­‐Wide Ini(a(ve Daniel Chateigner (for the COD Advisory Board) Nouveau Contact 2013 Nb entries
300000
250000
200000
siste
rs 150000
PCOD …
100000
50000
mars-13
mars-11
mars-09
mars-07
mars-05
mars-03
0
“…there is not yet sufficient coherence of experimental metadata standards or na(onal policy to rely on instrumental facili(es to act as permanent archives; -­‐there is not sufficient funding for exis(ng crystallographic database organisa(ons (which maintain curated archives of processed experimental data and derived structural data sets) to act as centralised stores of raw data, although they could effec(vely act as centralised metadata catalogues; -­‐few ins2tu2onal data repositories yet have the exper(se or resources to store the large quan((es of data involved with the appropriate level of discoverability and linking to derived publica(ons.” C.Diaconu 20 Nouveau Contact 2013 Seismic Data Preserva(on Marc SCHAMING, Ins(tut de Physique du Globe (CNRS/UNISTRA), Strasbourg Conclusion Preserva2on of seismic data is essen2al, but usually not considered by scien2sts, because it takes resources to document metadata, to read and copy tapes, to convert formats, etc. These tasks should be addressed at na(onal and/or European level. Some European projects (Seiscan/Seiscanex, Geo-­‐Seas) demonstrated that it is possible and useful. Repositories at na(onal level should pursue this task with geophysical skills. C.Diaconu 21 Nouveau Contact 2013 Scien(fic Data Preserva(on, Copyright and Open Science Philippe Mouron, Aix-­‐Marseille University, Faculté de droit et de science poli(que •  The best guarantee for ensuring the integrity of a resource is based on property. •  However, isn’t there a public ownership of scien(fic research? –  In truth, even if the public authori(es may fundamentally par(cipate in the scien(fic research, this does not mean, ipso facto, that they own its results. •  …any paper, ar(cle, report, record, thesis, book, graphic, map,... conduc(ng personal choices of a researcher, or expressing his own personality, will be considered as a work of mind […] are copyrightable •  The goal of digital preserva2on of scien2fic data must therefore be reconciled with intellectual property rights. •  Open model of management of intellectual property rights. –  Tools: open access licensis (e.g. Crea(ve Commons) C.Diaconu 22 PREDON: Concept demonstrator •  But : « forcer » les fron(ères entre les disciplines, par exemple: !
–  essayer des formats astrophysique (VOT) et des ou(ls de visualisa(on (Tulip) sur des données HEP –  Stocker des données complexes et très « custom » dans un projet de sauvegarde de données généraliste (ISAAC) C.Diaconu 23 Interface données HEP – ISAAC (CINES) C.Diaconu 24 Workshop on Data Preserva2on at ICDE 2014 •  Coordonnateurs workshop: S.Benbernou, C. Diaconu •  hwp://lipade.math-­‐info.univ-­‐paris5.fr/lops/ •  LOPS will be held in conjunc(on with the 30th IEEE Interna(onal Conference on Data Engineering. Chicago, IL, USA. March 31-­‐April 4, 2014. C.Diaconu 25 PREDON 2014 •  Organisa(on Workshop LOPS@ ICDE2014 •  Con(nua(on et ini(a(on de nouveaux mini-­‐projets et démonstrateurs pour des cas spécifiques de préserva(on de données (stages) –  HEP-­‐Data @ ISAAC –  Formats de données transdisciplinaires •  Réunions du groupe de travail : nouveau contacts, séminaires –  Extensions possibles à d’autres domaines (bio, IST, économie) –  Aborder des ques(ons communes (cout, persistence, open access, éduca(on, outreach etc.) •  Organisa(on d’un Atelier sur la préserva(on des données scien(fiques et en rela(on avec la théma(que « Big Data » –  Publica(on PREDON: 2015 •  Par(cipa(on aux groupes de travail au niveau interna(onal et aux projets et consor(a en cours de cons(tu(on pour des programmes de financement H2020. C.Diaconu 26 BACKUP C.Diaconu 27 Site web PREDON h"p://predon.org C.Diaconu 28 Summary of informa(on from the (pre-­‐LHC) experiments Longévité recherchée: > 10 ans Opportunités H2020 C.Diaconu 30 Generic arguments • 
Task forces already in place to address this issue in a generic way (standards) –  e.g. Blue Ribbon, APA, DPC, eSciDir, … hwp://www.alliancepermanentaccess.eu hwp://br€.sdsc.edu • 
Scien(fic Data is a major component of the ongoing efforts (complexity) C.Diaconu 31 Exemple projet: Data processing &
storage in the cloud
LabEx UnivEarths project at APC / François Arago Centre: -­‐ poten(al of the cloud versus classical data processing and storage opportuni(es -­‐ test processing on Francois Arago Centre cluster, compared with Cloud StratusLab Schema(c descrip(on of the cloud StratusLab, which is a European public cloud project IaaS which started in 2010. C.Diaconu 32 PREDON: Challenges •  Scien2fic Poten2al Challenge: these data sets contain unexploited informa(on, which may give rise to highly useful for joint, mul(-­‐disciplinary project. •  Complexity Challenge: the data collected by the experimental devices considered in the project is unique and encodes a large typology, well beyond the regular, well-­‐structured data produced in large quan((es in the industrial world. •  Technological et methodological challenge. The installa(on of procedures, workflows, algorithms for long term data preserva(on, as well as the defini(on of suitable technological frameworks cons(tute novel inves(ga(on domains. C.Diaconu 33 Les données digitales sont fragiles •  La capacité de stockage est physiquement dépassée depuis longtemps C.Diaconu 34