´PhHaDe ´ Se D´efis computationnels des s´equen¸cage et ph´enotypage haut-d´ebit en science de la vie Esther Pacitti, Eric Rivals LIRMM & IBC, Montpellier http://www.lirmm.fr/mastodons 24 janvier 2014 Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 1 / 24 ´PhHaDe ´ Vue de Se Next Gen Sequencing Bioinformatics Programs Indexing BIG DATA ANALYSIS Information retrieval Complex content Recommandation Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 2 / 24 ´PhHaDe ´ Vue de Se Next Gen Sequencing Bioinformatics Programs Indexing BIG DATA ANALYSIS Information retrieval Complex content Recommandation Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 2 / 24 ´PhHaDe ´ Survol de Se Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 3 / 24 Analyse de donn´ees de ph´enotypes Besoins et donn´ees Mesures de croissance individuelle des plantes `a divers pas de temps d´etecter les plantes anormales (5 `a 6 r´ep´etitions par g´enotype) comparer les croissances (par ex : condition d’hydradation diff´erentes) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 4 / 24 Analyse de donn´ees de ph´enotypes Approche Application d’une mesure de distance (Dynamic Time Warping) D´etection d’outliers pour chaque g´enotype Classification : Ascendant Hi´erarchique et DBSCAN sur l’ensemble des s´eries Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 4 / 24 Recommandation : d´efis Communaut´e en ligne partage des donn´ees `a gde ´echelle utilise donn´ees transform´ees pour r´epondre `a des requˆetes pluridisciplinaires Ex : mod` ele math´ ematique pour la croissance des plantes Diversit´e des documents : prendre en compte les donn´ees de diff´erentes disciplines (e.g. informatique, biologie, etc). Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 5 / 24 Recommandation : r´esultats une approche probabiliste originale [Servajean et al. , WWW13] Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 6 / 24 Recommandation : r´esultats une approche probabiliste originale [Servajean et al. , WWW13] et des optimisations de calcul R´esultats montrent les gains en diversit´e de profils sur un jeu de donn´ees INRA g´en´eriques et valid´es par un benchmark du web valid´es avec des retours utilisateurs : 70% de satisfaction pour les requˆetes interdisciplinaires Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 6 / 24 Recherche d’information : d´efi et objectifs Enjeu : Gap Taxonomique vs. Pr´eservation de la biodiversit´e D´efi : identification/surveillance des esp`eces vivantes grˆace au multim´edia Outils d’aide ` a l’identification (sciences participatives) Monitoring de sites naturels (audio & video-surveillance, pi`eges photos) Plan : 1`ere campagne d’´evaluation internationale dans forum CLEF Campagne d’´evaluation internationale en 2014 Jan D´emarrage de la campagne Mars Distribution des donn´ees de test Mai Soumission des ”runs” Sept Workshop LifeCLEF @ CLEF Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 7 / 24 Recherche d’information LifeCLEF : Un d´efi big data & multimodal Classification et recherche d’information supervis´ees `a grande ´echelle Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 8 / 24 Nouvelles technologies de s´equen¸cage Smaller, faster, better Roche projets gigantesques ➞ Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 9 / 24 Nouvelles technologies de s´equen¸cage Smaller, faster, better projets gigantesques 100, 000 g´enomes de riz Roche ➞ 25, 000 g´enomes and transcriptomes de cancer Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 9 / 24 Indexation de s´equences : d´efis & r´esultats Objectif : structure de donn´ees r´epondant aux requˆetes en temps r´eel indexation g´en´eralis´ee d’une collection de s´equences auto-indexation compress´ee : plus besoin du texte, taille compress´ee Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 10 / 24 Indexation de s´equences : d´efis & r´esultats Objectif : structure de donn´ees r´epondant aux requˆetes en temps r´eel indexation g´en´eralis´ee d’une collection de s´equences auto-indexation compress´ee : plus besoin du texte, taille compress´ee Avantages des index compress´es Q3 CGkA, k=11 CGkA, k=22 GkA, k=11 GkA, k=22 Time per occurrence (µs) 0.0 0.4 0.8 1.2 ● ● r´eduit l’impact m´emoire sans d´et´eriorer le temps de requˆete adaptable `a la m´emoire disponible ● ● ● 0 2 [V¨alim¨aki & Rivals, LNCS, 2013] ● 4 6 Size (GB) Pacitti, Rivals (LIRMM) 8 10 S´ ePhHaD´ e 24 janvier 2014 10 / 24 Programmes d’analyse de s´equen¸cage HD : d´efis Enjeux soci´etaux et scientifiques Acc`es global aux ph´enom`enes g´enomiques au niveau de la cellule Compr´ehension du contrˆ ole des ph´enotypes par l’expression des g`enes Applications aux domaines m´edical, agronomique, ´ecologique Surveillance mol´eculaire de la biodiversit´e environnementale. Verrou : traitement bioinformatique et scalabilit´e une collection g´enomique : 100 millions de reads de 100 nucl´eotides comparer chaque read au g´enome de r´ef´erence (3 milliards de nuc.) Objectifs 2013 Comparer des ´echantillons environnementaux (m´eta-g´enomiques) Analyse des ARNs (activation des g`enes) et pr´edire leurs variantes Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 11 / 24 Programmes de mapping de s´equences : concurrence Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 12 / 24 Programmes d’analyse : r´esultats CRAC : un algo/programme multi-d´etection passant `a l’´echelle (Montpellier - Lille) [Philippe et al., Genome Biology, 2013] Compareads : version HPC d’un programme de comparaison de m´etag´enomes (Rennes - G´enoscope Evry) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 13 / 24 Programmes d’analyse : r´esultats CRAC : un algo/programme multi-d´etection passant `a l’´echelle (Montpellier - Lille) [Philippe et al., Genome Biology, 2013] Compareads : version HPC d’un programme de comparaison de m´etag´enomes (Rennes - G´enoscope Evry) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 13 / 24 CRAC : un outil pour l’analyse de s´equen¸cage ARN Montpellier et Lille Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 14 / 24 Analyse des ARN : pourquoi faire ? L’ARN est la premi`ere ´etape de l’activation d’un g`ene de l’information (statique) `a la fonction (activit´e) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 15 / 24 Analyse des ARN : pourquoi faire ? L’ARN est la premi`ere ´etape de l’activation d’un g`ene de l’information (statique) `a la fonction (activit´e) Analyse s´equences d’ARN (RNA-seq) pr´edire les types d’´ev´enements biologiques d´etectables sur les ARN mutations ponctuelles ou segmentales, bordures ´epissage, fusion, etc. D´efis Complexit´e biologique, interf´erence entre ´ev´enements sensibilit´e et pr´ecision pour autoriser une validation exp´erimentale Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 15 / 24 Analyse de RNA-seq : donn´ees et questions 1 Une collection de 75 millions de reads de 100 nucl´eotides chacun 2 La s´equence d’un g´enome de r´eference Humain : 3.109 nucl´eotides de long Questions : 1 r´egion de production de l’ARN (read) sur le g´enome recherche approch´ees de reads sur le g´enome 2 les diff´erences de s´equences entre l’ARN et cette r´egion les mutations et autres variations g´enomiques des ARN s´equenc´es Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 16 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 17 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 17 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 17 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 17 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT 16 k-mers localis´es Pacitti, Rivals (LIRMM) 22 k-mers absents 16 k-mers localis´es S´ ePhHaD´ e 24 janvier 2014 17 / 24 D´ecomposition en k-mers et profils (k = 22) 10 20 30 40 50 60 70 12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5 CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT 16 k-mers localis´es Pacitti, Rivals (LIRMM) 22 k-mers absents 16 k-mers localis´es erreur ou mutation ? S´ ePhHaD´ e 24 janvier 2014 17 / 24 Principle II : variation g´en´etique An Integrated approach Principle II An Integrate Une variation g´en´etique affecte tous les reads couvrant sa position r mutation?Error or mutation? une erreur de s´equence affecte le read dans lequel elle se produit Erreur ou mutation ? Polymorphism Reads Pacitti, Rivals (LIRMM) Polymorphism gen All reads incorporate the mutation All reads i Reads Error Error S´ ePhHaD´ e 24 janvier 2014 18 / 24 CRAC : int´egrer localisation et support Pour chaque read, analyser conjointement 2 signaux pour chaque k-mer ses localisations sur le g´enome i.e. positions et nombre son support : le nombre de reads partageant ce k-mer Comment ? `a la vol´ee en utilisant des index compr´ess´es du g´enome (Transform´ee de Burrows Wheeler) de la collection de reads ([Philippe et al., 2011]) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 19 / 24 R´esultat : un read couvrant 4 exons du g`ene TIMM50 read de 75 nuc. chevauchant les exons 2 `a 5 de g`ene TIMM50 S´equen¸cage de lign´ees du cancer du sein Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 20 / 24 CRAC publication & views Nature 497, 9 (02 May 2013) Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 21 / 24 Conclusion Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 22 / 24 Conclusion Colloque Indexing scientific big data 147 participants `a Paris 15 Jan 2014 Interactions avec le PIA France G´enomique qui inclut les Centres Nationaux de G´enotypage, et de S´equen¸cage ANR blanche Colib’read (LIRMM Montpellier, INRIA Rennes & Lyon) Projet Fondation Recherche M´edicale (Inst. G´enomique Fonctionnelle & LIRMM Montpellier) & projet commun Microsoft-INRIA Nouveaux partenaires : Telabotanica, Univ. Rouen, UPMC, Paris 5, CIRAD Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 23 / 24 Remerciements Merci pour votre attention Questions ? Pacitti, Rivals (LIRMM) S´ ePhHaD´ e 24 janvier 2014 24 / 24
© Copyright 2025 ExpyDoc