=1=SéPhHaDé Défis computationnels des séquençage et

´PhHaDe
´
Se
D´efis computationnels des s´equen¸cage et ph´enotypage
haut-d´ebit en science de la vie
Esther Pacitti, Eric Rivals
LIRMM & IBC, Montpellier
http://www.lirmm.fr/mastodons
24 janvier 2014
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
1 / 24
´PhHaDe
´
Vue de Se
Next Gen
Sequencing
Bioinformatics
Programs
Indexing
BIG DATA ANALYSIS
Information
retrieval
Complex
content
Recommandation
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
2 / 24
´PhHaDe
´
Vue de Se
Next Gen
Sequencing
Bioinformatics
Programs
Indexing
BIG DATA ANALYSIS
Information
retrieval
Complex
content
Recommandation
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
2 / 24
´PhHaDe
´
Survol de Se
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
3 / 24
Analyse de donn´ees de ph´enotypes
Besoins et donn´ees
Mesures de croissance individuelle des plantes `a divers pas de temps
d´etecter les plantes
anormales
(5 `a 6 r´ep´etitions par g´enotype)
comparer les croissances (par ex : condition d’hydradation diff´erentes)
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
4 / 24
Analyse de donn´ees de ph´enotypes
Approche
Application d’une mesure de distance (Dynamic Time Warping)
D´etection d’outliers pour chaque g´enotype
Classification : Ascendant Hi´erarchique et DBSCAN sur l’ensemble
des s´eries
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
4 / 24
Recommandation : d´efis
Communaut´e en ligne partage des
donn´ees `a gde ´echelle
utilise donn´ees transform´ees pour
r´epondre `a des requˆetes
pluridisciplinaires
Ex : mod`
ele math´
ematique pour la
croissance des plantes
Diversit´e des documents : prendre en
compte les donn´ees de diff´erentes
disciplines (e.g. informatique, biologie,
etc).
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
5 / 24
Recommandation : r´esultats
une approche probabiliste originale [Servajean et al. , WWW13]
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
6 / 24
Recommandation : r´esultats
une approche probabiliste originale [Servajean et al. , WWW13]
et des optimisations de calcul
R´esultats
montrent les gains en
diversit´e de profils sur un jeu
de donn´ees INRA
g´en´eriques et valid´es par un
benchmark du web
valid´es avec des retours
utilisateurs : 70% de
satisfaction pour les requˆetes
interdisciplinaires
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
6 / 24
Recherche d’information : d´efi et objectifs
Enjeu : Gap Taxonomique vs. Pr´eservation de la biodiversit´e
D´efi : identification/surveillance des esp`eces vivantes grˆace au multim´edia
Outils d’aide `
a l’identification (sciences participatives)
Monitoring de sites naturels (audio & video-surveillance, pi`eges photos)
Plan : 1`ere campagne d’´evaluation internationale dans forum CLEF
Campagne d’´evaluation internationale en 2014
Jan D´emarrage de la campagne
Mars Distribution des donn´ees de test
Mai Soumission des ”runs”
Sept Workshop LifeCLEF @ CLEF
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
7 / 24
Recherche d’information
LifeCLEF : Un d´efi big data & multimodal
Classification et recherche d’information supervis´ees `a grande ´echelle
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
8 / 24
Nouvelles technologies de s´equen¸cage
Smaller, faster, better
Roche
projets gigantesques
➞
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
9 / 24
Nouvelles technologies de s´equen¸cage
Smaller, faster, better
projets gigantesques
100, 000 g´enomes de riz
Roche
➞
25, 000 g´enomes and transcriptomes
de cancer
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
9 / 24
Indexation de s´equences : d´efis & r´esultats
Objectif : structure de donn´ees r´epondant aux requˆetes en temps r´eel
indexation g´en´eralis´ee d’une collection de s´equences
auto-indexation compress´ee : plus besoin du texte, taille compress´ee
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
10 / 24
Indexation de s´equences : d´efis & r´esultats
Objectif : structure de donn´ees r´epondant aux requˆetes en temps r´eel
indexation g´en´eralis´ee d’une collection de s´equences
auto-indexation compress´ee : plus besoin du texte, taille compress´ee
Avantages des index compress´es
Q3
CGkA, k=11
CGkA, k=22
GkA, k=11
GkA, k=22
Time per occurrence (µs)
0.0
0.4
0.8
1.2
●
●
r´eduit l’impact m´emoire sans
d´et´eriorer le temps de requˆete
adaptable `a la m´emoire disponible
●
●
●
0
2
[V¨alim¨aki & Rivals, LNCS, 2013]
●
4
6
Size (GB)
Pacitti, Rivals (LIRMM)
8
10
S´
ePhHaD´
e
24 janvier 2014
10 / 24
Programmes d’analyse de s´equen¸cage HD : d´efis
Enjeux soci´etaux et scientifiques
Acc`es global aux ph´enom`enes g´enomiques au niveau de la cellule
Compr´ehension du contrˆ
ole des ph´enotypes par l’expression des g`enes
Applications aux domaines m´edical, agronomique, ´ecologique
Surveillance
mol´eculaire de la biodiversit´e environnementale.
Verrou : traitement bioinformatique et
scalabilit´e
une collection g´enomique : 100 millions de reads de 100 nucl´eotides
comparer chaque read au g´enome de r´ef´erence (3 milliards de nuc.)
Objectifs 2013
Comparer des ´echantillons environnementaux (m´eta-g´enomiques)
Analyse des ARNs (activation des g`enes) et pr´edire leurs variantes
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
11 / 24
Programmes de mapping de s´equences : concurrence
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
12 / 24
Programmes d’analyse : r´esultats
CRAC : un algo/programme multi-d´etection passant `a l’´echelle
(Montpellier - Lille)
[Philippe et al., Genome Biology, 2013]
Compareads : version HPC d’un programme de comparaison de
m´etag´enomes (Rennes - G´enoscope Evry)
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
13 / 24
Programmes d’analyse : r´esultats
CRAC : un algo/programme multi-d´etection passant `a l’´echelle
(Montpellier - Lille)
[Philippe et al., Genome Biology, 2013]
Compareads : version HPC d’un programme de comparaison de
m´etag´enomes (Rennes - G´enoscope Evry)
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
13 / 24
CRAC : un outil pour l’analyse de s´equen¸cage ARN
Montpellier et Lille
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
14 / 24
Analyse des ARN : pourquoi faire ?
L’ARN est la premi`ere ´etape de l’activation d’un g`ene
de l’information (statique) `a la fonction (activit´e)
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
15 / 24
Analyse des ARN : pourquoi faire ?
L’ARN est la premi`ere ´etape de l’activation d’un g`ene
de l’information (statique) `a la fonction (activit´e)
Analyse s´equences d’ARN (RNA-seq)
pr´edire les types d’´ev´enements biologiques d´etectables sur les ARN
mutations ponctuelles ou segmentales, bordures ´epissage, fusion, etc.
D´efis
Complexit´e biologique, interf´erence entre ´ev´enements
sensibilit´e et pr´ecision pour autoriser une validation exp´erimentale
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
15 / 24
Analyse de RNA-seq : donn´ees et questions
1
Une collection de 75 millions de reads de 100 nucl´eotides chacun
2
La s´equence d’un g´enome de r´eference
Humain : 3.109 nucl´eotides de long
Questions :
1
r´egion de production de l’ARN (read) sur le g´enome
recherche approch´ees de reads sur le g´enome
2
les diff´erences de s´equences entre l’ARN et cette r´egion
les mutations et autres variations g´enomiques des ARN s´equenc´es
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
16 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
17 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
17 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
17 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
17 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
16 k-mers localis´es
Pacitti, Rivals (LIRMM)
22 k-mers absents
16 k-mers localis´es
S´
ePhHaD´
e
24 janvier 2014
17 / 24
D´ecomposition en k-mers et profils (k = 22)
10
20
30
40
50
60
70
12 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 456 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 234 5 6 789 0 1 2 3 4 5 6 7 8 9 0 123 4 5 6 7 8 9 0 1 2 3 4 5
CTAGTTTTATACTTTAGGGGTAAGCAGTGGAAAGTTAGAGTTCGGAGCTGTTTATTGAGGGCAGGGGAAGAATGT
16 k-mers localis´es
Pacitti, Rivals (LIRMM)
22 k-mers absents
16 k-mers localis´es
erreur ou
mutation ?
S´
ePhHaD´
e
24 janvier 2014
17 / 24
Principle II : variation
g´en´etique
An Integrated
approach
Principle II
An Integrate
Une variation g´en´etique affecte tous les reads couvrant sa position
r mutation?Error or mutation?
une erreur de s´equence affecte le read dans lequel elle se produit
Erreur ou mutation ?
Polymorphism
Reads
Pacitti, Rivals (LIRMM)
Polymorphism
gen
All reads incorporate the mutation
All reads i
Reads
Error
Error
S´
ePhHaD´
e
24 janvier 2014
18 / 24
CRAC : int´egrer localisation et support
Pour chaque read, analyser conjointement 2 signaux pour chaque k-mer
ses localisations sur le g´enome
i.e. positions et nombre
son support : le nombre de reads partageant ce k-mer
Comment ? `a la vol´ee en utilisant des index compr´ess´es
du g´enome (Transform´ee de Burrows Wheeler)
de la collection de reads ([Philippe et al., 2011])
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
19 / 24
R´esultat : un read couvrant 4 exons du g`ene TIMM50
read de 75 nuc. chevauchant les exons 2 `a 5 de g`ene TIMM50
S´equen¸cage de lign´ees du cancer du sein
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
20 / 24
CRAC publication & views
Nature 497, 9 (02 May 2013)
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
21 / 24
Conclusion
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
22 / 24
Conclusion
Colloque Indexing scientific big data
147 participants `a Paris 15 Jan 2014
Interactions avec le PIA France G´enomique
qui inclut les Centres Nationaux de G´enotypage, et de S´equen¸cage
ANR blanche Colib’read (LIRMM Montpellier, INRIA Rennes & Lyon)
Projet Fondation Recherche M´edicale (Inst. G´enomique Fonctionnelle
& LIRMM Montpellier) & projet commun Microsoft-INRIA
Nouveaux partenaires : Telabotanica, Univ. Rouen, UPMC, Paris 5,
CIRAD
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
23 / 24
Remerciements
Merci pour votre attention
Questions ?
Pacitti, Rivals (LIRMM)
S´
ePhHaD´
e
24 janvier 2014
24 / 24