Lezione 2 - Centro di Bioinformatica Molecolare

Il vostro progetto
Analisi di dati di sequenziamento del
trascrittoma (RNA-Seq):
1. 
2. 
3. 
4. 
5. 
6. 
Analisi di qualità
Mappatura sul genoma
Calcolo dell’espressione
Test di espressione differenziale
Visualizzazione e interpretazione
Analisi funzionale
The Sanger chain-termination method
Sequenziatori:
- La separazione e' effettuata per
elettroforesi su capillare invece che su gel
- 1 corsa = 4 ore
- 1 corsa = 384 sequenze in parallelo
- più di 2000 sequenze al giorno
-  ogni sequenza = fino a 700 bp
-  Si possono sequenziare circa 10^6
nucleotidi al giorno
Next Generation Sequencing
DNA sequencing technologies
•  Sanger sequencing
• 
Next-Generation sequencing
•  Roche 454
•  ABI SOLiD
•  Illumina (Solexa)
• 
Next-Next (3rd) Generation sequencing
•  VisiGen
•  Helicos
•  Oxford Nanopore
Next Generation Sequencing
- Producono un'enorme mole di reads corte;
- I tempi di corsa sono molto brevi;
- Grosso risparmio economico;
- Possono essere applicate a DNA, RNA e altre varianti;
- Di recente sono state estese per la produzione di paired reads;
- L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono
prodotti più velocemente e facilmente di quanto sia possibile analizzarli.
Next Generation Sequencing
Analisi del trascrittoma
1995 Profili dell’espressione genica usando array su cui sono spo3ate probes complementari a cDNA di geni no: 2002 Profili di espressione usando Tiling Arrays, su cui sono spota3e sequenze complementari a tra? dche coprono l’intero genoma, perme3ono di iden:ficare geni espressi anche non no: 2008 RNA-­‐Seq, sequenziamento quan:ta:vo di tu3o il trascri3oma nel campione Analisi del trascrittoma
Analisi del trascrittoma
Qualità della sequenza
Phred
PHRED – PHil s Read
EDitor (Phil Green)
Generata sequenza della
read e valutazione della
qualità
PHRED quality =
-10×log10Prob(Error)
Sequenziamento Illumina/Solexa Genome Analyzer
sequence
clusters
tile
Ciclo 1
Ciclo 2
Ciclo 3
Ciclo 4
Ciclo 5
Ciclo 6
Il formato FASTQ
@SEQUENCE1
GCCCGGCGGGTTCATGCTGAAGAAAGGCGAAGTGTTCGGTTGGGCGGC
+
fffffffefe^eeceedffdcd^dXecffbeed`Reebe`db\]XWSS
Un file FASTQ utilizza 4 righe per ogni sequenza:
- La prima riga inizia con una @ ed è seguita dall’identificativo della sequenza ed
una descrizione (opzionale); equivale alla prima riga di un file FASTA (che inizia per
>).
-  La seconda riga contiene la sequenza.
-  La terza riga inizia con un + e può contenere identificativo e descrizione.
-  La quarta riga contiene I punteggi di qualità per ogni nucleotide della sequenza
codificati come conversione decimale del codice ASCII (American Standard Code
for Information Interchange) del carattere corrispondente (ad es. ]=93,f=102).
I dati
GEO (Gene Expression Omnibus)
http://www.ncbi.nlm.nih.gov/geo/
I dati
I dati
I dati
I dati
Paziente 1 con cancro del colon e retto
Sequenziato con Illumina Genome Analyzer
Tessuto normale del paziente 1
P1N: 9,037,384 reads
Tessuto canceroso del paziente 1
P1T: 8,542,144 reads
Lunghezza delle reads: 65 nt
Disponibili in GEO in formato sra (Short Read Archive)
Convertite in formato fastq con fastq-dump, parte del sra-toolkit
Il vostro progetto
Indirizzo del server: 160.80.34.123
Per il login: ssh [email protected]
Per Linux o MacOS: ssh fa gi aparte della shell
Per Windows: usate un programma come PuTTY
Il vostro progetto
Nella cartella data:
-  La sequenza di un
cromosoma
-  Due files in formato
fastq, uno per il
sano e uno per il
malato
Il vostro progetto
Cosa dobbiamo fare:
1.  Controllare la qualità delle reads
2.  Eliminare reads o parti di esse a bassa qualità (trimming)
Il vostro progetto
Controllo della qualità delle reads
FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Controllo della qualità delle reads
Output di FastQC:
•  Distribuzione della qualità media delle reads
•  Qualità media delle reads per posizione
•  Contenuto nucleotidico per posizione
•  Distribuzione del contenuto in GC per read
•  Contenuto in GC per posizione
•  Basi non assegnate (N) per posizione
•  Distribuzione delle lunghezze delle reads
•  Sequenze over-rappresentate/ duplicate
•  Contenuto in K-meri
Controllo della qualità delle reads
•  Qualità media delle reads per posizione
§  Il box giallo rappresenta la qualità del 25-75%
delle reads in quella posizione
§  La riga rossa al centro del box giallo è la
mediana della qualità in quella posizione
§  I whiskers sopra e sotto il box giallo
rappresentano il limite del 10% e 90%
§  La riga blu è la qualità media
Controllo della qualità delle reads
•  Qualità media delle reads per posizione
Controllo della qualità delle reads
•  Distribuzione della qualità media delle reads
4/12/14
25
Controllo della qualità delle reads
•  Distribuzione della qualità media delle reads
Reads di bassa qualità media
4/12/14
26
Controllo della qualità delle reads
•  Contenuto nucleotidico per posizione
4/12/14
27
Controllo della qualità delle reads
•  Contenuto nucleotidico per posizione
Contaminazione?
4/12/14
28
Controllo della qualità delle reads
•  Distribuzione del contenuto in GC per read
4/12/14
29
Controllo della qualità delle reads
•  Distribuzione del contenuto in GC per read
Contaminazione?
4/12/14
30
Controllo della qualità delle reads
•  Basi non assegnate (N) per posizione
4/12/14
31
Controllo della qualità delle reads
•  Basi non assegnate (N) per posizione
Problemi in alcuni cicli di reazione?
4/12/14
32
Controllo della qualità delle reads
•  Distribuzione delle lunghezze delle reads
Alcune piattaforme producono reads
tutte della stessa lunghezza
4/12/14
33
Controllo della qualità delle reads
•  Distribuzione delle lunghezze delle reads
Altre no
4/12/14
34
Controllo della qualità delle reads
• Livello di duplicazione delle reads
4/12/14
35
Controllo della qualità delle reads
• Livello di duplicazione delle reads
Contaminazione?
4/12/14
36
Controllo della qualità delle reads
• Sequence sovra-rappresentate
4/12/14
37
Controllo della qualità delle reads
Create una cartella per l’output
Eseguibile Folder per Numero
di fastqc
l’output
di CPU
File fastq in
input
Lanciate poi per
l’altro fastq
4/12/14
38
Controllo della qualità delle reads
4/12/14
39
Controllo della qualità delle reads
Il file fastqc_data.txt
4/12/14
40
Controllo della qualità delle reads
Il file fastqc_report.html
4/12/14
41
Trimming
In base ai risultati del controllo di qualità, posso decidere di
ripulire il dataset di reads per facilitare e rendere più
accurate le analisi successive. Posso:
-  Scartare le estremità a bassa qualità
-  Scartare reads con bassa qualità media
-  Scartare reads che dopo le operazioni di trimming
rimangono troppo corte
-  Rimuovere gli adattatori
Trimming
Trimming statico: si tagliano tutte le reads allo stesso punto
Taglio
Trimming
Trimming dinamico
Taglio dall’estremità 5’ finchè la qualità è sotto una soglia
Taglio dall’estremità 3’
Ottengo reads più corte ma di maggiore qualità media. Le
reads non avranno più tutte la stessa lunghezza
Trimming
http://www.usadellab.org/cms/?page=trimmomatic
Trimming
Parametri:
SE –> reads single end
-threads -> numero di CPU
-phred33 -> scala dei valori di qualità nel fastq
File di input
File di output
LEADING -> qualità minima dei nucleotidi al 5 della read’
TRAILING -> qualità minima dei nucleotidi al 3’
AVGQUAL -> qualità media minima
MINLEN -> lunghezza minima alla fine del trimming
Trimming
Prima del trimming
Trimming
Dopo il trimming
Trimming
Prima del trimming
Trimming
Dopo il trimming
Trimming
Prima del trimming
Trimming
Dopo il trimming
Lezione 2
Assemblaggio del
genoma
Strategie per il sequenziamento di genomi
Strategie per il sequenziamento di genomi
Coverage
(numero totale di basi sequenziate)/
(lunghezza della sequenza
assemblata)
31/13=2.3
Strategie per il sequenziamento di genomi
Bottom-up
Top-down
Metodo top-down
Contig: un set continuo di sequenze overlappanti
Gap
Double barrel shotgun sequencing
Assemblaggi fatti senza dati di
reads appaiate conducono a
contigs il cui ordine e
orientamento non sono noti.
Reads appaiate
possono creare
ponti fra contigs, e
permettono anche
di stimare le
dimensioni dei
gaps
10,000bp
10,000bp
Paired-end reads
Double barrel shotgun sequencing
Strategie per il sequenziamento di genomi
[Venter et al., 2001]
Double barrel shotgun sequencing
Physical gaps
Sequencing gaps
gap di sequenza – è noto l’ordine e l’orientamento dei contigs, c’è almeno un clone
che scavalca il gap
gap fisico – non si hanno informazioni sui contig adiacenti, non c’è nessun
frammento sequeziato che scavalca il gap
Figure 4.17a Genomes 3 (© Garland Science 2007)
Strategie per il sequenziamento di genomi
Terminologia:
read
una sequenza di 500-900 basi determinata
dal sequenziatore
overlap
regione significativa di sovrapposizione fra
due reads che ne fa supporre la
contiguità sul genoma
paired reads una coppia di reads dalle due
estremità dello stesso clone
contig
una sequenza ininterrotta formata
da molte reads sovrapposte
supercontig un insieme ordinato e orientato di contig,
(scaffold)
basato sulle reads appaiate
sequenza
consenso
sequenza derivata dall'allineamento
multiplo delle reads di un contig
..ACGATTACAATAGGTT..
Strategie per il sequenziamento di genomi
Whole-genome shotgun sequencing
Vantaggi:
Non richiede conoscenze preliminari
Veloce
Clone-based sequencing
Vantaggi:
Basato su mappe fisiche dei
cromosomi
Richiede un numero minore di
sequenze
Svantaggi:
Richiede un numero elevato di
sequenze
Assemblaggio complesso
Riempimento dei gaps
Costi (?)
Svantaggi:
Basato su mappe fisiche dei
cromosomi
Creazione delle librerie di BACs
Selezione dei BACs
Tempi
Costi (?)
Human Genome Project (1990)
- Scopo: ottenere la sequenza del genoma umano eucromatico;
- Dimensioni: 3Gb
- Approccio: clone-based genome shotgun
- Data prevista di completamento: 2005
- Finanziamento: 3 miliardi di dollari
- Partners: laboratori in USA, UK, Francia, Germania, Giappone, Cina e India
- Sono stati usati una serie di donatori anonimi, uomini e donne
2000: il primo assemblaggio (working draft) viene completato nello UCSC Genome
Bioinformatics Group, da Jim Kent, Patrick Gavin, Terrence Furey, e David Kulp.
2003: l' assemblaggio completo viene pubblicato
La maggior parte del genoma umano è stato sequenziato con coverage di 12X,
quindi ogni nucleotide del genoma è presente in media su 12 reads. Nonostante
questo, non si e' ancora stati in grado di sequenziare od assemblare circa 1% del
genoma eucromatinico.
Human Genome Project
Strategia usata: Hierarchical shotgun
1. Il genoma e' rotto in frammenti da
150mila basi, inseriti in vettori chiamati
BAC (cromosomi artificiali batterici).
2. I frammenti sono sottoposti a
sequenziamento shotgun per ottenere
delle sequenze di qualche centinaia di
basi (reads).
3. Le reads sono assemblate da algoritmi
appositi mediante regioni di overlap.
4. I frammenti cosi sequenziati sono
mappati sul genoma grazie a marcatori
(ad esempio genetici).
Human Genome Project
Human Genome Project
Human Genome Project
Celera (1998)
Nel 1998 una azienda privata la Celera, fondata da Craig Venter (che era stato il
primo ad applicare WGS ad organismi superiori) raccolse 300 milioni di dollari per
sequenziare il genoma umano più in fretta (e più economicamente) del consorzio
HGP.
Fino a quel punto, il genoma di Heamophilus influenzae (1.8 Mbp) e di Drosophila
melanogaster (135 Mbp) erano stati sequenziati con successo per WGS.
Venter intendeva sequenziare ed assemblare il genoma in meno di due anni con
coverage 10X, generando 50-60 milioni di reads.
Tutto dipendeva dal suo assemblatore e dall'utilizzo del double barrel shotgun per
identificare relazioni a lunga distanza
Celera (1998)
Sequencing Factory
•  300 ABI 3700 DNA Sequencers
•  50 Production Staff
•  20,000 sq. ft. of wet lab
•  20,000 sq. ft. of sequencing space
•  800 tons of A/C (160,000 cfm)
•  $1 million / year for electrical service
•  $10 million / month for reagents
Sequenziamento del genoma umano
Sequenziamento del genoma umano
- Chi ha vinto?
Il genoma umano e' di dominio pubblico
La Celera ha dovuto ricorrere ad informazioni prodotte dal consorzio HGP
Ma l'approccio WGS ha funzionato
- Cosa e' stato prodotto?
90% della sequenza (320 milioni di bp erano mancanti)
Coverage medio 4X
25% della sequenza a 8-10X
50000 scaffolds (lunghezza media 54.2 Mbp)
Sequenziamento del genoma umano
E‘ spesso affermato che il genoma umano e' stato completamente sequenziato, ma
stime recenti mostrano come solo intorno al 93% della sequenza e' nota. Alcune
regioni rimangono incomplete o del tutto sconosciute.
- Centromeri: sequenze altamente ripetitive di DNA molto difficili da
sequenziare. Possono essere anche molto lunghi (fin a milioni di basi), e sono quasi
completamente non sequenziati;
- Telomeri: anche essi sono sequenze altamente ripetitive. Possono avere
lunghezza variabile, per questo non e' chiaro quanto ne rimanga da sequenziare;
- Famiglie multigeniche complesse: geni simili in sequenza e vicini sul
cromosoma possono causare ambiguità durante l'assemblaggio. Un esempio sono
geni coinvolti nel sistema immunitario;
- Ci sono poi alcune decine di lacune (gaps) nella sequenza, alcune anche
molto grandi, ma che per motivi non noti non hanno raggiunto un livello di coverage
sufficiente.
Per regioni come telomeri e centomeri, è possibile che le attuali tecnologie non siano
in grado di determinarne la sequenza. E anche se ogni base del genoma fosse
sequenziata, rimarrebbero da determinare le differenze fra individui.
Assemblaggio
- L'assemblaggio del genoma è il processo per il quale a partire da un elevato numero di
sequenze corte, generate da sequenziamento shotgun, vengono ricostruite le sequenze dei
cromosomi da cui queste originano;
- E' una struttura gerarchica: le reads formano i contigs, i contigs formano gli scaffolds;
- Un contig può essere visto come un allineamento multiplo di reads, e la loro sequenza
consenso;
- Uno scaffold definisce ordine e orientamento dei contigs, e la dimensione dei gaps fra
contigs adiacenti (gaps sono di solito riempiti da dequenze di N);
- La bontà di un assemblaggio può essere stimata da varie misure:
- lunghezza media e massima di contigs e scaffolds
- lunghezza totale combinata;
- N50 (lunghezza del contig più piccolo nell' insieme più piccolo dei contig che si può
creare la cui lunghezza combinata rappresenti almeno il 50
dell‘assemblaggio).
Es.:
Genoma di 1 Mbp
Contigs: 300k, 100k, 50k, 45k, 30k, 20k, 15k, 15k, 10k, ....
N50 = 30 kbp
(300k+100k+50k+45k+30k = 525k >= 500kbp)
Assemblatori
L'assemblaggio di un genoma è un problema molto difficile da un punto di vista
computazionale, specialmente perchè molti genomi contengono un grande numero di
sequenze identiche dette ripetizioni, lunghe anche migliaia di nucleotidi, e che possono
essere trovate in migliaia di siti diversi.
I primi assemblatori vennero disegnati alla fine degli anni '80, inizio anni '90, ed erano
varianti di algoritmi di allineamento di sequenze. Algoritmi più evoluti vennero poi sviluppati
per gestire:
- terabytes di sequenze;
- ripetizioni;
- errori di sequenziamento.
Ci sono due classi di assemblatori:
1. de-novo: le reads sono assemblate a formare un sequenza sconosciuta a priori;
2. mapping: le reads sono assemblate su una impalcatura gia nota
Gli assemblatori de-novo sono di vari ordini di grandezza più lenti e bisognosi di memoria.
Questo è principalmente dovuto alla necessità di confrontare ogni possibile coppia di reads.
La complessità O(n2) può essere però ridotta a O(n log(n)).
Shortest common superstring problem
Dato un insieme di stringhe S={s1, s2, …,sn}, trovare la stringa T più corta tale che ogni
stringa si sia una sottostringa di T (NP-hard)
Approccio Overlap-layout-consensus
Dato un set di reads da sequenziamento shotgun...
1. trovare l'overlap fra tutte le coppie
2. trovare l'ordine delle reads sul genoma
3. determinare una sequenza rappresentativa
Overlap: trovare tutti le reads con regioni di sovrapposizione (contigs)
Layout: determinare regioni discrete (scaffolds, o supercontigs) di cui si
può stimare l'orientamento e la posizione reciproca
Contig Layout: fondere reads sovrapposte identificando i confini di
ogni regione
Supercontig assembly: I contigs devono essere ordinati, e regioni
di separazione fra di loro devono essere riempite
Consensus: ottenere la sequenza di ogni scaffold
Approccio Overlap-layout-consensus
overlap
s1
s1
s2
s3
s4
layout
s5
s6
s1
s5
s2
s3
consensus
s1
s2
s5
s2
s3
s3
s4
s4
s4
s5
s6
s6
s6
Assemblatori
All'inizio, ogni centro di sequenziamento sviluppò i propri strumenti per assemblare le
sequenze da loro prodotte. Man mano che il numero di sequenze disponibili
cresceva, e si affrontavano genomi più complessi, si sono sviluppati strumenti più
versatili e potenti
l 
PHRAP
l 
l 
l 
Celera
l 
l 
l 
l 
l 
Primo assemblatore WGS capace di gestire genomi grandi (drosophila,
uomo, topo)
Overlap → layout → consensus
Arachne
l 
l 
Uno dei primi assemblatori, molto usato per piccoli genomi, buon
trattamento degli errori nelle reads
Sovrapposizione O(n2) → layout (senza paired reads) → consensus
Assemblatore WGS open source (topo, piante, funghi)
Overlap → layout → consensus
Phusion
l 
Overlap → clustering → PHRAP → assemblaggio → consensus
l 
Indexing → Euler graph → layout (percorsi sul grafo) → consensus
Euler
Assemblatori
Fase 1. Overlap
1. Pulizia del dataset di reads
2. Identificazione e rimozione delle regioni ripetute
3. Identificazione efficiente delle regioni di sovrapposizione
4. Allineamento delle reads sovrapposte
Fase 2. Layout
- Vari approcci tentati
1. Algoritmi greedy
3. Costruzione di grafi
4. Clustering
Algoritmi greedy
Algoritmo greedy:
1. Calcola la sovrapposizione fra ogni coppia si e sj di S;
2. Assegna un punteggio ad ogni sovrapposizione;
La sovrapposizione è solitamente calcolata con versioni modificate
dell'algoritmo di Smith-Waterman, per consentire allineamenti imperfetti dovuti ad errori
nel sequenziamento;
3. Unisci coppie di stringhe in ordine decrescente di punteggio.
Le due reads con overlap migliore sono concatenate; si passa poi alla read con
overlap migliore con una delle due di partenza, e cosi via
Overlap Graph
Grafo: è un'astrazione composta da un insieme di nodi (o vertici) uniti da lati (o archi);
Un grafo i cui i nodi possono essere attraverstai in una sola direzione è detto diretto;
Un "percorso" di lunghezza n nel grafo è dato da una sequenza di vertici v0,v1,..., vn
(non necessariamente tutti distinti) e da una sequenza di archi che li collegano (v0,v1),
(v1,v2),...,(vn-1,vn). I vertici v0 e vn si dicono estremi del percorso.
Un percorso con i lati a due a due distinti tra loro prende il nome di cammino.
Un cammino chiuso (v0 = vn) si chiama circuito o ciclo.
Overlap Graph
[Schatz, 2010]
Overlap Graph
[Schatz, 2010]
Overlap Graph
Overlap graph: grafo dove i nodi rappresentano ogni read, e gli archi connettono due nodi
se le corrispondenti reads sono sovrapposte. In questa rappresentazione, il problema
dell'assemblaggio si riconduce al problema di trovare un percorso nel grafo contenente tutti
i nodi.
1. Costruisci un grafo con n vnodi rappresentanti le n stringhe s1, s2,…., sn
2. Inserisci archi di lunghezza pari all' overlap ( si, sj ) fra nodi si and sj
3. Trova il percorso più corto che visiti ogni nodo una volta sola (percorso Hamiltoniano,
NP-hard): questo è il problema del commesso viaggiatore (Traveling Salesman Problem)