Il vostro progetto Analisi di dati di sequenziamento del trascrittoma (RNA-Seq): 1. 2. 3. 4. 5. 6. Analisi di qualità Mappatura sul genoma Calcolo dell’espressione Test di espressione differenziale Visualizzazione e interpretazione Analisi funzionale The Sanger chain-termination method Sequenziatori: - La separazione e' effettuata per elettroforesi su capillare invece che su gel - 1 corsa = 4 ore - 1 corsa = 384 sequenze in parallelo - più di 2000 sequenze al giorno - ogni sequenza = fino a 700 bp - Si possono sequenziare circa 10^6 nucleotidi al giorno Next Generation Sequencing DNA sequencing technologies • Sanger sequencing • Next-Generation sequencing • Roche 454 • ABI SOLiD • Illumina (Solexa) • Next-Next (3rd) Generation sequencing • VisiGen • Helicos • Oxford Nanopore Next Generation Sequencing - Producono un'enorme mole di reads corte; - I tempi di corsa sono molto brevi; - Grosso risparmio economico; - Possono essere applicate a DNA, RNA e altre varianti; - Di recente sono state estese per la produzione di paired reads; - L'analisi bioinformatica è lo step limitante di tutta la procedura: I dati sono prodotti più velocemente e facilmente di quanto sia possibile analizzarli. Next Generation Sequencing Analisi del trascrittoma 1995 Profili dell’espressione genica usando array su cui sono spo3ate probes complementari a cDNA di geni no: 2002 Profili di espressione usando Tiling Arrays, su cui sono spota3e sequenze complementari a tra? dche coprono l’intero genoma, perme3ono di iden:ficare geni espressi anche non no: 2008 RNA-‐Seq, sequenziamento quan:ta:vo di tu3o il trascri3oma nel campione Analisi del trascrittoma Analisi del trascrittoma Qualità della sequenza Phred PHRED – PHil s Read EDitor (Phil Green) Generata sequenza della read e valutazione della qualità PHRED quality = -10×log10Prob(Error) Sequenziamento Illumina/Solexa Genome Analyzer sequence clusters tile Ciclo 1 Ciclo 2 Ciclo 3 Ciclo 4 Ciclo 5 Ciclo 6 Il formato FASTQ @SEQUENCE1 GCCCGGCGGGTTCATGCTGAAGAAAGGCGAAGTGTTCGGTTGGGCGGC + fffffffefe^eeceedffdcd^dXecffbeed`Reebe`db\]XWSS Un file FASTQ utilizza 4 righe per ogni sequenza: - La prima riga inizia con una @ ed è seguita dall’identificativo della sequenza ed una descrizione (opzionale); equivale alla prima riga di un file FASTA (che inizia per >). - La seconda riga contiene la sequenza. - La terza riga inizia con un + e può contenere identificativo e descrizione. - La quarta riga contiene I punteggi di qualità per ogni nucleotide della sequenza codificati come conversione decimale del codice ASCII (American Standard Code for Information Interchange) del carattere corrispondente (ad es. ]=93,f=102). I dati GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/ I dati I dati I dati I dati Paziente 1 con cancro del colon e retto Sequenziato con Illumina Genome Analyzer Tessuto normale del paziente 1 P1N: 9,037,384 reads Tessuto canceroso del paziente 1 P1T: 8,542,144 reads Lunghezza delle reads: 65 nt Disponibili in GEO in formato sra (Short Read Archive) Convertite in formato fastq con fastq-dump, parte del sra-toolkit Il vostro progetto Indirizzo del server: 160.80.34.123 Per il login: ssh [email protected] Per Linux o MacOS: ssh fa gi aparte della shell Per Windows: usate un programma come PuTTY Il vostro progetto Nella cartella data: - La sequenza di un cromosoma - Due files in formato fastq, uno per il sano e uno per il malato Il vostro progetto Cosa dobbiamo fare: 1. Controllare la qualità delle reads 2. Eliminare reads o parti di esse a bassa qualità (trimming) Il vostro progetto Controllo della qualità delle reads FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Controllo della qualità delle reads Output di FastQC: • Distribuzione della qualità media delle reads • Qualità media delle reads per posizione • Contenuto nucleotidico per posizione • Distribuzione del contenuto in GC per read • Contenuto in GC per posizione • Basi non assegnate (N) per posizione • Distribuzione delle lunghezze delle reads • Sequenze over-rappresentate/ duplicate • Contenuto in K-meri Controllo della qualità delle reads • Qualità media delle reads per posizione § Il box giallo rappresenta la qualità del 25-75% delle reads in quella posizione § La riga rossa al centro del box giallo è la mediana della qualità in quella posizione § I whiskers sopra e sotto il box giallo rappresentano il limite del 10% e 90% § La riga blu è la qualità media Controllo della qualità delle reads • Qualità media delle reads per posizione Controllo della qualità delle reads • Distribuzione della qualità media delle reads 4/12/14 25 Controllo della qualità delle reads • Distribuzione della qualità media delle reads Reads di bassa qualità media 4/12/14 26 Controllo della qualità delle reads • Contenuto nucleotidico per posizione 4/12/14 27 Controllo della qualità delle reads • Contenuto nucleotidico per posizione Contaminazione? 4/12/14 28 Controllo della qualità delle reads • Distribuzione del contenuto in GC per read 4/12/14 29 Controllo della qualità delle reads • Distribuzione del contenuto in GC per read Contaminazione? 4/12/14 30 Controllo della qualità delle reads • Basi non assegnate (N) per posizione 4/12/14 31 Controllo della qualità delle reads • Basi non assegnate (N) per posizione Problemi in alcuni cicli di reazione? 4/12/14 32 Controllo della qualità delle reads • Distribuzione delle lunghezze delle reads Alcune piattaforme producono reads tutte della stessa lunghezza 4/12/14 33 Controllo della qualità delle reads • Distribuzione delle lunghezze delle reads Altre no 4/12/14 34 Controllo della qualità delle reads • Livello di duplicazione delle reads 4/12/14 35 Controllo della qualità delle reads • Livello di duplicazione delle reads Contaminazione? 4/12/14 36 Controllo della qualità delle reads • Sequence sovra-rappresentate 4/12/14 37 Controllo della qualità delle reads Create una cartella per l’output Eseguibile Folder per Numero di fastqc l’output di CPU File fastq in input Lanciate poi per l’altro fastq 4/12/14 38 Controllo della qualità delle reads 4/12/14 39 Controllo della qualità delle reads Il file fastqc_data.txt 4/12/14 40 Controllo della qualità delle reads Il file fastqc_report.html 4/12/14 41 Trimming In base ai risultati del controllo di qualità, posso decidere di ripulire il dataset di reads per facilitare e rendere più accurate le analisi successive. Posso: - Scartare le estremità a bassa qualità - Scartare reads con bassa qualità media - Scartare reads che dopo le operazioni di trimming rimangono troppo corte - Rimuovere gli adattatori Trimming Trimming statico: si tagliano tutte le reads allo stesso punto Taglio Trimming Trimming dinamico Taglio dall’estremità 5’ finchè la qualità è sotto una soglia Taglio dall’estremità 3’ Ottengo reads più corte ma di maggiore qualità media. Le reads non avranno più tutte la stessa lunghezza Trimming http://www.usadellab.org/cms/?page=trimmomatic Trimming Parametri: SE –> reads single end -threads -> numero di CPU -phred33 -> scala dei valori di qualità nel fastq File di input File di output LEADING -> qualità minima dei nucleotidi al 5 della read’ TRAILING -> qualità minima dei nucleotidi al 3’ AVGQUAL -> qualità media minima MINLEN -> lunghezza minima alla fine del trimming Trimming Prima del trimming Trimming Dopo il trimming Trimming Prima del trimming Trimming Dopo il trimming Trimming Prima del trimming Trimming Dopo il trimming Lezione 2 Assemblaggio del genoma Strategie per il sequenziamento di genomi Strategie per il sequenziamento di genomi Coverage (numero totale di basi sequenziate)/ (lunghezza della sequenza assemblata) 31/13=2.3 Strategie per il sequenziamento di genomi Bottom-up Top-down Metodo top-down Contig: un set continuo di sequenze overlappanti Gap Double barrel shotgun sequencing Assemblaggi fatti senza dati di reads appaiate conducono a contigs il cui ordine e orientamento non sono noti. Reads appaiate possono creare ponti fra contigs, e permettono anche di stimare le dimensioni dei gaps 10,000bp 10,000bp Paired-end reads Double barrel shotgun sequencing Strategie per il sequenziamento di genomi [Venter et al., 2001] Double barrel shotgun sequencing Physical gaps Sequencing gaps gap di sequenza – è noto l’ordine e l’orientamento dei contigs, c’è almeno un clone che scavalca il gap gap fisico – non si hanno informazioni sui contig adiacenti, non c’è nessun frammento sequeziato che scavalca il gap Figure 4.17a Genomes 3 (© Garland Science 2007) Strategie per il sequenziamento di genomi Terminologia: read una sequenza di 500-900 basi determinata dal sequenziatore overlap regione significativa di sovrapposizione fra due reads che ne fa supporre la contiguità sul genoma paired reads una coppia di reads dalle due estremità dello stesso clone contig una sequenza ininterrotta formata da molte reads sovrapposte supercontig un insieme ordinato e orientato di contig, (scaffold) basato sulle reads appaiate sequenza consenso sequenza derivata dall'allineamento multiplo delle reads di un contig ..ACGATTACAATAGGTT.. Strategie per il sequenziamento di genomi Whole-genome shotgun sequencing Vantaggi: Non richiede conoscenze preliminari Veloce Clone-based sequencing Vantaggi: Basato su mappe fisiche dei cromosomi Richiede un numero minore di sequenze Svantaggi: Richiede un numero elevato di sequenze Assemblaggio complesso Riempimento dei gaps Costi (?) Svantaggi: Basato su mappe fisiche dei cromosomi Creazione delle librerie di BACs Selezione dei BACs Tempi Costi (?) Human Genome Project (1990) - Scopo: ottenere la sequenza del genoma umano eucromatico; - Dimensioni: 3Gb - Approccio: clone-based genome shotgun - Data prevista di completamento: 2005 - Finanziamento: 3 miliardi di dollari - Partners: laboratori in USA, UK, Francia, Germania, Giappone, Cina e India - Sono stati usati una serie di donatori anonimi, uomini e donne 2000: il primo assemblaggio (working draft) viene completato nello UCSC Genome Bioinformatics Group, da Jim Kent, Patrick Gavin, Terrence Furey, e David Kulp. 2003: l' assemblaggio completo viene pubblicato La maggior parte del genoma umano è stato sequenziato con coverage di 12X, quindi ogni nucleotide del genoma è presente in media su 12 reads. Nonostante questo, non si e' ancora stati in grado di sequenziare od assemblare circa 1% del genoma eucromatinico. Human Genome Project Strategia usata: Hierarchical shotgun 1. Il genoma e' rotto in frammenti da 150mila basi, inseriti in vettori chiamati BAC (cromosomi artificiali batterici). 2. I frammenti sono sottoposti a sequenziamento shotgun per ottenere delle sequenze di qualche centinaia di basi (reads). 3. Le reads sono assemblate da algoritmi appositi mediante regioni di overlap. 4. I frammenti cosi sequenziati sono mappati sul genoma grazie a marcatori (ad esempio genetici). Human Genome Project Human Genome Project Human Genome Project Celera (1998) Nel 1998 una azienda privata la Celera, fondata da Craig Venter (che era stato il primo ad applicare WGS ad organismi superiori) raccolse 300 milioni di dollari per sequenziare il genoma umano più in fretta (e più economicamente) del consorzio HGP. Fino a quel punto, il genoma di Heamophilus influenzae (1.8 Mbp) e di Drosophila melanogaster (135 Mbp) erano stati sequenziati con successo per WGS. Venter intendeva sequenziare ed assemblare il genoma in meno di due anni con coverage 10X, generando 50-60 milioni di reads. Tutto dipendeva dal suo assemblatore e dall'utilizzo del double barrel shotgun per identificare relazioni a lunga distanza Celera (1998) Sequencing Factory • 300 ABI 3700 DNA Sequencers • 50 Production Staff • 20,000 sq. ft. of wet lab • 20,000 sq. ft. of sequencing space • 800 tons of A/C (160,000 cfm) • $1 million / year for electrical service • $10 million / month for reagents Sequenziamento del genoma umano Sequenziamento del genoma umano - Chi ha vinto? Il genoma umano e' di dominio pubblico La Celera ha dovuto ricorrere ad informazioni prodotte dal consorzio HGP Ma l'approccio WGS ha funzionato - Cosa e' stato prodotto? 90% della sequenza (320 milioni di bp erano mancanti) Coverage medio 4X 25% della sequenza a 8-10X 50000 scaffolds (lunghezza media 54.2 Mbp) Sequenziamento del genoma umano E‘ spesso affermato che il genoma umano e' stato completamente sequenziato, ma stime recenti mostrano come solo intorno al 93% della sequenza e' nota. Alcune regioni rimangono incomplete o del tutto sconosciute. - Centromeri: sequenze altamente ripetitive di DNA molto difficili da sequenziare. Possono essere anche molto lunghi (fin a milioni di basi), e sono quasi completamente non sequenziati; - Telomeri: anche essi sono sequenze altamente ripetitive. Possono avere lunghezza variabile, per questo non e' chiaro quanto ne rimanga da sequenziare; - Famiglie multigeniche complesse: geni simili in sequenza e vicini sul cromosoma possono causare ambiguità durante l'assemblaggio. Un esempio sono geni coinvolti nel sistema immunitario; - Ci sono poi alcune decine di lacune (gaps) nella sequenza, alcune anche molto grandi, ma che per motivi non noti non hanno raggiunto un livello di coverage sufficiente. Per regioni come telomeri e centomeri, è possibile che le attuali tecnologie non siano in grado di determinarne la sequenza. E anche se ogni base del genoma fosse sequenziata, rimarrebbero da determinare le differenze fra individui. Assemblaggio - L'assemblaggio del genoma è il processo per il quale a partire da un elevato numero di sequenze corte, generate da sequenziamento shotgun, vengono ricostruite le sequenze dei cromosomi da cui queste originano; - E' una struttura gerarchica: le reads formano i contigs, i contigs formano gli scaffolds; - Un contig può essere visto come un allineamento multiplo di reads, e la loro sequenza consenso; - Uno scaffold definisce ordine e orientamento dei contigs, e la dimensione dei gaps fra contigs adiacenti (gaps sono di solito riempiti da dequenze di N); - La bontà di un assemblaggio può essere stimata da varie misure: - lunghezza media e massima di contigs e scaffolds - lunghezza totale combinata; - N50 (lunghezza del contig più piccolo nell' insieme più piccolo dei contig che si può creare la cui lunghezza combinata rappresenti almeno il 50 dell‘assemblaggio). Es.: Genoma di 1 Mbp Contigs: 300k, 100k, 50k, 45k, 30k, 20k, 15k, 15k, 10k, .... N50 = 30 kbp (300k+100k+50k+45k+30k = 525k >= 500kbp) Assemblatori L'assemblaggio di un genoma è un problema molto difficile da un punto di vista computazionale, specialmente perchè molti genomi contengono un grande numero di sequenze identiche dette ripetizioni, lunghe anche migliaia di nucleotidi, e che possono essere trovate in migliaia di siti diversi. I primi assemblatori vennero disegnati alla fine degli anni '80, inizio anni '90, ed erano varianti di algoritmi di allineamento di sequenze. Algoritmi più evoluti vennero poi sviluppati per gestire: - terabytes di sequenze; - ripetizioni; - errori di sequenziamento. Ci sono due classi di assemblatori: 1. de-novo: le reads sono assemblate a formare un sequenza sconosciuta a priori; 2. mapping: le reads sono assemblate su una impalcatura gia nota Gli assemblatori de-novo sono di vari ordini di grandezza più lenti e bisognosi di memoria. Questo è principalmente dovuto alla necessità di confrontare ogni possibile coppia di reads. La complessità O(n2) può essere però ridotta a O(n log(n)). Shortest common superstring problem Dato un insieme di stringhe S={s1, s2, …,sn}, trovare la stringa T più corta tale che ogni stringa si sia una sottostringa di T (NP-hard) Approccio Overlap-layout-consensus Dato un set di reads da sequenziamento shotgun... 1. trovare l'overlap fra tutte le coppie 2. trovare l'ordine delle reads sul genoma 3. determinare una sequenza rappresentativa Overlap: trovare tutti le reads con regioni di sovrapposizione (contigs) Layout: determinare regioni discrete (scaffolds, o supercontigs) di cui si può stimare l'orientamento e la posizione reciproca Contig Layout: fondere reads sovrapposte identificando i confini di ogni regione Supercontig assembly: I contigs devono essere ordinati, e regioni di separazione fra di loro devono essere riempite Consensus: ottenere la sequenza di ogni scaffold Approccio Overlap-layout-consensus overlap s1 s1 s2 s3 s4 layout s5 s6 s1 s5 s2 s3 consensus s1 s2 s5 s2 s3 s3 s4 s4 s4 s5 s6 s6 s6 Assemblatori All'inizio, ogni centro di sequenziamento sviluppò i propri strumenti per assemblare le sequenze da loro prodotte. Man mano che il numero di sequenze disponibili cresceva, e si affrontavano genomi più complessi, si sono sviluppati strumenti più versatili e potenti l PHRAP l l l Celera l l l l l Primo assemblatore WGS capace di gestire genomi grandi (drosophila, uomo, topo) Overlap → layout → consensus Arachne l l Uno dei primi assemblatori, molto usato per piccoli genomi, buon trattamento degli errori nelle reads Sovrapposizione O(n2) → layout (senza paired reads) → consensus Assemblatore WGS open source (topo, piante, funghi) Overlap → layout → consensus Phusion l Overlap → clustering → PHRAP → assemblaggio → consensus l Indexing → Euler graph → layout (percorsi sul grafo) → consensus Euler Assemblatori Fase 1. Overlap 1. Pulizia del dataset di reads 2. Identificazione e rimozione delle regioni ripetute 3. Identificazione efficiente delle regioni di sovrapposizione 4. Allineamento delle reads sovrapposte Fase 2. Layout - Vari approcci tentati 1. Algoritmi greedy 3. Costruzione di grafi 4. Clustering Algoritmi greedy Algoritmo greedy: 1. Calcola la sovrapposizione fra ogni coppia si e sj di S; 2. Assegna un punteggio ad ogni sovrapposizione; La sovrapposizione è solitamente calcolata con versioni modificate dell'algoritmo di Smith-Waterman, per consentire allineamenti imperfetti dovuti ad errori nel sequenziamento; 3. Unisci coppie di stringhe in ordine decrescente di punteggio. Le due reads con overlap migliore sono concatenate; si passa poi alla read con overlap migliore con una delle due di partenza, e cosi via Overlap Graph Grafo: è un'astrazione composta da un insieme di nodi (o vertici) uniti da lati (o archi); Un grafo i cui i nodi possono essere attraverstai in una sola direzione è detto diretto; Un "percorso" di lunghezza n nel grafo è dato da una sequenza di vertici v0,v1,..., vn (non necessariamente tutti distinti) e da una sequenza di archi che li collegano (v0,v1), (v1,v2),...,(vn-1,vn). I vertici v0 e vn si dicono estremi del percorso. Un percorso con i lati a due a due distinti tra loro prende il nome di cammino. Un cammino chiuso (v0 = vn) si chiama circuito o ciclo. Overlap Graph [Schatz, 2010] Overlap Graph [Schatz, 2010] Overlap Graph Overlap graph: grafo dove i nodi rappresentano ogni read, e gli archi connettono due nodi se le corrispondenti reads sono sovrapposte. In questa rappresentazione, il problema dell'assemblaggio si riconduce al problema di trovare un percorso nel grafo contenente tutti i nodi. 1. Costruisci un grafo con n vnodi rappresentanti le n stringhe s1, s2,…., sn 2. Inserisci archi di lunghezza pari all' overlap ( si, sj ) fra nodi si and sj 3. Trova il percorso più corto che visiti ogni nodo una volta sola (percorso Hamiltoniano, NP-hard): questo è il problema del commesso viaggiatore (Traveling Salesman Problem)
© Copyright 2024 ExpyDoc