Analisi genomica e proteomica: prospettive future

Next-generation
sequencing, annotazione,
ed espressione genica
Giulio Pavesi
Dip. Bioscienze
Università di Milano
[email protected]
Il primo passo...
 
Abbiamo la sequenza completa
del DNA di un organismo:
Quanti geni contiene in tutto?
  Dove sono localizzati i geni?
  A cosa serve ciascun gene (ovvero,
qual è la funzione della proteina
codificata, ammesso che
effettivamente codifichi per una
proteina)?
  A quale livello è “espresso” ciascun
gene nelle diverse condizioni?
 
Che cosa è un gene?
 
 
Definizione
genetica: Unità
ereditaria degli
organismi viventi
Definizione
molecolare:
regione di
sequenza
genomica,
corrispondente a
un unità ereditaria
Il Dogma dei Geni (Eucariotici)
Start DNA End Trascrizione
La sequenza dell’RNA è idenCca a uno dei due filamenC di DNA Dopo lo splicing, l mRNA maturo esce dal nucleo della cellula ed entra nel citoplasma RNA SPLICING
I gialli (introni) se ne vanno Rimangono i rossi (esoni) mRNA
(cDNA)
UTR
CDS
UTR
Traduzione in proteina UTR : Regioni non trado/e: 5’UTR e 3’UTR CDS : CoDing Sequence (trado/a) La trascrizione
 
 
 
L RNA polimerasi, scorre
lungo uno dei due filamenti (in
direzione 3 5 ), costruendo
una sequenza di RNA
complementare al filamento su
cui sta scorrendo
In pratica, la polimerasi
realizza una copia di uno dei
due filamenti del DNA
Per definizione, sul DNA il
gene è annotato sul filamento
UGUALE all RNA prodotto
(nell esempio, sul filamento
nero)
5’
La struttura dell mRNA
(maturo)
3’
AAAAAA
“Coda” di poly-­‐A “Cap” Codone di “stop” (UGA, ecc.) Codone di “start” (ATG) Regione non trado<a (3’UTR) Regione non trado<a (5’UTR) Regione codificante (coding sequence -­‐ CDS) Leggere le sequenze
 
 
 
E’ possibile determinare anche la
sequenza di un trascritto (RNA)
Quindi, se conosco la sequenza di
un RNA, posso localizzare lungo la
sequenza genomica la regione che
lo produce (che è - a tratti - uguale al
trascritto!)
Se conosco anche la sequenza
dell’eventuale proteina codificata,
allora ho completato l’annotazione
del gene
Dall mRNA (maturo) al DNA
5’
3’
AAAAAA
5’
L’mRNA (maturo) è cosCtuito dalla giunzione degli esoni. Quindi, “mappando” l’RNA sul DNA corrispondente si trovano delle interruzioni 3’
5’
3’
Nota: non necessariamente la sequenza dell RNA è al 100% idenCca a quella genomica trascri/a. Come mai? Struttura del gene
 
 
 
Gli esoni sono regioni di un gene che
vanno a costituire il trascritto maturo
(risultante dallo splicing)
Gli introni sono le regioni di un gene che
vengono trascritte, ma che
successivamente vengono rimosse dal
trascritto primario (pre-mRNA) e non vanno
a costituire il trascritto maturo (mRNA)
Le regioni non tradotte (UTR) sono le
regioni del trascritto maturo (mRNA) che
non sono tradotte, a monte del codone
ATG (5 UTR) e a valle del codone di stop
(3 UTR)
Dall mRNA (maturo) al DNA
5’
3’
AAAAAA
In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’
3’
Esone1
3’
Esone2
Esone3
5’
Dall mRNA (maturo) al DNA
5’
3’
AAAAAA
In questo caso, dove vanno a cadere codone di start, di stop, CDS e UTR? 5’
3’
5’
3’
ATG
STOP!
Dall mRNA (maturo) al DNA
5’
3’
AAAAAA
Cosa succede se il trascri/o, invece di essere copia del filamento superiore (senso, o “posiCvo”) è copia del filamento inferiore (anCsenso, o “negaCvo”)? 5’
3’
3’
5’
Dall mRNA (maturo) al DNA
3’
5’
AAAAAA
5’
3’
Esone3
3’
Esone2
Esone1
Basta.... girarlo!!!!!!!!!!!!! Trascri/o e gene e numeri degli esoni devono essere sempre leW nello stesso senso, da 5’ a 3’! 5’
Un gene umano semplice
Un gene umano più
complicato...
In questo caso, lo stesso gene produce 3 trascriW alternaCvi Un gene umano MOLTO
complicato
Quanti geni (regioni trascritte che
codificano per una proteina)?
 
Osservando il
risultato della
mappatura dei
trascritti sul
genoma, è
possibile
contare in
quanti geni si
suddividono,
nelle diverse
specie:
 
 
 
 
 
 
 
 
 
E.coli (4,7 milioni pb)
  4.300 “geni”
S.cerevisiae (12 milioni pb)
  6.700 “geni”
D.melanogaster (169 milioni pb)
  13.900 “geni”
C.elegans (97 milioni pb)
  19.000 “geni”
Uomo (3,2 miliardi pb)
  23.000 “geni”
Topo (2,9 miliardi pb)
  23.000 “geni”
D.rerio (zebrafish, 1,5 miliardi pb)
  26.000 “geni”
A. thaliana (pianta, 120 milioni pb)
 
30.000 “geni”
Riso (488 milioni pb)
  57.000 geni
Geni e sequenziamento
Genoma
Sequenziamento
Trascrittoma
e RNA-Seq
Proteoma
Annotazione “old-generation”
 
 
Mentre sequenziare un intero genoma è (relaCvamente) semplice, lo è molto di meno sequenziare un intero trascri/oma, ovvero il corredo di tuW i trascriW sinteCzzaC dal genoma di una data specie L’espressione (e in primo luogo, la trascrizione) dei geni dipende da diversi fa/ori, quali:  
 
 
 
 
Stadio di sviluppo o tessuto Risposta a sCmoli Patologie Fa/ori diversi “individuo-­‐specifici” Difficile o/enere “ragionevole certezza” di avere raggiunto un livello di “copertura” del trascri/oma adeguato, ovvero, di avere effeWvamente sequenziato la quasi totalità dei possibili trascriW Annotazione “old-generation”
 
 
 
 
 
La “completezza” o meno di un’annotazione dipende dalla disponibilità di trascriW Fino a pochi anni fa, le annotazioni venivano compiute a parCre dalle sequenze disponibili (es. database “GenBank -­‐ NucleoCde” NCBI) prodo/e da laboratori di tu/o il mondo “Campionamento” del trascri/oma “biased”, ovvero per i geni più studiaC (es. TP53, DMD in uomo) erano disponibili molC più trascriW rispe/o a geni poco studiaC o poco cara/erizzaC “Campionamento” del trascri/oma “biased” a seconda della tecnica uClizzata per estrarre/isolare gli RNA (es. poly-­‐A), Cpicamente isolaC/sequenziaC trascriW che codificano per una proteina (mRNA) “Campionamento” del trascri/oma “biased” dai cosC necessari al sequenziamento (un trascri/o per gene può bastare…?) Annotazione “next-generation”
 
 
Con l’introduzione delle tecniche di sequenziamento de/e “next-­‐generaCon sequencing” la possibilità di sequenziare -­‐ a cosC relaCvamente contenuC -­‐ interi genomi o trascri/omi è diventata accessibile anche a laboratori di dimensione/disponibilità economica piccolo/media Con “RNA-­‐Seq” si intende l’applicazione di un metodo di sequenziamento “next-­‐generaCon” al sequenziamento di un campione di RNA RNA (cDNA)
> 1000 bp
Sanger sequencing (700 bp)
RNA (cDNA)
> 1000 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
50 bp
RNA-Seq: “single end” e
“paired end”
Frammento RNA (cDNA)
 
 
 
Single end: viene sequenziata una delle
due estremità (scelta a caso)
Paired end: vengono sequenziate
entrambe le estremità
Direzionale: viene specificato quale dei
due filamenti era l’RNA originale, ovvero
se è stato sequenziato l’RNA o il suo
complemento
RNA-Seq
• Retrotrascrizione in cDNA • Frammentazione • Sequenziamento frammenC (“read”) • Mappatura dei frammenC sulla sequenza genomica mRNA e RNA-Seq
Campione
di RNA
Sequenziamento
(RNA-Seq)
“Assemblaggio”
trascritti
originali
Confronto con
annotazione
genica già
disponibile
RNA-Seq
5’
Esone NON incluso
3’
3’
5’
Esone incluso
RNA-Seq – confronto con
annotazione
5’
Esone NON incluso
3’
In rosso: frammenti che mappati sul genoma si “spezzano” in due
3’
5’
Esone incluso
RNA-Seq: identificare nuovi trascritti
alternativi confrontando con
annotazione
 
 
5’
Mappando i read si sequenza sul genoma vanno a
cadere in un introne tra due esoni già annotati
E possibile si tratti di un esone che nessuno ha ancora
visto
A
D
3’
??
A-­‐D
RNA-Seq: identificare nuovi trascritti
alternativi
 
 
5’
Mappando i read si sequenza sul genoma vanno a
cadere in un introne tra due esoni già annotati
E possibile si tratti di un esone che nessuno ha ancora
visto
A
3’
GT
AG
GT
AG
RNA-Seq: sequenze PAIREDEND
200 bp
5
3
5
3
RNA-Seq: sequenze PAIREDEND
Più facile individuare nuovi esoni dal
confronto con annotazioni già
esistenti
3
5
????
Novel exon RNA-Seq: sequenze PAIREDEND
3
5
????
RNA-Seq e genomi
 
Wang et. al., Nature 456(2008):470-476
 
 
 
 
 
 
10 tessuti umani
5 linee cellulari tumorali
Trascritti cDNA divisi in frammenti di 30 bp
12-29 milioni di frammenti per tipo di cellula
Circa 500 milioni di frammenti in tutto
Scopo: verificare innanzitutto se si è
“perso” qualche gene, e per I geni già
annotati quanto e come è diffuso lo splicing
alternativo
Asse x: numero di sequenze per gene Asse y: frazione di geni in cui è idenCficato almeno un trascri/o alternaCvo Frazione di geni con una
“isoforma minore” (y)
che appare nell’
(x)% dei trascritti
del gene
La stessa cosa… dimostrata 6 mesi prima.. usando sequenze di EST invece di sequenze RNA-­‐Seq Pervasive tissue-specific regulation of
alternative mRNA isoforms.
Morale...
 
Il dogma iniziale:
 
 
 
 
... è ora diventato..
 
 
 
 
 
UN GENE
UN TRASCRITTO
UNA PROTEINA
UN GENE
TANTI TRASCRITTI
(POTENZIALMENTE) TANTE PROTEINE
Potenzialmente, perché... non è
assolutamente detto che tutti i trascritti
prodotti da un gene siano necessariamente
codificanti
Lo splicing alternativo deve essere
considerato una caratteristica normale dei
geni eucariotici, piuttosto che un’eccezione
Morale... (2)
 
In origine gli RNA erano o
  Codificanti
(mRNA) e uno per
gene
  Non codificanti, e coinvolti nella
traduzione dei mRNA (tRNA,
rRNA)
 
In realtà, esistono centinaia di
RNA non codificanti prodotti da
un genoma (miRNA, snoRNA,
smallRNA, lncRNA) e così via,
con svariate funzioni
Progetto
“ENCODE” (ENCyclopedia of Dna
Elements)
• 
62% of the human genome is transcribed
into sequences >200 bp long
– 
– 
– 
• 
CAGE-seq: 62,403 TSS
– 
– 
• 
5.5% of this is exon
31% is intergenic – no annotated gene
Remaining: intronic
44% within 100bp of the 5’ end of a GENCODE
gene
Others: exons and 3’ UTRs, significance unknown
Lots of short ncRNAs: tRNA, miRNA, snRNA
etc.
ENCODE: quanti geni?
 
GENCODE human reference gene set
  20,687
Protein-coding
  6.3
alternatively spliced transcripts on average (*=
  3.9 protein isoforms on average
  Protein-coding exons: 1.22% of the genome
  Still more to come: unidentified peptides in massspec – ci sono geni che “mancano”?!?!?
  18,441
ncRNA genes
  8801
short ncRNA (es. microRNA)
  9640 long nc RNA (“simili” a mRNA, ma non
codificanti)
  11,224
  863
pseudogenes
transcribed
“Espressione” genica
“Espressione” genica
 
 
 
Con il termine espressione genica si
intende il processo attraverso cui
l'informazione contenuta in un gene
(costituita di DNA) viene convertita in
una macromolecola funzionale
(tipicamente una proteina)
Sequenziando i trascritti possiamo
sapere se/quando un gene viene
trascritto
E’ possibile “quantificare” il livello di
espressione (o meglio, di “trascritto”)
di un gene?
RNA-Seq ed espressione
genica
Il pool di RNA (cDNA) viene
frammentato
  I frammenti da sequenziare
vengono scelti a caso con
probabilità uniforme (sono un
sottoinsieme di tutti i frammenti)
  Più alto sarà il livello di un dato
RNA nel pool, più alto sarà il
numero di frammenti che produce,
più alta sarà la probabilità di
sequenziarlo!
 
RNA
Sample
Fragmented
RNA
Sample
Sequenced
reads
RNA-Seq: riassumendo
 
Con poche migliaia di euro e un po’ di manodopera
bioinformatica è possibile
 
 
 
 
 
Sequenziare un trascrittoma completo eucariotico,
mRNA, RNA non coding, piccoli RNA
Annotare i geni sul rispettivo genoma, e/o integrare le
annotazioni già esistenti
Stimare il livello di trascritto di ciascun gene,
separatamente per ogni trascritto alternativo
Confrontare le variazioni di espressione (trascrizione)
in condizioni diverse
Applicate al sequenziamento di trascritti le
tecnologie NGS hanno portato ad avanzamenti di
enorme portata sia dal punto di vista della ricerca di
base (come “funziona” un genoma?) sia da quello
applicativo (cosa “funziona” diversamente, in caso
di patologie come i tumori?)