GA_1: Sequences, sequences, sequences

GA_1: Sequences, sequences, sequences
1. En la siguiente secuencia de ADN,
5'-GGGATCGATGCCCCTTAAAGAGTTTACATATTGCTGGAGGCGTTAACCCCGGA-3´
a) Calcula la frecuencia de cada nucleótido
b) Utilizando el método de la ventana deslizante, calcula la frecuencia de cada
dinucleótido
c) Con esos datos, representa el modelo de Markov (de orden 1) al que se ajusta la
secuencia
d) Ajustándote a ese modelo de Markov de orden 1, calcula la probabilidad de encontrar
la subsecuencia GCATC y la longitud que debería tener una secuencia para esperar
encontrar esta subsecuencia por lo menos una vez.
e) Calcula a probabilidad de encontrar la subsecuencia GCATC y la longitud que
debería tener una secuencia para esperar encontrar esta subsecuencia por lo menos una
vez según el modelo multinomial.
f) Repite los cálculos de los apartados utilizando logaritmos (log odds en lugar de odds)
***********
2. En la siguiente secuencia de ADN
5'-GGGATCCGATGCCCTTAAAGAGTTTACATATTGCTGGAGGCGTTAACCCCTGACCG-3'
a) Identifica los posibles ORF (en las 6 pautas de lectura posibles)
b) Escribe las secuencias de aminoácidos codificadas por los ORF utilizando los
códigos de tres letras y de una letra
c) Calcula la probabilidad de encontrar ORFs de esa misma longitud por simple azar,
asumiendo un modelo multinomial con bases equiprobables.
**********
3. Acabas de secuenciar el siguiente fragmento de ADN:
5'-TCAATGTAACGCGCTACCCGGAGCTCTGGGCCCAAATTTCATCCACT-3'
a) Escribe la hebra complementaria y la complementaria inversa
b) Localiza, en cada hebra, todos los ORF posibles
c) Identifica, en cada caso, cuál es la hebra con sentido (sense) y cuál es la hebra sin
sentido (antisense). Puedes llamar (+) a la hebra escrita en el enunciado del problema y
(-) a la complementaria.
d) Traduce cada ORF. En cada aso, indica cuáles son los extremos amino y carboxilo
de las proteínas codificadas por los ORF.
e) Calcula la probabilidad de encontrar ORFs de esa longitud por simple azar,
asumiendo un modelo multinomial con bases equiprobables.
******************
4.- El genoma de Haemophilus influenzae tiene 1,830.138 pares de bases. Suponiendo
que las cuatro bases se presentan con igual frecuencia y que la secuencia se ajusta al
modelo multinomial (lugares independientes y bases uniformemente distribuidas), ¿en
cuántos sitios cortará la endonucleasa de restricción EcoRI? ¿Cuál sería el tamaño
medio de los fragmentos? La secuencia que reconoce esta enzima es GAATTC. Repetir
el cálculo teniendo en cuenta la abundancia real de cada base (ver la Tabla).
***********
5.- La siguiente tabla refleja la frecuencia de dinucleótidos observada en el genoma
humano:
Sabiendo que el contenido en G+C del genoma humano es del 41%, determina cuáles
son los tres dinucleótidos más sobrerrepresentados y cuáles son los tres dinucleótidos
más infrarrepresentados. ¿Cuál es el dinucleótido que aparece exactamente con la
frecuencia esperada?