GA_1: Sequences, sequences, sequences 1. En la siguiente secuencia de ADN, 5'-GGGATCGATGCCCCTTAAAGAGTTTACATATTGCTGGAGGCGTTAACCCCGGA-3´ a) Calcula la frecuencia de cada nucleótido b) Utilizando el método de la ventana deslizante, calcula la frecuencia de cada dinucleótido c) Con esos datos, representa el modelo de Markov (de orden 1) al que se ajusta la secuencia d) Ajustándote a ese modelo de Markov de orden 1, calcula la probabilidad de encontrar la subsecuencia GCATC y la longitud que debería tener una secuencia para esperar encontrar esta subsecuencia por lo menos una vez. e) Calcula a probabilidad de encontrar la subsecuencia GCATC y la longitud que debería tener una secuencia para esperar encontrar esta subsecuencia por lo menos una vez según el modelo multinomial. f) Repite los cálculos de los apartados utilizando logaritmos (log odds en lugar de odds) *********** 2. En la siguiente secuencia de ADN 5'-GGGATCCGATGCCCTTAAAGAGTTTACATATTGCTGGAGGCGTTAACCCCTGACCG-3' a) Identifica los posibles ORF (en las 6 pautas de lectura posibles) b) Escribe las secuencias de aminoácidos codificadas por los ORF utilizando los códigos de tres letras y de una letra c) Calcula la probabilidad de encontrar ORFs de esa misma longitud por simple azar, asumiendo un modelo multinomial con bases equiprobables. ********** 3. Acabas de secuenciar el siguiente fragmento de ADN: 5'-TCAATGTAACGCGCTACCCGGAGCTCTGGGCCCAAATTTCATCCACT-3' a) Escribe la hebra complementaria y la complementaria inversa b) Localiza, en cada hebra, todos los ORF posibles c) Identifica, en cada caso, cuál es la hebra con sentido (sense) y cuál es la hebra sin sentido (antisense). Puedes llamar (+) a la hebra escrita en el enunciado del problema y (-) a la complementaria. d) Traduce cada ORF. En cada aso, indica cuáles son los extremos amino y carboxilo de las proteínas codificadas por los ORF. e) Calcula la probabilidad de encontrar ORFs de esa longitud por simple azar, asumiendo un modelo multinomial con bases equiprobables. ****************** 4.- El genoma de Haemophilus influenzae tiene 1,830.138 pares de bases. Suponiendo que las cuatro bases se presentan con igual frecuencia y que la secuencia se ajusta al modelo multinomial (lugares independientes y bases uniformemente distribuidas), ¿en cuántos sitios cortará la endonucleasa de restricción EcoRI? ¿Cuál sería el tamaño medio de los fragmentos? La secuencia que reconoce esta enzima es GAATTC. Repetir el cálculo teniendo en cuenta la abundancia real de cada base (ver la Tabla). *********** 5.- La siguiente tabla refleja la frecuencia de dinucleótidos observada en el genoma humano: Sabiendo que el contenido en G+C del genoma humano es del 41%, determina cuáles son los tres dinucleótidos más sobrerrepresentados y cuáles son los tres dinucleótidos más infrarrepresentados. ¿Cuál es el dinucleótido que aparece exactamente con la frecuencia esperada?
© Copyright 2024 ExpyDoc