870 likes | 1.12k Vues
ENSAMBLAMIENTO DE FRAGMENTOS DE ADN. Matías Brunstein Macri Alejandro Pedraza Jimena Rinaldi. 2004 Introducción a la Biología Computacional Departamento de Computación-FCEN-UBA. Primera Parte. Biological Background. Genoma y Genómica.
E N D
ENSAMBLAMIENTO DE FRAGMENTOS DE ADN Matías Brunstein Macri Alejandro Pedraza Jimena Rinaldi 2004 Introducción a la Biología Computacional Departamento de Computación-FCEN-UBA.
Primera Parte Biological Background
Genoma y Genómica Genoma. Complemento genético entero y haploide de un organismo. Es decir toda la secuencia de ADN, codificante o no codificante y su posición en los cromosomas. Genómica. Disciplina que se ocupa de la caracterización de los genomas. Se encuentra dividida en Genómica Estructural y la Genómica Funcional. Objetivo de la Genómica Estructural es conocer el/los genoma/s de una especie en particular/diferentes especies. .
Aplicaciones delestudio de los genomas • Predecir genes, secuencias promotoras y reguladoras de la transcripción. • Comparar genomas de diferentes individuos de la misma especie para detectar variaciones o polimorfismos a nivel poblacional. Estas variaciones pueden ser sustituciones, deleciones/inserciones, o rearreglos cromosómicos (cambio de posición en el genoma).
Aplicaciones delestudio de los genomas • Comparar genomas de diferentes especies. Esto permite hacer inferencias acerca de los procesos evolutivos de remodelación de genomas. • Otras.
Sizes of eukaryotic genomes Species Genome size (Mb) Fungi Saccharomyces cerevisiae 12.1 Aspergillus nidulans 25.4 Protozoa Tetrahymena pyriformis 190 Invertebrates Caenorhabditis elegans 97 Drosophila melanogaster 180 490 Bombyx mori (silkworm) Strongylocentrotus purpuratus (sea urchin) 845 Locusta migratoria (locust) 5000 Vertebrates 400 Takifugu rubripes (pufferfish) Homo sapiens 3200 Mus musculus (mouse) 3300 Plants Arabidopsis thaliana (vetch) 125 Oryza sativa (rice) 430 Zea mays (maize) 2500 Pisum sativum (pea) 4800 Triticum aestivum (wheat) 16000 Fritillaria assyriaca (fritillary) 120000
Secuencias repetitivas • Distintos tipos de secuencias repetitivas se encuentran en muchos organismos y ocupan gran parte de los genomas: • Satélites • Pseudogenes • Transposones y retrotransposones • Pueden estar esparcidas por el genoma o en tandem y varían mucho en tamaño.
¿Cómo se estudian los genomas? • Mapeo genético • Mapeo físico • Secuenciación exhaustiva
El mapeo genético El mapeo genético está basado en la utilización de técnicas genéticas para construir mapas que muestran la posición de marcadores genéticos o de marcadores moleculares. Las técnicas genéticas incluyen experimentos de recombinación y estudio de pedigrees en humanos.
El mapeo físico El mapeo físico utiliza técnicas de Biología Molecular para examinar directamente las moléculas de ADN para la construcción de mapas que muestran la posición de fragmentos de ADN (en general de secuencia desconocida) en el genoma.
Secuenciación automática Fragmentos de hasta 700 pb
Bibliotecas genómicas • Como no es posible secuenciar un genoma en una sola reacción de secuenciación se lo divide en fragmentos, los cuales se almacenan en clones bibliotecas genómicas. • Una biblioteca genómica es un conjunto de clones, cada uno de los cuales contiene un fragmento de un genoma de un organismo dado. • Las bibliotecas genómicas se consiguen clonando los fragmentos en vectores.
Vectores de clonado utilizados para secuenciación de genomas Fago λ YAC Cósmido
Vectores de Clonado Problema de los YACs
Vectores de Clonado • Otros vectores que incluyen insertos de gran tamaño: • Bacteriógafos P1 • BACs • PACs • Fósmidos
Sizes of human genomic libraries prepared in different types of cloning vector * Calculated from the equation:where N is the number of clones required, P is the probability that any given segment of the genome is present in the library, a is the average size of the DNA fragments inserted into the vector, and b is the size of the genome. Number of clones* Type of vector Insert size (kb) P = 95% P = 99% l replacement 820 000 18 532 500 40 240 000 Cosmid, fosmid 370 000 P1 118 000 125 77 000 BAC, PAC 50 000 300 32 000 600 16 000 YAC 24 500 Mega-YAC 10 500 1400 6850
Ensamblado:Shotgun approach Consiste en ensamblar directamente los fragmentos de ADN secuenciados por superposición.
Haemophilus influenzae 1995 1830 kb, biblioteca genómica 18.638 clones, insertos de 1,6-2 kb.
Ensamblado:Clone Contig Approach • Se clonan fragmentos de hasta 1,5 Mb en YACs o BACs. • Se construye un contig identificando los clones que contienen fragmentos superpuestos, los cuales se secuencian por el método de shotgun.
Whole genome shotgun sequencing • La experiencia con el método de shotgun en genomas chicos mostró que si el largo total de la secuencia que se genera es 6,5-8 veces el largo de la secuencia total del genoma estudiado, entonces los contigs resultantes ocuparan el 99,8% de la secuencia del genoma, con unos gaps tales que se pueden resolver facilmente. • 70 millones de fragmentos de 500pb resolverían el genoma humano en 3 anos con 75 secuenciadores, cada uno de los cuales puede secuenciar 1000 secuencias de esas por días.
Ejemplo de genomas de los cuales se ha publicado la secuencia en versión completa o borrador Especie Tamaño del genoma (Mb) Nro de genes estimados Eukarya Arabidopsis thaliana (plant) 125 25 500 Caenorhabditis elegans (nematode) 97 19 000 Drosophila melanogaster (fruit fly) 180 13 600 Homo sapiens (human) 3200 30 000 - 40 000 Saccharomyces cerevisiae (yeast) 12.1 5800 Eubacteria Escherichia coli K12 4.64 4400 Mycobacterium tuberculosis H37Rv 4.41 4000 Mycoplasma genitalium 0.58 500 Pseudomonas aeruginosa PA01 6.26 5700 Streptococcus pneumoniae 2.16 2300 Vibrio cholerae El Tor N16961 4.03 4000 Yersinia pestis CO92 4.65 4100 Archeae Archaeoglobus fulgidus 2.18 2500 Methanococcus jannaschii 1.66 1750
Complicaciones • Instancias reales del problema muy largas • Errores • Inserciones • Deleciones • sustituciones • Fragmentos quiméricos • Orientación desconocida • Regiones repetidas • Pérdida de cobertura (gaps)
Segunda Parte Modelos
¿Qué es un modelo? • Es una abstracción de la realidad que nos facilita el estudio de un fenómeno o problema. • Un modelo no es un algoritmo • Como veremos más adelante, para un mismo modelo pueden plantearse varios algoritmos.
Modelos para el ensamblamiento de ADN • Plantearemos tres modelos teóricos. • Shortest Common Superstring • Reconstruction • Multicontig • Cada uno plantea distintas restricción sobre los fragmentos. • Se asume que las muestras están libres de contaminación.
Primer Modelo:Shortest Common Superstring • Tiene principalmente interés teórico pues no es muy útil en la realidad. • Plantea muchas restricciones: • Los fragmentos no deben tener errores • Deben estar orientados correctamente • La secuencia buscada no debe tener repeticiones
SCS: Definición Dado un conjunto de strings F, hallar un string S de longitud mínima tal que para todo string f en F, f es substring de S. Notar que S debe ser un superstring perfecto, por lo que no permites errores experimentales. Se debe conocer la orientacíon de cada string f.
SCS: Ejemplo F = {ACT, CTA, AGT} S = ACTAGT
SCS: Repeticiones Supongamos que secuenciamos la siguiente cadena de nucleótidos S = ACTTGTAAGGTTGTTAAG de la cual obtenemos los siguientes fragmentos F = {ACTT, TTGTAA, AAGGT, TTGT, GTT, TTAG}
SCS: Repeticiones (Cont.) Según este modelo, el resultado de hallar el SCS de F sería:
SCS: Resumen • No admite repeticiones • No admite errores experimentales • Se debe conocer la orientación de los fragmentos. • Es un problema NP-Hard. • No resulta práctico para aplicaciones reales debido a la gran cantidad de restricciones y limitaciones.
¿Qué significa NP-Hard? • NP-Completo se refiere a una familia de problemas de decisión para los cuales no se conoce una solución polinomial. • Los problemas de decisión son aquellos para los que se espera una respuesta del tipo “sí” o “no”.
¿Qué significa NP-Hard? • En el caso del TSP, el problema sería:¿Existe un camino que pase por todas las ciudades exactamente una vez recorriendo una distancia menor a 500 Km.? • La respuesta esperada es simplemente “sí” o “no”.
¿Qué significa NP-Hard? • Un problema HP-Hard es el problema de optimización asociado a un problema NP-Completo. • En nuestro caso:¿Cuál es el camino más corto que pasa exactamente una vez por cada ciudad?
Segundo Modelo:Reconstruction • Este modelo tiene en cuenta: • Errores. • Orientación desconocida • Pero no modela: • Repeticiones • Falta de cubrimiento
Reconstruction: Definiciones Para entender como este modelo considera los errores debemos contar con algunas definiciones previas. • Distancia de edición (o edit distance) • Distancia de edición de substrings (o substring edit distance) • Substring aproximado
Distancia de Edición Dadas dos cadenas a y b, llamaremos distancia de edición, y lo notaremos d(a, b), a la cantidad de inserciones, deleciones y/o substituciones que deben realizarse sobre las cadenas para que valga a = b. Ejemplo: d(ACTGT, AGGT) = 2 pues ACTGT = ACTGT Inserción Substitución
Distancia de Edición de Substrings Dadas dos cadenas a y b, llamaremos distancia de edición de substrings a: donde S(b) es el conjunto de los substrings de b. Ejemplo: ds(ACT, GATTACA) = 1 Pues d(ACT, ACA) = 1 y ACT S(b)
Substring Aproximado Sea un número real entre 0 y 1. Un string f es un substring aproximado de S con error cuando donde |f| es la longitud del stringf. Por ejemplo: si = 0.05, permitiremos que f difiera en a lo sumo un 5% con el substring màs cercano en S.
Reconstruction: Definición Dado un conjunto de strings F y una cota de error entre 0 y 1, hallar un string S de longitud mínima tal que para todo string f en F donde f es el string reverso y complementario a f.
Reconstruction: Resumen • No admite repeticiones ni espacios no cubiertos • Admite errores experimentales • Modela la orientación desconocida • Es un problema NP-Hard. • SCS es un caso particular de este modelo.
Tercer Modelo:Multicontig: • Introduce la noción de buen enlace. • Este modelo tiene en cuenta: • Errores. • Orientación reconocida • Falta de cubrimiento • En algunos casos, repeticiones