1 / 128

Bioinform tica y Gen mica

2. Fern

issac
Télécharger la présentation

Bioinform tica y Gen mica

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. 1 Fernn Agero Bioinformtica y Genmica Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn

    2. 2 Fernn Agero Un breve repaso histrico La aparicin de las secuencias completas del genoma humano y cientos de otros genomas es el producto de un siglo de investigacin dirigido a comprender la informacin gentica. Comienzos del siglo XX: redescubrimiento de las leyes de Mendel Durante el primer cuarto de siglo, la biologa descubri que la base celular de la informacin eran los cromosomas Durante el segundo cuarto de siglo, se descubri que la base molecular de la informacin era el DNA Durante el tercer cuarto de siglo, se definieron los mecanismos que utilizan las clulas para leer esta informacin y se desarrollaron las herramientas de DNA recombinante Durante el ultimo cuarto de siglo, los bilogos se volcaron a colectar informacin gentica - primero de genes, luego de genomas completos.

    3. 3 Fernn Agero Informacin biolgica

    4. 4 Fernn Agero En que estamos hoy

    5. 5 Fernn Agero En que estamos hoy El resultado: de ser una ciencia puramente experimental (con base en el laboratorio) la biologa est siendo transformada en una ciencia de la informacin La informacin acumulada no slo es informacin gentica (secuencias de DNA) expresin de RNAs interaccin entre protenas estructuras tridimensionales Anulacin sistemtica de genes (knockouts, RNAi) que produce informacin de fenotipos Cada vez ms diversos estudios comienzan con el anlisis de bases de datos para luego formular hiptesis o disear experimentos Cada vez ms el trabajo de laboratorio termina en la acumulacin de colecciones masivas de datos que deben ser luego analizados

    7. 7 Fernn Agero Paradigma central de la bioinformtica

    8. 8 Fernn Agero Genmica, Bioinformtica y Medicina

    9. 9 Fernn Agero Informacin biolgica en formato electrnico Bases de datos Fernn Agero Instituto de Investigaciones Biotecnolgicas UNSAM

    10. 10 Fernn Agero Bases de datos: introduccin: conceptos bsicos

    11. 11 Fernn Agero Introduccin: conceptos bsicos: registros

    12. 12 Fernn Agero Tipos de datos Cada campo de una base de datos contiene un tipo particular de datos 021204 Es un numero? Es texto? Es una fecha? Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204 Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando. Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003) Si es un numero: 021203 < 211203 Si es texto: 021203 ? 211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)

    13. 13 Fernn Agero Tipos de datos Numericos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Logicos (boolean) = verdadero / falso Geometricos (punto, linea, circulo, poligonos, etc.)

    14. 14 Fernn Agero Bases de datos: conceptos bsicos: clave primaria

    15. 15 Fernn Agero Bases de datos: bases de datos relacionales

    16. 16 Fernn Agero Bases de datos: distribucion de la informacion

    17. 17 Fernn Agero Bsquedas en una base de datos: ndices

    18. 18 Fernn Agero Indices (cont) Un ejemplo ms complejo: buscar todos los records que contengan la palabra kinase en la descripcin de la secuencia

    19. 19 Fernn Agero Indexar es costoso El proceso de indexacin es costoso en trminos computacionales, pero se realiza una nica vez (en realidad cada vez que se actualizan los datos) Desde el punto de vista de la base de datos, los ndices no son otra cosa que nuevas tablas relacionadas con la tabla que contiene el campo indexado Ejemplo ms obvio: buscadores de pginas de internet (Google, Altavista). Visitan pginas e indexan los trminos que encuentran kewyword: url1, url2, url3, url4, etc.

    20. 20 Fernn Agero Bsquedas en bases de datos: bsquedas indexadas

    21. 21 Fernn Agero Schemas La distribucin de los datos en campos dentro de una tabla y de las relaciones entre tablas y sus campos es lo que se llama el diseo o schema

    22. 22 Fernn Agero Schemas (cont)

    23. 23 Fernn Agero RDBMS Relational Database Management Systems Comerciales Oracle, Sybase Open source, gratuitos PostgreSQL, MySQL Todos usan SQL (standard query language) para crear tablas, ndices, etc. ingresar datos consultar

    24. 24 Fernn Agero Bsquedas simples Los motores de bsqueda ofrecen bsquedas simples No imponen restricciones El usuario tipea palabras libremente Usan estrategias para intentar adivinar la intencin del usuario (sobre qu campo de la base de datos buscar)

    25. 25 Fernn Agero Ejemplo: term mapping - Entrez (PubMed) Entrez busca en una serie de listas para ver si la palabra que ingresaron se encuentra en alguna MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar artculos en PubMed. Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y nmeros ISSN. Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros vocabularios controlados similares. Indice de autores: apellido e iniciales. Stopwords: palabras comunes, presentes en casi todos los registros de la base de datos (a, an, by, of, the )

    26. 26 Fernn Agero Bsquedas simples: pros / cons Ventajas rpidas de formular no hay que leer el manual ni hacer un curso ? Desventajas poco selectivas

    27. 27 Fernn Agero Bsquedas avanzadas Presuponen un cierto conocimiento sobre la organizacin subyacente de los datos Hay que especificar sobre qu campos buscar: ? hay que conocer los campos Entrez: se especifican entre corchetes Tags predefinidos (hay que conocerlos) Escherichia coli[organism] review[publication type] attenuator[feature key] SRS: formulario avanzado (no hay que conocer trminos o tags)

    28. 28 Fernn Agero Bsquedas avanzadas: Entrez Entrez provee adems Lmites: especie de formulario avanzado que les permite limitar la bsqueda a un campo determinado, sin tener que conocer los tags) History: una historia de las bsquedas que van realizando. En cualquier momento pueden combinar bsquedas o volver sobre alguna de ellas Preview/Index: les permite probar una bsqueda (preview) y ver el nmero de registros que selecciona o ver los ndices y el nmero de registros asociados a cada uno de ellos Details: permite analizar la traduccin que realiz Entrez de la bsqueda que realizamos (uso de sinnimos, lmites, etc)

    29. 29 Fernn Agero Operadores lgicos En bsquedas simples o avanzadas siempre tienen a disposicin operadores lgicos para encadenar trminos AND (unin) human AND genome +human +genome human && genome OR (interseccin) human OR genome human || genome NOT (subconjunto) human NOT genome

    30. 30 Fernn Agero Orden de los trminos en un query El orden de los trminos es importante Un query se evala de izquierda a derecha human NOT genome no es lo mismo que genome NOT human Si el query tiene muchos trminos pueden forzar el orden de evaluacin usando parntesis human AND cancer AND (cell OR science OR nature) casein kinase NOT (human OR mouse)

    32. 32 Fernn Agero Bases de datos biolgicas: DNA

    33. 33 Fernn Agero Bases de datos biolgicas: protenas

    34. 34 Fernn Agero Bases de datos biolgicas: estructura

    35. 35 Fernn Agero Bases de datos biolgicas: literatura

    36. 36 Fernn Agero Bases de datos biolgicas: GenBank

    37. 37 Fernn Agero GenBank Redundante Con errores Dificil de actualizar Para poder corregir, mejorar y mantener actualizada la anotacin de los registros, el NCBI cre RefSeq (coleccin curada de registros de GenBank) toma records de GenBank y los actualiza/corrije unifica para reducir redundancia Accession numbers del tipo XX_123456

    38. 38 Fernn Agero Bases de datos primarias

    39. 39 Fernn Agero Bases de datos secundarias

    40. 40 Fernn Agero Anlisis y anotacin de genomas Fernn Agero

    41. 41 Fernn Agero Historia Primer proyecto de secuenciacin de un genoma: Escherichia coli (US + Japn). Comenz en 1992 y termin en 1997. 4.6 MB Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB

    42. 42 Fernn Agero Qu es un genoma? Una coleccin de genes que codifican productos proteicos que codifican RNAs pseudogenes regiones no codificantes regulatorias (expresin) estructurales attachment a matriz nuclear mitosis / meiosis elementos repetitivos

    43. 43 Fernn Agero Qu es anotar? Agregar informacin, de la manera ms confiable y actualizada que se pueda para describir una secuencia Informacin asociada a coordenadas genmicas (comienzo..fin), a distintos niveles Interpretar la informacin cruda de secuencia en un marco biolgico

    44. 44 Fernn Agero Anotacin genmica Dos niveles de anotacin Estructural: encontrar genes y otros sitios con relevancia biolgica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posicin en el genoma Funcional: los objetos son utilizados en bsquedas (y experimentos). El objetivo es atribuir informacin biolgica relevante a los objetos.

    45. 45 Fernn Agero Ms niveles de anotacin Organismo: fenotipo: morfologa, fisiologa, comportamiento, respuestas ambientales Celula: vas metablicas, cascadas de sealizacin, localizacin subcelular. Molecula: sitios de binding, actividad cataltica, estructura tridimensional Dominio Motif Residuo

    46. 46 Fernn Agero De donde proviene la anotacin? Fuentes utilizadas en la anotacin: publicaciones que reportan nuevas secuencias reviews que actualizan peridicamente la anotacin de familias o grupos de protenas expertos externos anlisis de secuencia

    47. 47 Fernn Agero Anotacin genmica

    48. 48 Fernn Agero Annotation & functional genomics

    49. 49 Fernn Agero Anotacin: busqueda de genes Buscar genes en el genoma RNA ribosomal RNAs ? BLASTN tRNAs ? tRNAscan protein coding ab initio gene prediction? ORFs, codon usage, frecuencia de hexmeros, modelos, etc.) similarity ? BLASTX, otros Buscar regiones no codificantes regulatorias ab initio ? Gibbs sampling similarity ? patterns, profiles repetitivas similarity ab initio En todos los casos ? literatura!

    50. 50 Fernn Agero Integrar resultados

    51. 51 Fernn Agero Genome annotation: C. elegans

    52. 52 Fernn Agero Resumir resultados de anlisis Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado Prcticamente cualquiera de los anlisis que se realizan sobre DNA o protenas para anotar un genoma pueden resumirse en: secuencia start end cromosoma1 1723 3456 Este formato bsico es la base del formato GFF (Sanger) secuencia metodo programa start end frame score extra Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ... Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002 Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome

    53. 53 Fernn Agero Anotacin: herramientas Artemis http://www.sanger.ac.uk/Software/Artemis Permite visualizar secuencia, con sus traducciones virtuales (6) tracks de anotacin (entries) plots (built-ins y creados por el usuario) Lee secuencias en formato FASTA, EMBL, GenBank Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST

    54. 54 Fernn Agero Artemis: main window

    55. 55 Fernn Agero Artemis: plots

    56. 56 Fernn Agero Artemis: display de anlisis

    57. 57 Fernn Agero Artemis:

    58. 58 Fernn Agero Artemis: zoom

    59. 59 Fernn Agero Artemis: spliced genes

    60. 60 Fernn Agero Artemis: comparar anlisis

    61. 61 Fernn Agero ACT: Artemis Comparison Tool

    62. 62 Fernn Agero ACT: Artemis Comparison Tool

    63. 63 Fernn Agero Otras estrategias Artemis se usa para anotar genomas bacterianos o para pequeos proyectos (csmidos, BACs, etc.) En genomas ms grandes, la tendencia es a distribuir la anotacin Los tracks de anotacin son generados en distintos centros Ejemplo: UCSC Genome Browser (genoma humano, ratn).

    64. 64 Fernn Agero Anotacin automtica: TrEMBL La anotacin de TrEMBL (translated EMBL) se hace por mtodos automticos. Requerimientos para anotar automticamente Una base de datos de referencia bien anotada (ej. Swissprot) Una base de datos que sea altamente confiable (en el sentido diagnstico) en la asignacin de protenas a grupos o familias (ej CDD, InterPro) Una serie de reglas de anotacin

    65. 65 Fernn Agero Transferencia directa de anotacin Realizar una bsqueda en la base de datos de referencia y transferir la anotacin Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la lnea DE del mejor hit

    66. 66 Fernn Agero Anotacin a partir de mltiples fuentes Generalmente se usa ms de una base de datos externa Hay que combinar los resultados

    67. 67 Fernn Agero Conflictos Contradiccin Inconsistencia Sinnimos Redundancia

    68. 68 Fernn Agero Traduccin de anotaciones Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar

    69. 69 Fernn Agero Traducciones: algunos ejemplos

    70. 70 Fernn Agero Requerimientos de un sistema de anotacin automtica Correccin Escalable Actualizable Poco redundante Completo Vocabulario controlado

    71. 71 Fernn Agero Cmo funciona? Una protena en TrEMBL es reconocida como un miembro de cierto grupo o familia de protenas Este grupo de protenas en Swissprot comparten entre s partes de la anotacin La anotacin comn es transferida automticamente a la protena en TrEMBL y marcada como annotated by similarity

    72. 72 Fernn Agero Anotacin: evidencias Las anotaciones suelen estar acompaadas de TAGS que indican la evidencia en la que se basa la anotacin Ejemplos de algunos TAGS utilizados en TrEMBL: EMBL: la informacin fue copiada del original (EMBL/GenBank/DDBJ) TrEMBL: anotacin modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot Curator: juicio del curador Similarity: por similitud con otra secuencia, a juicio del curador Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper. Opinion: opinin emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental Rulebase: informacin derivada del uso de una regla de anotacin automtica SignalP: programa de prediccin

    73. 73 Fernn Agero Anotacin: manual vs automtica La anotacin de un genoma ocurre en etapas anotacin automtica correr todos los anlisis sobre el genoma generar un primer borrador con todos los datos organizados. Por ejemplo en pginas web o integrando todos los datos en un display unificado (Artemis) anotacin manual: cura de los datos una persona (curador) revisa la anotacin, gen por gen, verificando la anotacin automtica, agregando anotaciones manuales, corriendo eventualmente algn programa particular

    74. 74 Fernn Agero Qu herramientas se usan? Oakridge Genome Annotation Channel http://compbio.ornl.gov/channel ENSEMBL http://ensembl.ebi.ac.uk Artemis http://www.sanger.ac.uk/Software/Artemis GeneQuiz http://www.sander.ebi.ac.uk/genequiz Genome browsers: varios cada consorcio/proyecto desarroll el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans),

    75. 75 Fernn Agero Anotacin: fuentes de error Transferencia transitiva de anotaciones gen1 mal anotado como casein kinase presente en los bancos de datos gen2 con alta similitud con gen1, resulta anotado como casein kinase Solucin: usar bases de datos curadas: por ejemplo Swissprot revisar la anotacin de ms de un hit verificar que las anotaciones de todos los hits concuerden

    76. 76 Fernn Agero Anotacin confiable: proyecto HAMAP High-quality Automated Microbial Annotation of Proteomes Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute) CNRS Lyon INRIA Grenoble INRA Toulouse CNRS Marseille Pasteur Institute

    77. 77 Fernn Agero HAMAP

    78. 78 Fernn Agero Prioridades del proyecto HAMAP Anotacin de protenas hurfanas Pre-anotacin de protenas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH) Anotacin de alta calidad de protenas pertenecientes a familias bien caracterizadas Anotacin manual de protenas caracterizadas experimentalmente en ese organismo Anotacin manual de protenas no caracterizadas que muestren similitud con otras protenas

    79. 79 Fernn Agero Estrategia HAMAP

    80. 80 Fernn Agero HAMAP: ORFans No tienen similitud con otras protenas (excepto tal vez otras protenas de organismos muy cercanos) No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART) Qu se hace: Prediccin de seales Prediccin de regiones trans-membrana Prediccin de coiled-coils Anotacin de repeticiones

    81. 81 Fernn Agero HAMAP: ORFan antes

    82. 82 Fernn Agero HAMAP: ORFan despus

    83. 83 Fernn Agero HAMAP: large/complex families

    84. 84 Fernn Agero HAMAP: anotacin automtica Transferencia automtica de anotacin Usando reglas especficas para cada famila de protenas Usando reglas especficas para un organismo particular La transferencia de anotacin puede ir acompaada de advertencias para el curador Por ejemplo: WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)

    85. 85 Fernn Agero HAMAP: ejemplo reglas

    86. 86 Fernn Agero HAMAP: Escherichia coli De acuerdo al anlisis original: 4286 protenas 60 protenas no detectadas (casi todas < 100 aa) 120 muy probablemente no existan 50 pares o tripletes de ORFs tuvieron que ser fusionados 719 con errores en la asignacin del codn de inicio ~1800 todava sin caracterizacin bioqumica (aproximadamente una asignacin funcional por semana)

    87. 87 Fernn Agero Chromosome browsers UCSC Genome Browser provee un display rpido de cualquier regin genmica con varios tracks de anotacin alineados al genoma Por el momento slo: Human & Mouse Annotation tracks genes conocidos (RefSeq, GenBank) predicted genes (Genscan, FGENESH, GeneID, Acembly) spliced ESTs CpG islands assembly gaps cobertura bandas cromosmicas elementos repetitivos etc

    89. 89 Fernn Agero UCSC Genome browser UCSC slo genera la mitad de los tracks El resto proviene de la comunidad biomdica El Genome Browser es una herramienta de visualizacin No saca conclusiones! Simplemente integra en forma grfica toda la informacin que posee sobre una regin, dejando la exploracin y la interpretacin al usuario.

    90. 90 Fernn Agero UCSC Genome Browser: gene expression

    91. 91 Fernn Agero UCSC Genome browser: alternative splicing

    92. 92 Fernn Agero UCSC Genome browser: complex transcription

    93. 93 Fernn Agero UCSC Genoma browser: user tracks Ustedes pueden agregar sus propios tracks Pueden ser pblicos o privados No necesitan saber programar Tienen que proveer informacin en formato GFF (u otros similares: GTF, BED) chrom start end [name strand score] chr1 1302347 1302357 SP1 + 800 chr1 1504778 1504787 SP2 980

    94. 94 Fernn Agero Acknowledgements Nicola Mulder, EBI Daniel Lawson, Sanger Centre

    95. 95 Fernn Agero Bioinformtica Herramientas y aplicaciones Fernn Agero Instituto de Investigaciones Biotecnolgicas Universidad Nacional de General San Martn

    96. 96 Fernn Agero Entender la informacin gentica La informacin gentica es redundante La informacin estructural es redundante Un gen, muchas funciones La informacin gentica es unidimensional, pero la funcin depende de la estructura tridimensional El reemplazo de 40% de los residuos de una protena no afectan la funcin

    97. 97 Fernn Agero Qu herramientas provee la computacin cientfica Machine Learning (inteligencia artificial, aprendizaje automtico) Distintos mtodos entrenables para reconocer o aprender disintas cosas: Neural Networks Markov Models and Hidden Markov Models Nearest neighbor Otros Prediccin en protenas SignalP, Net-O-Glyc, TMHMM, TmPred, PSORT Gene finding, Gene prediction Genscan, Glimmer, GeneMark, FGENESH Prediccin de estructura secundaria nnpredict, PHDSec,

    98. 98 Fernn Agero Qu herramientas provee la computacin Bases de datos Organizar datos de manera eficiente Posibilidad de realizar consultas complejas, integrando y cruzando datos. Entrez, SRS, FlyBase Oracle, Sybase, MySQL, PostgreSQL Teora de la informacin Medir la cantidad de informacin (en bits) Incertidumbre Sequence Logos Algoritmos Mtodos para tratar con distintos tipos de problemas Una vez que se aprende como solucionar un problema particular, la solucin se generaliza a toda una clase de problemas similares Dynamic programming Qu problema resuelve este algoritmo? El problema de encontrar el mejor camino entre muchos posibles. utilizado en mtodos de alineamiento de secuencias (Smith-Waterman, Needleman-Wunsch, BLAST, FASTA), en mtodos de prediccin de genes, en ruteo de llamadas telefnicas a travs de distintas centrales, etc.

    99. 99 Fernn Agero Bases de datos: conceptos bsicos

    100. 100 Fernn Agero Un experimento bioinformtico Un experimento en la computadora no es distinto de cualquier experimento en la mesada: los resultados deben contestar una pregunta concreta deben ser reproducibles por otra persona que utilice el mismo mtodo Identificar el problema cul es el mecanismo cataltico de la enzima X? Identificar las herramientas necesarias para resolver el problema bsquedas de secuencias similares, alineamientos mltiples, deteccin de profiles y motivos, modelado de la estructura tridimensional, evaluacin del modelo Definir criterios de satisfaccin (xito del experimento) Prcticamente todos los mtodos computacionales producen resultados. Una bsqueda utilizando BLAST casi siempre produce algn hit Es necesario distinguir resultados significativos del ruido para no terminar comparando superoxido dismutasas con alcohol dehidrogenasas. Hay que entender cmo funcionan los programas, en qu algoritmos estn basados, que puntos dbiles tienen, etc.

    101. 101 Fernn Agero Un experimento bioinformtico Seleccionar el set de datos apropiados En el laboratorio, los materiales y reactivos son objetos fsicos necesarios para realizar un experimento. Generalmente uno sabe cuando fueron preparados, quien los preparo, como fueron preparados, etc. En bioinformtica el mismo tipo de informacin es esencial. Las fuentes de informacin (bases de datos, por ej), fecha de ultima actualizacion, el crtiterio y el metodo utilizado para extraer los datos que van a ser utilizados en el experimento

    102. 102 Fernn Agero Un ejemplo concreto Un investigador interesado en estudiar genes en involucrados en la interaccin hospedador-parsito, con especial inters en identificar aquellos productos que sean secretados Un sitio web reporta los resultados de un anlisis sistemtico de expresin (usando microarrays) de todos los genes del genoma en todos los estados del ciclo de vida del parsito El investigador puede bajar un archivo con un resumen de estos experimentos Las secuencias de todas las protenas codificadas por el genoma se encuentran disponibles en una base de datos. Lo que se necesita es contar con la capacidad de identificar genes que se expresen en los estados del ciclo de vida que ocurren en el hospedador y extraer las secuencias de estos genes de la base de datos En ultima instancia el objetivo es analizar las secuencias de inters usando SignalP para predecir la posible presencia de un pptido seal

    103. 103 Fernn Agero Cuestiones a tener en cuenta: Podemos hacer el trabajo a mano Abrimos el resumen con los datos de los experimentos con microarrays en un procesador de texto buscamos los genes que muestran expresin en el estadio de inters Construimos una lista de genes (accession numbers) Luego vamos a nuestra base de datos con secuencias genmicas y sus traducciones y buscamos una por una las secuencias El ultimo paso es pasar todas las secuencias a un formato que entienda SignalP y ingresarlas una por una en el formulario correspondiente. Hay tres problemas evidentes: Si el nmero de genes que se expresan en nuestro estadio de interes es ms que unos cuantos el trabajo se vuelve tedioso y ms que nada lento por el tiempo que insume Peor aun, cada vez que aparezcan nuevos resultados de microarrays o se actualicen, hay que repetir todo el procedimiento El proceso de abrir el resumen con datos de microarrays (o la base de datos de genes) en un procesador de textos puede no ser factible si el tamao de los archivos excede los 5 o 10 MB

    104. 104 Fernn Agero Programacin en biologa Cualquier persona que tenga experiencia en el diseo y llevado a cabo de experimentos para responder una pregunta puede programar una computadora Un experimento en el laboratorio comienza con una pregunta que evoluciona hacia una hiptesis testeable Finalmente el experimento sirve para afirmar o descartar una afirmacin En la computadora el programa que uno escriba debe estar diseado de manera de producir resultados que respondan a este tipo de afirmaciones Aprender un lenguaje de programacin puede resultar un desafo no trivial, pero es similar a aprender a utilizar una nueva herramienta, tecnologa u otro lenguaje (ingls, francs)

    105. 105 Fernn Agero Programacin en biologa Ejemplos simples: automatizar tareas identificar una o ms tareas que uno quiere realizar escribir un programa que las realice en forma automtica Analizar todas las protenas de un genoma y seleccionar aquellas que sean (o parezcan) proteinasas Un archivo con todas las secuencias Una base de datos de proteinas (Swissprot, GenPept) Un programa para buscar secuencias similares en bases de datos (BLAST) Una serie de instrucciones a seguir (un protocolo)

    106. 106 Fernn Agero Automatizar bsquedas con BLAST

    107. 107 Fernn Agero Automatizar BLAST Muy lindo el diagrama, pero: cmo se hace? Por cada secuencia de una lista de secuencias hay que: correr la comparacin (BLAST) contra una base de datos analizar el reporte que genera el programa y extraer dos tipos de datos: score, expect, identidad, similitud (algn criterio cuantitativo que me sirva para tomar una decisin) descripcin de la secuencia obtenida de la base de datos

    108. 108 Fernn Agero Programacin Todo lenguaje de programacin provee construcciones para tomar decisiones: if A then do B, else do C if A > 100 then continue else exit Algunos lenguajes de programacin proveen mtodos para ejecutar otros programas salir al sistema operativo, ejecutar el programa X y tomar el output blast secuencia vs swissprot system( blast -i secuencia -d swissprot ) Lo ms dificil: analizar el output y tomar los datos de inters para poder tomar decisiones (hacer comparaciones) tenemos que tener los datos en variables

    109. 109 Fernn Agero Reportes de BLAST Un reporte de BLAST tal como aparece en un navegador o al ejecutar el programa en la lnea de comando (Unix) es basicamente un archivo de texto (un archivo plano o flatfile) Ningun reporte es igual a otro. Sin embargo hay patrones similares (la apariencia de hecho es similar). Tenemos que entrenar a nuestro programa para reconocer patrones: la primer linea contiene informacin sobre el programa la quinta lnea contiene informacin sobre la secuencia utilizada para la bsqueda la dcima lnea contiene informacin sobre la base de datos la lnea que comienza con > indica el comienzo de la descripcin de un hit etc.

    110. 110 Fernn Agero Anatoma de un reporte de BLAST

    111. 111 Fernn Agero Anatoma de un reporte de BLAST

    112. 112 Fernn Agero Anatoma de un reporte de BLAST

    113. 113 Fernn Agero Anatoma de un reporte de BLAST

    114. 114 Fernn Agero Nuevos formatos Los reportes estaban diseados con un usuario (humano) en mente Formato no estructurado Ideal para lectura Cada vez ms los reportes que producen distintos programas se encuentran en formatos estructurados ms fciles de analizar desde el punto de vista de la computadora XML ASN.1 Tabulado Estos formatos no son amigables para un humano (no son fciles de leer)

    115. 115 Fernn Agero Representacin de la informacin

    116. 116 Fernn Agero Representacin de la informacin

    117. 117 Fernn Agero Analizando un reporte de BLAST Nuestro programa ya ley el reporte Y almacen los valores que le pedimos en distintas variables Ahora podemos hacerle hacer lo que querramos: (en pseudocdigo): if $score < 100 { read next report } else { print $accession } if $description =~ proteinase { print $accession} else { read next report } if $score < 100 AND $description =~ proteinase { print $accession } else { read next report }

    118. 118 Fernn Agero Mdulos de software reusables Resumiendo: nuestro programa tiene que poder leer el reporte (FACIL) identificar dentro del reporte distintos elementos y almacenarlos en variables (MAS COMPLICADO) tomar decisiones en base a los valores contenidos en las variables y realizar acciones (imprimir algo en pantalla, almacenar datos en un archivo, base de datos, etc.) (Criterio del usuario) El criterio del usuario es lo que va a hacer que el programa sirva para un fin u otro Es evidente que los pasos 1 y 2 van a ser necesarios para cualquier programas que intenten procesar reportes de BLAST solo hay que programarlos una vez modulos reusables (subrutinas)

    119. 119 Fernn Agero Bibliotecas de modulos reusables Perl, Python, Java, C en general todos los lenguajes proveen bibliotecas de mdulos reusables el mdulo contiene cdigo que realiza ciertas operaciones no es necesario saber como funciona internamente el mdulo para poder usarlo solo necesitamos saber que datos necesita (por ejemplo: una secuencia) y que resultados produce (un valor: 135, una respuesta: SI/NO) En el caso de aplicaciones biolgicas BioPerl BioPython BioJava Otros

    120. 120 Fernn Agero Pipelines Qu es un pipeline? Una lnea automatizada de anlisis

    121. 121 Fernn Agero Pipelines: ejemplos Sistemas de anotacin automtica de genomas Ensembl - http://www.ensembl.org UCSC Genome Browser - http://genome.ucsc.edu ORNL Genome Channel - http://compbio.ornl.gov/channel HAMAP - http://us.expasy.org/sprot/hamap

    122. 122 Fernn Agero Estrategia HAMAP

    126. 126 Fernn Agero Consideraciones prcticas La bioinformtica es ms barata que el trabajo en el laboratorio El equipamiento es significativamente ms barato que el de un laboratorio de biologa molecular Los materiales (programas) y reactivos (datos) son en general gratuitos y libremente accesibles Almacenamiento La cantidad y tipos de bases de datos que se planean instalar (ejemplo: GenBank actualmente requiere 120 GB) La cantidad y tipo de datos que se planean generar Memoria y Procesador Los requerimientos de los distintos mtodos BLAST es principalmente memoria-intensivo HMMER es principalmente procesador-intensivo

    127. 127 Fernn Agero Consideraciones prcticas Backup CD Cinta Un segundo disco Software Sistema operativo: unix Paquetes: BLAST, FASTA, etc Software de manejo de bases de datos: MySQL, PostgreSQL Lenguajes de proramacin: Perl, Java, Python, C, C++ Para un laboratorio chico una PC con un disco un poco ms grande y un poco ms de memoria que lo comn pueden ser suficientes

    128. 128 Fernn Agero Con respecto a la protozoologa Los genomas de varios protozoarios estn terminados o cerca de estarlo Plasmodium falciparum, berghei, chabaudi, knowlesi Toxoplasma gondii Trypanosomatidos (T. cruzi, T. brucei, L. major) Algunos otros se encuentran en distintos estados Entamoeba hystolytica Theileria annulata Babesia bovis Eimeria tenella En algunos casos hay proyectos post-genmicos en curso o recin comenzando Proteomics Microarrays RNAi

    129. 129 Fernn Agero Bibliografa sugerida Developing Bionformatics Computer Skills OReilly & Associates Bioinformatics. Sequence and genome analysis. CSHL Press Bioinformatics, a practical guide to the analysis of genes and proteins Wiley InterScience

More Related