E N D
1. 1 Fernn Agero Bioinformtica y Genmica Fernn Agero
Instituto de Investigaciones Biotecnolgicas
Universidad Nacional de General San Martn
2. 2 Fernn Agero Un breve repaso histrico La aparicin de las secuencias completas del genoma humano y cientos de otros genomas es el producto de un siglo de investigacin dirigido a comprender la informacin gentica.
Comienzos del siglo XX: redescubrimiento de las leyes de Mendel
Durante el primer cuarto de siglo, la biologa descubri que la base celular de la informacin eran los cromosomas
Durante el segundo cuarto de siglo, se descubri que la base molecular de la informacin era el DNA
Durante el tercer cuarto de siglo, se definieron los mecanismos que utilizan las clulas para leer esta informacin y se desarrollaron las herramientas de DNA recombinante
Durante el ultimo cuarto de siglo, los bilogos se volcaron a colectar informacin gentica - primero de genes, luego de genomas completos.
3. 3 Fernn Agero Informacin biolgica
4. 4 Fernn Agero En que estamos hoy
5. 5 Fernn Agero En que estamos hoy El resultado: de ser una ciencia puramente experimental (con base en el laboratorio) la biologa est siendo transformada en una ciencia de la informacin
La informacin acumulada no slo es informacin gentica (secuencias de DNA)
expresin de RNAs
interaccin entre protenas
estructuras tridimensionales
Anulacin sistemtica de genes (knockouts, RNAi) que produce informacin de fenotipos
Cada vez ms diversos estudios comienzan con el anlisis de bases de datos para luego formular hiptesis o disear experimentos
Cada vez ms el trabajo de laboratorio termina en la acumulacin de colecciones masivas de datos que deben ser luego analizados
7. 7 Fernn Agero Paradigma central de la bioinformtica
8. 8 Fernn Agero Genmica, Bioinformtica y Medicina
9. 9 Fernn Agero Informacin biolgica en formato electrnicoBases de datos Fernn Agero
Instituto de Investigaciones Biotecnolgicas
UNSAM
10. 10 Fernn Agero Bases de datos: introduccin: conceptos bsicos
11. 11 Fernn Agero Introduccin: conceptos bsicos: registros
12. 12 Fernn Agero Tipos de datos Cada campo de una base de datos contiene un tipo particular de datos
021204
Es un numero?
Es texto?
Es una fecha?
Ejemplo de una busqueda: buscar todos los registros en donde el valor almacenado sea mayor que 021204
Es obvio que para poder comparar los valores almacenados tenemos que saber qe tipo de valores estamos comparando.
Si es una fecha: 021204 (2.Dic.2004) > 211203 (21.Dic.2003)
Si es un numero: 021203 < 211203
Si es texto: 021203 ? 211203, las comparaciones < y > pueden dar distintos resultados (evaluan orden o longitud)
13. 13 Fernn Agero Tipos de datos Numericos (enteros, decimales)
Texto
Fechas (DD/MM/YYYY, HH:MM:SS)
Logicos (boolean) = verdadero / falso
Geometricos (punto, linea, circulo, poligonos, etc.)
14. 14 Fernn Agero Bases de datos: conceptos bsicos: clave primaria
15. 15 Fernn Agero Bases de datos: bases de datos relacionales
16. 16 Fernn Agero Bases de datos: distribucion de la informacion
17. 17 Fernn Agero Bsquedas en una base de datos: ndices
18. 18 Fernn Agero Indices (cont) Un ejemplo ms complejo: buscar todos los records que contengan la palabra kinase en la descripcin de la secuencia
19. 19 Fernn Agero Indexar es costoso El proceso de indexacin es costoso en trminos computacionales, pero se realiza una nica vez (en realidad cada vez que se actualizan los datos)
Desde el punto de vista de la base de datos, los ndices no son otra cosa que nuevas tablas relacionadas con la tabla que contiene el campo indexado
Ejemplo ms obvio: buscadores de pginas de internet (Google, Altavista). Visitan pginas e indexan los trminos que encuentran
kewyword: url1, url2, url3, url4, etc.
20. 20 Fernn Agero Bsquedas en bases de datos: bsquedas indexadas
21. 21 Fernn Agero Schemas La distribucin de los datos en campos dentro de una tabla y de las relaciones entre tablas y sus campos es lo que se llama el diseo o schema
22. 22 Fernn Agero Schemas (cont)
23. 23 Fernn Agero RDBMS Relational Database Management Systems
Comerciales
Oracle, Sybase
Open source, gratuitos
PostgreSQL, MySQL
Todos usan SQL (standard query language) para
crear tablas, ndices, etc.
ingresar datos
consultar
24. 24 Fernn Agero Bsquedas simples Los motores de bsqueda ofrecen bsquedas simples
No imponen restricciones
El usuario tipea palabras libremente
Usan estrategias para intentar adivinar la intencin del usuario (sobre qu campo de la base de datos buscar)
25. 25 Fernn Agero Ejemplo: term mapping - Entrez (PubMed) Entrez busca en una serie de listas para ver si la palabra que ingresaron se encuentra en alguna
MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar artculos en PubMed.
Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y nmeros ISSN.
Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros vocabularios controlados similares.
Indice de autores: apellido e iniciales.
Stopwords: palabras comunes, presentes en casi todos los registros de la base de datos (a, an, by, of, the )
26. 26 Fernn Agero Bsquedas simples: pros / cons Ventajas
rpidas de formular
no hay que leer el manual
ni hacer un curso ?
Desventajas
poco selectivas
27. 27 Fernn Agero Bsquedas avanzadas Presuponen un cierto conocimiento sobre la organizacin subyacente de los datos
Hay que especificar sobre qu campos buscar:
? hay que conocer los campos
Entrez: se especifican entre corchetes
Tags predefinidos (hay que conocerlos)
Escherichia coli[organism]
review[publication type]
attenuator[feature key]
SRS: formulario avanzado (no hay que conocer trminos o tags)
28. 28 Fernn Agero Bsquedas avanzadas: Entrez Entrez provee adems
Lmites: especie de formulario avanzado que les permite limitar la bsqueda a un campo determinado, sin tener que conocer los tags)
History: una historia de las bsquedas que van realizando. En cualquier momento pueden combinar bsquedas o volver sobre alguna de ellas
Preview/Index: les permite probar una bsqueda (preview) y ver el nmero de registros que selecciona o ver los ndices y el nmero de registros asociados a cada uno de ellos
Details: permite analizar la traduccin que realiz Entrez de la bsqueda que realizamos (uso de sinnimos, lmites, etc)
29. 29 Fernn Agero Operadores lgicos En bsquedas simples o avanzadas siempre tienen a disposicin operadores lgicos para encadenar trminos
AND (unin)
human AND genome
+human +genome
human && genome
OR (interseccin)
human OR genome
human || genome
NOT (subconjunto)
human NOT genome
30. 30 Fernn Agero Orden de los trminos en un query El orden de los trminos es importante
Un query se evala de izquierda a derecha
human NOT genome no es lo mismo que genome NOT human
Si el query tiene muchos trminos pueden forzar el orden de evaluacin usando parntesis
human AND cancer AND (cell OR science OR nature)
casein kinase NOT (human OR mouse)
32. 32 Fernn Agero Bases de datos biolgicas: DNA
33. 33 Fernn Agero Bases de datos biolgicas: protenas
34. 34 Fernn Agero Bases de datos biolgicas: estructura
35. 35 Fernn Agero Bases de datos biolgicas: literatura
36. 36 Fernn Agero Bases de datos biolgicas: GenBank
37. 37 Fernn Agero GenBank Redundante
Con errores
Dificil de actualizar
Para poder corregir, mejorar y mantener actualizada la anotacin de los registros, el NCBI cre RefSeq (coleccin curada de registros de GenBank)
toma records de GenBank y los actualiza/corrije
unifica para reducir redundancia
Accession numbers del tipo XX_123456
38. 38 Fernn Agero Bases de datos primarias
39. 39 Fernn Agero Bases de datos secundarias
40. 40 Fernn Agero Anlisis y anotacin de genomas Fernn Agero
41. 41 Fernn Agero Historia Primer proyecto de secuenciacin de un genoma: Escherichia coli (US + Japn). Comenz en 1992 y termin en 1997. 4.6 MB
Primer genoma (eubacteria): Haemophilus influenzae (1995). 1.83 MB
Primer genoma (archaea): Metanococcus jannaschii (1996). 1.6 MB
42. 42 Fernn Agero Qu es un genoma? Una coleccin de
genes
que codifican productos proteicos
que codifican RNAs
pseudogenes
regiones no codificantes
regulatorias (expresin)
estructurales
attachment a matriz nuclear
mitosis / meiosis
elementos repetitivos
43. 43 Fernn Agero Qu es anotar? Agregar informacin, de la manera ms confiable y actualizada que se pueda para describir una secuencia
Informacin asociada a coordenadas genmicas (comienzo..fin), a distintos niveles
Interpretar la informacin cruda de secuencia en un marco biolgico
44. 44 Fernn Agero Anotacin genmica Dos niveles de anotacin
Estructural: encontrar genes y otros sitios con relevancia biolgica. Armar un modelo del genoma: cada gen/sitio es un objecto asociado a una posicin en el genoma
Funcional: los objetos son utilizados en bsquedas (y experimentos). El objetivo es atribuir informacin biolgica relevante a los objetos.
45. 45 Fernn Agero Ms niveles de anotacin Organismo: fenotipo: morfologa, fisiologa, comportamiento, respuestas ambientales
Celula: vas metablicas, cascadas de sealizacin, localizacin subcelular.
Molecula: sitios de binding, actividad cataltica, estructura tridimensional
Dominio
Motif
Residuo
46. 46 Fernn Agero De donde proviene la anotacin? Fuentes utilizadas en la anotacin:
publicaciones que reportan nuevas secuencias
reviews que actualizan peridicamente la anotacin de familias o grupos de protenas
expertos externos
anlisis de secuencia
47. 47 Fernn Agero Anotacin genmica
48. 48 Fernn Agero Annotation & functional genomics
49. 49 Fernn Agero Anotacin: busqueda de genes Buscar genes en el genoma
RNA
ribosomal RNAs ? BLASTN
tRNAs ? tRNAscan
protein coding
ab initio gene prediction? ORFs, codon usage, frecuencia de hexmeros, modelos, etc.)
similarity ? BLASTX, otros
Buscar regiones no codificantes
regulatorias
ab initio ? Gibbs sampling
similarity ? patterns, profiles
repetitivas
similarity
ab initio
En todos los casos ? literatura!
50. 50 Fernn Agero Integrar resultados
51. 51 Fernn Agero Genome annotation: C. elegans
52. 52 Fernn Agero Resumir resultados de anlisis Guardar el reporte crudo de un BLAST (lista de hits, alineamientos) es demasiado
Prcticamente cualquiera de los anlisis que se realizan sobre DNA o protenas para anotar un genoma pueden resumirse en:
secuencia start end
cromosoma1 1723 3456
Este formato bsico es la base del formato GFF (Sanger)
secuencia metodo programa start end frame score extra
Contig1 similarity blastx 100 1000 +1 132 gi|12345|AF34093 casein kinase ...
Contig1 cds glimmer 85 1201 +1 1321 ORF0001; overlap with ORF0002
Contig1 similarity blastn 80 1300 . 136 gi|54321|AF09990 complete genome
53. 53 Fernn Agero Anotacin: herramientas Artemis
http://www.sanger.ac.uk/Software/Artemis
Permite visualizar
secuencia, con sus traducciones virtuales (6)
tracks de anotacin (entries)
plots (built-ins y creados por el usuario)
Lee secuencias en formato FASTA, EMBL, GenBank
Lee features en formato EMBL, GenBank, GFF, MSPcrunch, BLAST
54. 54 Fernn Agero Artemis: main window
55. 55 Fernn Agero Artemis: plots
56. 56 Fernn Agero Artemis: display de anlisis
57. 57 Fernn Agero Artemis:
58. 58 Fernn Agero Artemis: zoom
59. 59 Fernn Agero Artemis: spliced genes
60. 60 Fernn Agero Artemis: comparar anlisis
61. 61 Fernn Agero ACT: Artemis Comparison Tool
62. 62 Fernn Agero ACT: Artemis Comparison Tool
63. 63 Fernn Agero Otras estrategias Artemis se usa para anotar genomas bacterianos o para pequeos proyectos (csmidos, BACs, etc.)
En genomas ms grandes, la tendencia es a distribuir la anotacin
Los tracks de anotacin son generados en distintos centros
Ejemplo: UCSC Genome Browser (genoma humano, ratn).
64. 64 Fernn Agero Anotacin automtica: TrEMBL La anotacin de TrEMBL (translated EMBL) se hace por mtodos automticos.
Requerimientos para anotar automticamente
Una base de datos de referencia bien anotada (ej. Swissprot)
Una base de datos que sea altamente confiable (en el sentido diagnstico) en la asignacin de protenas a grupos o familias (ej CDD, InterPro)
Una serie de reglas de anotacin
65. 65 Fernn Agero Transferencia directa de anotacin Realizar una bsqueda en la base de datos de referencia y transferir la anotacin
Ejemplo: FASTA contra una base de datos de secuencias y transferencia de la lnea DE del mejor hit
66. 66 Fernn Agero Anotacin a partir de mltiples fuentes Generalmente se usa ms de una base de datos externa
Hay que combinar los resultados
67. 67 Fernn Agero Conflictos Contradiccin
Inconsistencia
Sinnimos
Redundancia
68. 68 Fernn Agero Traduccin de anotaciones Es necesario utilizar un traductor para mapear el lenguaje utilizado en la base de datos externa (XDB) al lenguaje utilizado en la base de datos target que queremos anotar
69. 69 Fernn Agero Traducciones: algunos ejemplos
70. 70 Fernn Agero Requerimientos de un sistema de anotacin automtica Correccin
Escalable
Actualizable
Poco redundante
Completo
Vocabulario controlado
71. 71 Fernn Agero Cmo funciona? Una protena en TrEMBL es reconocida como un miembro de cierto grupo o familia de protenas
Este grupo de protenas en Swissprot comparten entre s partes de la anotacin
La anotacin comn es transferida automticamente a la protena en TrEMBL y marcada como annotated by similarity
72. 72 Fernn Agero Anotacin: evidencias Las anotaciones suelen estar acompaadas de TAGS que indican la evidencia en la que se basa la anotacin
Ejemplos de algunos TAGS utilizados en TrEMBL:
EMBL: la informacin fue copiada del original (EMBL/GenBank/DDBJ)
TrEMBL: anotacin modificada para corregir errores o para adecuarse a la sintaxis propia de Swissprot
Curator: juicio del curador
Similarity: por similitud con otra secuencia, a juicio del curador
Experimental: evidencia experimental de acuerdo a una referencia, que usualmente es un paper.
Opinion: opinin emitida por el autor de una referencia, usualmente con poca o ninguna evidencia experimental
Rulebase: informacin derivada del uso de una regla de anotacin automtica
SignalP: programa de prediccin
73. 73 Fernn Agero Anotacin: manual vs automtica La anotacin de un genoma ocurre en etapas
anotacin automtica
correr todos los anlisis sobre el genoma
generar un primer borrador con todos los datos organizados. Por ejemplo en pginas web o integrando todos los datos en un display unificado (Artemis)
anotacin manual: cura de los datos
una persona (curador) revisa la anotacin, gen por gen, verificando la anotacin automtica, agregando anotaciones manuales, corriendo eventualmente algn programa particular
74. 74 Fernn Agero Qu herramientas se usan? Oakridge Genome Annotation Channel
http://compbio.ornl.gov/channel
ENSEMBL
http://ensembl.ebi.ac.uk
Artemis
http://www.sanger.ac.uk/Software/Artemis
GeneQuiz
http://www.sander.ebi.ac.uk/genequiz
Genome browsers: varios
cada consorcio/proyecto desarroll el suyo: Apollo (FlyBase, Drosophila), AceDB (C. elegans),
75. 75 Fernn Agero Anotacin: fuentes de error Transferencia transitiva de anotaciones
gen1 mal anotado como casein kinase presente en los bancos de datos
gen2 con alta similitud con gen1, resulta anotado como casein kinase
Solucin:
usar bases de datos curadas: por ejemplo Swissprot
revisar la anotacin de ms de un hit
verificar que las anotaciones de todos los hits concuerden
76. 76 Fernn Agero Anotacin confiable: proyecto HAMAP High-quality Automated Microbial Annotation of Proteomes
Swissprot (Swiss Bioinformatics Institute-European Bioinformatics Institute)
CNRS Lyon
INRIA Grenoble
INRA Toulouse
CNRS Marseille
Pasteur Institute
77. 77 Fernn Agero HAMAP
78. 78 Fernn Agero Prioridades del proyecto HAMAP Anotacin de protenas hurfanas
Pre-anotacin de protenas pertenecientes a familias grandes/complejas (transportadores ABC, HTH, sistemas de dos componentes, SDH)
Anotacin de alta calidad de protenas pertenecientes a familias bien caracterizadas
Anotacin manual de protenas caracterizadas experimentalmente en ese organismo
Anotacin manual de protenas no caracterizadas que muestren similitud con otras protenas
79. 79 Fernn Agero Estrategia HAMAP
80. 80 Fernn Agero HAMAP: ORFans No tienen similitud con otras protenas (excepto tal vez otras protenas de organismos muy cercanos)
No tienen hits contra InterPro (Prosite, PRINTS, Pfam, ProDom, SMART)
Qu se hace:
Prediccin de seales
Prediccin de regiones trans-membrana
Prediccin de coiled-coils
Anotacin de repeticiones
81. 81 Fernn Agero HAMAP: ORFan antes
82. 82 Fernn Agero HAMAP: ORFan despus
83. 83 Fernn Agero HAMAP: large/complex families
84. 84 Fernn Agero HAMAP: anotacin automtica Transferencia automtica de anotacin
Usando reglas especficas para cada famila de protenas
Usando reglas especficas para un organismo particular
La transferencia de anotacin puede ir acompaada de advertencias para el curador
Por ejemplo:
WARNING: this genome contains MF_00031 (ruvA) but not MF_00016 (ruvB)
85. 85 Fernn Agero HAMAP: ejemplo reglas
86. 86 Fernn Agero HAMAP: Escherichia coli De acuerdo al anlisis original: 4286 protenas
60 protenas no detectadas (casi todas < 100 aa)
120 muy probablemente no existan
50 pares o tripletes de ORFs tuvieron que ser fusionados
719 con errores en la asignacin del codn de inicio
~1800 todava sin caracterizacin bioqumica (aproximadamente una asignacin funcional por semana)
87. 87 Fernn Agero Chromosome browsers UCSC Genome Browser
provee un display rpido de cualquier regin genmica
con varios tracks de anotacin alineados al genoma
Por el momento slo: Human & Mouse
Annotation tracks
genes conocidos (RefSeq, GenBank)
predicted genes (Genscan, FGENESH, GeneID, Acembly)
spliced ESTs
CpG islands
assembly gaps
cobertura
bandas cromosmicas
elementos repetitivos
etc
89. 89 Fernn Agero UCSC Genome browser UCSC slo genera la mitad de los tracks
El resto proviene de la comunidad biomdica
El Genome Browser es una herramienta de visualizacin
No saca conclusiones! Simplemente integra en forma grfica toda la informacin que posee sobre una regin, dejando la exploracin y la interpretacin al usuario.
90. 90 Fernn Agero UCSC Genome Browser: gene expression
91. 91 Fernn Agero UCSC Genome browser: alternative splicing
92. 92 Fernn Agero UCSC Genome browser: complex transcription
93. 93 Fernn Agero UCSC Genoma browser: user tracks Ustedes pueden agregar sus propios tracks
Pueden ser pblicos o privados
No necesitan saber programar
Tienen que proveer informacin en formato GFF (u otros similares: GTF, BED)
chrom start end [name strand score]
chr1 1302347 1302357 SP1 + 800
chr1 1504778 1504787 SP2 980
94. 94 Fernn Agero Acknowledgements Nicola Mulder, EBI
Daniel Lawson, Sanger Centre
95. 95 Fernn Agero BioinformticaHerramientas y aplicaciones Fernn Agero
Instituto de Investigaciones Biotecnolgicas
Universidad Nacional de General San Martn
96. 96 Fernn Agero Entender la informacin gentica La informacin gentica es redundante
La informacin estructural es redundante
Un gen, muchas funciones
La informacin gentica es unidimensional, pero la funcin depende de la estructura tridimensional
El reemplazo de 40% de los residuos de una protena no afectan la funcin
97. 97 Fernn Agero Qu herramientas provee la computacin cientfica Machine Learning (inteligencia artificial, aprendizaje automtico)
Distintos mtodos entrenables para reconocer o aprender disintas cosas:
Neural Networks
Markov Models and Hidden Markov Models
Nearest neighbor
Otros
Prediccin en protenas
SignalP, Net-O-Glyc, TMHMM, TmPred, PSORT
Gene finding, Gene prediction
Genscan, Glimmer, GeneMark, FGENESH
Prediccin de estructura secundaria
nnpredict, PHDSec,
98. 98 Fernn Agero Qu herramientas provee la computacin Bases de datos
Organizar datos de manera eficiente
Posibilidad de realizar consultas complejas, integrando y cruzando datos.
Entrez, SRS, FlyBase
Oracle, Sybase, MySQL, PostgreSQL
Teora de la informacin
Medir la cantidad de informacin (en bits)
Incertidumbre
Sequence Logos
Algoritmos
Mtodos para tratar con distintos tipos de problemas
Una vez que se aprende como solucionar un problema particular, la solucin se generaliza a toda una clase de problemas similares
Dynamic programming Qu problema resuelve este algoritmo? El problema de encontrar el mejor camino entre muchos posibles.
utilizado en mtodos de alineamiento de secuencias (Smith-Waterman, Needleman-Wunsch, BLAST, FASTA), en mtodos de prediccin de genes, en ruteo de llamadas telefnicas a travs de distintas centrales, etc.
99. 99 Fernn Agero Bases de datos: conceptos bsicos
100. 100 Fernn Agero Un experimento bioinformtico Un experimento en la computadora no es distinto de cualquier experimento en la mesada:
los resultados deben contestar una pregunta concreta
deben ser reproducibles por otra persona que utilice el mismo mtodo
Identificar el problema
cul es el mecanismo cataltico de la enzima X?
Identificar las herramientas necesarias para resolver el problema
bsquedas de secuencias similares, alineamientos mltiples, deteccin de profiles y motivos, modelado de la estructura tridimensional, evaluacin del modelo
Definir criterios de satisfaccin (xito del experimento)
Prcticamente todos los mtodos computacionales producen resultados. Una bsqueda utilizando BLAST casi siempre produce algn hit
Es necesario distinguir resultados significativos del ruido para no terminar comparando superoxido dismutasas con alcohol dehidrogenasas.
Hay que entender cmo funcionan los programas, en qu algoritmos estn basados, que puntos dbiles tienen, etc.
101. 101 Fernn Agero Un experimento bioinformtico Seleccionar el set de datos apropiados
En el laboratorio, los materiales y reactivos son objetos fsicos necesarios para realizar un experimento. Generalmente uno sabe cuando fueron preparados, quien los preparo, como fueron preparados, etc.
En bioinformtica el mismo tipo de informacin es esencial. Las fuentes de informacin (bases de datos, por ej), fecha de ultima actualizacion, el crtiterio y el metodo utilizado para extraer los datos que van a ser utilizados en el experimento
102. 102 Fernn Agero Un ejemplo concreto Un investigador interesado en estudiar genes en involucrados en la interaccin hospedador-parsito, con especial inters en identificar aquellos productos que sean secretados
Un sitio web reporta los resultados de un anlisis sistemtico de expresin (usando microarrays) de todos los genes del genoma en todos los estados del ciclo de vida del parsito
El investigador puede bajar un archivo con un resumen de estos experimentos
Las secuencias de todas las protenas codificadas por el genoma se encuentran disponibles en una base de datos.
Lo que se necesita es contar con la capacidad de identificar genes que se expresen en los estados del ciclo de vida que ocurren en el hospedador y extraer las secuencias de estos genes de la base de datos
En ultima instancia el objetivo es analizar las secuencias de inters usando SignalP para predecir la posible presencia de un pptido seal
103. 103 Fernn Agero Cuestiones a tener en cuenta: Podemos hacer el trabajo a mano
Abrimos el resumen con los datos de los experimentos con microarrays en un procesador de texto
buscamos los genes que muestran expresin en el estadio de inters
Construimos una lista de genes (accession numbers)
Luego vamos a nuestra base de datos con secuencias genmicas y sus traducciones y buscamos una por una las secuencias
El ultimo paso es pasar todas las secuencias a un formato que entienda SignalP y ingresarlas una por una en el formulario correspondiente.
Hay tres problemas evidentes:
Si el nmero de genes que se expresan en nuestro estadio de interes es ms que unos cuantos el trabajo se vuelve tedioso y ms que nada lento por el tiempo que insume
Peor aun, cada vez que aparezcan nuevos resultados de microarrays o se actualicen, hay que repetir todo el procedimiento
El proceso de abrir el resumen con datos de microarrays (o la base de datos de genes) en un procesador de textos puede no ser factible si el tamao de los archivos excede los 5 o 10 MB
104. 104 Fernn Agero Programacin en biologa Cualquier persona que tenga experiencia en el diseo y llevado a cabo de experimentos para responder una pregunta puede programar una computadora
Un experimento en el laboratorio comienza con una pregunta que evoluciona hacia una hiptesis testeable
Finalmente el experimento sirve para afirmar o descartar una afirmacin
En la computadora el programa que uno escriba debe estar diseado de manera de producir resultados que respondan a este tipo de afirmaciones
Aprender un lenguaje de programacin puede resultar un desafo no trivial, pero es similar a aprender a utilizar una nueva herramienta, tecnologa u otro lenguaje (ingls, francs)
105. 105 Fernn Agero Programacin en biologa Ejemplos simples:
automatizar tareas
identificar una o ms tareas que uno quiere realizar
escribir un programa que las realice en forma automtica
Analizar todas las protenas de un genoma y seleccionar aquellas que sean (o parezcan) proteinasas
Un archivo con todas las secuencias
Una base de datos de proteinas (Swissprot, GenPept)
Un programa para buscar secuencias similares en bases de datos (BLAST)
Una serie de instrucciones a seguir (un protocolo)
106. 106 Fernn Agero Automatizar bsquedas con BLAST
107. 107 Fernn Agero Automatizar BLAST Muy lindo el diagrama, pero: cmo se hace?
Por cada secuencia de una lista de secuencias hay que:
correr la comparacin (BLAST) contra una base de datos
analizar el reporte que genera el programa y extraer dos tipos de datos:
score, expect, identidad, similitud (algn criterio cuantitativo que me sirva para tomar una decisin)
descripcin de la secuencia obtenida de la base de datos
108. 108 Fernn Agero Programacin Todo lenguaje de programacin provee construcciones para tomar decisiones:
if A then do B, else do C
if A > 100 then continue else exit
Algunos lenguajes de programacin proveen mtodos para ejecutar otros programas
salir al sistema operativo, ejecutar el programa X y tomar el output
blast secuencia vs swissprot
system( blast -i secuencia -d swissprot )
Lo ms dificil: analizar el output y tomar los datos de inters
para poder tomar decisiones (hacer comparaciones) tenemos que tener los datos en variables
109. 109 Fernn Agero Reportes de BLAST Un reporte de BLAST tal como aparece en un navegador o al ejecutar el programa en la lnea de comando (Unix) es basicamente un archivo de texto (un archivo plano o flatfile)
Ningun reporte es igual a otro. Sin embargo hay patrones similares (la apariencia de hecho es similar). Tenemos que entrenar a nuestro programa para reconocer patrones:
la primer linea contiene informacin sobre el programa
la quinta lnea contiene informacin sobre la secuencia utilizada para la bsqueda
la dcima lnea contiene informacin sobre la base de datos
la lnea que comienza con > indica el comienzo de la descripcin de un hit
etc.
110. 110 Fernn Agero Anatoma de un reporte de BLAST
111. 111 Fernn Agero Anatoma de un reporte de BLAST
112. 112 Fernn Agero Anatoma de un reporte de BLAST
113. 113 Fernn Agero Anatoma de un reporte de BLAST
114. 114 Fernn Agero Nuevos formatos Los reportes estaban diseados con un usuario (humano) en mente
Formato no estructurado
Ideal para lectura
Cada vez ms los reportes que producen distintos programas se encuentran en formatos estructurados ms fciles de analizar desde el punto de vista de la computadora
XML
ASN.1
Tabulado
Estos formatos no son amigables para un humano (no son fciles de leer)
115. 115 Fernn Agero Representacin de la informacin
116. 116 Fernn Agero Representacin de la informacin
117. 117 Fernn Agero Analizando un reporte de BLAST Nuestro programa ya ley el reporte
Y almacen los valores que le pedimos en distintas variables
Ahora podemos hacerle hacer lo que querramos:
(en pseudocdigo):
if $score < 100 { read next report }
else { print $accession }
if $description =~ proteinase { print $accession} else { read next report }
if $score < 100 AND $description =~ proteinase
{ print $accession }
else { read next report }
118. 118 Fernn Agero Mdulos de software reusables Resumiendo:
nuestro programa tiene que poder leer el reporte (FACIL)
identificar dentro del reporte distintos elementos y almacenarlos en variables (MAS COMPLICADO)
tomar decisiones en base a los valores contenidos en las variables y realizar acciones (imprimir algo en pantalla, almacenar datos en un archivo, base de datos, etc.) (Criterio del usuario)
El criterio del usuario es lo que va a hacer que el programa sirva para un fin u otro
Es evidente que los pasos 1 y 2 van a ser necesarios para cualquier programas que intenten procesar reportes de BLAST
solo hay que programarlos una vez
modulos reusables (subrutinas)
119. 119 Fernn Agero Bibliotecas de modulos reusables Perl, Python, Java, C
en general todos los lenguajes proveen bibliotecas de mdulos reusables
el mdulo contiene cdigo que realiza ciertas operaciones
no es necesario saber como funciona internamente el mdulo para poder usarlo
solo necesitamos saber que datos necesita (por ejemplo: una secuencia) y que resultados produce (un valor: 135, una respuesta: SI/NO)
En el caso de aplicaciones biolgicas
BioPerl
BioPython
BioJava
Otros
120. 120 Fernn Agero Pipelines Qu es un pipeline?
Una lnea automatizada de anlisis
121. 121 Fernn Agero Pipelines: ejemplos Sistemas de anotacin automtica de genomas
Ensembl - http://www.ensembl.org
UCSC Genome Browser - http://genome.ucsc.edu
ORNL Genome Channel - http://compbio.ornl.gov/channel
HAMAP - http://us.expasy.org/sprot/hamap
122. 122 Fernn Agero Estrategia HAMAP
126. 126 Fernn Agero Consideraciones prcticas La bioinformtica es ms barata que el trabajo en el laboratorio
El equipamiento es significativamente ms barato que el de un laboratorio de biologa molecular
Los materiales (programas) y reactivos (datos) son en general gratuitos y libremente accesibles
Almacenamiento
La cantidad y tipos de bases de datos que se planean instalar (ejemplo: GenBank actualmente requiere 120 GB)
La cantidad y tipo de datos que se planean generar
Memoria y Procesador
Los requerimientos de los distintos mtodos
BLAST es principalmente memoria-intensivo
HMMER es principalmente procesador-intensivo
127. 127 Fernn Agero Consideraciones prcticas Backup
CD
Cinta
Un segundo disco
Software
Sistema operativo: unix
Paquetes: BLAST, FASTA, etc
Software de manejo de bases de datos: MySQL, PostgreSQL
Lenguajes de proramacin: Perl, Java, Python, C, C++
Para un laboratorio chico una PC con un disco un poco ms grande y un poco ms de memoria que lo comn pueden ser suficientes
128. 128 Fernn Agero Con respecto a la protozoologa Los genomas de varios protozoarios estn terminados o cerca de estarlo
Plasmodium falciparum, berghei, chabaudi, knowlesi
Toxoplasma gondii
Trypanosomatidos (T. cruzi, T. brucei, L. major)
Algunos otros se encuentran en distintos estados
Entamoeba hystolytica
Theileria annulata
Babesia bovis
Eimeria tenella
En algunos casos hay proyectos post-genmicos en curso o recin comenzando
Proteomics
Microarrays
RNAi
129. 129 Fernn Agero Bibliografa sugerida Developing Bionformatics Computer Skills
OReilly & Associates
Bioinformatics. Sequence and genome analysis.
CSHL Press
Bioinformatics, a practical guide to the analysis of genes and proteins
Wiley InterScience