1 / 117

Fernando Von Zuben vonzuben@dca.fee.unicamp.br

DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO INDUSTRIAL. FACULDADE DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO. UNICAMP. Técnicas Computacionais de Alto Desempenho para Processamento de Dados em Bioinformática e em Biologia Computacional. Fernando Von Zuben vonzuben@dca.fee.unicamp.br.

verne
Télécharger la présentation

Fernando Von Zuben vonzuben@dca.fee.unicamp.br

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DEPARTAMENTO DE ENGENHARIA DE COMPUTAÇÃO E AUTOMAÇÃO INDUSTRIAL FACULDADE DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO UNICAMP Técnicas Computacionais de Alto Desempenho para Processamento de Dados em Bioinformática e em Biologia Computacional Fernando Von Zuben vonzuben@dca.fee.unicamp.br http://www.lbic.fee.unicamp.br CAMPINAS - BRASIL

  2. Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais

  3. Colaboradores • Clodoaldo Aparecido de Moraes Lima • George Barreto Pereira Bezerra • Helder Knidel • Lalinka de Campos Teixeira Gomes • Leandro Nunes de Castro Silva • Pablo Alberto Dalbem de Castro • Wilfredo Jaime Puma Villanueva

  4. Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais

  5. Bioinformática (definições extraídas da Web) Bioinformatics is currently defined as the study of information content and information flow in biological systems and processes. It has evolved to serve as the bridge between observations (data) in diverse biologically-related disciplines and the derivations of understanding (information) about how the systems or processes function, and subsequently the application (knowledge). A more pragmatic definition in the case of diseases is the understanding of dysfunction (diagnostics) and the subsequent applications of the knowledge for therapeutics and prognosis.

  6. Bioinformática (definições extraídas da Web) The design and application of computer and statistical techniques to the management of biological information. In genome projects this includes the development of methods to search databases quickly, to analyze DNA sequence information, and to predict protein sequence and structure from DNA sequence data.

  7. Bioinformática (definições extraídas da Web) Bioinformatics derives knowledge from computer analysis of biological data. It concerns large-volumes of biological information, recently genomic sequences, gene expression data from microarrays, protein-interactions, and three-dimensional ("3D") macromolecular structure, but in a broader sense includes various other sources such as clinical trial data. Bioinformatics encompasses research with, and applications of such information, as well as the development of the supporting computational methods and tools.

  8. Bioinformática (definições extraídas da Web) The field of science in which biology, computer science, and information technology merge into a single discipline. There are three important sub-disciplines within bioinformatics: (1) the development of new algorithms and statistics with which to assess relationships among members of large data sets; (2) the analysis and interpretation of various types of data including nucleotide and amino acid sequences, protein domains, and protein structures; and (3) the development and implementation of tools that enable efficient access and management of different types of information.

  9. Áreas correlatas Bioinformática  Biologia Computacional  Computação Biomédica  Biomatemática

  10. Further steps “I believe that Bioinformatics and Computational Biology training programs are better led from a Biological, rather than a Computer Science, perspective. Although Bioinformatics databases, web sites, and analysis pipelines present interesting engineering problems, the most interesting problems from a Computer Science perspective, which are often rooted in machine-learning or combinatorial algorithms, have not produced the tools that have the greatest impact for Biologists.” William R. Pearson, University of Virginia

  11. Pesquisa no LBiC • Execução de pesquisa em ciência da computação voltada para problemas da biologia. • Concepção de paradigmas computacionais baseados em sistemas biológicos: computação bio-inspirada. • Colaboração com outros grupos de pesquisa, inclusive biólogos • Atuação em outras linhas da engenharia de computação, como robótica autônoma e aprendizado de máquina.

  12. Pesquisa no LBiC • Ferramentas computacionais para bioinformática: • Manipular grande quantidade de dados • Integrar módulos de processamento • Realizar data mining • Organizar e visualizar resultados • Apoio em modelagem e validação de teorias

  13. Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais

  14. Aspectos Computacionais • Problemas computáveis e problemas factíveis • Blocos construtivos de qualquer algoritmo • Como lidar com problemas intratáveis • Desafio computacional • Problemas combinatórios • Problemas multimodais

  15. Problemas Computáveis e Problemas Factíveis

  16. Uma questão de organização Os computadores foram concebidos de modo a realizar processamento e memória em dispositivos físicos distintos.

  17. Organização de um Computador

  18. Organização de um Computador

  19. Organização de um Computador

  20. . . . instrução ou grupo de intruções p instrução 1 instrução 1 instrução 2 seleção seleção . . . instrução 2.2 instrução 2.1 instrução p+1 . . . . . . instrução n . . . Blocos construtivos de qualquer algoritmo

  21. Problemas Computáveis e Problemas Factíveis

  22. Uma questão prática • Como lidar com problemas computáveis mas intratáveis?

  23. O Problema do Quadrado Mágico

  24. Uma resposta direta • Trabalhar com algoritmos aproximados em lugar de algoritmos exatos.

  25. Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca

  26. Otimização combinatória

  27. Proposta de solução

  28. Otimização Multimodal

  29. O que é ciência da computação? • Programação (algoritmos) • Estrutura de dados • Complexidade • Redes e sistemas distribuídos • Interação humano-máquina • Sistemas inteligentes • Gerenciamento de informação • Ciência aplicada

  30. Estado da arte • Science in the 21st century is information intensive. Peter Karp

  31. Conteúdo da Apresentação • Bioinformática • Aspectos computacionais • Árvores Filogenéticas • Expressão Gênica • Seleção de Características • Reconhecimento de Padrões • Inferência bayesiana • Modelagem de fenômenos espaço-temporais

  32. Árvores Filogenéticas • Introdução • Tipos de Filogenia • Explosão combinatória • Métodos disponíveis • Phylogenetic Tree Project • Multi-Neighbor-Joining • Visualização de árvores

  33. Introdução • O que é inferência filogenética? Relação de ancestralidade. Número de mudanças desde a divergência do ancestral comum mais recente. Topologia Comprimento do ramo

  34. Tipos de filogenia • Molecular  Não-molecular • Fenética (baseada em métricas de similaridade)  Cladística (baseada em caracteres) • Baseada em modelo  Não-baseada em modelo • Construtiva (Algorítmica)  Baseada em busca

  35. Raiz 0,04269 0,02883 8 9 0,02866 0,0000 0,23497 0,01234 7 Homem Chimpanzé Gorila 0,080314 0,13974 Orangotango Gibão Explosão combinatória

  36. Explosão combinatória

  37. A B C D D B A C Árvores com e sem raiz Contém noção de ordem temporal. Não contém noção de ordem temporal.

  38. Alguns métodos disponíveis • Métodos não baseados em modelo • Matriz de distâncias • UPGMA (unweighted pair-group method using an arithmetic average) – Sokal & Michener (1958) • Quadrados mínimos • Ordinário - Cavalli-Sforza & Edwards (1967) • Ponderado - Fitch-Margoliash(1967) • Evolução mínima - Edwards & Cavalli-Sforza (1963) • Neighbor-Joining - Saitou & Nei (1987) • Máxima Parcimônia - Eck & Dayhoff (1966) • Método baseado em modelo • Máxima Verossimilhança – Cavalli-Sforza & Edwards (1964)

  39. Inferindo filogenias Como reconstruir árvores filogenéticas? Reconstrução da árvore Algorítmica Baseada em busca Parcimônia Distância Maximum Likelihood UPGMA WPGMA Neighbor Joining

  40. Phylogenetic Tree Project

  41. A 1 (6) A 2 (7) A 3 (8) E 1 (1) E 2 (2) E 3 (3) A 4(9) E 4 (4) E 5(5) E 5 (5) A 4 (9) E 1 (1) E 2 (2) E 3 (3) E 4 (4) A 1 (6) A 2 (7) A 3 (8) Pais A 1 (6) A 2 (7) A 3 (8) A 4 (9) Codificação utilizada

  42. Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca

  43. Phylogenetic Tree Project

  44. Phylogenetic Tree Project

  45. Inferindo filogenias Como reconstruir árvores filogenéticas? Reconstrução da árvore Algorítmica Baseada em busca Parcimônia Distância Maximum Likelihood UPGMA WPGMA Neighbor Joining

  46. A B C D E A 0 22 39 39 41 D C D DE E ABC Z d B 22 0 41 41 43 C D - - 19 10 32,6 40 Lxy e C 39 41 0 18 20 x y E DE - - - - 34,6 41 D A 4 E 28,6 D 39 41 18 0 10 Z ABC - - - - - - B 6 E E 41 43 20 10 0 C A B A B C DE C E A - 22 39 40 D B - 41 42 C - 19 DE - A B P A A - 22 39,6 C D A a 4 10 9 B - 41,6 Lqp b 5 q p P - 6 12 B E B DE Neighbor-Joining passo-a-passo Lxy + d = 32,6 Lxy + e = 34,6 d + e = 10 Lxy = 28,6 d = 4 e = 6 LDE + c = 19 Lzw + c = 40 LDE + Lzw = 41 Lzw = 5 LDE = 10 C = 9 DE LDE C Lzw D A 4 c z w 5 C 6 E B Lqp + a = 39,6 Lqp + b = 41,6 a + b = 22 Lqp = 29,7 a = 10 b = 12 Lqw = Lqw = 20

  47. 1 2 3 5 4 1 5 6 1 3 1 2 4 3 4 4 1 4 2 2 3 2 5 5 5 3 1 3 7 6 4 2 5 3 1 4 7 6 1 4 4 4 3 1 2 5 2 2 2 5 5 5 3 1 3 1 2 5 4 3 Multi-Neighbor-Joining: Algoritmo com múltiplas decisões de junção (1,2) (1,3) (2,4) . . . . . . . . . . . . . . .

  48. Múltiplas perspectivas Topologia fornecida pelo NJ original (à esquerda) e duas propostas alternativas para sub-ramos (à direita)

  49. Ferramenta de visualização para árvores sem raiz Fitness Function: 1) Number of crossing branches; 2) Angle between branches; 3) Descendents and anscestral alignments. Input: code in Newick Format • Tree visualization as an • optimization problem; • Use of Evolution Strategies • to solve the optimization problem; Output: Unrooted tree

  50. Desafio computacional Espaço de Busca + Objetivo(s) Máquina de busca

More Related