1 / 79

Utilizando Inteligência Artificial em Bioinformática

Utilizando Inteligência Artificial em Bioinformática. Prof. André de Carvalho LABIC - Universidade de São Paulo. Principais tópicos. Introdução Bioinformática Biologia Molecular Reconhecimento de Genes Utilizando Inteligência Artificial Conclusão. IA e Bioinformática.

dmitri
Télécharger la présentation

Utilizando Inteligência Artificial em Bioinformática

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Utilizando Inteligência Artificial em Bioinformática Prof. André de Carvalho LABIC - Universidade de São Paulo

  2. Principais tópicos • Introdução • Bioinformática • Biologia Molecular • Reconhecimento de Genes • Utilizando Inteligência Artificial • Conclusão

  3. IA e Bioinformática Redes Neurais, Algorítmos genéticos BIOLOGIA COMPUTAÇÃO Bioinformática

  4. Definições • Bioinformática • Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia • Biologia molecular A Computação está para a Biologia da mesma forma que a Matemática está para a Física. Harold Morowitz

  5. Bioinformática • Nos últimos anos, diversos laboratórios têm trabalhado no seqüenciamento de vários genomas • Até o ano 2000: • Mais que 30 organismos tinham sido seqüenciados • Cerca de 150 organismos estavam sendo seqüenciados • Determinação da seqüência de nucleotídeos em uma molécula é o primeiro passo para entender seu funcionamento • Beneficia várias áreas • Medicina - Farmácia - Agricultura

  6. Crescimento do GenBank

  7. Andamento de projetos genoma • 73 genomas completos publicados • Humano • Camundongo • Drosophila • Arabidopsis • Levedura • 212 de procariotos em andamento • 157 de eucariotos em andamento

  8. Fração do genoma da levedura CCACACCACACCCACACACCCACACACCACACCACACACCACACCACACCCACACACACACATCCTAACACTACCCTAACACAGCCCTAATCTAACCCTGGCCAACCTGTCTCTCAACTTACCCTCCATTACCCTGCCTCCACTCGTTACCCTGTCCCATTCAACCATACCACTCCGAACCACCATCCATCCCTCTACTTACTACCACTCACCCACCGTTACCCTCCAATTACCCATATCCAACCCACTGCCACTTACCCTACCATTACCCTACCATCCACCATGACCTACTCACCATACTGTTCTTCTACCCACCATATTGAAACGCTAACAAATGATCGTAAATAACACACACGTGCTTACCCTACCACTTTATACCACCACCACATGCCATACTCACCCTCACTTGTATACTGATTTTACGTACGCACACGGATGCTACAGTATATACCATCTCAAACTTACCCTACTCTCAGATTCCACTTCACTCCATGGCCCATCTCTCACTGAATCAGTACCAAATGCACTCACATCATTATGCACGGCACTTGCCTCAGCGGTCTATACCCTGTGCCATTTACCCATAACGCCCATCATTATCCACATTTTGATATCTATATCTCATTCGGCGGTCCCAAATATTGTATAACTGCCCTTAATACATACGTTATACCACTTTTGCACCATATACTTACCACTCCATTTATATACACTTATGTCAATATTACAGAAAAATCCCCACAAAAATCACCTAAACATAAAAATATTCTACTTTTCAACAATAATACATAAACATATTGGCTTGTGGTAGCAACACTATCATGGTATCACTAACGTAAAAGTTCCTCAATATTGCAATTTGCTTGAACGGATGCTATTTCAGAATATTTCGTACTTACACAGGCCATACATTAGAATAATATGTCACATCACTGTCGTAACACTCTTTATTCACCGAGCAATAATACGGTAGTGGCTCAAACTCATGCGGGTGCTATGATACAATTATATCTTATTTCCATTCCCATATGCTAACCGCAATATCCTAAAAGCATAACTGATGCATCTTTAATCTTGTATGTGACACTACTCATACGAAGGGACTATATCTAGTCAAGACGATACTGTGATAGGTACGTTATTTAATAGGATCTATAACGAAATGTCAAATAATTTTACGGTAATATAACTTATCAGCGGCGTATACTAAAACGGACGTTACGATATTGTCTCACTTCATCTTACCACCCTCTATCTTATTGCTGATAGAACACTAACCCCTCAGCTTTATTTCTAGTTACAGTTACACAAAAAACTATGCCAACCCAGAAATCTTGATATTTTACGTGTCAAAAAATGAGGGTCTCTAAATGAGAGTTTGGTACCATGACTTGTAACTCGCACTGCCCTGATCTGCAATCTTGTTCTTAGAAGTGACGCATATTCTATACGGCCCGACGCGACGCGCCAAAAAATGAAAAACGAAGCAGCGACTCATTTTTATTTAAGGACAAAGGTTGCGAAGCCGCACATTTCCAATTTCATTGTTGTTTATTGGACATACACTGTTAGCTTTATTACCGTCCACGTTTTTTCTACAATAGTGTAGAAGTTTCTTTCTTATGTTCATCGTATTCATAAAATGCTTCACGAACACCGTCATTGATCAAATAGGTCTATAATATTAATATACATTTATATAATCTACGGTATTTATATCATCAAAAAAAAGTAGTTTTTTTATTTTATTTTGTTCGTTAATTTTCAATTTCTATGGAAACCCGTTCGTAAAATTGGCGTTTGTCTCTAGTTTGCGATAGTGTAGATACCGTCCTTGGATAGAGCACTGGAGATGGCTGGCTTTAATCTGCTGGAGTACCATGGAACACCGGTGATCATTCTGGTCACTTGGTCTGGAGCAATACCGGTCAACATGGTGGTGAAGTCACCGTAGTTGAAAACGGCTTCAGCAACTTCGACTGGGTAGGTTTCAGTTGGGTGGGCGGCTTGGAACATGTAGTATTGGGCTAAGTGAGCTCTGATATCAGAGACGTAGACACCCAATTCCACCAAGTTGACTCTTTCGTCAGATTGAGCTAGAGTGGTGGTTGCAGAAGCAGTAGCAGCGATGGCAGCGACACCAGCGGCGATTGAAGTTAATTTGACCATTGTATTTGTTTTGTTTGTTAGTGCTGATATAAGCTTAACAGGAAAGGAAAGAATAAAGACATATTCTCAAAGGCATATAGTTGAAGCAGCTCTATTTATACCCATTCCCTCATGGGTTGTTGCTATTTAAACGATCGCTGACTGGCACCAGTTCCTCATCAAATATTCTCTATATCTCATCTTTCACACAATCTCATTATCTCTATGGAGATGCTCTTGTTTCTGAACGAATCATAAATCTTTCATAGGTTTCGTATGTGGAGTACTGTTTTATGGCGCTTATGTGTATTCGTATGCGCAGAATGTGGGAATGCCAATTATAGGGGTGCCGAGGTGCCTTATAAAACCCTTTTCTGTGCCTGTGACATTTCCTTTTTCGGTCAAAAAGAATATCCGAATTTTAGATTTGGACCCTCGTACAGAAGCTTATTGTCTAAGCCTGAATTCAGTCTGCTTTAAACGGCTTCCGCGGAGGAAATATTTCCATCTCTTGAATTCGTACAACATTAAACGTGTGTTGGGAGTCGTATACTGTTAGGGTCTGTAAACTTGTGAACTCTCGGCAAATGCCTTGGTGCAATTACGTAATTTTAGCCGCTGAGAAGCGGATGGTAATGAGACAAGTTGATATCAAACAGATACATATTTAAAAGAGGGTACCGCTAATTTAGCAGGGCAGTATTATTGTAGTTTGATATGTACGGCTAACTGAACCTAAGTAGGGATATGAGAGTAAGAACGTTCGGCTACTCTTCTTTCTAAGTGGGATTTTTCTTAATCCTTGGATTCTTAAAAGGTTATTAAAGTTCCGCACAAAGAACGCTTGGAAATCGCATTCATCAAAGAACAACTCTTCGTTTTCCAAACAATCTTCCCGAAAAAGTAGCCGTTCATTTCCCTTCCGATTTCATTCCTAGACTGCCAAATTTTTCTTGCTCATTTATAATGATTGATAAGAATTGTATTTGTGTCCCATTCTCGTAGATAAAATTCTTGGATGTTAAAAAATTATTATTTTCTTCATAAAGAAGCTTTCAAGATATAAGATACGAAATAGGGGTTGATAATTGCATGACAGTAGCTTTAGATCAAAAAGGAAAGCATGGAGGGAAACAGTAAACAGTGAAAATTCTCTTGAGAACCAAAGTAAACCTTCATTGAAGAGCTTCCTTAAAAAATTTAGAATCTCCCATGTCAACGGGTTTCCATACCTCCCCAGCATCATACATCTTTTTTCAAAGAAACTTCAAATGCCTCTTTTATGCAAGGGGCAAAATCCTGAAATGACTTAAACTTAGCAGTTTCGTCTTTTTTCAAAGAGAATGGTTGAAGAAGAATTGTTTTGGACGCTTATTGACAATCTGTTGCATTGATAAAGTACCTACTATCCCAGACTATATTTGTATACAAGTACAAAATTAGGTTTGTTGAAACAACTTTCCGATCATTGGTGCCCGTATCTGATGTTTTTTTAGTAATTTCTTTGTAAATACAGGGAGTTGTTTCGAAAGCTTATGAGAAAAATACATGAATGACAGGTAAAAATATTGGCTCGAAAAAGAGGACAAAAAGAGAAATCATAAATGAGTAAACCCACTTGCTGGACATTATCCAGTAAAGGCTTGGTAGTAACCATAATATTACCCAGGTACGAAACGCTAAGAACCTTGAAAGACTCATAAAACTTCCAGGTTAAGCTATTTTTGAAAATATTCTGAGGTAAAAGCCATTAAGGTCCAGATAACCAAGGGACAATAAACCTATGCTTTTCTTGTCTTCAATTTCAGTATCTTTCCATTTTGATAATGAGCATGTGATCCGGAAAGCTACTTTATGATGTTTCAAGGCCTGAAGTTTGAATATTTATGTAGTTCAACATCAAATGTGTCTATTTTGTGATGAGGCAACCGTCGACAACCTTATTATCGAAAAAGAACAACAAGTTCACATGCTTGTTACTCTCTATAACTAGAGAGTACTTTTTTTGGAAGCAAGTAAGAATAAGTCAATTTCTACTTACCTCATTAGGGAAAAATTTAATAGCAGTTGTTATAACGACAAATACAGGCCCTAAAAAATTCACTGTATTCAATGGTCTACGAATCGTCAATCGCTTGCGGTTATGGCACGAAGAACAATGCAATAGCTCTTACAAGCCACTACATGACAAGCAACTCATAATTTAA

  9. Bioinformática • Ênfase está se deslocando progressivamente da acumulação de dados para a sua interpretação • Com os seqüenciamentos realizados, uma grande quantidade de dados tem sido gerada • Estes dados precisam agora ser analisados • Análise laboratorial destes dados é difícil e cara • Ferramentas computacionais sofisticadas são necessárias para a análise dos dados obtidos

  10. Bioinformática • Para muitas destas análises, as ferramentas computacionais precisam lidar com dados imprecisos e ruidosos • Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões • Na medição dos valores ou definição das classes • Inteligência Artificial fornecem técnicas eficientes para lidar com problemas deste tipo

  11. Biologia Molecular • Estudo das células e moléculas • Em particular: genoma dos organismos • Estruturas principais: • Genes • Cromossomos • DNA • RNA • Proteínas Expressão Gênica nucleotídeos aminoácidos

  12. Biologia Molecular • Dogma central da Biologia Molecular • Transferência de Informação Replicação DNA Transcrição RNA Tradução Proteínas

  13. Biologia Molecular • Algumas descobertas posteriores contradizem este dogma: • RNA pode sofrer replicação em alguns vírus e plantas • RNA viral, através de uma enzima denominada transcriptase reversa, pode ser transcrito em DNA • DNA pode traduzir diretamente proteínas específicas • Sem passar pelo processo de transcrição

  14. Biologia Molecular • DNA (Ácido Desoxirribonucleico) • O DNA é uma molécula formada por duas fitas (dupla fita) que se entrelaçam formando uma hélice dupla • DNA é composto de quatro nucleotídeos diferentes • Adenina, Citosina, Guanina e Timina • Fitas são mantidas juntas por ligações que conectam cada nucleotídeo de uma fita ao seu complemento na outra • A se liga com T e C se liga com G

  15. Biologia Molecular • Genes • Subseqüências de DNA • Localizados no cromossomo • Servem como molde para a produção de proteínas • Encaixadas entre os genes estão segmentos chamados de regiões não codificadoras

  16. Biologia Molecular • Proteínas • Definem estrutura, função e mecanismos regulatórios das células • Exemplos de mecanismos regulatórios: controle do ciclo celular, transcrição gênica • Seqüências lineares • Combinações de 20 aminoácidos diferentes • Três nucleotídeos (codon) formam um aminoácido

  17. Biologia Molecular

  18. Biologia Molecular • Expressão gênica • Processo pelo qual genes são usados para produzir proteínas • Mecanismos de expressão gênica são diferentes para organismos: • Eucariotos • Material genético difuso nas células (Ex.: bactérias) • Procariotos • Material genético em um núcleo (Ex.: seres humanos)

  19. Processo de expressão gênica • Transcrição • RNA polimerase é a molécula (enzima) que transcreve DNA em RNA • RNA polimerase começa a transcrição após se ligar a um sinal regulatório no DNA chamado promotor • Gera molécula de RNA mensageiro (mRNA)

  20. Processo de expressão gênica • Transcrição depende do organismo • Organismos eucariotos • Cada gene é transcrito independentemente • Existe um promotor antes de todo gene • Organismos procariotos • Vários genes consecutivos podem ser transcritos em uma única molécula de RNA • Não existe necessariamente um promotor antes de cada gene

  21. Processo de expressão gênica • Tradução • Sintetiza uma proteína utilizando como forma mRNA • Leitura do mRNA é feita por uma molécula chamada de ribossomo • Mensagem lida é utilizada para montar uma cadeia de proteína • Tripla de nucleotídeos consecutivos (codon) codifica um aminoácido • Código genético: mapeamento de codons em aminoácidos

  22. Processo de expressão gênica G C A G C T C C G G A C T C C A T . . . DNA RNA Polimerase T Transcrição promotor mRNA A

  23. Processo de expressão gênica T GC A G C T C C G G A C T C C A T . . . DNA RNA Polimerase Transcrição promotor mRNA A CGU C G A G G C C U G A G G U A . . .

  24. Ribossomo Tradução Processo de expressão gênica DNA T G C A G C T C C G G A C T C C A T . . . RNA Polimerase promotor Transcrição mRNA A C G U C G A G G C C U G A G G U A . . . A C G Thr

  25. Processo de expressão gênica DNA T G C A G C T C C G G A C T C C A T . . . RNA Polimerase Transcrição promotor mRNA A C G U C G A G G C C U G A G G U A . . . Tradução Ribossomo Ser His Ser Gly Leu Cys

  26. Processo de expressão gênica • Estrutura de leitura • Para uma dada faixa de DNA, nucleotídeos podem ser agrupados em triplas de três formas diferentes • Um dos nucleotídeos pode ocupar a 1a, 2a ou 3a posição em um codon • Apenas um destes três possíveis agrupamentos é realmente lido pelo ribossomo • O agrupamento lido é chamado de estrutura de leitura do gene A T T A C G A A G

  27. Processo de expressão gênica • Em organismos eucariotos, existe um outro passo importante durante o processo de expressão gênica • Após o DNA ser transcrito, certas partes da molécula são eliminadas antes de sua transformação em proteína • Genes em eucariotos são formados por segmentos alternados de exons e introns

  28. Regiões de splice • Exons: • Seqüências de nucleotídeos que são expressas (traduzidas em proteínas) • Introns: • Seqüências intercaladas que são eliminadas na tradução • Regiões de splice (splice-junctions): • Pontos de fronteira onde ocorrem junções de exons e introns • Doadoras: bordas exon-intron • Aceptoras: bordas intron-exon

  29. Splice-junctions DNA doador aceptor Transcrição mRNA exon intron Splicing mRNA

  30. Biologia Molecular e IA • Problemas da Biologia Molecular que podem ser tratados por IA • Reconhecimento de genes • Construção de árvores filogenéticas • Análise de expressão gênica • Previsão de estruturas de proteínas • Análise de interação entre genes • Montagem de fragmentos • Alinhamento de seqüências

  31. Reconhecimento de genes • Um dos principais problemas em biologia molecular é a identificação de genes em seqüências de DNA não caracterizadas • Algoritmos convencionais não têm sido eficientes • Variação natural dos genes • Complexidade dos genes • Natureza pouco compreendida dos genes • Abordagem promissora: Aprendizado de Máquina

  32. Reconhecimento de genes • Duas abordagens principais têm sido seguidas: • Busca por sinal • Busca por conteúdo

  33. Reconhecimento de genes • Busca por sinal • Localiza genes indiretamente • Procura sinais particulares relacionados com a expressão de genes • Sinal • Região localizada do DNA que realiza uma função específica (exemplo: se liga a uma enzima)

  34. Reconhecimento de genes • Busca por conteúdo • Reconhece genes diretamente • Identifica segmentos de seqüências de DNA que possuem as propriedades gerais de regiões codificadoras • Se baseia no conhecimento das diferentes propriedades estatísticas de regiões codificadoras e não codificadoras

  35. Busca por sinal • É importante não apenas entender a função de cada gene • Mas também os mecanismos que regulam a expressão do gene • Vários sinais exercem importantes funções regulatórias definindo: • Condições sob as quais os genes são expressos • Taxa com a qual a expressão ocorre

  36. Busca por sinal • Detecção de sinal já é um problema em si • Vários sinais que podem ser identificados em seqüências de nucleotídeos são importantes para a identificação de genes • Sítios de início de transcrição (promotores) • Sítios de término de transcrição (terminadores) • Sítios de splice-junction • Sítios de início da tradução (codons de iniciação) • Sítios de término da tradução (codons de parada ou stop codons)

  37. Busca por sinal • Diferentes sinais têm diferentes dificuldades de identificação • Codons de parada são facilmente identificados • Identificação de outros sinais é mais complicada • Busca por sinal é uma tarefa de classificação • Dada uma janela de tamanho fixo de um DNA, determinar se ela contém um sinal de interesse • Se uma característica identificável do sinal ocupa uma posição particular na janela

  38. Busca por sinal Promotor na posição 3? Classificador Posição 1 = ‘C’ Posição 2 = ‘T’ Posição 3 = ‘T’ Posição 4 = ‘A’ Posição 5 = ‘C’ Posição 6 = ‘G’ Representação das características Seqüência de DNA ... A T C G T G C T T A C G C G T C C A 1 2 3 4 5 6

  39. Reconhecimento de início da tradução • Reconhece codons de iniciação • Tradução de mRNA em proteína não começa com sua primeira tripla de nucleotídeos • Em organismos procariotos, uma simples molécula de mRNA pode ter vários sítios de início de tradução • Genes consecutivos podem ser transcritos em uma única cadeia de mRNA

  40. Reconhecimento de promotores • Sinal regulatório de uma molécula de DNA onde RNA polimerase se liga para começar a transcrição • RNA polimerase é uma molécula que transcreve DNA em RNA • Auxilia na localização de genes no DNA • Existem sítios amplamente aceitos como sendo as regiões que fornecem as carecterísticas definidoras de promotores • Regiões 10 e 35

  41. Busca pelo conteúdo • Identifica genes reconhecendo padrões que que ocorrem na sua seqüência de nucleotídeos • Regiões do DNA que serão traduzidas em proteínas • Organismos procariotos: distinguir genes de regiões não codificadoras • Organismos eucariotos: distinguir também introns de exons • Janelas de tamanho fixo também são utilizadas para esta previsão

  42. Busca pelo conteúdo • Busca por conteúdo procura responder as seguintes perguntas: • Quais são as regiões codificadoras • Para uma dada região, que faixa e qual estrutura de leitura codifica a proteína • Várias propriedades podem ser exploradas para distinguir regiões codificadoras de não codificadoras

  43. Busca pelo conteúdo • Propriedades que podem ser exploradas: • Alguns aminoácidos são usados mais freqüentemente que outros em regiões codificadoras • A existência de diferentes números de codons para aminoácidos diferentes • Codons que mapeiam em um dado aminoácido não são usados igualmente na maioria dos organismos • Não podem conter codons de parada • Alguns codons têm maior probabilidade de serem vizinhos

  44. Reconhecimento de genes • Abordagens mais promissoras em reconhecimento de genes: • Combinam previsão de vários sinais diferentes e regiões codificadoras • Reconhecimento de operons • Genes consecutivos que são ativados ou desativados em conjunto

  45. Redes Neurais Artificiais • Sistemas computacionais distribuídos baseados na estrutura e funcionamento do sistema nervoso • Nodos simulam neurônios • Conexões ponderadas simulam sinapses • Definidas por • Arquitetura • Aprendizado

  46. Redes Neurais Artificiais camadas intermediárias camada de entrada camada de saída conexões

  47. A A A C C C G G G T T T Redes Neurais Artificiais • Stormo et al (1982): reconhecimento de sítios de início de tradução no DNA de bactérias E. Coli • Primeira aplicação de Redes Neurais em Bioinformática • Utilizou rede Perceptron ... A T C G T G C T T A C G C G C G T ...

  48. Trabalho Problema abordado Towell et al (1990) Sítios de início de transcrição Uberbacher et al (1993) Servidor GRAIL - identificação de genes Riis et al (1995) Polyac et al (1992) Previsão de estrutura de proteínas Ma e Wang (1999) Bajic et al. (2002) Reconhecimento de promotores Rampone (1998) Reconhecimento de regiões de splicing Redes Neurais Artificiais

  49. Algoritmos Genéticos • Técnica de busca e otimização • Baseados na genética e teoria da seleção natural • Utiliza uma população de soluções candidatas (indivíduos) • A cada indivíduo é associado um escore de aptidão, que mede o quão boa é a solução que ele representa • Otimização ocorre em várias gerações • A cada geração • Mecanismos de seleção selecionam os indivíduos mais aptos • Operadores de reprodução geram novos indivíduos

  50. Algoritmos Genéticos População inicial População final Avaliação Seleção População atual Reprodução

More Related