1 / 51

Inferência de redes gênicas por métodos de seleção de características

Inferência de redes gênicas por métodos de seleção de características. David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC) david.martins@ufabc.edu.br. Sumário. Processos celulares (systems biology)  redes de regulação gênica (GRN)

sela
Télécharger la présentation

Inferência de redes gênicas por métodos de seleção de características

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Inferência de redes gênicas por métodos de seleção de características David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC) david.martins@ufabc.edu.br

  2. Sumário • Processos celulares (systems biology)  redes de regulação gênica (GRN) • Motivação para pesquisas em inferência de GRNs • Conceitos básicos de GRN • Inferência de GRN por seleção de características • Pesquisas em andamento

  3. Célula Proteínas Vias metabólicas Núcleo Tradução DNA mRNA Transporte Transcrição

  4. Sequenciamento em larga escala (high throughput sequencing) • Arrays de expressão gênica (1995) Microarray

  5. Motivação • Controle celular: resultado de atividade multivariada entre genes • Modelagem de interação multivariada para propósitos terapêuticos e criação de novas drogas • Inferência de parâmetros de uma rede regulatória a partir de dados experimentais é um dos grandes desafios da bioinformática

  6. Motivação • Conhecer leis gerais sobre essas redes • Identificar grupos de genes associados a determinadas características bioquímicas • Investigar a possibilidade de controlar suas dinâmicas e qual a melhor maneira (mais prática, menos custosa, etc) de fazer isso

  7. Motivação – Systems Biology • Área interdisciplinar que estuda a rede complexa de interações que ocorrem em sistemas biológicos • Desenvolvimento de modelos e abordagens para desvendar propriedades emergentes de células, tecidos e órgãos, que funcionam como um sistema integrado • Tipicamente envolve • estudos de regulação gênica, metabólica e de redes de sinalização celular • integração e análise de massivos conjuntos de dados complexos e heterogêneos • Big Data • diversas plataformas (“ômicas”) • genômica, transcriptômica, proteômica, metabolômica, epigenômica, interferômica, glicômica, lipdômica, interatômica, fluxômica, biômica, semiômica, etceterômica...

  8. Redes de regulação gênica • Redes de regulação gênica (Gene Regulatory Networks – GRN) • Podem ser vistos como redes de interação gênica nas quais o nível de expressão de um gene é controlado pelos níveis de expressão de outros genes • Sinal de expressão gênica: quantidade de mRNA transcrito • Principais tecnologias de medição de expressão gênica: microarrays, SAGE, RNASeq

  9. Motivação • Desafios: • Poucas observações (dezenas) para muitas variáveis (milhares) • Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) • Natureza dos dados • Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas • introdução de ruidos ao longo do processo

  10. Microarray: formato dos dados Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . . . GeneN 3.45 1.12 0.24 0.67 ... 1.98 2.05 4.77 0.54 2.14 ... 3.66 0.28 1.44 5.33 0.19 ... 6.64 4.11 0.76 1.56 3.14 ... 0.38 2.44 0.43 1.15 0.97 ... 0.88 . . . 3.70 0.29 0.85 1.78 ... 1.24 M <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< N

  11. Motivação • Desafios: • Poucas observações (dezenas) para muitas variáveis (milhares) • Situação desejável: Muitas observações (milhares) para poucas variáveis (dezenas) • Natureza dos dados • Tecnologias de extração de mRNAs consistem de um pipeline envolvendo diversas etapas • introdução de ruidos ao longo do processo • Como lidar com esses problemas?

  12. GRN: conceitos básicos • GRNs podem ser visualizados como um grafo • vértices: genes • arestas: dependências entre os genes • definem a relação topológica da rede [Hecker et al, 2009]

  13. GRN: conceitos básicos • Estado da rede • Vetor contendo os valores de expressão dos genes • Ex: [0.75 1.78 2.42 0.94 0.51] • X1 = 0.75, X2 = 1.78, X3 = 2.42, X4 = 0.94, X5 = 0.51 • Experimento de microarray corresponde a um estado do sistema

  14. Microarray: formato dos dados Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . . . GeneN 3.45 1.12 0.24 0.67 ... 1.98 2.05 4.77 0.54 2.14 ... 3.66 0.28 1.44 5.33 0.19 ... 6.64 4.11 0.76 1.56 3.14 ... 0.38 2.44 0.43 1.15 0.97 ... 0.88 . . . 3.70 0.29 0.85 1.78 ... 1.24 1 estado Sabemos que o sistema esteve nesses M estados

  15. GRN: conceitos básicos • Número de estados possíveis • Infinitos, se levarmos em conta que genes possuem valores reais • Pode-se tornar finito o número de estados possíveis tornando os valores de expressão finitos (quantização ou discretização) • Ex: [0.75 1.78 2.42 0.94 0.51] => [0 1 1 0 0] subexpresso (Xi < 1 => Xi = 0) superexpresso (Xi > 1 => Xi = 1) • (Número de valores possíveis)N • Caso binário: 2N • Caso ternário: 3N

  16. Microarray: formato dos dados Exp1 Exp2 Exp3 Exp4 ... ExpM Gene1 Gene2 Gene3 Gene4 Gene5 . . . GeneN 1 1 0 0 ... 1 1 1 0 1 ... 1 0 1 1 1 ... 1 1 0 1 1 ... 0 1 0 1 0 ... 0 . . . 1 0 0 1 ... 1 1 estado Dados binarizados

  17. GRN: conceitos básicos • Número de estados possíveis • O genoma humano tem em torno de N = 30000 • 230000

  18. GRN: conceitos básicos • Número de estados possíveis • O genoma humano tem em torno de N = 30000 • 230000 • Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) • 23 = 8 (OK!)

  19. GRN: conceitos básicos • Número de estados possíveis • O genoma humano tem em torno de N = 30000 • 230000 • Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3) • 23 = 8 (OK!) • Inferência de dependências é possível! • Mas o que significa “um gene depender de outros”?

  20. Inferência de GRNs • Dependência entre genes • Depende.... São redes estáticas ou dinâmicas? • Redes estáticas • Não há informação da dinâmica (temporal) • Dependências estáticas (co-regulação) • Redes dinâmicas • Informação temporal • Dependências no tempo (predição / causa e efeito) • Função de transição de estados

  21. Inferência de GRNs • Como medir o grau de dependência de um gene em relação aos outros? • Seleção de características • Dado um gene alvo, define-se um algoritmo de seleção de características (algoritmo de busca) que tenta obter o subconjunto de genes mais relevantes para descrever o seu comportamento • Critério de relevância • Exemplos de funções critérios: informação mútua (baseada em entropia) e coeficiente de determinação (baseado no erro Bayesiano)

  22. Inferência de GRNs • Processo de seleção de características • Entrada: matriz de expressões gênicas, índice do gene alvo e critério de relevância • Para cada subconjunto de genes considerado: • preenche-se uma tabela de probabilidades conjuntas • um valor de relevância é atribuído pelo critério com base nessa tabela a esse subconjunto • Saída: subconjuntos de genes candidatos ordenados pelo critério de relevância

  23. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  24. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  25. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  26. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  27. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 0 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  28. -1 0 1 1 2 3 4 5 M-1 M . . . g target -1 0 1 g1 g1 g2 . . . g2 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 . . . g3 . . . g4 . . . g5 . . . . . . . . . . . . . . . . . . . . . . . . g target

  29. g alvo -1 0 1 g alvo -1 0 1 g1 g2 g3 g5 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 2 2 2 3 2 2 0 3 1 2 4 3 1 1 2 1 0 1 2 3 1 1 1 0 4 2 2 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 Características do par (g1,g2) • Informação mútua /CoD altos • Prediçãoquase perfeita • Forte candidata a ser classificada entre os melhores pares (g1 e g2 poderão ser conectados ao gene alvo) Características do par (g3,g5) • Informação mútua / CoD baixos • Predição muito ruim • Descartado

  30. Inferência de GRNs • Uma vez que temos o melhor subconjunto de genes preditores (ou co-reguladores) para cada gene, temos toda a informação topológica da rede • Porém, topologia não é tudo • Também precisamos saber como são essas relações • Tal informação está presente nas tabelas de probabilidades conjuntas

  31. Inferência de GRNs • Exemplo: considere as variáveis binárias X1, X2, X3, sendo que X3 depende de X1 e X2 • Várias possibilidades de regras lógicas: • X3 = X1 AND X2 • X3 = X1 OR X2 • X3 = X1 NAND X2 • ............ X1 X2 X3 Existem 24 = 16 lógicas possíveis para o caso com 2 preditores binários

  32. Inferência de GRNs • Como obter as lógicas (ou regras de regulação) a partir das tabelas de probabilidades conjuntas? g alvo 0 1 g1 g2 0 0 0 1 6 0 4 3 5 1 2 8 0 0 0 1 1 0 1 1 AND Resposta: obtendo o valor do alvo cuja probabilidade é máxima para cada linha (argmax)

  33. Inferência de GRNs • Obtendo a topologia e as regras das dependências, temos tudo! • Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa • X[t+1] = f(X[t]) • Podemos determinar suas trajetórias, bacias de atração, atratores...

  34. Bacias de atração, atratores e estados transientes Bacias de atração 001 111 011 010 100 110 000 101 Estados transientes Atratores Exemplo para um sistema de 3 genes Estados atratores

  35. Principal bacia de atração de um sistema regulatório de 11 genes responsáveis pelo controle do ciclo celular da Levedura (Saccharomyces cerevisiae) (1786 estados de um total de 2048) F. Li, T. Long, Y. Lu, Q. Ouyang and C. Tang The yeast cell cycle is robustly designed. PNAS 101(14):4781-6, 2004

  36. Inferência de GRNs • Obtendo a topologia e as regras das dependências, temos tudo! • Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa • X[t+1] = f(X[t]) • Podemos determinar suas trajetórias, bacias de atração, atratores... • Mas com poucas amostras, há erros de estimação

  37. Inferência de GRNs g alvo -1 0 1 g1 g2 0 1 6 7 0 0 0 4 0 0 9 0 5 0 0 0 0 1 0 0 7 0 0 0 8 0 0 -1 -1 -1 0 -1 1 0 -1 0 0 0 1 1 -1 1 0 1 1 (g1,g2) = (1,0) não foi observado! E agora? Essa instância não aparece porque de fato o sistema é assim ou por causa do número pequeno de observações?

  38. Pesquisas em andamento • Como inferir “hubs” a partir de poucas amostras? (e como decidir o grau de entrada dele?) • Hub: gene com alto grau de entrada • Em sistemas binários, um gene com grau 8 terá uma tabela com 28 = 256 linhas • Se tivermos 30 amostras, pelo menos 226 dessas linhas não serão observadas (princípio da casa dos pombos) grau 8

  39. Pesquisas em andamento • Em particular, inferência de hubs é importante para inferência de redes “livres de escala” (scale-free) • Poucos nós com alto grau de entrada • Muitos nós com baixo grau de entrada

  40. Pesquisas em andamento • Exemplo de uma rede metabólica livre de escala • vértices = metabólitos, arestas = reações químicas

  41. Pesquisas em andamento • Inferência de redes “mundo pequeno” (small-world) • Probabilidade alta de haver transitividade • Se o vértice X1 está ligado a X2, e X2 está ligado a X3, então X1 está ligado a X3 • Alto número de triângulos • Tendência de formar agrupamentos ou módulos (clusters) X2 X1 X3 alta probabilidade

  42. Pesquisas em andamento • Exemplo de rede “mundo pequeno”

  43. Pesquisas em andamento • Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) • Dados temporais permitem tanto análise de predição como de co-regulação • Porém, dados estáticos só permitem análise de co-regulação a princípio

  44. Pesquisas em andamento • Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado) • Inferir um sistema dinâmico a partir das probabilidades de cada estado é um problema mal-posto • Existem infinitas possibilidades de sistemas que convergem para tais probabilidades • Como descobrir o sistema verdadeiro? • Poderíamos restringir o espaço das soluções com base em conhecimento a priori sobre o comportamento de sistemas biológicos?

  45. Pesquisas em andamento • Inferir a dinâmica do sistema a partir de dados dinâmicos (temporais) • Infelizmente não é tão simples quanto parece • Número de amostras geralmente muito pequeno (erros de estimação) • Qual é a resolução temporal apropriada? Hora em hora? Minuto a minuto? 15 em 15 minutos? • Os dados podem representar apenas uma possível trajetória do sistema dentre as inúmeras possíveis

  46. Pesquisas em andamento • Qual seria o papel dos genes de predição intrinsecamente multivariada em redes de regulação gênica?

  47. Pesquisas em andamento • Validação dos resultados de inferência de GRN • “Wet lab” (bancada) • Custoso tanto em termos financeiros como de demanda de tempo • “In silico” • Através de simulações a partir de um modelo específico pré-determinado • Bancos de dados biológicos (aproveitando o esforço de “wet lab” de pesquisadores ao redor do mundo): Gene Ontology, KEGG, NCBI, etc... • Como integrar dados de diversas naturezas para aumentar o poder de estimação dos métodos de inferência?

  48. Referências • BARRERA, Junior ; CESAR JR, Roberto Marcondes ; MARTINS JR, David Corrêa ; VÊNCIO, Ricardo Z. N. ; MERINO, E. F. ; YAMAMOTO, Marcelo M. ; LEONARDI, Florência G. ; PEREIRA, Carlos Alberto de Bragança ; PORTILLO, Hernando A. . Constructing probabilistic genetic networks of Plasmodium falciparum from dynamical expression signals of the intraerythrocytic development cycle. Methods of Microarray Data Analysis V. : Springer US, p. 11-26, 2007. • Lopes, Fabricio M. ; Martins Jr, David C. ; Cesar, Roberto M. . Feature selection environment for genomic applications. BMC Bioinformatics , v. 9, p. 451, 2008. • Martins Jr, David C. ; Braga-Neto, Ulisses M.; HASHIMOTO, Ronaldo F. ; Bittner, Michael L. ; Dougherty, Edward R. . Intrinsically Multivariate Predictive Genes. IEEE Journal of Selected Topics in Signal Processing , v. 2, p. 424-439, 2008. • [Hecker, 2009] Hecker, M.; Lambeck, S.; Toepfer, S.; van-Someren, E.; Guthke, R. Gene regulatory network inference: data integration in dynamic models-a review. Biosystems, 96(1):86-103, 2009.

  49. Referências • F. F. Borelli ; R. Y. Camargo ; Martins-Jr, David C. ; L. C. S. Rozante . Gene regulatory networks inference using a multi-GPU exhaustive search algorithm. BMC Bioinformatics , v. 14, p. S5, 2013. • Martins Jr, David C. ; DE OLIVEIRA, EVALDO A. ; Braga-Neto, Ulisses M. ; HASHIMOTO, Ronaldo F. ; Cesar, Roberto M. . Signal propagation in Bayesian networks and its relationship with intrinsically multivariate predictive variables. Information Sciences , v. 225, p. 18-34, 2013. • LOPES, Fabrício Martins ; MARTINS-JR, DAVID CORREA ; BARRERA, Junior ; CESAR JR, Roberto Marcondes . A feature selection technique for inference of graphs from their known topological properties: revealing scale-free gene regulatory networks. Information Sciences , v. online, p. online, 2014.

  50. Conclusão Redes de regulação gênica: um montão de problemas e desafios interessantes

More Related