1 / 47

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Análise Computacional de Seqüências Nucleotídicas e Protéicas. Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004. Agenda:. I – Introdução II – Bancos de dados de seqüências nucleotídicas III – Bancos de dados de seqüências protéicas IV – Bancos de dados de estruturas

serena
Télécharger la présentation

Análise Computacional de Seqüências Nucleotídicas e Protéicas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise Computacional de Seqüências Nucleotídicas e Protéicas Bancos de dados biológicos Antonio Basílio de Miranda 23/11/2004

  2. Agenda: • I – Introdução • II – Bancos de dados de seqüências nucleotídicas • III – Bancos de dados de seqüências protéicas • IV – Bancos de dados de estruturas • V – Bancos de dados de metabolismo • VI – Bancos de dados de mutações e polimorfismo • VII – Bancos de dados de genomas • VIII – Bancos de dados de microarranjos de DNA • IX – Bancos de dados de proteomas • X – Bancos de dados bibliográficos • XI – Principais centros de pesquisa

  3. I - Introdução: Bancos de Dados Biológicos • Primários: GenBank, EMBL, DDBJ, GSDB. • Especializados: PIR, Swiss-Prot, REBASE, PROSITE, PDB, Pfam, BLOCKS, etc.

  4. International Nucleotide Sequence Database • União do GenBank, EMBL e DDBJ, que já trocam informações diariamente.

  5. Busca e Recuperação • Por similaridade: • BLAST • BioSCAN • GenQuest • Por palavras-chave, atributos, etc. • SRS (http://srs.ebi.ac.uk) • AcNuc

  6. Problemas: • Redundância • Contaminação • Erros nas anotações • Distintas formatações • Distintos conceitos

  7. Diferentes formatações dificultam a livre troca de dados entre os bancos

  8. II - Bancos de dados de seqüências nucleotídicas • São fontes de dados heterogêneas, i.e., fontes distintas (DNA genômico X cDNA), diferentes qualidades (seqüências finalizadas ou single-pass), diferentes anotações, etc.

  9. Bancos de dados de seqüências nucleotídicas • GenBank/EMBL/DDBJ (http://www.ncbi.nlm.nih.gov) (http://www.ebi.ac.uk/embl/index.html) (http://www.ddbj.nig.ac.jp/) • Ribosomal Database Project (http://rdp8.cme.msu.edu/) • Comparative RNA Web Site (http://www.rna.icmb.utexas.edu/)

  10. GenBank

  11. O crescimento do GenBank Aproximadamente 28,507,990,166 bases em 22,318,883 de seqüências (Janeiro 2003)

  12. Subdivisões do GenBank • Primatas • Roedores • Outros mamíferos • Outros vertebrados • Invertebrados • Plantas • Bactérias • Vírus • Fagos • Sintéticas • Não-anotadas • Patentes • EST • STS • GSS • HTG • HTC

  13. EMBL Nucleotide Sequence Database

  14. Subdivisões do EMBL ID CTU83196 standard; genomic DNA; PRO; 1763 BP. XX AC U83196; XX DE Chlamydia trachomatis pyruvate kinase (pk) gene, complete cds. XX SQ Sequence 1763 BP; 504 A; 380 C; 360 G; 519 T; 0 other; cactcaacga atcctttctc attttaaatt ctccacaccc attcctatcg aacgcttttt 60 taaagcgtag cattgcggtt gctaaatatt ttgtatagtt gaaggcttct ttcatttcgg 120 atattctaga agatattcta ctcactaata ccggtatccc gatttatgat cgctagaacg 180 aaaattattt gtacgatagg ccctgcaacc aatacccctg agatgctgga aaagcttctc 240 gatgcaggga tgaatgtagc tcgccttaat tttagccacg ggacccatga aagccatggc 300 cggaccatcg ctattcttaa agaactacga gagaagcgcc aagttccttt agctattatg 360 ctagatacaa aaggtcccga aattcgttta ggccaagtag aatctcctat aaaagtacag 420 cctggggatc gtcttactct cgttagcaaa gaaattttag gatccaaaga aagcgcgtta 480 ctctttatcc aagttgtgta ttccccttat gttagagaac gagctcctgt tctcattgat 540 gatgggtata tccaagcagt ggtggtcaat gctcaagagc atatggtgga aatagagttt 600 caaaattcag gagaaataaa atccaacaaa tctcttagca tcaaagatat cgatgttgct 660 cttcctttca tgacagagaa ggatattgca gacttaaaat ttggggtaga acaagaactc 720 gatcttatcg ctgcttcgtt cgtcagatgt aatgaagata ttgacagcat gcgtaaagtt 780 ttggaaagct ttggtcgtcc taatatgccc atcattgcca aaatagaaaa tcatttagga 840 gtacaaaatt tccaagagat cgctagagct gctgatggta tcatgattgc acgcggggat 900 cttggtattg aattgtctat tgttgaagtt cctggactac aaaaatttat ggcccgagca 960 tcgagggaaa cgggtcggtt ttgtatcact gcaacgcaaa tgctcgagtc aatgattcgc 1020 aacccccttc ctacacgagc cgaagtctct gacgttgcca acgccattta cgatggaacc 1080 tctgcagtca tgttgtctgg agaaactgcc tcaggagccc atcctgtaca tgcagtaaaa 1140 acaatgcgtt ccattatcca agagactgag aagactttcg attaccacgc ttttttccag 1200 ctgaacgaca aaaacagcgc tctcaaagtt tctccttatc ttgaagccaa ttgggttttc 1260 tggatccaaa ttgcagaaaa agcatctgcc aaagccatta ttgtgtatac ccagacggga 1320 gggtctccga tgtttttatc caaatatcga ccttatctcc ctattattgc tgttacccct 1380 aaccgcaatg tgtactatcg tttagctgta gaatggggag tatatcctat gctaaccctg 1440 gaatcgaacc gtacagtctg gcgtcaccaa gcttgtgtat atggagtaga aaaaggaatt 1500 ctttctaact atgataaaat tcttgtcttc agccgcggag ctgggatgca agataccaac 1560 aatctcacct tgacaactgt gcatgatgcg ctatccccct ctcttgacga gatagttcca 1620 taatcattga aaccatatag caggtatgtc ttctatcgtt agactttctg gtattactgt 1680 aaggaattta aaaacattac agtagagttt tgtctcgaga gatcgttttg ttcaccgggg 1740 tttctggatc gaagtcttct ctt 1763 // • Invertebrates • Other Mammals • Mus musculus • Organelles • Bacteriophage • Plants • Prokaryotes • Rodents • Unclassified Viruses • Other Vertebrates • patents • htg • htc • gss • wgs • est

  15. III - Bancos de dados de seqüências protéicas • Primários • Secundários • Especializados • Estruturas

  16. Bancos de dados de seqüências protéicas • Primários: • Swiss-Prot (http://pir.georgetown.edu/) • TrEMBL (http://www.ebi.ac.uk/trembl/) • PIR (http://pir.georgetown.edu/)

  17. Swiss-Prot • Mantido em conjunto pelo EBI e SIB • Mais de 6000 espécies representadas • Cada seqüência nova é examinada para assegurar uma boa qualidade nas anotações

  18. TrEMBL • “Translation of EMBL Nucleotide Sequence Database” • Os registros são derivados da tradução conceitual das seqüências codificantes presentes no EMBL, com exceção daquelas já presentes no Swiss-Prot. • SP-TrEMBL, REM-TrEMBL.

  19. PIR – Protein Information Resource • Colaboração entre a National Biomedical Research Foundation (NBRF), Munich Information Center for Protein Sequences (MIPS), e o Japan International Protein Information Database (JIPID). • Possui quatro subdivisões (PIR1, PIR2, PIR3 e PIR4), de acordo como nível de anotação da seqüência.

  20. Bancos de dados de seqüências protéicas • Especializados: • GO – Gene Ontology – disponibiliza um vocabulário dinâmico controlado de termos biológicos. • MEROPS – classificação baseada em estrutura das peptidases. • GPCRDb – G-protein coupled receptors • YPD – Yeast Protein Database • ENZYME – Enzyme Nomenclature Database • 2D gel electrophoresis • Mass spectrometry

  21. GO – Gene Ontology $Gene_Ontology ; GO:0003673 <cellular_component ; GO:0005575 %cell ; GO:0005623 <axon ; GO:0030424 <axolemma ; GO:0030673 % membrane ; GO:0016020 %giant axon ; GO:0042757 <bud ; GO:0005933 <bud neck ; GO:0005935 % site of polarized growth (sensu Saccharomyces) ; GO:0000134 <contractile ring (sensu Saccharomyces) ; GO:0000142 ; synonym:cytokinetic ring (sensu Saccharomyces) ; synonym:neck ring % contractile ring (sensu Fungi) ; GO:0030480 http://www.ebi.ac.uk/GOA/index.html

  22. MEROPS • BD sobre peptidases (AKAS proteases, proteinases ou enzimas proteolíticas). • Classificação hierárquica, baseada na estrutura da proteína.

  23. GPCRDb • BD de seqüências e outros dados relacionados aos G-protein coupled receptors, família de proteínas envolvida em sistemas de sinalização.

  24. YPD • BD das proteínas de Saccharomyces cereviseae. • Mais de 6000 proteínas. • Uma extensa revisão da literatura levou a uma anotação detalhada das proteínas presentes no BD.

  25. ENZYME • Extensão anotada da publicação da “Enzyme´s Comission”. • Existem diversos outros BD relacionados como o BRENDA (propriedades enzimáticas) e o LIGAND (ligantes).

  26. Bancos de dados de seqüências protéicas • Secundários: • PROSITE – sítios funcionais • PRINTS – famílias • Pfam – domínios divergentes • BLOCKS – regiões conservadas

  27. PROSITE • Extensa documentação sobre famílias protéicas, definidas por domínios ou motivos protéicos. • Proporciona identificação rápida e confiável (com ferramentas computacionais adequadas) de uma nova seqüência protéica.

  28. PRINTS • Identificação por “fingerprinting”. • Utiliza regiões conservadas e/ou motivos, determinados a partir de alinhamentos múltiplos, que definem e caracterizam aquele grupo de seqüências (família). • Possibilita a identificação de “parentes” distantes.

  29. Pfam • Utiliza HMM´s (Hidden Markov Models) como metodologia para a criação de famílias protéicas e assinaturas de domínios. • As informações sobre uma determinada proteína são cuidadosamente checadas contra a literatura disponível a respeito da mesma, na busca de evidências bioquímicas que corroborem dados obtidos a partir de predições computacionais .

  30. BLOCKS • Constituído pelas regiões mais conservadas, determinadas a partir de alinhamentos múltiplos das proteínas documentadas no InterPro.

  31. Sequence Retrieval System – SRS

  32. Perguntas: • Quais são as fontes de dados e onde posso encontrá-las? • Quais as diferenças entre elas? • Posso usar apenas uma delas em minhas análises? • InterPro: uma integração do PROSITE, PRINTS, Pfam e PRODOM.

  33. IV - Bancos de dados de Estruturas • Protein Data Bank (PDB). • http://www.rcsb.org/pdb/ • Nucleic Acid Database (NDB) • http://ndbserver.rutgers.edu/

  34. PDB • Protein Data Bank • Armazena estruturas tri-dimensionais de diversas proteínas, e dados relacionados. • A visualização das estruturas pode ser feita de diversas formas.

  35. NDB • Nucleic Acid Database • Armazena informações sobre a estrutura tri-dimensional de ácidos nucléicos.

  36. V - Bancos de dados de metabolismo • KEGG: Kyoto Encyclopedia of Genes and Genomes - http://www.genome.ad.jp/kegg/ • EcoCyc – Encyclopedia of Escherichia coli K12 genes and metabolism – http://ecocyc.org

  37. VI - Bancos de dados de mutações e polimorfismos • Human SNP Database - http://www.broad.mit.edu/snp/human/index.html • Human Genome Variation Society - http://www.hgvs.org/ • Oniline Mendelian Inheritance in Man (OMIM) - http://www.ncbi.nlm.nih.gov/omim/

  38. VII - Bancos de dados de genomas • GOLD – Genomes On-Line Database (http://ergo.integratedgenomics.com/GOLD) • Aproximadamente 940 projetos genoma em andamento ao redor do mundo!

  39. Bancos de dados de genomas • Ensembl – proporciona acesso a vários genomas (www.ebi.ac.uk/ensembl/index.html) • WormBase (www.wormbase.org) • FlyBase (flybase.bio.indiana.edu) • Saccharomyces Genome Database (www.yeastgenome.org)

  40. VIII - Bancos de dados de microarranjos de DNA (DNA microarrays) • ArrayExpress • AMAD

  41. Microarray

  42. ArrayExpress • Repositório público para dados obtidos a partir de experimentos com microarranjos de DNA • http://www.ebi.ac.uk/arrayexpress/index.html

  43. AMAD • Another Microarray Database • Flatfile • Necessita de PERL • Gratuito • http://www.microarrays.org/software.html

  44. IX - Bancos de dados de proteomas • SWISS-2DPAGE - http://us.expasy.org/ch2d/ • Danish Centre for Human Genome research - http://proteomics.cancer.dk/ • Parasite Proteome - http://www.ebi.ac.uk/parasites/proteomes.html

  45. Proteoma

  46. X - Bancos de dados bibliográficos • MEDLINE – acesso via SRS • PUBMED – acesso via Entrez

  47. XI - Principais Centros de Pesquisa • NCBI (http://www.ncbi.nlm.nih.gov) • TIGR (http://www.tigr.org) • EMBL (http://www.embl.de/) • EBI (http://www.ebi.ac.uk) • Sanger Institute (http://www.sanger.ac.uk)

More Related