1 / 42

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri. Lekciju saraksts. WoK. Komerciāla datu bāze atšķirībā no PubMed Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus Labas meklēšanas iespējas un papildus bonusi

alika
Télécharger la présentation

Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri

  2. Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra

  3. WoK • Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus • Labas meklēšanas iespējas un papildus bonusi • Saistīta ar JournalCitationReports datu bāzi (JournalImpactFactors) un autoru citējamību Mikrobioloģijas un biotehnoloģijas katedra

  4. JournalImpactFactor • Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados • Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu Mikrobioloģijas un biotehnoloģijas katedra

  5. Autoru citējamību raksturojoši rādītāji • H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas. Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12 Hirsch (2005) Anindex to quantifyanindividual’sscientificresearchoutput. PNAS, 102:16569 Mikrobioloģijas un biotehnoloģijas katedra

  6. Harzing’sPublishorPerish • PoP izmanto GoogleScholar datus (http://scholar.google.com) • PoP ir datorprogramma, kas izmantojot GoogleScholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi http://www.harzing.com/pop.htm Mikrobioloģijas un biotehnoloģijas katedra

  7. Latvijas zinātnieku publikācijas 2000 – 2011 (oktobris) Mikrobioloģijas un biotehnoloģijas katedra

  8. NCBI Bookshelf Mikrobioloģijas un biotehnoloģijas katedra

  9. NCBI OMIM (OnlineMendelianInheritancein Man) • Literatūras datu bāze par cilvēka iedzimtajām slimībām • Ar iedzimtajām slimībām saistīto gēnu katalogs ar literatūras atsaucēm un saitēm uz sekvencēm un citiem resursiem Mikrobioloģijas un biotehnoloģijas katedra

  10. OMIM statistika Mikrobioloģijas un biotehnoloģijas katedra

  11. Fenilketornūrija • Slimības apraksts, klīniskās īpašības, defektīvais gēns, ģenētiskās izmaiņas, >200 literatūras atsauču Mikrobioloģijas un biotehnoloģijas katedra

  12. Nukleotīdu datu bāze Mikrobioloģijas un biotehnoloģijas katedra

  13. Nukleotīdu datu bāze • Nukleotīdu datu bāze ir galvenā (un lielākā) GenBank sastāvdaļa • Lai to padarītu puslīdz izmantojamu, nukleotīdu sekvenču dati ir sadalīti kategorijās Corenucleotide – augstas kvalitātes sekvences EST – ExpressedSequence Tags – zema kvalitāte GSS – GenomeSurveySequences – zema kvalitāte RefSeq – visaugstākās kvalitātes pārbaudītas un zināmas funkcijas gēnu sekvences Unigene – no EST datiem rekonstruēto gēnu transkriptu sekvences Mikrobioloģijas un biotehnoloģijas katedra

  14. EST iegūšanas shēma Mikrobioloģijas un biotehnoloģijas katedra

  15. EST kvalitāte, unigēni Mikrobioloģijas un biotehnoloģijas katedra

  16. Statistika par EST datu bāzi Mikrobioloģijas un biotehnoloģijas katedra

  17. Teksta meklēšana nukleotīdu datu bāzē • Meklēt var gan pēc sekvenču iesniedzēja vārda, gan organisma, gan gēna nosaukuma. To visu var un vajag apvienot, lai veiktu specifisku meklēšanu • Piemēram, “homo sapiens[organism] AND interferon-alpha 13” • Ja zināms GenBank identifikators, vislabāk meklēt pēc tā (piemēram, X75934) Mikrobioloģijas un biotehnoloģijas katedra

  18. GenBank ieraksts Locus – ietver lokusa nosaukumu, sekvences tipu un tmldz. Lokusa nosaukums visbiežāk ir tas pats Accessionnumber, dažreiz ar info par organisma sugu . Ir unikāls, var mainīties Accession – uzskaites numurs. To piešķir sekvencei, kad to iesniedz GenBank. Tas ir numurs, ko norāda publikācijās. Accesionir unikāls un stabils numurs. References sekvencēm ir specifiski numuri: NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes Versija un GI – Versija sastāv no Accessionnumber ar numuru, kas uzskaita, cik reizes sekvence mainīta. GI ir paralēla numerācija Accession numuram, bet katru reizi, kad sekvence tiek izmainīta, tai tiek piešķirts jauns GI Mikrobioloģijas un biotehnoloģijas katedra

  19. GenBank ieraksts - īpašības Mikrobioloģijas un biotehnoloģijas katedra

  20. GenBank ieraksts - sekvence Mikrobioloģijas un biotehnoloģijas katedra

  21. Ko tālāk darīt ar atrasto sekvenci? • GenBank formāts ir informatīvs un cilvēkam viegli lasāms, bet tas nav viegli izmantojams dažādās DNS analīzes programmās, tāpēc DNS secību iespējams eksportēt FASTA formātā • Apskatīt DNS secības kodēto aminoskābju sekvenci un ar to saistīto informāciju • Iegūt tālāku informāciju par sekvenci iepazīstoties ar saistītajiem literatūras avotiem • Identificēt radniecīgas sekvences izmantojot homoloģijas meklēšanas programmas BLAST Mikrobioloģijas un biotehnoloģijas katedra

  22. GenBank proteīnu datu bāzes • http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein • cyclic nucleotide receptor protein AND Escherichia coli[ORGN] • CRP ir universāls transkripcijas faktors, kas regulē ogļhidrātu metabolismu baktēriju šūnās, tā aktivitāti regulē cAMP • Gēns klonēts un sekvenēts jau 1982. gadā, zināma proteīna struktūra • Apskatīsim P0ACJ8 Mikrobioloģijas un biotehnoloģijas katedra

  23. CRP Mikrobioloģijas un biotehnoloģijas katedra

  24. CRP – konservatīvie domēni Mikrobioloģijas un biotehnoloģijas katedra

  25. CRP – proteīna struktūra Mikrobioloģijas un biotehnoloģijas katedra

  26. CRP – proteīna struktūra Mikrobioloģijas un biotehnoloģijas katedra

  27. Vēl viens piemērs... • hypotheticalprotein AND homosapiens[ORGN] • 17533 ieraksti proteīnu datu bāzē 2009 • 10975 ieraksti proteīnu datu bāzē 2011 Mikrobioloģijas un biotehnoloģijas katedra

  28. Mikrobioloģijas un biotehnoloģijas katedra

  29. Taksonomijas datu bāze Mikrobioloģijas un biotehnoloģijas katedra

  30. Taksonomijas datu bāze – Eukaryota Mikrobioloģijas un biotehnoloģijas katedra

  31. SNP datu bāze • SNP – visbiežāk sastopamais ģenētiskā polimorfisma veids Mikrobioloģijas un biotehnoloģijas katedra

  32. SNP datu bāze • http://www.ncbi.nlm.nih.gov/SNP/ • ss – submitted SNP, rs – reference SNP Mikrobioloģijas un biotehnoloģijas katedra

  33. Informācijas meklēšana SNP datu bāzē • Lai atrastu SNP, noteiktā gēnā, vislabāk sākt ar Entrez meklēšanu, atrast gēnu, tad izmantot “Link” uz SNP datu bāzi • Var arī izmantot BLASTN programmu, lai SNP datu bāzē atrastu sekvences (ar SNP), kas homologas interesējošam gēnam • Var meklēt SNP izmantojot GenBankAccession vai arī SNP identifikatorus Mikrobioloģijas un biotehnoloģijas katedra

  34. CDD (ConservedproteinDomainDatabase) • http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd • Proteīni bieži sastāv no dažādiem domēniem, kuru sekvence un struktūra var būt saglabāta evolucionāri attālos organismos • CDD satur proteīnu domēnu sekvenču daudzkārtējus salīdzinājumus, kas ļauj raksturot proteīnus ar nezināmu struktūru Mikrobioloģijas un biotehnoloģijas katedra

  35. CDD (ConservedproteinDomainDatabase) Mikrobioloģijas un biotehnoloģijas katedra

  36. CDD • CDD datubāze – labi anotētu proteīnu sekvenču salīdzinājumu datubāze gan domēniem, gan pilna garuma proteīniem • CDTree – līdzeklis proteīnu sekvenču un to evolucionārās radniecības raksturošanai • CD-Search – proteīnu domēnu meklēšana izmantojot BLAST homoloģijas analīzi • CDART – proteīnu domēnu arhitektūras raksturošana Mikrobioloģijas un biotehnoloģijas katedra

  37. CD meklētājs Mikrobioloģijas un biotehnoloģijas katedra

  38. CD meklētājs Mikrobioloģijas un biotehnoloģijas katedra

  39. CDART (MLA13) Mikrobioloģijas un biotehnoloģijas katedra

  40. Clustersoforthologousgroups COG • COG datubāze satur proteīnu sekvenču salīdzinājumu, kas atbilst galvenajām filoģenētiskajām grupām • Katrs COG satur individuālus proteīnus vai paralogu grupas vismaz no 3 attālām filoģenētiskām grupām un tādējādi atbilst senam konservatīvam domēnam Mikrobioloģijas un biotehnoloģijas katedra

  41. PopSet (Populationstudydata Sets) • http://www.ncbi.nlm.nih.gov/sites/entrez?db=popset • PopSet ir homologu DNS sekvenču grupa, kas iegūta no vienas sugas dažādiem indivīdiem, vai arī dažādu sugu pārstāvjiem, lai pētītu to evolucionārās attiecības • PopSet dati bieži tiek iesniegti GenBank kā daudzkārtējs sekvenču salīdzinājums Mikrobioloģijas un biotehnoloģijas katedra

  42. PopSet piemērs Mikrobioloģijas un biotehnoloģijas katedra

More Related