Primääritietokannat

Primääritietokannat • DNA sekvenssit ja proteiinit merkkijonoina primääritietokannoissa T. Pasanen / Johdatus bioinformatiikkaan

3. Proteiinitietokannat • Tarkastellaan vain loogista tietoa ei talletustapaa T. Pasanen / Johdatus bioinformatiikkaan

Tasot • Primääri- ja sekundääritason tietokannat sekä yhdistelmätietokannat T. Pasanen / Johdatus bioinformatiikkaan

Proteiinien primääritietokannat • Keskittyminen alkoi 80-luvun alussa • Proteiinidatan keräysyhdistys PIR-international sisältää tietokannat: PIR (Protein Information Resource)JIPID (Protein Information Database of Japan)MIPS (Martinsried Institute for Protein Sequences) T. Pasanen / Johdatus bioinformatiikkaan

Neljä luokkaa perustuen laatuun ja kommenttien määrään PIR1: täydellisesti luokitellut ja kommentoidut PIR2: alustavat sekvenssit joita ei ole vielä täysin tarkastettu PIR3: sekvenssit joita ei ole tarkastettu (MIPS) PIR4: tekotranslaatiot mRNA:sta, tekotranslaatiot tekomRNA:sta,geneettisesti muokatut,koodaamattomat jonot joita ei ole tuotettu ribosomissa PIR-internationalOOSH T. Pasanen / Johdatus bioinformatiikkaan

MIPS • Martinsried Institute for Protein Sequences • Kerää tarkastamattomia ulkoisistä lähteistä saatuja proteiineja PIR-international tietokantaan T. Pasanen / Johdatus bioinformatiikkaan

SWISS-PROT (1986) P02700 • Ylläpitäjinä SIB ja EBI/EMBLSwiss Institute of BioinformaticsEuropean Bioinformatics InstituteEuropean Molecular Biology Laboratory • Laadukkaat kommentoinnit: toiminnan kuvaukset, itsenäiset osalaskostukset (domain), translaation jälkeiset muutokset ja proteiinin muunnelmat (jne). • Minimiredundanssi T. Pasanen / Johdatus bioinformatiikkaan

TrEMBL 1996 • Automaattisesti kommentoitu tietokanta joka täydentää SWISS-PROT:ia(Translated EMBL) • Genomiprojektien data heti käyttöön rakenteellisessa muodossa ilman että SWISS-PROT laatu huononisi • Sisältää proteiinit joille on olemassa koodaava DNA jono (EMBL) T. Pasanen / Johdatus bioinformatiikkaan

NRL-3D 1990 • PIRin tuottama, perustuu Brookhaven Protein Databank (PDB) • Hakukohteina avainsanojen/nimien lisäksi paljon muita biologiseen tietoon liityviä yksityiskohtia kuten sekundäärirakenteet, toiminnalliset alueet, kommentit, etc • Etsintäsysteeminä ATLAS T. Pasanen / Johdatus bioinformatiikkaan

Paras primääritietokanta? • NRL-3D on suppein perustuen vain PDB:en, mutta mahdollistaa monipuoliset haut erilaisilla biologisilla yksityiskohdilla • PIR(1-4) laajin mutta ei niin laadukas kuin SWISS-PROT, ei edes PIR1 • SWISS-PROT kommenttien ja rakenteen suhteen laadukkain mutta suppea kuin PIR T. Pasanen / Johdatus bioinformatiikkaan

Yhdistelmätietokannat • SWISS-PROTupdate: lisäykset viikottain • GenPeptupdate: lisäykset päivittäiset T. Pasanen / Johdatus bioinformatiikkaan

NRDB Non-Redundant Database • NCBI:n (USA) ylläpitämä, lähteinä PDB, SWISS-PROT/update, PIR, GenPept/update • GenPept tuotetaan automaattisesti DNA tietokannasta GenBank (USA) käyttämällä tietoa koodaavista osajonoista • Vain identtiset jonot poistetaan, ongelmia: polymorfismi, virheet, GenPept sisältää jonoja jotka on hylätty SWISS-PROT:sta T. Pasanen / Johdatus bioinformatiikkaan

OWL • Ylläpito: Univ Leeds ja Daresbury Laboratory in Warrington, lähteinä SWISS-PROT, PIR, GenBank(aut. muunnokset) ja NRL-3D • S-P vertailukohteena poistettaessa samanlaisia, pienet virheet huomioidaan, kuitenkin samoja ongelmia kuin edellisessä • päivitys 6-8 viikon välein T. Pasanen / Johdatus bioinformatiikkaan

MIPSX • Ylläpito: Max-Planck Institute in Martinsried, lähteinä PIR, alustavat MIPS versiot eli MIPSOwn, alustavat MIPS/PIR versiot eli PIRMOD, alustavat MIPS translaatiot eli MIPSTrn, MIPS hiivaproteiinit eli MIPSSH, NRL-3D SWISS-PROT, Aut. Translaation EMBL:stä eli EMTrans, Translaatiot GenBank:stä eli GBTrans, Kabat, PSeqIP • Dublikaatit ja yhtenäiset alisekvenssit poistetaan edellä mainitussa järjestyksessä T. Pasanen / Johdatus bioinformatiikkaan

SWISS-PROT+TrEMBL • Ylläpito EBI, kattava ja “minimaalisesti” redundanssia sisältävä • 1997 arvioitiin että kanta sisältää 30% dublikaatteja • Redundanssin vähentämiseksi tarvittaisiin enemmän asiantuntemusta tai parempia tietokanta-asiantuntijajärjestelmiä T. Pasanen / Johdatus bioinformatiikkaan

Paras yhdistelmätietokanta? • OWL on kokonaan indeksoitu eli voidaan tehdä monimutkaisia kyselyjä mutta se ei aina ole ajan tasalla • NRDB on ajan tasalla perustuen kantojen GenPept ja SWISS-PROT päivityksiin mutta monimutkaisten kyselyjen tekeminen ei ole mahdollista • Yhdistelemällä parhaaseen tulokseen? T. Pasanen / Johdatus bioinformatiikkaan

Proteiinien sekundääritietokannat • Kannat sisältävät primäärikantojen analyysien tulokset • Eri tietokannat edustavat erilaisia informaation tallennustapoja T. Pasanen / Johdatus bioinformatiikkaan

Säilyneet osajonot eli motiivit • Homologisten jonojen monirinnastuksessa havaitaan säilyneet osajonot eli motiivit (aiheet) jotka esiintyvät lähes samanlaisina • Motiiveilla tärkeä biologinen merkitys T. Pasanen / Johdatus bioinformatiikkaan

T. Pasanen / Johdatus bioinformatiikkaan

Informaation tallentaminen • “Säännölliset ilmaisut” • Kirjainten frekvenssit paikkakohtaisesti • Sormenjälki: joukko motiiveja frekvenssien avulla esitettynä • Blocks: painotus frekvenssitaulukoille • Profiili: rinnastuksen kaikki tieto (aukot) • Markovin malli: profiilin todennäköisyysmalli T. Pasanen / Johdatus bioinformatiikkaan

Kannat • Koska käytetty hyväksi useita jonoja voidaan kaukaisetkin sukulaiset tunnistaa paremmin kun etsimällä suoraan primääritietokannoista • Käyttö primääritie-tokantojen lisänä T. Pasanen / Johdatus bioinformatiikkaan

PROSITE • Ensimmäinen (SWISS-PROT) • Homologisten proteiinien eli proteiiniperheen luokittelu monirinnastuksen parhaiten säilyneen motiivin perusteella (tärkeä biologinen toiminta) • Säännölliset ilmaus (hahmo) • Tuntematon proteiini koetetaan luokitella vertaamalla siihen tunnettuja motiiveja T. Pasanen / Johdatus bioinformatiikkaan

PROSITE kannan muokkaaminen www.expazy.ch/sprot PS00238 • Säilyneiden alueiden etsiminen käsin automaattisesti tuotetusta rinnastuksesta • Saatuja ilmauksia testataan SWISS-PROT kantaan vastaan (oikeita/vääriä positiivisia) • Jos tulokset eivät tarpeeksi hyviä niin ilmauksia tarkennetaan ja testausta jatketaan • Jotkut perheet täytyy jäsentään usealla ilmauksella T. Pasanen / Johdatus bioinformatiikkaan

PRINTS • Proteiiniperheen tunnistamiseen tarvitaan yleensä useita motiiveja • Perheen kaikki motiivit talletetaan (sormenjälki) • Vaikka tuntematon proteiini ei sisällä kaikkia proteiineja niin silti voidaan tehdä suhteellisen varmoja diagnooseja • Tallentaa kaiken informaation joten soveltuu automaattisen tertiäärikannan luomiseen T. Pasanen / Johdatus bioinformatiikkaan

PRINTS kannan muokkaaminenwww.bioinf.man.ac.uk/dbbrowser/PRINTSN • Tehdään pienelle joukolle proteiineja monirinnastus josta haetaan käsin motiivit • Etsitään OWL-kannasta proteiinit jotka täsmäävät kaikkiin motiiveihin • Jos löydetään uusia proteiineja niin näistä saatava informaation lisätään motiivijoukkoon • Etsintää toistetaan kunnes ei löydetä uusia proteiineja jotka täsmäävät kaikkiin motiiveihin T. Pasanen / Johdatus bioinformatiikkaan

PROSITE & PRINTS • Proteiiniperheisiin lisätty tietoa käsinhelpottaa ymmärtämään motiivien merkitystä proteiinin rakenteessa tai toiminnassa; lisätietoa käytetään arvioitaessa täsmäyksien biologista merkitystä • Muut sekundääritietokannat tuotetaan automaat-tisesti joten ne sisältävät hyvin vähän lisätietoa; osa perustuu PRINTS/PROSITE kantoihin T. Pasanen / Johdatus bioinformatiikkaan

BLOCKS • Perustuu PROSITEN, missä määritetään proteiiniperheen parhaiten säilyneet motiivit • Jokaisesta motiivista valitaan kolme parhaiten säilynyttä aminohappoa (ei peräkkäisiä); lohkot talletetaan sellaisenaan (blocks = motif) • Positioiden avulla arvioidaan samankaltaisuuden arvoja (score) oikeille negatiivisille ja oikeille positiivisille täsmäyksille, vrt laatikko 3.6 T. Pasanen / Johdatus bioinformatiikkaan

BLOCKS kannan tulkinta www.blocks.fhcrc.org • 99.5% = samankaltaisuudelle rajan missä oikeiden negatiivisten määrä on 99,5 prosenttia • Strength = lohkon jonojen samankaltaisuuksien mediaaniarvo kerrottuna 1000/99,5 • Lohkon erottelukyky riippuu kenttien 99.5% ja strength erosta; eri lohkojen erottelukykyä voidaan vertailla strength kenttien arvoilla • Kanta tuotetaan automaattisesti T. Pasanen / Johdatus bioinformatiikkaan

Profileswww.expasy.ch/cgi-bin/prosite-search-ac?PS50002 • Profiilit eli painotusmatriisit • Idea: huomioidaan myös motiivien väliset alueet • Painotus sekvenssin kaikille positioille: lisäykset ja poistot (indels), vaihdot, parhaiten säilyneet motiivit • Perheille tehdään profiilit ja kommmentit T. Pasanen / Johdatus bioinformatiikkaan

Pfamwww.sanger.ac.uk/Software/Pfam 7tm • Monirinnastuksen tulos talletetaan Kätketyihin Markovin malleihin (Hidden Markov models, HMM) • Tilastollisia automaatteja; jokaisesta tilasta seuraavaan tilaan on tietty todennäköisyys • Tilat: tuhoa, lisää, vaihda ja hyväksy (samat) • Käsin tehdyt rinnastukset (Pfam-A) • Aut. SWISS-PROT klusterointi (Pfam-B) T. Pasanen / Johdatus bioinformatiikkaan

Kätketty Markovin malli T. Pasanen / Johdatus bioinformatiikkaan

Aminohappojen karkea jako T. Pasanen / Johdatus bioinformatiikkaan

Ominaisuuksien päällekkäisyys T. Pasanen / Johdatus bioinformatiikkaan

IDENTIFY • Sumea lähtökohta (fuzzy): aminohapot ryhmitellään ominaisuuksien mukaan päällekkäisiin luokkiin • Pyrkimys löytää enemmän oikeita positiivisia jonoja kuin mitä säännöllisillä ilmauksilla saadaan • Normaalisti tarvitaan lisäsääntöjä jotta ei saataisi liikaa vääriä positiivisia sekvenssejä T. Pasanen / Johdatus bioinformatiikkaan

Luokittelu eMOTIF ohjelmassaeMOTIF dna.stanford.edu/identify T. Pasanen / Johdatus bioinformatiikkaan

Yhdistetyt sekundääritietokannat • Pyrkimys luoda yhtenäinen käyttöliittymä kaikkiin sekundäärikantoihin PROSITE, PRINTS, Profiles, Pfam ja BLOCKS • Johdettuihin tietokantoihin linkit niihin kantoihin joissa kommentteja sekä tulevaisuudessa lisäksi animaatiota T. Pasanen / Johdatus bioinformatiikkaan

Rakenneluokittelu (vrt tasot) • 3D rakenteita vähän (käsin löytäminen) • Relaation (rakenne, sekvenssi) ei varma? • Proteiineilla sama rakenne: sama esi-isä? • Evoluutio toimii DNA- ja aminohappotasolla sekä laskostumistasolla (orthologia) • Proteiinien säilyneet toiminnat merkitsevät että kriittisten aktiivisten tähteiden (residues) rakenteellinen ympäristö on myös säilynyt T. Pasanen / Johdatus bioinformatiikkaan

SCOP Structural Classification of Proteinshttp://scop.mrc-lmb.cam.ac.uk/scop • Perhe: proteiinit joiden samankaltaisuus on yleensä vähintään 30% (joitakin poikkeuksia) • Superperhe: proteiinit joiden rakenne ja toiminta viittaa yhteiseen esi-isään vaikka sekvenssi-tasolla proteiinien samankaltaisuus ei ole suuri • Laskostuminen: suurimpien sekundääri-rakenteiden järjestys ja topologia on sama; saattavat johtua fyysisistä ja kemiallisista syistä T. Pasanen / Johdatus bioinformatiikkaan

CATHClass, Architecture, Topology, Homology • Luokka perustuu karkeaan jaotteluun: -kierteiset, -levyt,  rakenteet ja sekvenssit joilla ei juurikaan ole toisen asteen rakenteita • Arkkitehtuuri kuvaa sekundäärirakenteiden karkean aseman suhteessa toisiinsa, liityntöjä ei kuvata (esim. tynnyri, rulla, kerrosleipä) • Topologia kuvaa sekä asemat että liitynnät T. Pasanen / Johdatus bioinformatiikkaan

http://www.biochem.ucl.ac.uk/bsm/cath_new • Homologia kuvaa samanlaisi rakenteita sisältäviä proteiineja kun proteiinien lineaarisen tason samankaltaisuuden alaraja on 35% ja • Sekvenssitasolla edellisen tason proteiiniluokat jaotellaan vielä tarkemmin rakenteen perusteella T. Pasanen / Johdatus bioinformatiikkaan

PDBsumhttp://www.biochem.ucl.ac.uk/bsm/pdbsum/ • Suurin rakennetiedon keräyspaikka • Jokaisesta PDB:n sekvenssistä on luotu yhteenveto mikä sisältää mm. tuloksien luotettavuusarvion, proteiiniketjujen määrän, metalli-ionit, sekundäärirakenteet, laskostumispiirustuksen jne. • Näitä käytetään kun yhdistetään proteiinin 1D, 2D ja 3D tietoa T. Pasanen / Johdatus bioinformatiikkaan

Primääritietokannat