Bevezetés a bioinformatikába

Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu

Zajlik az eredeti adatfelhalmozás • Megszekvenáltunk egy csomó fehérjét • Megszekvenáltunk (úgy, ahogy) néhány genomot • És most már a proteomikai laborok/centrumok is adatot adatra halmoznak

Zajlik az eredeti adatfelhalmozás • vannak 2D-gél adatbázisok • Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek • fehérje-komplex és fehérje-hálózat leírások • mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!

Proteomikához komputer kell • Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes • A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal

Lekereső programok elé • „peak picking” programok • Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat • Mostanság ezt az MS-cég által biztosított szoftver teszi • Az eredeti jel többszörös átalakításon esik keresztül • Felbontás? küszöb? Kalibráció?

Lekereső programok • Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene • Helyette több van • A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták

SEQUEST I • J. Yates, LCQ ioncsapdára írta • nyilván tökéletes, mert nem fejlesztik • nagyon lassú, drága, és túl sok mindent talál meg • Jellemző módon a féltriptikus peptid az alapbeállítása • Csak házon belül

SEQUEST II • Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá • Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.

Mascot (www.matrixscience.com) • John Cottrell, kicsi, de lelkes csapat • állandó megújulás • Ingyen a neten is elérhető – limitációkkal • Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”

ProteinProspector • Almost my baby • Nincs ipari háttere • Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu • Új LC-MS/MS verzió, b-site –meghívásos • megvásárolható az új verzió • belső verzió egyedi, kvantira - tesztelt

Futottak még • Spektrum-Mill – Prospector „ága” (Agilent Technologies) • készülék-gyártók bágyatag próbálkozásai • SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?

Fehérje „lerakat” vs adatbázis • Szimpla szekvencia lista vs. • Kimerítő információ raktár

Fehérje „lerakat” vs adatbázis • MS-alapú „azonosításra” az első is megteszi • De ez így elég agytalan: • „hypothetical” protein • „predicted” protein Kiindulási alapnak azért jó

Milyen az ideális adatbázis? • Minden fehérje benne van • Hibátlanul • Olyan formában, ahogy előfordul • Csak egyszer

Milyen az ideális adatbázis? • Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!)  Poszt-transzlációs módosítások  Térszerkezet  Protein-komplexek/hálózatok, aminek a fehérjénk része  Funkció

Milyen az ideális adatbázis? • Benne van az is, amit még csak sejtünk • Predikciós programok • Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető

Valóságos „lerakatok” (repositories) • GenPept • NCBI’s Entrez Protein • NCBI’s RefSeq

GenPept (NCBI ez is) • GenBank Gene Products Data Bank • CSAK lefordított nukleotid szekvenciák • Forrás: kombinált nukleotid adatbázisok  DNA Data Bank of Japan (DDBJ)  European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas  GenBank

GenPept • Egy fehérje több „kópiája” • Csupán nukleotid-szekvenciákon alapuló információk • Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)

NCBI’s Entrez Protein • Ebbe aztán beletettek apait, anyait  GenPept  SwissProt  PIR  RefSeq  Protein Data Bank

NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster] Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.

NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak

Van azért igazi változatosság is Példa fehérje-variánsok azonosításra (S. mansoni)

NCBI’s Entrez Protein • Ez redundáns csak igazán • De néha az egyedüli forrás • Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein

Reference Sequence collection • „Each RefSeq represents a single, naturally occurring molecule from a particular organism.” • „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/

Adatbázisok • Swiss-Prot • TrEMBL • PIR • UniProt

Swiss-Prot • a legalaposabb (nem hiába, svájci!) • egy fehérjéhez egy azonosító • Részletes bibliográfia – szekvencia-variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás

SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?

SWISSPROT Marha fetuin √ Foszforilációról semmi! √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?!

TrEMBL • Translation from EMBL (DDBJ/GenBank) • hogy az új szekvenciák mielőbb elérhetőek legyenek • csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban

PIR-PSD • Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz • Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal

UniProt (http://www.expasy.uniprot.org/index.shtml) • Swiss-Prot és PIR-PSD és TrEMBL  Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni

UniProt (http://www.expasy.uniprot.org/index.shtml) • UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences • UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing • UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.

Addig jó, míg lúdfűvel meg egérrel dolgozunk... • Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)

Addig jó, míg lúdfűvel meg egérrel dolgozunk... • segíthet „the Institute of Genomic Research” - http://www.tigr.org/ • meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni • ha van saját lekeresőd, és az adatbázis letölthető – finom • ha tudsz de novo szekvenálni - BLAST

Áradat • Nőnek az adathalmazok • Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában • Próbáljuk gátak közé szorítani őket • egységesítés • Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)

Nagy adathalmazok • MudPIT kísérlet, SCX, LCMS – 55 ezer CID • ezt már csak a gép „nézi végig” • automatizált adat-analízis – pontozás, hol a hihetőségi határ • STATISZTIKA! - nagyobb adatbázis jobb • Random adatbázisok ellenőrzésre

Nagy adathalmazok • Nemcsak az analízis, a jelentés/dokumentáció is komplikált • Peptideket azonosítunk • De azonosítjuk-e a fehérjéket?

Rank D Acc # Shared Species 1 Q8N175 23 HUMAN 1-1 0 P13645 23 HUMAN 1-2 0 Q14664 17 HUMAN 1-3 14 P35527 15 HUMAN 1-13 0 Q7Z3Y7 3 HUMAN 1-14 0 Q7Z3Y8 3 HUMAN 1-15 0 Q7Z3Z0 3 HUMAN 1-18 0 Q6ZP84 3 HUMAN 1-21 0 P08779 3 HUMAN 1-22 0 P02533 3 HUMAN 1-29 0 Q7Z3Y9 2 HUMAN 1-38 0 Q6ZPD6 2 HUMAN 1-46 0 Q2M2I5 1 HUMAN 1-47 0 P13646 1 HUMAN 1-48 0 Q9NXG7 1 HUMAN 1-52 1 Q04695 2 HUMAN 1-56 1 Q8N1P6 2 HUMAN 1-71 0 Q99456 1 HUMAN 1-73 0 Q2TAZ7 1 HUMAN 1-75 0 P08727 1 HUMAN 1-76 0 P19012 1 HUMAN Rank Acc # Num Unique Species 1 Q8N175 23 HUMAN Azonosítjuk-e a fehérjéket? Csak a nyertest Mindent felsorolunk

Mit adjunk meg? • Nem egyértelmű • Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!

HUPO • Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására • Remélhetőleg az eszközöket is biztosítják majd hozzá

Bevezetés a bioinformatikába

Bevezetés a bioinformatikába

Presentation Transcript

PSZICHOPEDAG GIA SZAK

Die Umwelt schonen und gleichzeitig Kosten sparen

Vorlesung Bioinformatik Teil II

Databasteknik Databaser och bioinformatik Data structures and Indexing (I)

Databasteknik Databaser och bioinformatik Data structures and Indexing ( II)

Közösségi média használat az egészségipari kommunikációban

Databasteknik Databaser och bioinformatik SQL

Vorlesung Grundlagen der Bioinformatik gobics.de/lectures/ss07/grundlagen

Regionális gazdasági egyenl ő tlenségek Romániában

Jose M. Peña j ose.m.pena@liu.se

VL Algorithmische BioInformatik (19710) WS2013/2014 Woche 16 - Mittwoch

Bevezet Ã© s a C++ programozÃ¡si nyelvbe

Ingo Rechenberg

Literaturverwaltung mit EndNote X7 Kurzanleitung Stand : 6. Januar 2014

Classifying The Real World

Az internet veszélyei

Közeltéri mikroszkópiák

Molekularbiologische Datenbanken

Bevezet és az Oracle SQL-be

Bevezet és a multimédiába

Einführungsveranstaltung Bioinformatik WS2006/07

KÖRNYEZET ( VÉDELM ) I BIOTECHNOLÓGIA