1 / 53

Osnova

Osnova. 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2. Význam řešení a jeho obtížnost 2.3. Oblasti aplikace. 3. Příklady problémů 3.1. Sekvence nukleotidů - identifikace genů

Télécharger la présentation

Osnova

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Osnova 1. Bioinformatická data 1.1. Makromolekuly 1.2. Od DNA k proteinu 1.3. Proteiny 1.4. Databáze 2. Strojové učení v bioinformatice 2.1. Motivace 2.2. Význam řešení a jeho obtížnost 2.3. Oblasti aplikace 3. Příklady problémů 3.1. Sekvence nukleotidů - identifikace genů 3.2. Proteinové sekvence 3.3. Identifikace významných míst ve struktuře proteinů 3.4. Klasifikace proteinů 3.5. Principy proteinových struktur 3.6. Aminokyselinová záměna 3.7. Analýza experimentálních dat

  2. 1.1. Makromolekuly • nukleové kyseliny CTGCTGCTCTCCGGGGCCACGGCCACCGCTGC • proteiny MNVLDSFINYYDSEKHAENAVIFLHGN • kombinace – ribozom (RNA + protein), glykoproteiny (sacharid + protein)

  3. 1.2. Od DNA k proteinu • DNA – „dlouhodobé úložiště návodu na život“ • RNA – „aktuálně vykonávaná instrukce“ • proteiny – zajišťují většinu chemie, regulace a část struktury

  4. 1.2. Od DNA k proteinu - geny • regulační úseky • kódující část

  5. 1.3. Protein se skládají z aminokyselin (AA)

  6. 1.3. Sekvence proteinu MSLGAKPFGEKKFIEIKGRRMAYIDEGTGDPILFQHGNPTSSYLWRNIMPHCAGLG RLIACDLIGMGDSDKLDPSGPERYAYAEHRDYLDALWEALDLGDRVVLVVHDWGS ALGFDWARRHRERVQGIAYMEAIAMPIEWADFPEQDRDLFQAFRSQAGEELVLQD NVFVEQVLPGLILRPLSEAEMAAYREPFLAAGEARRPTLSWPRQIPIAGTPADVVAIA RDYAGWLSESPIPKLFINAEPGALTTGRMRDFCRTWPNQTEITVAGAHFIQEDSPD EIGAAIAAFVRRLRPA

  7. 1.3. Struktura proteinu páteř atomy povrch

  8. 1.3. Úrovně struktury Sekundární Primární - sekvence Terciární – topologie, souřadnice Kvarterní

  9. 1.4.Bioinformatická data - databáze • sekvence • genomické1 • proteinové2 • RNA • struktury • proteiny3 • RNA • funkce • mutace • interakce molekul, regulace, metabolické dráhy • databáze naměřených hodnot 1www.ncbi.nlm.nih.gov/Genbank/ 2www.uniprot.org 3www.pdb.org

  10. 1.5.Co si odnést z úvodu • protein • z 20 druhů aminokyselin • délka cca 100 – 400 aminokyselin • sekvence: MLDAKQDCAWAYTLKGP • struktura • DNA • 4 nukleotidy: a, c, g, t • sekvence: gcatctcctggtaagcacatat • gen – plán pro výrobu proteinů • genom organismu • tisíce až miliardy nukleotidů • stovky až desítky tisíc genů

  11. 2.1. Strojové učení v bioinformatice - motivace • přesný výpočet není možný • čas • nedostatek informací • biomolekuly a jejich interakce • jsou složité • je jich hodně • databáze jsou volně dostupné • sekvence >> struktura >> funkce • pro 180 organismů známe sekvenci celého genomu • 7.000.000 proteinových sekvencí • 50.000 proteinových struktur

  12. 2.1. Nárůst proteinových sekvencí

  13. 2.1. Nárůst proteinových struktur

  14. 2.2. Význam řešení a jeho obtížnost Význam řešení základní výzkum praktická využitelnost obecné nástroje přesná předpověď pro malou komunit • Obtížnost řešení • náročné předzpracování • integrace výpočetních nástrojů • volba algoritmu • jen při nových problémech • výběr atributů • měření • složení sekvence

  15. 2.3. Oblasti aplikace ML v bioinformatice 1 genomika hledání genů (proteinové, RNA) regulační elementy určování funkce genu „dodatečné úpravy genů“ analýza mutací P. Larrañaga et al. (2006) Machine learning in bioinformatics

  16. 2.3. Oblasti aplikace ML v bioinformatice 2 proteomika klasifikace struktur určování funkce (Gene Ontology, Enzyme Commission number) určování polohy v buňce predikce struktury (lokální, hodnocení kvality předpovědi, podle podobnosti) hodnocení komplexu protein – malá molekula hodnocení komplexu protein – protein predikce chování proteinu (stabilita, rozpustnost, alergenicita) P. Larrañaga et al. (2006) Machine learning in bioinformatics

  17. 2.3. Oblasti aplikace ML v bioinformatice 3 systémová biologie biologické sítě (metabolické dráhy, regulace genové exprese, mezibuněčná signalizace) grafy protein – proteinových interakcí vlastnosti malých molekul (chemoinformatika) biologická aktivita obecně aktivita vzhledem k cílové makromolekule experimentální data zpracování obrazu vyhodnocení mnohorozměrných dat (rozlišení normálních a rakovinné tkáně) – microarrays, hmotnostní spektrometrie indukce genových regulačních sítí - microarrays dolování znalostí z textu

  18. 3. Příklady problémů

  19. 3.1. Sekvence nukleotidů – identifikace genů význam přečteného genomu GISMO1 identifikace sekvencí kódujících proteiny identifikace známých domén – trénovací sada pozitivní: úseky se sekvencí velmi podobnou profilu domény negativní: ve stínu, s překryvem víc než 90 bp SVM frekvence oligonukleotidů délky 3-9 (aaa, aac, ..., ttt) frekvence aminokyselin a jejich dvojic (AA, AC, ... YY) senzitivita = 94,3 % specificita = 94,3 % 1Krause et. al (2007) GISMO—gene identification using a support vector machine for ORF classification

  20. 3.2.Proteinové sekvence • (sekvence, pozice) třída • (sekvence, pozice)  reálné číslo • Jak převést sekvenci na atributy? • frekvence výskytu slov v okolí pozice (AA, AC, AD, ..., YY) • pohyblivé okno • predikce vlastnosti pro pozici uprostřed WARCKQMNVLDSFIN

  21. 3.2. Neuronové sítě a sekvence

  22. 3.2. Sekundární struktura (SS) – úvod • lokální uspořádání aminokyselin • geometrie • vodíkové můstky • H: a-šroubovice • E: b-list • C: neuspořádaná • samotný segment není stabilní • přesto je sekvence pro typ SS typická

  23. 3.2. Sekundární struktura – PSIPRED • PSIPRED1 • dvojice neuronových sítí • vstup: sekvence • předzpracování: profil příbuzných sekvencí • výstup: posloupnost C, H, E WARCKQMNVLDSFINYYDSEKHAENAVIFLHGNAASSYLW CCCEEEEEECCEEEEEEECCCCCCCEEEEECCCCCCHHHH 6858999999668997799968987744429999999999 1 http://bioinf.cs.ucl.ac.uk/psipred/

  24. 3.2. PSIPRED – profil (PSI-BLAST PSSM)

  25. 3.2. PSIPRED – 1. neuronová síť • okno 15-ti aminokyselin • 15x21 vstupů (20 AA + začátek nebo konec) • 75 neuronů skryté vrstvy • 3 výstupní neurony (C, H, E) • (0.2, 0.9, 0.1) – pravděpodobně H (šroubovice)

  26. 3.2. PSIPRED – 2. neuronová síť • okno 15-ti predikovaných SS • 15x4 vstupů (3 výstupy 1. sítě + začátek nebo konec) • 60 neuronů skryté vrstvy • 3 výstupní neurony • odvození konečné predikce C, H, E a její důvěryhodnosti WARCKQMNVLDSFINYYDSEKHAENAVIFLHG CCCEEEEEECCEEEEEEECCCCCCCEEEEECC 68589999996689977999689877444299

  27. 3.2. PSIPRED – testování • 3-násobné křížové ověření • trénovací sada nesmí obsahovat sekvence příbuzné těm z testovací • Q3 = 76 (±7,8) % • Sov3 = 73,5 (±12,7) %

  28. 3.2. PSIPRED – úspěšnost • jednoduchá • online • CASP3 1998

  29. 3.2. SS – speciální situace sekvence + cirkulární dichroizmus (CD)  SS pozic struktura + změny sekvence + výsledné CD změny SS pozic predikce pouze proteiny složené pouze z alfa šroubovic

  30. 3.2. Další strukturní charakteristiky sekvence accessible surface area (ASA) membránové úseky využití predikce struktury ze sekvence predikce důsledku aminokyselinové záměny (náhrada struktury) hledání sekvencí podobných struktuře

  31. 3.2. Využití SS a ASA – predikce struktury http://fold.it/portal/

  32. 3.3. Identifikace významných míst ve struktuře proteinů • které aminokyseliny jsou • fosforylovány • glykosylovány • místem proteolytického štěpení • katalytické • interagují s DNA, RNA, jiným proteinem • (struktura proteinu, pozice) atributy  třída • většinou lze odvozovat i z pouhé sekvence

  33. 3.4.Klasifikace proteinů • vstup: • sekvence • struktura • předzpracování: • stažení informací z databáze • hledání příbuzných proteinů • výpočty • celkové (volná energie) • pro pozice (evoluční konzervovanost) • výstup: • třída (lokalizace v buňce, topologie, funkce)

  34. 3.5. Principy proteinových struktur • struktura proteinu • souřadnice všech atomů • strukturu neumíme předpovědět přesně • topologie: uspořádání sekundárních elementů • v sekvenci • vzájemná poloha ve struktuře • klasifikace • úspěšné topologie • klasifikace proteinových struktur podle topologie – SCOP1 1A. G. Murzin et al.: SCOP http://scop.berkeley.edu/

  35. 3.5. Objevování strukturních principů proteinů • klasifikace nových struktur podle topologie (fold) • popis druhu topologie • TIM barel (SCOP): contains parallel b-sheet barrel, closed; n = 8; S = 8; strand order 12345678 • Dokážeme definice generovat automaticky1? 1Cootes, Muggleton, Sternberg (2003) The Automatic Discovery of Structural Principles Describing Protein Fold Space

  36. 3.5. Topologie proteinů – znalostní báze a příklady • induktivní logické programování, Progol • znalostní báze • protein p1 má 9 a-šroubovic • protein p1 má skládaný list složený z 8 b-segmentů • protein p1 má a-šroubovici na pozici 2 který se dotýká b-segmentu na pozic • příklady • protein p1 jetim_barel • protein p1 není globin • protein p1 není rossman

  37. 3.5. Topologie proteinů - učení • Progol buduje pravidla • komprese pravidla f = p - n - c • p – pozitivní příklady pokryté pravidlem • n – negativní příklady pokryté pravidlem • c – délka pravidla najdi pravidlo s maximální kompresí vymaž pozitivní příklady pokryté pravidlem opakuj se zbytkem pozitivních příkladů

  38. 3.5. Topologie proteinů - výsledky • učeno 45 topologií • Q = 97 % (oproti 95 %) • precision 77 % • recall 55 % • 10 topologií s největším počtem pozitivních příkladů: • precision 83 % • recall 69 %

  39. 3.5. Fold - imunoglobulinový fold • SCOP: Sandwich; seven strands in two sheets; greek-key; some members of the fold have additional strands • ILP: Has antiparallel sheets B and C; B has three strands, topology 123; C has four strands, topology 2134

  40. 3.5. Fold - Rossmanův fold • SCOP: Core: three layers, a/b/a; parallel b-sheet of six strands,order 321456 • ILP: Has between three and four helices; Has a-helix B as the second core element in the sequence; B contains a glycine residue in both its middle and N-terminal regionsOR Has a parallel sheet B of six strands with topology 321456; Has a-helices C and D as the seventh and the ninth core elements in the sequence respectively; C and D are in contact and parallel

  41. 3.6. Důsledek aminokyselinové záměny (AAS) • variabilita genotypu cca 1 % • změna nukleotidu může vyvolat aminokyselinovou substituci (AAS) • AAS vyvolá změna funkce proteinu • většina je neutrálních, ale některé mohou změnit funkci proteinu a tím i fenotyp organizmu LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDAWKVEVNDRQGFVPAAYVKKLD LMLVLALYDYQEKSPREVTMKKGDILTLLNSTNKDWWKVEVNDRQGFVPAAYVKKLD • Je daná AAS spojena s vyšším rizikem onemocnění?

  42. 3.6. Důsledek mutace – proč ML • odlišné charakteristiky AAS se vztahem k její škodlivosti • predikovaná změna volné energie proteinu • evoluční konzervovanost • frekvence výskytu AA v daném strukturním nebo sekvenčním kontextu • přesný matematický model neexistuje • velikost systému • neznámé interakce • aplikace • prioritizace klinických studií • proteinové inženýrství • celogenomové analýzy

  43. 3.6. Důsledek mutace ze struktury AUTO-MUTE • aminokyselina – bod, triangulace (Delaunay) • atributy • sklon AA vyskytovat se v daném prostředí • identita 6 sousedních AA • volný prostor v okolí (objem čtyřstěnů) • poloha (povrch, pod povrchem, hluboko) • sekundární struktura

  44. 3.6. AUTO-MUTE - výsledky • 1790 lidských AAS • nevyvážená sada: 458 neutral, 1332 disease associated • Weka, vybrán náhodný les • Q2 = 76 % (20-fold) • není nejlepší • vyžaduje 6 sousedních aminokyselin • úzký výběr atributů, přesnost půjde snadno zlepšit ... • ... ale přichází s originální sadou atributů

  45. 3.6. SNAP1 - data • non-neutral: 40.641 AAS s experimentálně prokázaným vlivem na funkci proteinu • neutral: 14.334 neutrálních + doplněno rozdíly mezi příbuznými proteiny • 80.000 příkladů • sekvence (MLKDEQHAGL...) • mutace (A54L) • důsledek (non-neutral/neutral) 1Yana Bromberg, Burkhard Rost (2007) SNAP: predict effect of non-synonymous polymorphisms on function

  46. 3.6. SNAP – atributy 1 • vstup: sekvence (MALKRSD…), AAS (G54W) • komplexní předzpracování: • sekvenční okno šířky 21 aminokyselin • predikovaná sekundární struktura • predikovaný povrch dostupný rozpouštědlu • změna vlastností AA (velikost, náboj) • pravděpodobnost tripletů LMNLA: LMN, MNL, NLA vs. LMI, MIL, ILA

  47. 3.6. SNAP – atributy 2 • vzorek podobných sekvencí (vícečetné zarovnání, PSSM)

  48. 3.6. SNAP – neuronová síť • neuronová síť trénovaná na 80.000 AAS • 137 vstupních, 45 skrytých uzlů, 2 výstupní • deleterious / non-neutral • 10 foldů, zakázaná sekvenční podobnost nad 21 % • 8 pro učení • 1 pro test zastavení • 1 pro krosvalidaci

  49. 3.6. SNAP - výsledky • Q2 = 79 % • Accuracynon-neutral = 76.3 ± 0.8 • Accuracyneutral = 82.0 ± 2.4 • Coveragenon-neutral = 83.3 ± 1.0 • Coverageneutral = 74.7 ± 2.2

  50. 3.7. Analýza experimentálních dat genová exprese (microarrays) hmotnostní spektrometrie – identifikace molekul Lancashire (2009) An introduction to artificial neural networks in bioinformatics-application to complex microarray and mass spectrometry datasets in cancer studies Assareh et al. (2007) A novel ensemble strategy for classification of prostate cancer protein mass spectra

More Related