1 / 25

Lyginamosios genomikos metodai ir algoritmai

Lyginamosios genomikos metodai ir algoritmai. Prof . Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robe rtas.damasevicius@(at)ktu.lt. Genomika. G enomi ka y r a rūšies viso genomo molekulinė analizė Genolapio sudarymas

baba
Télécharger la présentation

Lyginamosios genomikos metodai ir algoritmai

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Lyginamosios genomikos metodai ir algoritmai Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius@(at)ktu.lt

  2. Genomika • Genomikayra rūšies viso genomo molekulinė analizė • Genolapio sudarymas • Sekvenavimas (nukleotidų sekos nustatymas) • Struktūrinė genomikaprasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu • Funkcinė genomikatiria, kaip genų sąveikos skuria organizmo požymius • Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui

  3. Lyginamosios genomikos metodai ir algoritmai • Lyginamoji genomika yra skirtingų organizmų rūšių genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan. • Lyginama: • Genų vieta chromosomoje. • Genų struktūra (įvairių genų komponentų skaičius ir ilgis). • Genų charakteristikos (kodonų naudojimas ir pan.). •  Lyginamosios genomikos uždaviniai yra: • Genų suradimas (identifikavimas). • Genų motyvų suradimas Bioinformatika (B110M100)

  4. Genų identifikavimo metodai (1) • Genų identifikavimas: bioinformatikos šaka apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus). • Išoriniai metodai. • Turint baltymo seką galima atlikti atvirkštinį transliavimą ir nustatyti DNRsekų-kandidačių aibę. • Turint sekas-kandidates atliekama paieška tiriamame genome ir nustatomi visiški arba daliniai sutapimai. • Didelis panašumas reiškia, kad genomo fragmentas yra genas. • Trūkumas: reikalauja labai daug eksperimentinių duomenų, todėl nėra efektyvūs Bioinformatika (B110M100)

  5. Genų identifikavimo metodai (2) • Metodai „nuo pradžios“ (Ab initio). • Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų). • Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais. • GENESCAN, Z-kreivė Bioinformatika (B110M100) 5

  6. GENESCAN algoritmas • Genų numatymui naudoja Furjė transformaciją. • N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj, j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j. • Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.: Ua(xj) = 1, jei xj = a Ua(xj) = 0, jei xj ≠ a • Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos funkcijos UA, UT, UG, UC. • Jų pagalba seka transformuojama į 4 skirtingas dvejetaines sekas Bioinformatika (B110M100)

  7. DNR sekos transformavimas į dvejetaines sekas Bioinformatika (B110M100)

  8. Sekų analizė naudojant Furjė metodus(1) • Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras. • Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma: kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T). Bioinformatika (B110M100)

  9. Sekų analizė naudojant Furjė metodus(2) Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio dažnį ρα: Galia P : Bioinformatika (B110M100) 9

  10. DNR sekos spektro pavyzdys Bioinformatika (B110M100)

  11. GENESCAN pavyzdys • http://www.imtech.res.in/raghava/ftgpred

  12. Z-kreivės metodas • Z-kreivė: trimatė kreivė, kuri unikaliai atvaizduoja DNR seką. • Turint Z-kreivę galima rekonstruoti pradinę DNR seką. • Z-kreivės metodas bioinformatikoje yra naudojamas genomo analizei ir genų numatymui. • Z-kreivės pranašumai: • galima lengvai pastebėti DNR sekos šablonus. • metodas yra paprastas ir labai jautrus. Bioinformatika (B110M100)

  13. Z-kreivė • Z-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių koordinatės xn, ynir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: • kur: An, Cn, Gnir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio. •  Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis. Bioinformatika (B110M100)

  14. Z-kreivės braižymas • Z-kreivė yra brėžiama trimatėje erdvėje, kurios ašys turi tokią reikšmė: • x-ašis rodo purino/pirimidino (R/Y) bazių pasiskirstymą sekoje; • y-ašis rodo amino/keto (M/K) bazių pasiskirstymą sekoje; • z-ašis rodo stiprios vandenilinės jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje. Bioinformatika (B110M100)

  15. Genų suradimo algoritmas naudojant Z-kreivę 1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3. 2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pitrimatėje erdvėje Vi, i = 1, 2, 3. 3) Pi koordinatės yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: 4) DNR sekos fragmentą galima atvaizduojamas vektoriumi 9-matėje erdvėje V. Tegul 9-matė erdvė V yra poerdvių V1, V2ir V3 suma, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip: Bioinformatika (B110M100)

  16. Z-kreivė: pavyzdys Bioinformatika (B110M100)

  17. Z-kreivė: demonstracija • http://tubic.tju.edu.cn/zcurve/

  18. Z-kreivės metodo įvertinimas • Pagrindinė genų numatymo naudojant Z-kreivę idėja: koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose. • 2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą. • Pranašumai: • labai paprastas ir lengvas naudoti DNR vizualizavimo metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas; • galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives. Bioinformatika (B110M100)

  19. Motyvai • Sekos motyvas yra nukleotidų arba amino rūgščių sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę. • Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą. •  Motyvų aprašymo susitarimai: • Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę. • Simbolių eilutė aprašo atitinkamų amino rūgščių seką. • Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių. • Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą. Bioinformatika (B110M100)

  20. Sekų motyvai • Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu • Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijas • Pvz., asparaginas–X–serinas (kur X yra bet kuri aminorūgštis) yra eukariotų baltymų glikozilinimo vieta • Prosite duomenų bazėje yra kaupiamos žinios apie aminorūgščių motyvus, turinčius funkcinę reikšmę

  21. Motyvo pavyzdys • Motyvo pavyzdys (aprašo N-glikosilacijos vietą): N{P}[ST]{P} čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį išskyrus X; [XY] – reiškia X arba Y. Bioinformatika (B110M100)

  22. PROSITE notacija • Naudoja: • IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir • papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių. • Be to dar naudojami tokie simboliai: • x – bet kokia amino rūgštis; • { } - reiškia bet kurią amino rūgštį išskyrus apskliaustą; • e(m) – reiškia e amino rūgštį pakartotą m kartų; • e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur m <= k <= n; Bioinformatika (B110M100)

  23. PROSITE notacija: pavyzdys • PROSITE šablonas CBD_FUNGAL (prieigos kodas PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1): C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C Bioinformatika (B110M100)

  24. Motyvo suradimo metodai • Sekos profilio analizė: pirmiausiai surandamas globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose. • Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą. • Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą. Bioinformatika (B110M100)

  25. Sekų motyvai, nustatomi kompiuterinės analizės metu R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas

More Related