Lyginamosios genomikos metodai ir algoritmai

Lyginamosios genomikos metodai ir algoritmai Prof. Robertas Damaševičius KTU Programų inžinerijos katedra, Studentų 50-415 Email: robertas.damasevicius@(at)ktu.lt

Genomika • Genomikayra rūšies viso genomo molekulinė analizė • Genolapio sudarymas • Sekvenavimas (nukleotidų sekos nustatymas) • Struktūrinė genomikaprasideda genolapio sudarymu ir baigiasi pilnu genomo sekvenavimu • Funkcinė genomikatiria, kaip genų sąveikos skuria organizmo požymius • Funcinės genomikos pagrindinė paskirtis yra išsiaiškinti genetinių sekų reikšmę organizmo funkcionavimui

Lyginamosios genomikos metodai ir algoritmai • Lyginamoji genomika yra skirtingų organizmų rūšių genetinių duomenų palyginimas siekiant suprasti jų evoliuciją, genų funkcijas, paveldimas ligas ir pan. • Lyginama: • Genų vieta chromosomoje. • Genų struktūra (įvairių genų komponentų skaičius ir ilgis). • Genų charakteristikos (kodonų naudojimas ir pan.). • Lyginamosios genomikos uždaviniai yra: • Genų suradimas (identifikavimas). • Genų motyvų suradimas Bioinformatika (B110M100)

Genų identifikavimo metodai (1) • Genų identifikavimas: bioinformatikos šaka apimanti algoritmų taikymą nustatant biologinę funkciją turinčias biomolekulinių sekų (paprastai DNR) fragmentus (genus). • Išoriniai metodai. • Turint baltymo seką galima atlikti atvirkštinį transliavimą ir nustatyti DNRsekų-kandidačių aibę. • Turint sekas-kandidates atliekama paieška tiriamame genome ir nustatomi visiški arba daliniai sutapimai. • Didelis panašumas reiškia, kad genomo fragmentas yra genas. • Trūkumas: reikalauja labai daug eksperimentinių duomenų, todėl nėra efektyvūs Bioinformatika (B110M100)

Genų identifikavimo metodai (2) • Metodai „nuo pradžios“ (Ab initio). • Genomo DNR sekoje atliekama paieška ieškant specialių baltymus koduojančių genų pradžios ir pabaigos simbolių (fragmentų). • Rezultatų teisingumą dar reikia patvirtinti išoriniais metodais. • GENESCAN, Z-kreivė Bioinformatika (B110M100) 5

GENESCAN algoritmas • Genų numatymui naudoja Furjė transformaciją. • N nukleotidų seką galima nagrinėti kaip simbolių eilutę {xj, j=1,2, ..., N}, kur xj yra vienas iš keturių simbolių A, T, G ir C sekos pozicijoje j. • Apibrėžiama funkcija Ua, kuri pasirenka sekos elementus lygius simboliui a, t.y.: Ua(xj) = 1, jei xj = a Ua(xj) = 0, jei xj ≠ a • Kadangi skirtingų simbolių yra 4, apibrėžiamos 4 skirtingos funkcijos UA, UT, UG, UC. • Jų pagalba seka transformuojama į 4 skirtingas dvejetaines sekas Bioinformatika (B110M100)

DNR sekos transformavimas į dvejetaines sekas Bioinformatika (B110M100)

Sekų analizė naudojant Furjė metodus(1) • Nagrinėjama koreliacija tarp simbolių, gaunamas DNR sekos spektras. • Bendras DNR sekos spektras yra atskirų dvejetainių sekų spektrų suma: kur: Sα(f) yra dalinis a simbolio spektras, a (A, G, C, T). Bioinformatika (B110M100)

Sekų analizė naudojant Furjė metodus(2) Bendrojo spektro vidurkis apskaičiuotas naudojant simbolio dažnį ρα: Galia P : Bioinformatika (B110M100) 9

DNR sekos spektro pavyzdys Bioinformatika (B110M100)

GENESCAN pavyzdys • http://www.imtech.res.in/raghava/ftgpred

Z-kreivės metodas • Z-kreivė: trimatė kreivė, kuri unikaliai atvaizduoja DNR seką. • Turint Z-kreivę galima rekonstruoti pradinę DNR seką. • Z-kreivės metodas bioinformatikoje yra naudojamas genomo analizei ir genų numatymui. • Z-kreivės pranašumai: • galima lengvai pastebėti DNR sekos šablonus. • metodas yra paprastas ir labai jautrus. Bioinformatika (B110M100)

Z-kreivė • Z-kreivė yra sudaryta iš mazgų P0, P1, P2, ..., PN, kurių koordinatės xn, ynir zn (n = 0, 1, 2, ... , N, kur N yra analizuojamos DNR sekos ilgis) yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: • kur: An, Cn, Gnir Tn yra A, C, G ir T simbolių skaičius nuo i-ojo iki n-tojo sekos simbolio. • Z-kreivė gaunama nuosekliai sujungus mazgus P0, P1, P2, ..., PN tiesiomis linijomis. Bioinformatika (B110M100)

Z-kreivės braižymas • Z-kreivė yra brėžiama trimatėje erdvėje, kurios ašys turi tokią reikšmė: • x-ašis rodo purino/pirimidino (R/Y) bazių pasiskirstymą sekoje; • y-ašis rodo amino/keto (M/K) bazių pasiskirstymą sekoje; • z-ašis rodo stiprios vandenilinės jungties/silpnos vandenilinės jungties (S/W) bazių pasiskirstymą sekoje. Bioinformatika (B110M100)

Genų suradimo algoritmas naudojant Z-kreivę 1) Tegul A, C, G ir T nukleotidų dažnis DNR sekos fragmente pozicijose 1, 4, 7,...; 2 ,5, 8,... ir 3, 6, 9,... yra žymimas a1, c1, g1, t1 ; a2, c2, g2, t2 ; a3, c3, g3, t3. 2) Naudojant Z-kreivę ai, ci, gi, ti yra atvaizduojamos į tašką Pitrimatėje erdvėje Vi, i = 1, 2, 3. 3) Pi koordinatės yra apskaičiuojamos naudojant DNR sekos Z-transformaciją: 4) DNR sekos fragmentą galima atvaizduojamas vektoriumi 9-matėje erdvėje V. Tegul 9-matė erdvė V yra poerdvių V1, V2ir V3 suma, kur jos koordinatės u1, u2, ..., u9 yra apibrėžiamos taip: Bioinformatika (B110M100)

Z-kreivė: pavyzdys Bioinformatika (B110M100)

Z-kreivė: demonstracija • http://tubic.tju.edu.cn/zcurve/

Z-kreivės metodo įvertinimas • Pagrindinė genų numatymo naudojant Z-kreivę idėja: koduojantys ir nekoduojantys sekos fragmentai bus išsidėstę skirtingose 9-matės erdvės V vietose. • 2-matės V erdvės projekcijai gauti galima naudoti daugiamačių skalių (MDS) metodą. • Pranašumai: • labai paprastas ir lengvas naudoti DNR vizualizavimo metodas leidžiantis greitai pamatyti pagrindines DNR sekos globalias ir lokalias charakteristikas; • galima palyginti 2 ar daugiau DNR sekas lyginant jų Z-kreives. Bioinformatika (B110M100)

Motyvai • Sekos motyvas yra nukleotidų arba amino rūgščių sekos šablonas, kuris yra dažnai aptinkamas ir turi biologinę prasmę. • Trumpi sekų motyvai, pvz., gali reikšti į kurią ląstelės vietą turi būti pristatomas baltymas po jo sintezės, arba įtakoja DNR spiralės formą. • Motyvų aprašymo susitarimai: • Atskiras abėcėlės simbolis aprašo amino rūgštį arba jų aibę. • Simbolių eilutė aprašo atitinkamų amino rūgščių seką. • Kvadratiniai skliaustai reiškia vieną iš apskliaustų amino rūgščių. • Riestiniai skliaustai reiškia bet kurią amino rūgštį išskyrus apskliaustą. Bioinformatika (B110M100)

Sekų motyvai • Genetinė seka, turinti tam tikrą funkciją, yra vadinama sekos elementu arba sekos motyvu • Specifiniai aminorūgščių motyvai, atliekantys baltymuose specializuotas funkcijas • Pvz., asparaginas–X–serinas (kur X yra bet kuri aminorūgštis) yra eukariotų baltymų glikozilinimo vieta • Prosite duomenų bazėje yra kaupiamos žinios apie aminorūgščių motyvus, turinčius funkcinę reikšmę

Motyvo pavyzdys • Motyvo pavyzdys (aprašo N-glikosilacijos vietą): N{P}[ST]{P} čia: N = Asn, P = Pro, S = Ser, T = Thr; {X} – reiškia bet kurią amino rūgštį išskyrus X; [XY] – reiškia X arba Y. Bioinformatika (B110M100)

PROSITE notacija • Naudoja: • IUPAC vienos raidės kodus skirtus amino rūgščių žymėjimui ir • papildomą konkatenacijos simbolį `-`, kuris dažnai yra praleidžiamas tarp šablono abėcėlės raidžių. • Be to dar naudojami tokie simboliai: • x – bet kokia amino rūgštis; • { } - reiškia bet kurią amino rūgštį išskyrus apskliaustą; • e(m) – reiškia e amino rūgštį pakartotą m kartų; • e(m,n) – reiškia e amino rūgštį pakartotą k kartų, kur m <= k <= n; Bioinformatika (B110M100)

PROSITE notacija: pavyzdys • PROSITE šablonas CBD_FUNGAL (prieigos kodas PS00562), aprašantis 1 tipo karbohidratinę jungtį CBM1): C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]-x(2)-Q-C Bioinformatika (B110M100)

Motyvo suradimo metodai • Sekos profilio analizė: pirmiausiai surandamas globalus daugybinis sekų sugretinimas. Jame izoliuojami labai konservatyvūs regionai, iš kurių konstruojamos profilio matricos. Profilio matricos yra naudojamos ieškoti motyvų kitose užklausos sekose. • Blokų analizė: motyvų paieška apsiriboja spragų neturinčiuose sugretinimo regionuose (blokuose), kurie gaunami atlikus daugybinį sekų sugretinimą. • Statistinė šablonų paieška naudojant tikėtino maksimizavimo (expectation-maximization) algoritmą. Bioinformatika (B110M100)

Sekų motyvai, nustatomi kompiuterinės analizės metu R – bet kuris purinas, Y – bet kuris pirimidinas, N - bet kuris nukleotidas

Lyginamosios genomikos metodai ir algoritmai

Lyginamosios genomikos metodai ir algoritmai

Presentation Transcript

Kokybiniai ir kiekybiniai metodai

Kokybiniai modeliai ir metodai

LOGINIAI IR MATEMATI NIAI METODAI G EOGRAFIJOJE

Algoritmai ir duomenų struktūros ( AD S)

Algoritmai ir duomenų struktūros ( AD S)

Algoritmai ir duomenų struktūros ( AD S)

Sekų paieškos, sugretinimo ir analizės metodai

Svorio matavimo metodai ir technika

Maišymo ir šifravimo algoritmai

Algoritmai ir duomenų struktūros ( AD S)

Lygiagretieji algoritmai

Algoritmai ir duomenų struktūros ( AD S)

Aktyvieji metodai ir samprotavimo metodika siekiant geresnės ugdymo kokybės

Paskaita 3. Duomen ų gavybos etapai ir metodai

Daugiakalbystės tyrinėjimo sociolingvistiniai metodai ir galimybės Baltijos šalyse

Algoritmai ir duomenų struktūros ( AD S)

Algoritmai ir duomenų struktūros ( AD S)

Rikiavimo - Rūšiavimo algoritmai

Šifravimo algoritmai

Genetiniai algoritmai

NEPARAMETRINIAI METODAI

Algoritmai ir duomenų struktūros ( AD S)