290 likes | 473 Vues
Zastosowania sieci neuronowych w bioinformatyce. Autor: Rafał Grodzicki. Zastosowania sieci neuronowych w bioinformatyce. Predykcja struktury białek Struktura 2 i 3 - rzędowa Mapy i wektory kontaktów Badanie ekspresji genów (mikromacierze DNA).
E N D
Zastosowania sieci neuronowych w bioinformatyce Autor: Rafał Grodzicki
Zastosowania sieci neuronowych w bioinformatyce • Predykcja struktury białek • Struktura 2 i 3 - rzędowa • Mapy i wektory kontaktów • Badanie ekspresji genów (mikromacierze DNA)
Predykcja struktury białek – podstawy biologiczne • Struktura 1-rzędowa • Sekwencja aminokwasów – słowo nad 20-elementowym alfabetem: {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y} • Typowa długość: 100 – 1500 aminokwasów AYIAKQRQISFVKSHFSRQLEERLGLIEV…
Predykcja struktury białek – podstawy biologiczne • Struktura 2-rzędowa • Polipeptyd spontanicznie zwija się w regularne struktury: α helisastruktura β
Predykcja struktury białek – podstawy biologiczne • Struktura 3-rzędowa • Wzajemne przestrzenne ułożenie struktur 2-rzędowych
Predykcja struktury białek – biologiczna istotność problemu • Struktura determinuje funkcję białka Struktura 1-rzędowa => => Struktura 3-rzędowa => Funkcja białka • Kilkadziesiąt milionów znanych sekwencji DNA • Kilkadziesiąt tysięcy białek o znanej strukturze 3-rzędowej • Duży koszt eksperymentalnego określania struktury 3-rzędowej
Predykcja struktury białek – dane • PDB (Protein Data Bank – http://www.pdb.org) • szczegółowe informacje na temat struktury 1 i 3-rzędowej ok. 37500 białek (dane na styczeń 2007) • reprezentatywne podzbiory białek z bazy PDB (tzw. pdb_select)
Predykcja struktury 2-rzędowej – dane • PDB nie zawiera jawnych danych na temat struktury 2-rzędowej • DSSP • Wolfgang Kabsch, Chris Sander • Uzyskiwanie informacji o strukturze 2-rzędowej na podstawie danych z PDB • 7 klas: H, G, I, E, B, T, S
Predykcja struktury 2-rzędowej – perceptron • Wejście: • Informacja na temat w sąsiednich aminokwasów (w nieparzysta) – tzw. okno wejściowe • Kodowanie ortogonalne aminokwasów: • wektor o wymiarze 20 • na jednej pozycji 1, a na pozostałych 0 • (20*w) elementów wejściowych
Predykcja struktury 2-rzędowej – perceptron • Wyjście: • 3 neurony wyjściowe odpowiadające poszczególnym klasom struktury 2-rzędowej (wartość rzeczywista z przedziału [0,1]): • H – α helisa • E – struktura β • L – pętla łącząca • Wynik predykcji: klasa odpowiadająca neuronowi wyjściowemu o maksymalnej wartości • Predykcja dla centralnego aminokwasu z okna wejściowego
Predykcja struktury 2-rzędowej – 2-poziomowa sieć neuronowa • 1. poziom: • v sieci neuronowych (v nieparzysta) dla sąsiednich okien wejściowych – architektura identyczna jak w poprzednim podejściu …AQSVPYGISQIKAP… …AQSVPYGISQIKAP… …AQSVPYGISQIKAP…
Predykcja struktury 2-rzędowej – 2-poziomowa sieć neuronowa • 2. poziom: • Jednokierunkowa sieć neuronowa o wejściach będących wyjściami sieci neuronowych z 1. poziomu • Wyjście – identyczne jak w przypadku sieci neuronowych z 1. poziomu • Predykcja dla centralnego aminokwasu z okna wejściowego
Predykcja struktury 2-rzędowej – informacja ewolucyjna • Pojedyncza sekwencja zastąpiona uliniowieniem spokrewnionych (homologicznych) sekwencji • Profil • Wartości binarne na wejściu sieci zastąpione wartościami rzeczywistymi z przedziału [0,1] • Poprawa jakości predykcji (z 65% do >70%)
Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa
Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa • Obliczenia bi-rekurencyjnej sieci neuronowej: gdzie • Ot – wynik predykcji dla t-tego aminokwasu • Ft – lewy kontekst (forward) • Bt – prawy kontekst (backward) • N – długość polipeptydu (liczba aminokwasów)
Predykcja struktury 2-rzędowej – bi-rekurencyjna sieć neuronowa • 824 sekwencje (2/3 – dane uczące, 1/3 – testowe) • Najlepszy wynik: ok. 76%
Predykcja map i wektorów kontaktów • Mapa kontaktów • N – liczba aminokwasów w polipeptydzie • Macierz S o wymiarze N x N • S[i,j] = 1, jeśli i-ty i j-ty aminokwas są w kontakcie • S[i,j] = 0, w p.p. • i-ty i j-ty aminokwas są w kontakcie • Odległość pomiędzy atomami węgla i-tego i j-tego aminokwasu mniejsza od ustalonej wartości • Minimalna odległość pomiędzy dwoma dowolnymi atomami i-tego i j-tego aminokwasu mniejsza od ustalonej wartości
Predykcja map i wektorów kontaktów • Wektor kontaktów • N – liczba aminokwasów w polipeptydzie • Wektor V o wymiarze N • V[i] = liczba aminokwasów, z którymi jest w kontakcie i-ty aminokwas • Definicja na podstawie mapy kontaktów
Predykcja map i wektorów kontaktów • Wektory kontaktów • Metody analogiczne jak w przypadku predykcji struktury 2-rzędwej białek • Dla każdego aminokwasu przewidywana jest liczba aminokwasów będących z nim w kontakcie • Mapy kontaktów • Rekurencyjne sieci neuronowe
Predykcja map kontaktów – rekurencyjna sieć neuronowa • Uogólnienie bi-rekurencyjnej sieci neuronowej na przypadek 2-wymiarowy • Obliczenia rekurencyjnej sieci neuronowej:
Predykcja struktury 3-rzędowej • Problem otwarty (brak dobrych predyktorów struktury 3-rzędowej białek) • Możliwe rozwiązanie: • 1. etap – predykcja: • struktury 2-rzędowej • map i wektorów kontaktów • parametrów biochemicznych (np. hydrofobowość) • 2. etap – predykcja struktury 3-rzędowej z wykorzystaniem wyników 1. etapu
Badanie ekspresji genów – mikromacierze DNA • Ekspresja genów • W tkance zdrowej i chorej • Zmiana w czasie • Różnica między gatunkami • Mikromacierze DNA • Pojedyncza mikromacierz – pojedynczy pomiar ekspresji genów w określonych warunkach • Dane z wielu mikromacierzy – profil • Wiersze – geny • Kolumny – wartości ekspresji dla różnych mikromacierzy
Badanie ekspresji genów – SOM • Profile ekspresji genów – duża ilość danych • Konieczność uporządkowania, klasteryzacji • Self Organizing Map (Kohonen, 1990) • Zalety: • Podział danych na klasy • Tolerancja zaszumionych danych • Wady: • Brak hierarchiczności • Stała liczba klas
Badanie ekspresji genów – SOTA • Self-Organizing Tree Algorithm (Dopazo, Carazo, 1997) • Samoorganizująca sieć neuronowa • Struktura drzewiasta • Dynamiczne generowanie struktury w procesie uczenia • Dowolna liczba klas
Badanie ekspresji genów – SOTA • Węzły – kolumny profilu ekspresji genów • Uczenie: • Stan początkowy: 2 liście połączone z węzłem wewnętrznym • Dla kolejnych danych wejściowych: • Wybór węzła zwycięskiego (spośród terminali) • Modyfikacje sąsiednich węzłów • Dwa rodzaje sąsiedztwa węzłów • Lokalne – obaj potomkowie rodzica są liśćmi • Ograniczające (restrictive) • Podział węzła • Wygenerowanie dwóch identycznych kopii – węzły potomne
Bibliografia • Paolo Frasconi, Ron Shamir – „Artificial Intelligence and Heuristic Methods in Bioinformatics”, NATO Science Series, 2003 • P. Baldi, S. Brunak – „Exploiting the past and the future in protein secondary structure prediction”, Bioinformatics, 1999 • G. Pollastri, P. Baldi – „Prediction of contact maps by GIOHMMs and recurrent neural networks using lateral propagation from all four cardinal corners”, Bioinformatics, 2002 • Javier Herrero, Alfonso Valencia, Joaquin Dopazo – „A hierarchical unsupervised growing neural network for clustering gene expression paterns”, Bioinformatics, 2001 • A.D. Baxevanis, B.F.F. Quellette – „Bioinformatyka”, PWN, 2004 • P.C. Turner, A.G. McLennan, A.D. Bates, M.R.H. White – „Biologia molekularna”, PWN, 2005