Bioinformatyczne bazy danych

Bioinformatyczne bazy danych • Genomowe • Proteomowe • Publikacje pierwotne wtórne Jako merytoryczna weryfikacja danych • Biologiczne bazy danych przeszukuje się głównie • w celu znalezienia: • sekwencji nukleotydowych • sekwencji białkowych • struktur białkowych • informacji merytorycznych i publikacji Biotechnologia UWM

Wyszukiwarki popularnych serwisów Biotechnologia UWM

Przeszukiwanie za pomocą słów kluczowych • Słowem kluczowym (keyword) może być dowolna fraza (np. hemoglobin) lub numer ID danego rekordu z bazy • Fraza, czyli zapytanie do wyszukiwania może mieć złożoną formę w celu precyzyjnego określenia celu poszukiwania w wyszukiwaniu zaawansowanym:(hemoglobin) AND ((human) OR (bovine)) NOT (alpha) • Do przeszukiwania konkretnej bazy w NCBI przydatnym narzędziem jest „historia wyszukiwania” Biotechnologia UWM

Historia wyszukiwania w NCBI Biotechnologia UWM

Przeszukiwanie za pomocą odnośników Biotechnologia UWM

Przeszukiwanie na podstawie wprowadzonej sekwencji • http://www.ncbi.nlm.nih.gov/blast/producttable.shtml • http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml Biotechnologia UWM

BLAST Biotechnologia UWM

Etapy dopasowywania sekwencji Biotechnologia UWM

Kryteria szacowania podobieństwa sekwencji Biotechnologia UWM

Kryteria szacowania podobieństwa sekwencji • Procent identyczności (względny udział odpowiadających sobie pozycji obsadzonych tymi samymi resztami) • Długość porównywanych sekwencji (liczba porównywanych pozycji) • Rozmieszczenie identycznych pozycji wzdłuż porównywanych sekwencji • Typ reszt okupujących pozycje konserwatywne (sekwencje białkowe) • Relacje genetyczne/strukturalne między resztami znajdującymi się w odpowiadających sobie nieidentycznych pozycjach (sekwencje białkowe) Biotechnologia UWM

Procedura oszacowania stopnia podobieństwa porównywanych sekwencji Bardzo często oszacowanie stopnia podobieństwa porównywanych sekwencji sprowadzane jest jedynie do określenia względnego udziału pozycji identycznych. Pozostałe kryteria analizy zazwyczaj nie są w ogóle brane pod uwagę (np. bezwzględna długość sekwencji, dystrybucja identycznych pozycji wzdłuż łańcucha). Podejście takie jest niekompletne i stwarza ryzyko błędnej interpretacji otrzymanych wyników. Przedstawiona niżej metoda oparta jest na prawdopodobieństwie przypadkowego pojawienia sie zadeklarowanego stopnia identyczności. Uwzględnia ona podstawowe parametry mające znaczenie dla opisu faktycznego związku między porównywanymi sekwencjami. Liczbę wszystkich możliwych stopni identyczności dla danych dwóch sekwencji opisuje poniższe równanie: Gdzie: x – ilość rodzajów jednostek występujących w sekwencjach (20 dla białek; 4 dla kwasów nukleinowych) n – długość sekwencji (liczba porównywanych par pozycji) a – ilość pozycji identycznych Biotechnologia UWM

Dopasowywanie dwóch sekwencji • Alignment, multiple alignment = dopasowanie (wielu) sekwencji • Dopasowywanie globalnedopasowanie, którego mechanizm zakłada porównanie całych sekwencji ze sobą • Dopasowywanie lokalnedopasowywanie na podstawie podobieństwa oddzielnych rejonów porównywanych sekwencji – ta metoda zakłada modularną strukturę białek i dopuszcza istnienie domen Biotechnologia UWM

Programowanie dynamiczne opiera się na podziale rozwiązywanego problemu na podproblemy względem kilku parametrów. Biotechnologia UWM

Dopasowanie globalne (1970) The Needleman and Wunsch Algorithm Mi,j = Mij + max(Mk,j+1 , Mi+1,I) Biotechnologia UWM

Powstawanie dot-matrix Biotechnologia UWM

Dot-matrix ścieżka i alignment Biotechnologia UWM

FASTA Biotechnologia UWM

Dot-matrix Biotechnologia UWM

Dlaczego FAST? Biotechnologia UWM

Podobieństwa biochemiczne i biofizyczne aminokwasów Diagram Venn-a Biotechnologia UWM

Macierze substytucji (podstawień) • Jak za pomocą liczby określić podobieństwa biochemiczne i biofizyczne poszczególnych aminokwasów tak, aby liczba ta wyrażała jednocześnie realny wpływ na całe białko podstawienia danego aminokwasu innym w łańcuchu polipeptydowym? !!! MACIERZE SUBSTYTUCJI !!! Biotechnologia UWM

PAM i BLOSUM Biotechnologia UWM

PAM Biotechnologia UWM

BLOSUM (62) Biotechnologia UWM

Kara za przerwy (gap costs, gappenalty) Kara za otwarcie przerwy – G Kara za przedłużenie przerwy – L Kara = G + Ln gdzie: n – długość przerwy Standardowo: G = 10 - 15 L = 1 - 2 Biotechnologia UWM

Programowanie dynamiczne – local alignment Biotechnologia UWM

Algorytmy i narzędzia dopasowań lokalnych • FASTA (FAST Alignment): • Pierwszy program do przeszukiwania baz w celu znalezienia podobnej sekwencji • Używa szablonów słów (wielkość słowa) • Łączenie słów i prosta algorytmiczna optymalizacja • BLAST (Basic Local Alignment Search Tool ) • Idea sąsiadujących słów (podobne, nie identyczne słowa) – pozwala stosować słowa o dużych rozmiarach • Kilka wersji BLAST-a • ClustalW – multiple alignment Biotechnologia UWM

Jak używać BLAST do wyszukiwania sekwencji? Biotechnologia UWM

Jakiego BLAST-a wybrać? Biotechnologia UWM

Formatka BLAST w NCBI Biotechnologia UWM

BLAST – ustawienia zaawansowane Biotechnologia UWM

Jak używać BLAST do wyszukiwania sekwencji? Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Graficzny przegląd wyników Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Szczegóły znalezionych dopasowań Biotechnologia UWM

Jak analizować wyniki z BLAST w NCBI Alignmenty czyli zestawienia sekwencji Biotechnologia UWM

BLAST w EBI Biotechnologia UWM

ClustalW w EBI Biotechnologia UWM

Analiza wyników ClustalW Biotechnologia UWM

Podstawy genetyczne algorytmów do zestawień aminokwasów? ? Biotechnologia UWM

Algorytm semihomologiczny Diagram of amino acid genetic relationships Diagram of codon genetic relationships Biotechnologia UWM

Dot matrix pairwise alignment Internal homology (gene multiplication) SEMIHOM BLAST 2 SEQUENCES Chicken ovoinhibitor precursor (7 domains) Chicken ovomucoid precursor (3 domains) Biotechnologia UWM

Fin Biotechnologia UWM

Bioinformatyczne bazy danych

Bioinformatyczne bazy danych

Presentation Transcript

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

Bazy danych

BAZY DANYCH

Bazy danych

BAZY DANYCH

Bazy danych

Bazy Danych

Bazy Danych

Bazy danych