1 / 27

Wie oft matcht das Profil ?

Wie oft matcht das Profil ?. T A T A C G A A T C T A A A. Wie oft matcht das Profil ?. 1. 2. 3. 4. T A T A C G A A T C T A A A. Suche nach Motiven mit PSSMs und Enhanced Suffix Array.

rozene
Télécharger la présentation

Wie oft matcht das Profil ?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wie oft matcht das Profil ? T A T A C G A A T C T A A A

  2. Wie oft matcht das Profil ? 1 2 3 4 T A T A C G A A T C T A A A

  3. Suche nach Motiven mit PSSMs und Enhanced Suffix Array PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz

  4. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lineup • Suffix Tree versus Suffix Array • Lookahead Search bei Suffix Trees • Lookahead Search bei Suffix Arrays • Vergleich • Restricted Probability Computation • Zusammenfassung

  5. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array [3] Inorder Traversierung Suffix Tree for |ATATA$| = n Start 1 ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $

  6. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array [3] Suffix Array for ATATA$ Suffix Tree for |ATATA$|= n Start 1 ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $

  7. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Suffix Tree vs Suffix Array [3] Suffix Array for ATATA$ Suffix Tree for |ATATA$| = n Start 1 ATATA$ 3 ATA$ 5 A$ 2 TATA$ 4 TA$ 6 $ Speicherbedarf: 4 byte pro Zeichen 17 byte pro Zeichen Aufbau: O (n) O (n) Stringsuche: O (m * log n) O (m)

  8. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees • Suche nach allen Strings mit Threshold t in O (mn) 1 . . m Threshold t = 22

  9. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Naive Suche mit Suffix Trees • Suche nach allen Strings mit Threshold t in O (mn) 1 . . m Threshold t = 22

  10. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Tree@ Dorohonceanu et. al [4] • Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen 1 . . m Threshold t = 22 max end(i) = max(i+1)+..+max(m) t row = t – max end

  11. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Tree@ Dorohonceanu et. al [4] • Scores in PSSM können benutzt werden um t row, einen Zwischengrenzwert für jede Zeile der PSSM, zu berechnen 1 . . m Laufzeit verringert zu O (k * n), wobei k die durchschnittliche Anzahl von PSSM - Vergleichen pro Sequenzposition ist

  12. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details • Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Fall 1: PSSM matcht vollständig

  13. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details • Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Fall 2: PSSM matcht nicht vollständig

  14. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details • Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Fall 2: PSSM matcht nicht vollständig

  15. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details • Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Nur 6 Vergleiche mit Lookahead Scoring statt 9 mit naiver Suche

  16. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Details • Der Algorithmus läuft mit Tiefensuche die Suffixe ab und entscheidet welche den Threshold erreichen Wie kann man das mit Suffix Arrays simulieren ??

  17. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Tiefensuche Suffix Array@ Beckstette et. al [1][2] • Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Tree Suffix Array (1..n)

  18. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Tiefensuche Suffix Array@ Beckstette et. al [1][2] • Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Tree Suffix Array (1..n) Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  19. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Tiefensuche Suffix Array@ Beckstette et. al [1][2] • Wie kann man mit Suffix Arrays Tiefesuche simulieren ?? Suffix Tree Suffix Array (1..n) nächstes Blatt was nicht im gleichen Subbaum ist Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  20. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array@ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Tree Suffix Array (1..n) nächstes Blatt was nicht im gleichen Subbaum ist Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  21. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array@ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Tree Suffix Array (1..n) nächstes Blatt was nicht im gleichen Subbaum ist Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  22. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array@ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Tree Suffix Array (1..n) nächstes Blatt was nicht im gleichen Subbaum ist Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  23. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Lookahead Search Suffix Array@ Beckstette et. al [1][2] Beispiel für Lookahead Search mit Suffix Arrays: Suffix Tree Suffix Array (1..n) nächstes Blatt was nicht im gleichen Subbaum ist Skip Array Lowest Common Prefix Array lcp[i] = lcp {Suf(i - 1), Suf(i)} i [2,n]

  24. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Vergleich Lookahead Search Speicherbedarf und Laufzeit von Suffix Tree und Enhanced Suffix Array: Speicher Laufzeit pro Zeichen 17 bytes O ( kn ) 9 bytes O ( kn ) Suffix Tree Enhanced Suffix Array: Suffix Array (1..n) 4 bytes Skip Array 4 bytes 1 byte Lowest Common Prefix Array 8 byte pro Zeichen weniger bei gleicher Laufzeit

  25. Lineup ST vs SA LAS Suffix Tree LAS Suffix Array Vergleich LAS Probability Distribution Restricted Probability Computation analog zu Lookahead Scoring muss nach Überschreiten des p-Values nicht weiter gerechnet werden

  26. Zusammenfassung • Lookahead Scoring bei Suffix Trees erlaubt Suche nach PSSMs in O (kn) • Enhanced Suffix Arrays mit Lookahead Scoring erlauben ebenfalls Suche in O (kn) bei 8 byte pro Zeichen weniger Speicherbedarf • Wahrscheinlichkeitsverteilung brauch nur für die signifikanten p-Values berechnet werden

  27. Danke fürs Zuhören ! [1] PoSSuMSearch: Fast and Sensitive Matching of Position Specific Scoring Matrices using Enhanced Suffix Arrays Beckstette, Strothmann, Homann, Giegerich, Kurtz [2] Replacing Enhanced Suffix Trees with Enhanced Suffix Arrays Abouelhoda,Kurtz,Ohlebusch [3] Suffix Trees and Suffix Arrays Srinivas Aluru [4] Accelerating Protein Classification Dorohonceanu, Nevill-Manning

More Related