1 / 13

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ. COMPUTATION LIOR PADITER BERND STURMFELS Tropical arithmetic and dynamic programming Sequence alignment Polytopes ΣΙΒΙΛΟΓΛΟΥ ΟΛΥΜΠΙΑ ΑΜ: 1228. Tropical arithmetic and dynamic programming.

maura
Télécharger la présentation

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ COMPUTATION LIOR PADITER BERND STURMFELS Tropical arithmetic and dynamic programming Sequence alignment Polytopes ΣΙΒΙΛΟΓΛΟΥ ΟΛΥΜΠΙΑ ΑΜ: 1228

  2. Tropical arithmetic and dynamic programming Κάποιοι διακεκριμένοι αλγόριθμοι που χρησιμοποιούνται στην υπολογιστική βιολογία πηγάζουν από αλγεβρικά στατιστικά μοντέλα, τα οποία χαρακτηρίζονται από πολλά πεπερασμένα πολυώνυμα κάθε ένα εκ των οποίων από πεπερασμένους πολλούς όρους. Οι μέθοδοι που μπορούν να μας δώσουν συμπεράσματα σχετικά με δεδομένα που λείπουν ή είναι κρυμμένα, εξαρτώνται από συνδυαστικές δομές πολυωνύμων κατά την αλγεβρική παρουσίαση των μοντέλων. Ευρέως χρησιμοποιούνται μέθοδοι που βασίζονται στο δυναμικό προγραμματισμό, όπως η μέθοδος Needleman-Wunsch, αλγόριθμος για sequence alignment. Κάθε αλγεβρικό στατιστικό μοντέλο έχει ένα Newton polytope. Υπολογίζοντας ολόκληρο το polytope είναι αυτό που καλούμε parametric inference(παραμετρικό συμπέρασμα). Αυτός ο υπολογισμός μπορεί να γίνει αποτελεσματικά στην polytope άλγεβρα, που είναι μια γενίκευση της tropical αριθμητικής.

  3. Tropical arithmetic and dynamic programming Ο δυναμικός προγραμματισμός εισήχθει από τον Bellman το 1950 και πολλοί biological sequence analysis αλγόριθμοι βασίζονται στις αρχές του δυναμικού προγραμματισμού. Μια κατάλληλη αλγεβρική δομή για πολλούς αλγόριθμους δυναμικού προγραμματισμού είναι η εξής: Περιέχει το σύνολο των πραγματικών αριθμών μαζι με το άπειρο και και τις πραξεις της πρόσθεσης και του πολλαπλασιασμού, οι οποίες ορίζονται ως εξής:

  4. Tropical arithmetic and dynamic programming Πολλά από τα γνωστά αξιώματα που ισχύουν στην αριθμητική ισχύουν και εδώ. Έτσι και εδώ ισχύει η επιμεριστική και η προσεταιριστική ιδιότητα: Επιπλέον ορίζουμε και εδώ για την πρόσθεση, ως ουδέτερο στοιχείο το άπειρο και για το γινόμενο το 0.

  5. Tropical arithmetic and dynamic programming Για να δούμε ότι η tropical arithmetic είναι σχετική με πολλούς διακεκριμένους αλγόριθμους θέτουμε το πρόβλημα εύρεσης του συντομότερου μονοπατιού σε έναν κατευθυνόμενο γράφο, το οποίο είναι ένα κλασσικό πρόβλημα του δυναμικού προγραμματισμού. Έχουμε τα εξής θεωρήματα: Έστω G ένας κατευθυνόμενος γράφος με n κόμβους και DG ένας n επί n πίνακας γειτνίασης. Τότε η είσοδος του πίνακα: με i γραμμές και j στήλες ισούται με το μήκος του συντομότερου μονοπατιού, από τον κόμβο i στον κόμβο j.

  6. Tropical arithmetic and dynamic programming Η tropical λύνει καθοριστικά το assignment (ανάθεσης) πρόβλημα. Στο assignment πρόβλημα πρέπει να βρούμε το ελάχιστο μονοπάτι πάνω από n! , ποσότητα που απαιτεί πολλές διαδικασίες. Παρόλα αυτά υπάρχει ένας γνωστός πολυωνυμικός χρόνος για την επίλυση αυτού του προβλήματος. Η μέθοδος που το επιλύει είναι γνωστή ως Hungarian assignment method. Εδώ ο συνολικός χρόνος των διαδικασιών είναι O(n^3). H μέθοδος διατηρεί μία τιμή για κάθε εργασία και μια παράθεση από εργαζόμενους και δουλειές. Σε κάθε επανάληψη η μέθοδος επιλέγει έναν όχι ορισμένο εργαζόμενο και υπολογίζει το συντομότερο μονοπάτι από αυτόν στο σύνολο των εργασιών. Η tropical άλγεβρα ονομάζεται και min-plus άλγεβρα!

  7. Sequence alignmenti Ένα θεμελειώδες ζήτημα στην υπολογιστική βιολογία είναι το θέμα του alignment DNA ή protein sequences. Έχουν βρεθεί αλγόριθμοι υψηλά αποδοτικοί για την εύρεση των βέλτιστων alignments. Για να μειωθεί η πολυπλοκότητα οι μέθοδοι βασίζονται στις αρχές του δυναμικού προγραμματισμού. Η στατιστική άλγεβρα και η tropical αριθμητική έχουν άμεση σχέση με τους αλγόριθμους που χρησιμοποιούνται στη sequence alignment. Το πρόβλημα sequence alignment είναι το εξής: Θέλω να φτιάξω ένα πεπερασμένο αλφάβητο. Έστω Σ με λ γράμματα, για παράδειγμα Σ={0,1,...,λ-1}. Εάν λ=4 τότε το αλφάβητο θα είναι το Σ={A,C,G,T}. Έστω 2 ακολουθίες σ^1=σ1^1 σ2^1...σn^1και σ^2=σ1^2 σ2^2...σm^2,του αλφαβήτου Σ. Τα μήκη των ακολουθιών μπορεί να είναι διαφορετικά. Ο στόχος μας θα είναι να υπολογίσουμε την πολυπλοκότητα της μετατροπής της ακολουθίας σ^1 σε σ^2 με αλλαγές σε μεμονομένους χαρακτήρες, εισαγωγές καινούργιων χαρακτήρων και διαγραφή υπάρχοντων χαρακτήρων. Αυτές οι αλλαγές καλούνται edits.

  8. Sequence alignmentii Το sequence alignment πρόβλημα είναι να βρεθεί η πιο κοντινή sequence of edits που αφορά τις δύο ακολουθίες σ^1 και σ^2. Κάθε ακολουθία από edits καλείται alignment. Με τη βοήθεια του δυναμικού προγραμματισμού η επίλυση αυτού του προβλήματος απαιτεί Ο(nm) βήματα. Κάθε alignment για το ζευγάρι (σ^1,σ^2) αντιπροσωπεύεται από μια συμβολοσειρά h πάνω στο edit αλφάβητο {H,I,D}, καλούμε την h συμβολοσειρά editstring of the alignment. Mια συμβολοσειρά πάνω στο edit αλφάβητο {H,I,D} αντιπροσωπεύει ένα alignment από μια ακολουθία σ^1, n γραμμάτων και μια ακολουθία σ^2, m γραμμάτων αν και μόνο αν ισχύουν: #H + #D=n και #H +#I=m

  9. Sequence alignmentiii Eπιπλέον υπάρχει και το global alignment problem. Για τον συγκεκριμένο γράφο που προκύπτει γι αυτο το πρόβλημα, υπάρχει ένας αλγόριθμος δυναμικού προγραμματισμού που καλείται Needleman-wunsch αλγόριθμος και το επιλύει σε χρόνο Ο(nm). Algorithm Needleman-w u n s c h Input: Δύο ακολουθίες σ^1 που ανήκει στο Σ^n και σ^2 που ανήκει στο Σ^m, scoring scheme w που ανήκει στο R^24 Output: ΄Ενα alignmenth που ανήκει Αn,m και έχει ελάχιστο βάρος w (h) Initialization: Δημιούργησε έναν (n+1) επί (m+1) πίνακα Μ, του οποίου οι γραμμές αριθμούνται από το 0 έως το n και οι στήλες του από 0 έως m. Επιπλέον Μ[0,0]=0 Set: M[i,0]:=M[i-1,0]+w(σi^1,-), i=1,…,n M[0,j]:=M[0,j-1]+w(-,σj^2), j=1,…,m Loop: for i=1,…,n and j:=1,…,m set M[I,j]=min {(M[i-1,j-1]+w(σi^1, σj^2)), (M[i-1,j]+ w(σi^1,-)), (M[I,j-1]+ w(-,σj^2)}

  10. Polytopes i Στην ενότητα αυτή θα δούμε βασικά πράγματα σχετικά με κυρτά πολύτοπα (πολύεδρα) και αλγόριθμους για τον υπολογισμό τους. Θα δούμε πως συνδυάζονται με αλγεβρικά στατιστικά μοντέλα. Κάθε πολυώνυμο ή πολυωνυμικός χάρτης έχει ένα associated polytope που καλείται newton polytope. Αυτό μας επιτρέπει να αντικαταστήσουμε την tropical αριθμητική με polytope άλγεβρα και αυτό με τη σειρά του βοηθάει στην επίλυση παραμετρικών προβλημάτων. Θεώρημα: Τα κυρτά πολύεδρα είναι ακριβώς τα φραγμένα περιβλήματά τους(θεώρημα γνωστό ως Weyl-Minkowski). Απόρροια αυτού του θεωρήματος είναι η ύπαρξη δύο ειδών polytopes: Τα V-polytopes και τα H-polytopes. Πρόταση: Εάν P, Q, R είναι polytopes στο R^d τότε ισχύουν:

  11. Polytopes ii Το parametric assignment problem λύνεται υπολογίζοντας, ορίζοντας έναν πίνακα από polytopes Pij, με τη βοήθεια της polytope άλγεβρας. Μπορούμε να καθορίσουμε το parametric shortest path problem με ένας κατευθυνόμενο γράφο. Το βάρος κάθε τόξου τώρα θα είναι ένα polytope Pij και για έναν συγκεκριμένο παραμετρικό παράγοντα w, μπορούμε να ανακτήσουμε κλιμακωτά τα βάρη των τόξων, με τη βοήθεια του γραμμικού προγραμματισμού ως εξής: dij=min{w* p: p ανήκει στο pij} και το συντομότερο μονοπάτι από το i στο j είναι:

  12. Polytopes Έστω f και g πολυώνυμα στο τότε Εάν όλοι οι συντελεστές των f και g είναι θετικοί, τότε θα ισχύει:

  13. Polytopes To parametric alignment problem από δύο DNA ακολουθίες σ^1 και σ^2, είναι να υπολογίσουμε το Newton polytopes NP(fσ^1,σ^2) από την αντιστοιχία με την πολυωνυμική συνιστώσα fσ^1,σ^2 του ζευγαριού Markov model. Αυτό μπορεί να γίνει αποτελεσματικότερα τρέχοντας τον αλγόριθμο των Needleman-Wunsch. Ένας συνεκτικός κρίκος ανάμεσα στα polytopes και στην algebraic statistic είναι τα Newton polytopes των πολυωνύμων, που « παραμετροποιούν » ένα μοντέλο.

More Related