1 / 29

Συστήματα Βιο -πληροφορικής

Συστήματα Βιο -πληροφορικής. Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με : Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο. Διεπιστημονικότητα. Επιστήμονες ...διαφόρων ειδικοτήτων ...που συναντώνται ...και συνεργάζονται

amandla
Télécharger la présentation

Συστήματα Βιο -πληροφορικής

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Συστήματα Βιο-πληροφορικής Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με: Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο

  2. Διεπιστημονικότητα • Επιστήμονες • ...διαφόρων ειδικοτήτων • ...που συναντώνται • ...και συνεργάζονται • ...μοιραζόμενοι ιδέες και δεξιότητες • ...με κοινό στόχο

  3. ΕΚΕΦΕ Δημόκριτος Αντιδραστήρια: • Χώρος πολλών επιστημών • Μικρές(;) αποστάσεις • Πρωτοβουλία Καταλύτες: • Καλή διάθεση • Ανοιχτό μυαλό • Επαναπροσδιορισμός προβλημάτων/εργαλείων

  4. Βιο-πληροφορική Τι θα δούμε: Μια ιστορία από τον Πλάτωνα στο γονιδίωμα, στους γράφους ν-γραμμάτων, στην αυτόματη απάντηση ερωτήσεων.

  5. Στον Φαίδρο του Πλάτωνα, έχουμε μια πρώτη – και περίφημη – αποτίμηση του ρόλου της γραφής στην παγκόσμια γραμματεία: Ο Θευθ έφθασε στον Θαμούς, βασιλιά της Άνω Αιγύπτου (Θήβες), προκειμένου να δείξει την ανακάλυψή του (τη γραφή) και να υποστηρίξει τη διάδοσή της στους Αιγυπτίους. Στη συνέχεια, κοντολογίς, ο Φαραώ τον «κατσαδιάζει» αφού η γραφή θα κάνει τους ανθρώπους απλά να «νομίζουν» ότι είναι σοφοί (επειδή και μόνον θα διαθέτουν γνώσεις σε γραπτή μορφή), χωρίς να κατέχουν από στήθους αυτή τη γνώση...Ο διάλογος σε άλλο σημείο εμφανίζει τον Φαίδρο να έχει ένα αγαπημένο γράμμα φυλαγμένο “υπό το ιμάτιον” ...Ο Πλάτων ίσως και να γνώριζε πολύ καλά το αναπόδραστο της διάδοσης και γενίκευσης της γραφής. Κανείς όμως τότε δεν μπορούσε να υποψιαστεί ότι ο άνθρωπος – και κάθε έμβιο ον – έχει “υπό το ιμάτιον” ένα κείμενο, μια “γραφή” (λόγους εν βιβλίοις) που τον συνέχει, τον κατασκευάζει και τον διατηρεί με την μνήμη της “γραπτής ύλης” - και ακόμη – καθορίζει την ίδια την εξέλιξη, αφού η εξέλιξη γίνεται δυνατή από τα λάθη στην αναπαραγωγή απο γενιά σε γενιά αυτού του γραπτού μηνύματος, του γονιδιώματος...

  6. Και άλλες φυσικές επιστήμες, εκτός από τη βιολογία, χαρακτηρίζον-ται επίσης από το στοιχείο της ιστορικότητας/μη-αντιστρεπτότητας, όπως η γεωλογία και η αστροφυσική. Εν τούτοις, μοναδικότητα της βιολογίας αποτελεί το γεγονός ότι είναι ταυτόχρονα επιστήμη «ιστοριογραφική», με την έννοια ότι σε όλες τις χρονικές κλίμακες (εξελικτική, αναπτυξιακή, λειτουργική κλπ), η βιολογική δραστηριό-τητα χωρεί μέσω αλληλεπίδρασης του οργανισμού (φαινοτύπου) με μία ψηφιακή, μοριακή, κληρονομήσιμη και με πεπερασμένη ακρίβεια αναπαραγόμενη εγγραφή, το γενετικό μήνυμα (γονιδίωμα), το οποίο κατά συνέπεια έχει, σε ένα τουλάχιστον σημαντικό βαθμό, τα χαρακτηριστικά κειμένου. Ακριβώς η ύπαρξη αυτού το «γενετικού κειμένου» συνδέεται καίρια τόσο με τις ιδιότητες βιολογικής «αμετατροπίας» (αναλλοίωτου) όσο και με την προσαρμοστικότητα και την εξελικτική δυναμική του εμβίου

  7. Αλληλουχία DNA: …..AGCTTAATAGCCTCA TGGCTACTATATATATACAGT….. Και έτσι για 3x109χαρακτήρες στο ανθρώπινο γονιδίωμα, που κατανέμονται σε 23 μακρομόρια (χρωματοσώματα). Κύτταρο: Ανάλογο ενός εργοστασίου, όπου το DNA αποτελεί τη βιβλιοθήκη: Φωτοτυπίες επιμέρους κεφαλαίων (m-RNA) μεταφέρονται στο χώρο των συνεργείων/ εργαλειομηχανών (ριβοσώματα κλπ) όπου κατασκευάζονται με συγκεκριμένες προδιαγραφές (ρυθμιστικές επισημειώσεις)οι πρωτείνες, τα λειτουργικά μόρια RNA κλπ κλπ... Μόριο DNA πρωτείνη λειτουργικό RNA Ενα κείμενο δεν είναι κείμενο παρά μόνον εάν κρύβει σε πρώτη όψη, στον πρώτο τυχόντα, το νόμο της σύνθεσής του και τους κανόνες του παιχνιδιού του. Jacques Derrida

  8. Παράδειγμα εφαρμογής του “Chaos Game Representation(CGR)” Jeffrey, J (1990). Chaos Game Representation of gene structure. NAR, 18, 2163.

  9. Εδώ αναπαριστώντας σε κάθε “pixel” την “σχετική αφθονία” κάθε ολιγο-νουκλεοτιδίου (κατά τη χωροταξία του CGR) λαμβάνουμε μοτίβα δηλωτικά της λειτουργικότητας κάθε εξεταζόμενης αλληλουχίας ΤΑ “ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ “NEAR-RANDOM” Nikolaou C, Almirantis Y (2005). “Word” preference in the genomic text and genome evolution. Different modes of n-tuplet usage in coding & noncoding sequences” J Mol Evol 61, 23-35. Ενώ στο προηγούμενο εγχείρημα διάκρισης λειτουργίας περιοχώνγονιδιωματικού κειμένου DNA βάσει αλληλουχίας, βασισμένο σε μήκη κειμένου πέραν του μήκους «λέξης» η τυχαιότητα συμβαδίζει με την μεταφορά μηνύματος, εδώ όπου η μεθοδολογία  βασίζεται στην άνιση χρήση «τριπλετών» (που στο κωδικό για πρωτείνες DNA είναι οι “λέξεις”), ΤΑ “ΜΗ-ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ ΤΑ “NEAR-RANDOM” Η αλλαγή στην κλίμακα όπου το “φέρον-πληροφορία” τμήμα του κειμένου έχει σύσταση πουπροσειδιάζει στην τυχαιότητα, είναι χαρακτηριστική της πολυπλοκότητας και του “γλωσικού χαρακτήρα” του γενετικού μηνύματος Nikolaou C, Almirantis Y (2003). Mutually symmetric and complementary triplets: differences in their use distinguish systematically between coding and non-coding genomic sequences. J.Theor.Biol. 223, 477-487.

  10. Συντηρημένες αλληλουχίες Μόλις 1% τουανθρώπινουγονιδιώματοςέχεικάποιαγνωστήλειτουργία Σταπλαίσιατηςαναζήτησηςλειτουργικώνπεριοχώνεξετάζουμετησυντήρησητηςαλληλουχίαςτουςωςτηνπιοισχυρήένδειξη

  11. Συντηρημένεςμη-κωδικέςαλληλουχίες (CNEs) Διασπείρονται εντός διαφόρων λειτουργικών κατηγοριών (διαγονιδιακές περιοχές, σημεία συρραφής RNA, εσώνια, αμετάφραστες περιοχές γονιδίων) Το πλήθος τους μεγαλώνει όσο μεγαλώνει η πολυπλοκότητα και το μέγεθος του γονιδιώματος Stephen, S., et al., Mol BiolEvol (2008)

  12. Ιστορία των CNE Πρώτες αναφορές ήδη από το 1981 (Pavetch et al.) Διαφορές ονομασίες ανάλογα με τον τρόπο προσδιορισμού τους Ο ορισμός τους είναι ημι-αυθαίρετος σύμφωνα με το μήκος, την έκταση της ομοιότητας και το εξελικτικό βάθος στο οποίο αναζητείται Elgar, G. and T. Vavouri, Trends Genet, 2008

  13. Τελικά...τί ρόλο παίζουν τα CNE; Ενισχυτές της μεταγραφής. Woolfe, Elgar et al. Θέσεις πρόσδεσης στην πυρηνική μεμβράνη (MAR), Glazko et al., Trends in Genetics, (2003) Χρωματινικοί Μονωτές (insulators) Xie et al., PNAS (2007) Τίποτα από τα παραπάνω;

  14. ΕρωτήματακαιΣτόχοι Ερωτήματα 1. Πώς μπορούμε να εντοπίσουμε CNE στο γονιδίωμα πέρα από την προφανή συντήρηση; 2. Ποια είναι τα βασικά συστατικά/δομικά τους χαρακτηριστικά; 3. Σε τί διαφέρουν από άλλες συντηρημένες αλληλουχίες; 4. Σε τί διαφέρουν μεταξύ τους; Στόχοι 1. Διάκριση από άλλες αλληλουχίες 2. Κατηγοριοποίηση 3. Εξαγωγή χαρακτηριστικών τους Μέχρι σήμερα: Μοντελοποίηση κατανομής βάσεων ως ιστόγραμμα Διαχωρισμός CNEs από άλλες αλληλουχίες ανέφικτος Σήμερα: Γράφοι ν-γραμμάτων

  15. Συστάσεις: ο γράφος ν-γραμμάτων Περιγράφει γειτνίαση συμβόλων (π.χ. βάσεων) Οι ακμές είναι σημαντικές Τα βάρη υποδεικνύουν συχνότητα (συνήθως)

  16. Κατασκευήγράφων ν-γραμμάτων Εξάγουμε Ν-γράμματαδιαφόρωντάξεων(Ν μεταξύLminκαιLmax) Βρίσκουμετιςγειτνιάσεις (απόστασηDwinκατάμέγιστο) Αναθέτουμεβάρη (συχνότηταγειτνίασης) Π.χ. Συμβολοσειρά: abcde Τριγράμματα (Lmin=Lmax=3): abc, bcd, cde Ακμέςγειτνίασης (Dwin=1): abc-bcd, bcd-cde Βάρη (συχνότητα): abc-bcd (1.0), bcd-cde (1.0)

  17. Τι (δεν) είναι ο γράφος ν-γραμμάτων; ΔΕΝ ΕΙΝΑΙ ΝτετερμινιστικόΑυτόματο Πιθανοτικόμοντέλο (HMM, CRF) Σακίδιολέξεων (bag-of-words), ιστόγραμμασυχνοτήτων Υποσύνολοτουδιανυσματικούχώρου αλλά ΕΙΝΑΙ: Σύνολοπεριορισμώνγειτνίασης Γενίκευσημίαςσυμβολοσειράς Εκφραστικάπιοπλούσιοςαπότοδιανυσματικόχώρο Αναπαράστασημεχρήσηαβεβαιότητας

  18. Αναπαράσταση αλληλουχιών με γράφους ν-γραμμάτων Κάθεαλληλουχία, έναςγράφος ν-γραμμάτων Κάθεομάδααλληλουχιών, έναςμέσοςγράφος Κάθεαλληλουχίαπεριγράφεταιαπόομοιότητεςσεσχέσημεμέσουςγράφους

  19. Διάκριση CNE απότυχαίεςαλληλουχίες Αναλύσαμε: α) 490 CNE απότοανθρώπινογονιδίωμα β) 490 φυσικέςτυχαίες αλληλουχίεςίσουμήκουςκαισύστασης γ) 490 συνθετικές αλληλουχίεςίσουμήκουςκαισύστασης Κατηγοριοποιήσαμε: 1. ~77% των CNE στησωστήκατηγορία 2. ~86% τωνσυνθετικών στησωστήκατηγορία 3. Οιφυσικέςαλληλουχίες “ανθίστανται”. Αναρωτιόμαστε: Ποιοιεπιπλέονπεριορισμοίυπάρχουνστοανθρώπινογονιδίωμα; CNE Τυχαίεςαλληλουχίες

  20. Ομαδοποίηση CNE μεβάσητηναπόστασηαπότομέσογράφο Αναλύσαμε: α) 457 CNE απότοανθρώπινογονιδίωμα (μεγάλουμήκους) β) 13670 CNE απότοανθρώπινογονιδίωμα (διαφόρωνμηκών) γ) 2082 CNE απότογονιδίωματουC. elegans Παρατηρήσαμεότι: α) Οιμεγάλουμήκουςανθρώπινεςαλληλουχίεςέχουνπολύξεκάθαραχαρακτηριστικά β) ΟιανθρώπινεςαλληλουχίεςδιαφέρουναπόαυτέςτουC. elegans. Υπάρχειπιθανόνέναυποκείμενο “λεξιλόγιο” πουσχετίζεταιμετοείδος

  21. Ταξινόμηση CNE αναείδοςμεβάσητηναπόστασηαπότομέσογράφο Ταξινόμησημεβάσητηναπόστασηαπότονμέσογράφοδίνειεξαιρετικάαποτελέσματα (ΑUC=0.94) Μπορείκάποιοάλλομέτροναδώσειανάλογα; Χρειάζομαστεσυγκρίσεις

  22. A challenge on large-scale biomedical semantic indexing and question answering ICT Call 8: FP7-ICT-2011-8 Specific Support Action (SA) ICT-2011.4.4(d) Luxembourg, 23 May 2012

  23. Motivating example Scenario: THIRST (PONTE project) Issue: Evaluate the safety and the effects of T3 treatment in patients with acute myocardial infarction. The PI formulates Questions in natural language: Q1: What is the role of thyroid hormones administration in the treatment of heart failure? Unfortunately, the questions cannot be submitted directly to current bibliographic databases ... BioASQ

  24. BioASQ

  25. Motivating example Translate the questions to collections of terms T1: heart failureinfarctionthyroid hormone treatmenttherapy Retrieve and select relevant snippets from a document retrieval engine Signaling Mechanisms in Thyroid Hormone-Induced Cardiac Hypertrophy ... possibility of their therapeutic utility in the treatment of the post-infarcted heart or in heart failure. ... Cardiac growth in response to thyroid hormones (L-thyroxine, T4 ... … [PMIDs: 20005976, 21860776] Consolidate relevant snippets as answers Cardiac growth may be a response to thyroid hormones. Thus, administration of thyroid hormones may be useful in the treatment of heart failure. Subclinical hypothyroidism may be a cause of heart failure. BioASQ

  26. Objectives BIOASQ will set up a challenge (competition) on biomedical semantic indexing and question answering involving: large-scale classification of biomedical documents onto ontology concepts, in order to automate semantic indexing, classification of biomedical questions onto the same concepts, integration of relevant document snippets, information databases and knowledge bases, and delivery of the retrieved information in a concise and user-understandable form. BioASQ

  27. NCSR “Demokritos” • Background: • Institute of Informatics and Telecommunications  intelligent information management (machine learning, text classification, information extraction) • Institute of Biology  expertise in the biomedical domain (analysis of high-throughput genomic data) • Leading: • WP1: Management • T3.1: Establishment of Biomedical Expert Team • T3.5: Creation of Benchmark Sets BioASQ

  28. Σύνοψη • ΕΚΕΦΕ Δημόκριτος: Δυνητικό εκκολαπτήριο διεπιστημονικότητας • Βιο-πληροφορική: Επιτυχής τομέας εφαρμογής • BioASQ: Από τη συνεργασία στη χρηματοδότηση Και αυτά είναι μόνο η αρχή...

  29. Ευχαριστούμε Συστήματα Βιο-πληροφορικής • Δρ. Γιάννης Αλμυράντης • Δρ. Γιώργος Παλιούρας • Δρ. Γιώργος Γιαννακόπουλος • Κοινή δουλειά με: • Δρ. Χριστόφορο Νικολάου • Δημήτρη Πολυχρονόπουλο

More Related