Μικροσυστοιχίες και ανάλυση δεδομένων

Μικροσυστοιχίες και ανάλυση δεδομένων

Transcription RNA polymerase G U A A U C C mRNA Βιολογικό υπόβαθρο, Μεταγραφή (transcription) DNA G T A A T C C T C | | | | | | | | | C A T T A G G A G G T A A T C C T C | | | | | | | | | C A T T A G G A G

Θέμα: μέτρηση της παρουσίας mRNA, για να δείς ποια γονίδια εκφράζονται στο κύτταρο Μέτρηση πρωτεΐνης, μπορεί να είναι καλύτερο, αλλά τεχνικά δυσκολότερο

Αντίστροφη μεταγραφή (reverse transcription) Δημιουργία αλυσίδων cDNA, συμπληρωματικών προς το mRNA G U A A U C C U C mRNA Reverse transcriptase T T A G G A G cDNA C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G

Πειράματα με μικροσυστοιχίες (microarrays)cDNA Συγκέντρωση mRNA, σε διαφορετικά περιβάλλοντα • Διαφορετικοί ιστοί, ίδιος οργανισμός (εγκέφαλος, συκώτι) • Ίδιος ιστός, ίδιος οργανισμός (π.χ καρκινικά, μη καρκινικά) • Ίδιος ιστός, διαφορετικοί οργανισμοί • Πειράματα στο χρόνο

Μικροσυστοιχίες cDNA Κλώνοι cDNA

cDNA microarrays PRINT Γονίδιο cDNA σε κάθε θέση Δείγματα cDNA κατηγορ. red/green Σύγκριση έκφρασης, δύο δειγμάτων e.g.Rna αναφοράς (reference)/Rna μελέτης (target)

Υβριδοποίηση Βάλε ίσες ποσότητες κατηγοριοποιημένου δειγμάτων cDNA στην μικροσυστοιχία SCAN Laser Detector

Βιολογική Ερώτηση Differentially expressed genes Πρόβλεψη κατηγορίας Σχεδιασμός Πειράματος Πείραμα Microarray 16-bit TIFF files Επεξεργασία Εικόνας (Rfg, Rbg), (Gfg, Gbg) Κανονικοποίηση R, G Estimation Testing Clustering Discrimination Επαλήθευση και ερμηνεία

Δεδομένα μικροσυστοιχίας • Στόχος:Άγνωστη ακολουθία DNA • Probe: γνωστή ακολουθία DNA • Υβριδοποίηση στόχου και probeσήμαδηλώνει επίπεδο έκφρασης • Κατηγορίες • Δυνατότητα ανάθεσης «χρωμάτων» στις δύο ακολουθίες

Αποτέλεσμα, πειράματος

Ερμηνεία αποτελεσμάτων • Ερμηνεία εικόνας • Κόκκινο (Cy5)=υπερβάλλουσα έκφραση • Πράσινο (Cy3)=χαμηλή έκφραση • Κίτρινο = ίση έκφραση • Εντοπισμός ορίων κουκίδων (spots) των περιοχών της μικρο συστοιχίας • Παραμόρφωση κουκίδων • Μεταβλητή φωτεινότητα

Μετατροπή εικόνας

Ομαδοποίηση γονιδίων • Μεγάλα σύνολα δεδομένων, ομαδοποίηση γονιδίων • Επιβλεπόμενη μάθηση: • Δοσμένων γονιδίων γνωστών κατηγοριών • Κατασκεύασε μοντέλο, που γενικεύει • Αλγόριθμοι: Νευρωνικά Δίκτυα, Μηχανές υποστήριξης Διανυσμάτων, δένδρα απόφασης • Μη επιβλεπόμενη μάθηση • Δεν είναι γνωστές οι κατηγ. Των γονιδίων • Αλγόριθμοι: Ιεραρχική ομαδοποίηση, k-means, μείωση διαστάσεων

Προεπεξεργασία Δεδομένων • Κανονικοποίηση = απομάκρυνση, συστηματικού σφάλματος από τα δεδομένα

Προκαταρκτικά βήματα ανάλυσηςα’ • Υπολογισμός για κάθε γραμμή και κάθε στήλη της μέσης τιμής και της διασποράς. • Μέσες τιμές • Ποια γονίδια έχουν εκφράζονται περισσότερο, κατά μέσο όρο; • Σε ποια πειράματα είχαμε κατά μέσο όρο τις υψηλότερες/χαμηλότερες τιμές • Διασπορά • Ποια έχουν τη μεγαλύτερη/μικρότερη διαφορά • Ποιες πειραματικές συνθήκες ποικίλουν πολύ/λίγο;

Προκαταρκτικά βήματα β’ • Γραφήματα επιλεγμένων γονιδίων

Ανακάλυψη μορφωμάτων: ομαδοποίηση (pattern discovery: cluster analysis)

Απόσταση και ομοιότητα Έστω Χ, Υ δύο γονίδια, χι, yi, τα επίπεδα έκφρασης γονιδίων (συγκέντρωση RNA) σε μία σειρά d πειραμάτων • Αποστάσεις d-διάστατων διανυσμάτων μέτρο διαφοράς • Συντελεστής αυτοσυσχέτισης μέτρο διαφοράς, αν πάρω το 1-R • Με καθένα από τα δύο μπορώ να φτιάξω τον πίνακα αποστάσεων για να χρησιμοποιηθεί για ανάλυση clusters

Ιεραρχική ομαδοποίηση Αλγόριθμος Ιεραρχικής ομαδοποίησης • Επανάληψη • Βρες δύο ομάδες (Ci, Cj), όπου d(Ci, Cj) είναι ελάχιστο • Συγχώνευσε τα (Ci, Cj), σε μία νέα ομάδα Cq • Αντικατέστησε τα Ci, Cjμε το Cq • Φτιάξε (ανανέωσε) τον πίνακα αποστάσεων • Τερμάτισε, αν όλα τα γονίδια είναι στο ίδια ομάδα, αλλιώς πήγαινε στο βήμα επανάληψη • Ορισμός απόστασης ομάδων: • H ελάχιστη • Η μέγιστη • Ο μέσος όρος • βάρη

Παράδειγμα Ιεραρχικής Ομαδοποίησης

Μειονεκτήματα Ιεραρχικής Ομαδοποίησης • Επιβάλλεται φυλογενετικό δέντρο • Δεν είναι καλή μέθοδος για οπτικοποίηση (visualisation) πολλών δεδομένων

Ομαδοποίηση k-means Σκοπός: εύρεση των κέντρων των ομάδων. k ομάδες Μέθοδος: ελαχιστοποίηση του σφάλματος, E

Αξιολόγηση ομαδοποίησης • Silhouette method: Εξετάζει πόσο καλά βρίσκεται ένα γονίδιο σε μία ομάδα (cluster) • s(i) μεγάλοκαλή ομαδοποίηση • s(i) κοντά στο 0 ανήκει σε δύο ομάδες • s(i) μικρό  κακή ομαδοποίηση α(i)=μέσηανομοιότητα (dissimilarity) Του γονιδιου α, από όλα της ίδιας ομάδας d(i,C)= μέσηανομοιότητα (dissimilarity) Του γονιδιου α, από όλα τα άλλα των άλλων ομάδων. Και b(i) η μικρότερη από όλα

Μείωση Διαστάσεων • Έχοντας δεδομένα πολλών διαστάσεων, μείωσε τις διαστάσεις με το ελάχιστο δυνατό σφάλμα • Μέθοδος Πρωτευουσών Συνιστωσών (Principal Component Analysis) • Είσοδος: Πολυδιάστατα δεδομένα • Μέθοδος: Περιστρέφει τα δεδομένα στο χώρο, ώστε ο άξονας με τη μέγιστη διασπορά να ευθυγραμμιστεί με τον x. To ίδιο επαναλαμβάνεται για τους άλλους άξονες

Ανάλυση Πρωτευουσών Συνιστωσών

Ταξινόμηση δειγμάτων: Πρόβλεψη και ταξινόμηση • Ταξινόμηση βιολογικών δειγμάτων σε γνωστές κατηγορίες • Δεδομένα μικρο-συστοιχιών=πίνακας nxd • n γονίδια, d-πειράματα/χρονικές στιγμές

K-Nearest Neighbour • Δοσμένων δειγμάτων γνωστών κατηγοριών • Βρές κατηγορία αγνώστου δείγματος • Αλγόριθμος: Βρες τα k-κοντινότερα δείγματα • Η κατηγορία του αγνώστου, είναι η κατηγορία που δείχνει η πλειοψηφία των δειγμάτων

Support Vector Machines • Κατασκευή μοντέλου για πρόβλεψη κατηγορίας αγνώστου δείγματος • Εύρεση επιφάνειας που διαχωρίζει τις κατηγορίες • Ακριβέστερο, από k-Neighbour, αλλά απαιτεί πολλά δείγματα για εκπαίδευση.

Μικροσυστοιχίες και ανάλυση δεδομένων

Μικροσυστοιχίες και ανάλυση δεδομένων

Presentation Transcript