1 / 32

Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής

ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης. http://delab.csd.auth.gr/~symeon. Αποθήκες Δεδομένων.

drew
Télécharger la présentation

Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης http://delab.csd.auth.gr/~symeon

  2. Αποθήκες Δεδομένων • Η τεχνολογία των αποθηκών δεδομένων προσφέρει • ολοκλήρωση ετερογενών πηγών δεδομένων και • πλατφόρμα για αποδοτική ανάλυση ιστορικών δεδομένων • Μία αποθήκη δεδομένων αποτελεί μία συλλογή δεδομένων που • επιλέγονται από τις Επιχειρησιακές Βάσεις Δεδομένων, • Ολοκληρώνονται (integrated), • τα δεδομένα αναλύονται με διαδικασίες όπως η On-line Analytical Processing (OLAP) ή η εξόρυξη δεδομένων.

  3. Ορισμός Αποθήκης Δεδομένων Σύμφωνα με τον (Inmon, 1992) ορίζουμε την αποθήκη δεδομένων ως μια συλλογή δεδομένων • προσανατολισμένη προς ένα θέμα (subject-oriented), • Π.χ. πωλήσεις, προϊόντα, πελάτες, κτλ. • ολοκληρωμένη (integrated), • Ενοποίηση ετερογενών δεδομένων, • χρονικά μεταβαλλόμενη (time-variant), • Ιστορικά δεδομένα • Που δεν διαγράφεται (non-volatile) Με σκοπό την υποστήριξη λήψης αποφάσεων • W.H. Inmon, Building the Data Warehouse, 1992 (ο εφευρέτης του όρου)

  4. Αποθήκες δεδομένων – Λειτουργικά Χαρακτηριστικά • Ιστορικά Δεδομένα • Ο χρονικός ορίζοντας μιας αποθήκης δεδομένων είναι πολύ μεγαλύτερος από ότι ενός συστήματος σε λειτουργία • Η ΒΔ έχει τα τωρινά δεδομένα ενώ οι αποθήκες διατηρούν και παλιά δεδομένα (πχ τα προηγούμενα 5-10 χρόνια) • Τροποποιήσεις • Οι τροποποιήσεις στις πηγές δεδομένων δεν φαίνονται άμεσα στις αποθήκες δεδομένων, συνήθως περιοδικά • Μόνο δύο βασικές λειτουργίες: αρχικό φόρτωμα των δεδομένων (loading) και προσπέλαση δεδομένων (access)

  5. Εξόρυξη Δεδομένων - Ορισμός • Η εξαγωγή πληροφορίας από μεγάλες βάσεις δεδομένων: • ενδιαφέρουσας • νέας (μη γνωστής εκ των προτέρων) • μη προφανούς • χρήσιμης (αξιοποιήσιμης) Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 5

  6. Κίνητρο για εξόρυξη • “Παντού δεδομένα…” • Σχεσιακές βάσεις • αποθήκες δεδομένων • δεδομένα συναλλαγών (ATM, υπερκαταστήματα) • χωρικά δεδομένα (GIS, δορυφόροι) • δεδομένα χρονοσειρών • πολυμεσικά δεδομένα (φωνή, εικόνα) • δεδομένα Ιστού (logs, ιστοσελίδες) • Αντί “προβλήματος”, πηγή πλεονεκτήματος Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 6

  7. Εξόρυξη ως διαδικασία Γνώση Αποτίμηση Προτύπων Εξόρυξη Δεδομένων Αποθήκη Δεδομένων Καθαρισμός Ανάδραση Βάσεις Δεδομένων Δρ. Παναγιώτης Συμεωνίδης – Αποθήκες και Εξόρυξη Δεδομένων 7

  8. ΑΠΟΘΗΚΕΣ & ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εξόρυξη από τον Παγκόσμιο Ιστό • Δεδομένα Δομής (PageRank, HITS) • Δεδομένα Περιεχομένου • Δεδομένα Χρήσης Εξόρυξη Δεδομένων Κατηγοριοποίηση Ομαδοποίηση Κανόνες Συσχέτισης Υλοποίηση Αποθηκών Δεδομένων • Δημιουργία Κύβων • Analysis Services Αποθήκες & Εξόρυξη Δεδομένων

  9. ΣΚΟΠΟΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ Τρεις διδακτικοί στόχοι: • Γνώση προχωρημένων θεμάτων Αποθηκών και Εξόρυξης Δεδομένων. • Ικανότητα για κριτική αξιολόγηση ερευνητικών εργασιών στην Εξόρυξη Δεδομένων. • Εφαρμογή αλγορίθμων Εξόρυξης Δεδομένων για την επίλυση προβλημάτων.

  10. ΒΙΒΛΙΟΓΡΑΦΙΑ [1] Introduction to Data Mining (Tan, Steinbach, Kumar) [2] Mining of Massive Datasets (Rajaraman, Leskovec, Ullman) [3] Εισαγωγή στην εξόρυξη και τις αποθήκες δεδομένων (Νανόπουλος, Μανωλόπουλος) Mining of Massive Datasets AnandRajaraman Jure Leskovec Jeffrey D. Ullman

  11. ΒΑΘΜΟΛΟΓΙΑ ΜΑΘΗΜΑΤΟΣ • ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ (2 μονάδες) • ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ (3 μονάδες) • ΕΞΕΤΑΣΕΙΣ (5 μονάδες) *Οι μονάδες αθροίζονται χωρίς προϋποθέσεις

  12. ΠΑΡΟΥΣΙΑΣΗ ΕΡΕΥΝΗΤΙΚΗΣ ΕΡΓΑΣΙΑΣ • Δυνατότητες επιλογής Θέματος • State-of-the-art papers from Conferences or Workshops • Papers from Data Engineering Lab(DELAB) • DM Book project Topics • Τρόπος Παρουσίασης • Διάλεξη 25 λεπτών • Προβολή διαφανειών σε Power Point (30 διαφάνειες) • Ερωτήσεις – Συζήτηση (5 λεπτά)

  13. ΣΥΝΘΕΤΙΚΗ ΕΡΓΑΣΙΑ • Χρήση του MS SQL Server 2008 R2 Business Intelligence • Σενάριο • Μια επιχείρηση διαθέτει μια βάση δεδομένων με στοιχεία των πελατών της. Θα σας δοθούν τρία προβλήματα που αντιμετωπίζει η επιχείρηση και θα προτείνετε λύσεις. • Εφαρμογή αλγορίθμων Εξόρυξης δεδομένων • Αλγόριθμοι Δέντρου, Συστάδων και Κανόνων Συσχέτισης • Παραδοτέα • Προσδιορισμός πιθανών μοντέλων • Διαγράμματα κύβου, δέντρου, συστάδων και κανόνων συσχέτισης • Αξιολόγηση των πιθανών μοντέλων • Επιλογή καλύτερου μοντέλου

  14. Εξετάσεις • Ύλη μαθήματος (5-6 κεφάλαια από τα βιβλία που προτείνονται) • Θα πρέπει να απαντηθούν πέντε θέματα (1 μονάδα το καθένα)

  15. Οργάνωση του Μαθήματος • Μάθημα 1 : Διάγραμμα & περιγραφή Μαθήματος (Syllabus) • Μάθημα 2 : Βασικές έννοιες στις Αποθήκες Δεδομένων • Μάθημα 3 : Φυσικό Επίπεδο Αποθηκών Δεδομένων • Μάθημα 4 : MS SQL Server 2008(Δημιουργία κύβου) • Μάθημα 5 :Κατηγοριοποίηση • Μάθημα 6 : Κανόνες Συσχέτισης • Μάθημα 7 : Ομαδοποίηση (πρώτος μέρος) • Μάθημα 8 : Ομαδοποίηση (δεύτερο μέρος) • Μάθημα 9 : MS SQL Server 2008(Ομαδοποίηση) • Μάθημα 10 : MS SQL Server 2008(Κατηγοριοποίηση) • Μάθημα 11 : MS SQL Server 2008(Κανόνες Συσχέτισης) • Μάθημα 12 :Εξόρυξη Δεδομένων Παγκόσμιου Ιστού • Μάθημα 13 :Εξόρυξη Δεδομένων Ειδικού Σκοπού

  16. Αποθήκες Δεδομένων • Δημιουργία Αποθήκης Δεδομένων • Σχήματα Αστέρα, Χιονονιφάδας και Γαλαξία • Δημιουργία Κύβου • Συστήματα MOLAP, ROLAP και HOLAP • Υποβολή Ερωτημάτων σε Κύβο • Τεχνικές Drill Down και Drill up

  17. Θέματα Ομαδοποίησης • K-means • Agglomerative Hierarchical Clustering • Density-based algorithms (DBSCAN) • Graph-based algorithms (Two-way nCut) • Scalable Clustering algorithms • Cluster Evaluation

  18. Θέματα Κατηγοριοποίησης • Decision Tree Classifier • Model Overfitting • Naïve Bayes Classifier • Nearest Neighbor Classifier • Evaluating and Comparing Classifiers • Ensemble Methods

  19. Θέματα Κανόνων Συσχέτισης • Frequent Itemset Generation (Apriori) • Alternative Itemset Generation (FP-Growth) • Sequential Patterns (temporal information) • Recommendations based on Ass. Rules (cross-sales) • Evaluation of Association Patterns

  20. MS SQL Server 2008(Δημιουργία Κύβου) • Δημιουργία Κύβου Δεδομένων • Προβολή του Κύβου Δεδομένων • Αξιολόγηση του Κύβου Δεδομένων

  21. MS SQL Server 2008(Κατηγοριοποίηση) • Εφαρμογή αλγορίθμου Δέντρου Απόφασης • Παράμετροι Αλγορίθμου • Προβολή του Δέντρου Απόφασης • Αξιολόγηση του Δέντρου Απόφασης

  22. MS SQL Server 2008(Ομαδοποίηση) • Εφαρμογή αλγορίθμου Ομαδοποίησης • Παράμετροι Αλγορίθμου • Προβολή συστάδων • Αξιολόγηση των συστάδων

  23. MS SQL Server 2008(Κανόνες Συσχέτισης) • Εφαρμογή αλγορίθμου Κανόνων Συσχέτισης • Παράμετροι Αλγορίθμου • Προβολή Κανόνων Συσχέτισης • Αξιολόγηση των Κανόνων Συσχέτισης

  24. Εξόρυξη Δεδομένων ΧρήσηςΠΙ • Χρησιμοποιεί δεδομένα από αρχεία καταγραφής των ιστοσελίδων (Log files) και από τα προφίλ των χρηστών (π.χ. βαθμολογίες χρηστών σε προϊόντα) • Εφαρμογές : Συστήματα Συστάσεων Συνεργατικής Διήθησης. (Recommender Systems) Βαθμός 1 έως 5

  25. Μάθημα 7 : Εξόρυξη Δεδομένων ΧρήσηςΠΙ • Data Collection • Session Analysis • Collaborative Filtering • Recommender Systems • Social Tagging • Singular Value Decomposition • Tensor Dimensionality Reduction

  26. Εξόρυξη Δεδομένων Περιεχομένου ΠΙ • χρησιμοποιεί το περιεχόμενο των ιστοσελίδων (κείμενο, λέξειςκτλ.) προκειμένου να βρει ομοιότητα μεταξύ τους. • Εφαρμογές : Συστήματα Προτάσεων Βάσει περιεχομένου, Ανάκτηση Πληροφοριών. Συχνότητα

  27. Εξόρυξη Δεδομένων Περιεχομένου ΠΙ • Information Retrieval Models • Web Page Pre-processing • Latent Semantic Indexing • Web Spamming • Content-based Collaborative Filtering • Explanations in Recommender Systems

  28. Εξόρυξη Δεδομένων Δομής ΠΙ • Ανακαλύπτει ενδιαφέρουσα γνώση από υπερσυνδέσμους μεταξύ ιστοσελίδων του ΠΙ. • Εφαρμογές : Μηχανές Αναζήτησης, Ανακάλυψη Κοινοτήτων κτλ.

  29. Εξόρυξη Δεδομένων Δομής ΠΙ • Social Network Analysis (friendship network) • Web Search and Search Engines • PageRank • HITS • Community Discovery

  30. Εξόρυξη Δεδομένων Ειδικού Σκοπού • Data Mining and Audience Intelligence for Advertising (ADKDD 2012) • Multimedia Data Mining (MDM/KDD 2012) • Knowledge Discovery on the Web (WebKDD 2012) • Knowledge Discovery from Sensor Data (Sensor-KDD 2012)

  31. Εξόρυξη Δεδομένων Ειδικού Σκοπού • Data Mining in Bioinformatics (BIOKDD 2012) • Data Mining using Matrices and Tensors (KDD 2012) • Large-Scale Recommender Systems (KDD 2012) • Social Network Mining and Analysis (SNA-KDD 2012) • ASONAM • RecSys • PKDD

  32. ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης Εργ. Τεχνολογίας και Επεξεργασίας Δεδομένων Τμήμα Πληροφορικής Διατμηματικό Πρόγραμμα Μεταπτυχιακών Σπουδών Αριστοτέλειο Πανεπιστήμιο Θεσ/νικης http://delab.csd.auth.gr/~symeon

More Related