Εξόρυξη Χρονικών Δεδομένων
130 likes | 238 Vues
Εξόρυξη Χρονικών Δεδομένων. Εξόρυξη Χρονικών Δεδομένων. Ανάλυση χρονικών σειρών π.χ. στο χρηματιστήριο πρόβλεψη μελλοντικών τιμών μετοχών καθορισμός παρόμοιων τάσεων στο χρόνο κατηγοριοποίηση συμπεριφοράς. Βάσεις Δεδομένων από Χρονοσειρές.
Εξόρυξη Χρονικών Δεδομένων
E N D
Presentation Transcript
Εξόρυξη Χρονικών Δεδομένων • Ανάλυση χρονικών σειρών • π.χ. στο χρηματιστήριο • πρόβλεψη μελλοντικών τιμών μετοχών • καθορισμός παρόμοιων τάσεων στο χρόνο • κατηγοριοποίηση συμπεριφοράς
Βάσεις Δεδομένων από Χρονοσειρές • Ορισμός: Μια χρονοσειρά είναι μια ακολουθία πραγματικών αριθμών, που αναπαριστούν τις μετρήσεις μιας πραγματικής μεταβλητής σε ισαπέχοντα χρονικά διαστήματα • Μεταβολή των εργοστασικώντιμών • Όγκος πωλήσεων ως προς τον χρόνο • Μετρήσεις θερμοκρασίας σε καθημερινή βάση • ΒΔ Χρονοσειρών: Μια βάση δεδομένων με ακολουθίες χρονοσειρών
Χρησιμότητα της Ανάλυσης Χρονοσειρών • Identifying Patterns • Trend analysis • A company’s linear growth in sales over the years • Seasonality • Winter sales are approximately twice summersales • Forecasting • What is the expected sales for the next quarter?
Βασική Προσέγγιση για Σύγκριση Χρονοσειρών Εξαγωγή μερικών χαρακτηριστικών-“κλειδιών” για κάθε χρονική ακολουθία Map each time sequence X to a point f(X) in the(relatively low dimensional) “feature space”, suchthat the (dis) similarity between X and Y isapproximately equal to the Euclidean distancebetween the two points f(X) and f(Y)
Dynamic Time Warping • Εύρεση της βέλτιστης αντιστοίχισης δύο χρονικών σειρών με «τέντωμα» στον άξονα του χρόνου • Για σύγκριση συνεχών σημάτων
Dynamic Time Warping • Εύρεση της βέλτιστης αντιστοίχισης δύο χρονικών σειρών με «τέντωμα» στον άξονα του χρόνου • Για σύγκριση συνεχών σημάτων
Περιορισμοί των Warping Paths • Μονοτονία • Path should not go down or to the left • Συνέχεια • No elements may be skipped in a sequence • Warping Window | i – j | <= w
Υπολογισμός Απόστασης Let D(i, j) refer to the warping distancebetween the subsequences Basic implementation = O(n2) where n is the length ofthe sequences
Basic LCS Idea Για σύγκριση διακριτών σημάτων • X = 3, 2, 5, 7, 4, 8, 10, 7 • Y = 2, 5, 4, 7, 3, 10, 8, 6 • LCS = 2, 5, 7, 10 • Sim(X,Y) = |LCS| • Παρόμοια Τεχνική: Edit Distance • Μειονέκτημα: Δεν εντοπίζει τους διαφορετικούς παράγοντες κλιμάκωσης • Εφαρμογές: • Speech Recognition • Text Pattern Matching
LCS-like measures for time series • Subsequence comparison without scaling • [Yazdani & Ozsoyoglu, 1996] • Subsequence comparison with local scalingand baselines • [Agrawal et. al., 1995 ] • Subsequence comparision with global scalingand baselines • [Das et. al., 1997] • Global scaling and shifting • [Chu and Wong,1999]