1 / 23

Ανάκτηση Πληροφορίας

Ανάκτηση Πληροφορίας. Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis). Μοντέλα IR. Κλασικά Μοντέλα - Boolean - Vector - Probabilistic. Συνολοθεωρητικά - Fuzzy - Extended Boolean. Αλγεβρικά - Generalized Vector - Latent Semantic - Neural Networks. Πιθανοτικά

falala
Télécharger la présentation

Ανάκτηση Πληροφορίας

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ανάκτηση Πληροφορίας Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)

  2. Μοντέλα IR Κλασικά Μοντέλα - Boolean - Vector - Probabilistic Συνολοθεωρητικά - Fuzzy - Extended Boolean Αλγεβρικά -Generalized Vector - Latent Semantic - Neural Networks Πιθανοτικά - Inference Network - Belief Network Τμήμα Πληροφορικής ΑΠΘ

  3. Κίνητρο Βασικό μειονέκτημα των μέχρι τώρα μοντέλων είναι ότι υποθέτουν την ανεξαρτησία των όρων (η πιθανότητα ένας όρος να ανήκει σε ένα έγγραφο δεν εξαρτάται από την ύπαρξη κάποιου άλλου όρου στο έγγραφο). Επίσης, έχουμε δύο βασικά προβλήματα με τους όρους: πολυσημία (ένας όρος έχει διαφορετικό νόημα σε διαφορετικές περιοχές, π.χ. ποντίκι) και συνωνυμία (δύο όροι έχουν ακριβώς το ίδιο ή πολύ κοντινό νόημα, άστρο, αστέρας). Τμήμα Πληροφορικής ΑΠΘ

  4. Κίνητρο Ποια η επίδραση της πολυσημίας και της συνωνυμίας στην ανάκληση και την ακρίβεια; Η πολυσημία μειώνει την ακρίβεια και η συνωνυμία μειώνει την ανάκληση Γιατί; Τμήμα Πληροφορικής ΑΠΘ

  5. Στόχος • Να μπορέσουμε να βρούμε συσχετίσεις μεταξύ των όρων έτσι ώστε να μεταβούμε από τους όρους στις θεματικές περιοχές (concepts). • Να μειώσουμε την επίδραση της πολυσημίας και της συνωνυμίας. • Να μειώσουμε τον αριθμό των διαστάσεων. Τμήμα Πληροφορικής ΑΠΘ

  6. Singular Value Decomposition • Η τεχνική LSI (Latent Semantic Indexing) βασίζεται στο μαθηματικό εργαλείο SVD (Singular Value Decomposition) Τμήμα Πληροφορικής ΑΠΘ

  7. Singular Value Decomposition • Problem: • #1: Find concepts in text • #2: Reduce dimensionality Τμήμα Πληροφορικής ΑΠΘ

  8. SVD - Definition A[n x m] = U[n x r]L [ r x r] (V[m x r])T • A: n x m matrix (e.g., n documents, m terms) • U: n x r matrix (n documents, r concepts) • L: r x r diagonal matrix (strength of each ‘concept’) (r: rank of the matrix) • V: m x r matrix (m terms, r concepts) Τμήμα Πληροφορικής ΑΠΘ

  9. SVD - Properties THEOREM [Press+92]:always possible to decomposematrix A into A = ULVT , where • U,L,V: unique (*) • U, V: column orthonormal (ie., columns are unit vectors, orthogonal to each other) • UTU = I; VTV = I (I: identity matrix) • L: singular value are positive, and sorted in decreasing order Τμήμα Πληροφορικής ΑΠΘ

  10. SVD - Properties ‘spectral decomposition’ of the matrix: l1 x x = u1 u2 l2 v1 v2 Τμήμα Πληροφορικής ΑΠΘ

  11. SVD - Interpretation ‘documents’, ‘terms’ and ‘concepts’: • U: document-to-concept similarity matrix • V: term-to-concept similarity matrix • L: its diagonal elements: ‘strength’ of each concept Projection: • best axis to project on: (‘best’ = min sum of squares of projection errors) Τμήμα Πληροφορικής ΑΠΘ

  12. SVD - Example • A = ULVT - example: retrieval inf. lung brain data CS x x = MD Τμήμα Πληροφορικής ΑΠΘ

  13. SVD - Example • A = ULVT - example: doc-to-concept similarity matrix retrieval CS-concept inf. lung MD-concept brain data CS x x = MD Τμήμα Πληροφορικής ΑΠΘ

  14. SVD - Example • A = ULVT - example: retrieval ‘strength’ of CS-concept inf. lung brain data CS x x = MD Τμήμα Πληροφορικής ΑΠΘ

  15. SVD - Example • A = ULVT - example: term-to-concept similarity matrix retrieval inf. lung brain data CS-concept CS x x = MD Τμήμα Πληροφορικής ΑΠΘ

  16. SVD – Dimensionality reduction • Q: how exactly is dim. reduction done? • A: set the smallest singular values to zero: x x = Τμήμα Πληροφορικής ΑΠΘ

  17. SVD - Dimensionality reduction x x ~ Τμήμα Πληροφορικής ΑΠΘ

  18. SVD - Dimensionality reduction ~ Τμήμα Πληροφορικής ΑΠΘ

  19. retrieval inf. lung brain data CS x x = MD LSI Q1: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? Τμήμα Πληροφορικής ΑΠΘ

  20. LSI Q: How to do queries with LSI? A: map query vectors into ‘concept space’ – how? retrieval term2 inf. q lung brain data q= v2 v1 A: inner product (cosine similarity) with each ‘concept’ vector vi term1 Τμήμα Πληροφορικής ΑΠΘ

  21. retrieval inf. lung brain data q= LSI compactly, we have: qconcept = q V e.g.: CS-concept = term-to-concept similarities Τμήμα Πληροφορικής ΑΠΘ

  22. retrieval inf. lung brain data d= Little example How would the document (‘information’, ‘retrieval’) handled by LSI? A: SAME: dconcept = d V Eg: CS-concept = term-to-concept similarities Τμήμα Πληροφορικής ΑΠΘ

  23. Προσοχή • Εάν στον αρχικό πίνακα A τα διανύσματα των εγγράφων είναι στις γραμμές του πίνακα τότε για τη μείωση των διαστάσεων χρησιμοποιείται ο μετασχηματισμός: A’ = A * Vk. • Εάν στον αρχικό πίνακα Α τα διανύσματα των εγγράφων είναι στις στήλες του Α τότε: A’ = UkT * A Τμήμα Πληροφορικής ΑΠΘ

More Related