1 / 24

Automatic Text Segmentation: Text Relationship Map (Salton 1996)

Automatic Text Segmentation: Text Relationship Map (Salton 1996). Ing. Leonardo Rigutini Dipartimento di Ingegneria dell’Informazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it. Text Relationship map. Salton 1996 Vector space model:

Télécharger la présentation

Automatic Text Segmentation: Text Relationship Map (Salton 1996)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatic Text Segmentation:Text Relationship Map (Salton 1996) Ing. Leonardo Rigutini Dipartimento di Ingegneria dell’Informazione Università di Siena Via Roma 53 53100 – SIENA – ITALY rigutini@dii.unisi.it Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  2. Text Relationship map • Salton 1996 • Vector space model: • Di=(di1 , di2 , … , dit ) • dik = peso del termine Tk nel documento Di • Sim( Di , Dj ) =  dik x djk • Sim viene normalizzata in modo da  (0,1) • Una volta calcolate le similitudini si costruisce la mappa Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  3. Text Relationship map Figure 1: Text Relationship Map: articoli di enciclopedia riguardanti l’energia termo-nucleare 17012 11830 0.49 0.57 0.54 0.24 17016 0.50 8907 0.33 0.38 0.23 19199 0.09 22387 Link under 0.01 ignored Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  4. Nodi e archi • Importanza di un nodo correlata al numero di archi incidenti: • Un nodo centrale è caratterizzato da un grande numero di archi • Grafo altamente connesso: • Molti nodi importanti • Trattazione dell’argomento omogenea • Grafo debolmente connesso: • Nodi importanti sparsi • Piu’ argomenti separati (poca omogeneita’) • Trattazione cronologica, geografica ecc ... Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  5. Grafo altamente connesso Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  6. Grafoscarsamente connesso Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  7. Automatic Text Decomposition • Studio delle relazioni tra i nodi del grafo • Due tipi di analisi: • Segmenti unita’ di testo (nodi) omogenee e contigue, altamente connesse tra loro e poco connesse con i restanti nodi del grafo. • Tematiche unita’ di testo semanticamente omogenee senza vincoli di adiacenza. Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  8. Text Segments - 1 • Trovare gap nelle connessioni tra paragrafi adiacenti • Vengono eliminati i collegamenti tra nodi distanti oltre un certo k (Salton pone k=5) Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  9. Text Segments - 2 • Non e’ garantita la coerenza del tema trattato • Molti argomenti possono essere trattati in maniera non lineare Per cercare coerenza bisogna rilassare il vincolo di adiacenza e considerare tutti i collegamenti esistenti Text Theme Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  10. Text Themes • Si considerano i triangoli presenti nel grafo • triangolo = insieme di tre nodi mutualmente correlati • Ogni triangolo e’ rappresentato da • un vettore centroide Ci=(N1,N4,N8) dove Nk e’ il nodo k • un valore Si che e’ la media dei vettori del triangolo • Fusione dei centroidi: • I triangoli vengono fusi quando la similitudine tra coppie di centroidi supera una determinata soglia • Il processo si ripete fino a che nessuna fusione e’ possibile Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  11. Text Themes - es Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  12. Relazioni tra segmenti e temi • E’ possibile calcolare gradi di similitudine: • segment-segment informazioni sulla struttura del documento (figura 7) • theme-theme informazioni sulla centralita’ di alcune tematiche e sulla particolarita’ di altre (figura 8) • theme-segment tipo di documento: • singolo tema trattato sotto piu’ punti di vista • piu’ temi scorrelati • un tema centrale e vari paragrafi secondari] • ecc... Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  13. Segment-segment Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  14. Theme-theme Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  15. Theme-segment • segmenti & temi abbastanza congruenti: • Tema sviluppato in maniera lineare • parti di testo abbastanza adiacenti • Es. • articoli su un singolo argomento • articoli su piu’ argomenti abbastanza scorrelati e trattati in maniera cronologica (relazione 1 a 1) • Temi trattati sotto piu’ punti di vista (T  piu’ S) • temi e segmenti non congruenti • Argomento sospeso e ripreso in seguito • Es. • Introduzione e succesive spiegazioni Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  16. Es. singolo tema Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  17. Es. Storie multiple Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  18. Es. Tema scorrelato dal resto del documento Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  19. Es. grande tema centrale e due piccoli approfondimenti Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  20. Text retrieval • Tecniche standard di recupero possono non essere quelle migliori • Quando una query riguarda un tema discontinuo nel documento, il recupero di segmenti non e’ una buona soluzione, ma e’ meglio restituire un insieme di segmenti • Quindi: • Per strutture semplici  text segment • Per strutture complesse  text theme Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  21. Information retrieval: simple structure Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  22. Information retrieval: simple structure Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  23. Information retrieval: complex structure Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

  24. Information retrieval: complex structure Ing. Rigutini Leonardo – Automatic Text Segmentation: Text Relationship Map

More Related