1 / 47

Metadatazione automatica di videogiornali mediante Text Categorization

lankston
Télécharger la présentation

Metadatazione automatica di videogiornali mediante Text Categorization

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


    1. Metadatazione automatica di videogiornali mediante Text Categorization

    2. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un videogiornale

    3. Metadatazione automatica di videogiornali mediante Text Categorization MAM Lobiettivo quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management levoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono lasset (il bene) al centro del sistema, ed hanno come concetto principale quello del riuso. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione. Lobiettivo quello di realizzare un modulo che faccia la metadatazione automatica di contenuti multimediali. In altre parole quello che si vuole fare la classificazione delle notizie contenute in documenti testuali e nel parlato di audio e video. Agiamo nella fase di Indicizzazione per permettere una fase di ricerca migliore. Ad esempio, grazie a questo modulo possibile ricercare tutti i video che parlano della vita sociale dei Leoni. Il Multimedia Asset Management levoluzione del CMS (Content Management System) e nasce appositamente per la gestione dei digital asset (beni digitali). I Sistemi MAM, a differenza dei CMS, pongono lasset (il bene) al centro del sistema, ed hanno come concetto principale quello del riuso. Il progetto di un tale sistema esige lo sviluppo di sei sottosistemi e delle relazioni che intercorrono fra essi: Ingestion, Indicizzazione, Ricerca, Storage, Sicurezza e Distribuzione.

    4. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Definizione Sistema Esperto o Machine Learning? Feature Extraction Il Classificatore Metrica di Valutazione Classificazione di un Videogiornale

    5. Metadatazione automatica di videogiornali mediante Text Categorization Cos la Text Categorization? Ha lobiettivo di assegnare un valore booleano a ogni coppia <di,ci> DXC dove D linsieme di documenti e C di categorie in altre parole il processo attraverso il quale un documento di testo viene classificato in una o pi categorie predefinite in base ai suoi contenuti. La TC il processo attraverso il quale un documento di testo viene classificato in una o pi categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dellutente.La TC il processo attraverso il quale un documento di testo viene classificato in una o pi categorie predefinite in base ai suoi contenuti. Automatizzare il processo di TC significa dunque fornire un fondamentale ausilio per ordinare la gran mole di dati disponibile in base agli interessi specifici dellutente.

    6. Metadatazione automatica di videogiornali mediante Text Categorization Sistema Esperto o Machine Learning? IF <DNF Formula> THEN <ci> ELSE <?ci> (DNF=Forma Normale Disgiuntiva) O costruttore automatico di classificatori Presuppone la disponibilit iniziale di un corpus di documenti preclassificati Negli anni 80 la classificazione veniva effettuata tramite lutilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Questapproccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bens sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ci che si deve fare avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. Lintervento dellesperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse. Negli anni 80 la classificazione veniva effettuata tramite lutilizzo di sistemi esperti che classificavano i testi in base a delle regole logiche definite manualmente da esperti umani. Questapproccio limitava il classificatore ad un dominio di applicazione specifico. Negli anni 90 si afferma il ML che a differenza di quello che accade per i sistemi esperti, lo sforzo ingegneristico si concentra non sulla costruzione di un classificatore, bens sulla realizzazione di un costruttore automatico di classificatori (il learner). Tutto ci che si deve fare avviare la costruzione automatica del classificatore a partire da un set di documenti classificati manualmente. Lintervento dellesperto in questo caso si riduce alla classificazione di documenti appartenenti alla categoria di interesse.

    7. Metadatazione automatica di videogiornali mediante Text Categorization Prima di procedere bisogna trasformare il doc da machine-readable a machine-processable. Feature Extraction Preprocessing Rimozione dei Tag Rimozione delle Stopword in, un, e, allora, Stemming walk, walked, walker, walking walk Indicizzazione Vector Space Model Riduzione della Dimensione Term Selection e Term Extraction Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sar pi generale e non sottoposta alle restrizioni di genere e numero. Ma si pu anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e cos via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre Stemming : estrazione della radice comune del termine con eliminazione della desinenza (singolare/plurale, maschile/femminile, INFINITO PRESENTE, ecc.). In questo modo la lista di termini che utilizziamo sar pi generale e non sottoposta alle restrizioni di genere e numero. Ma si pu anche decidere, sulla base di criteri significativi, di adottare solo il singolare o solo il plurale, e cos via, inserendo gli altri termini fra i sinonimi. Funzione standard tfidf (Tern Frequency-Inverse Document Frequency) tfidf (tk ,dj ) = #(tk ,dj ) log[|Tr| / #Tr(tk)] dove: #(tk ,dj ) indica il numero di occorenze di tk in dj #Tr(tk) indica il numero di documenti di Tr nel quale tk occorre

    8. Metadatazione automatica di videogiornali mediante Text Categorization Il Classificatore Esistono vari tipi di classificatore; quello che fa al caso nostro di tipo probabilistico: P(ci) la probabilit che un documento selezionato a caso appartenga a ci, P(dj) la probabilit che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilit che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficolt poich il numero di vettori possibili molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per lassunzione della indipendenza della parola (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri allinterno di un dato contesto della categoria ) P(ci) la probabilit che un documento selezionato a caso appartenga a ci, P(dj) la probabilit che un documento selezionato a caso ha come relativa rappresentazione il vettore dj, P(di|cj) la probabilit che un documento selezionato a caso sia rappresentato dal vettore dj quando questo appartiene alla categoria ci. In generale, la valutazione della P(di|cj) presenta delle difficolt poich il numero di vettori possibili molto alto. Esistono due versioni del metodo NB Multivariate Bernoulli (considera solo il termine di occorrenza) and Multinomial Misure (considera solo il termine di frequenza). E un metodo che ha come vantaggio la robustezza e un piccolo consumo di risorse, anche se criticato per lassunzione della indipendenza della parola (gli attributi utilizzati negli esempi sono indipendenti gli uni dagli altri allinterno di un dato contesto della categoria )

    9. Metadatazione automatica di videogiornali mediante Text Categorization Naive Bayes La prima ipotesi che la probabilit di una parola dessere presente in una determinata posizione del testo indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe dappartenenza; La seconda ipotesi che le parole siano identicamente distribuite, cio che ogni parola del vocabolario si possa trovare con uguale probabilit in una prefissata posizione; Lapproccio bayesiano per classificare una nuova istanza quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dellistanza, valutati secondo lesperienza del classificatore. La prima ipotesi che la probabilit di una parola dessere presente in una determinata posizione del testo indipendente dalla collocazione delle altre parole nel documento, fissando una determinata classe dappartenenza; La seconda ipotesi che le parole siano identicamente distribuite, cio che ogni parola del vocabolario si possa trovare con uguale probabilit in una prefissata posizione; Lapproccio bayesiano per classificare una nuova istanza quello di assegnare un valore VMAP (Maximum Attribute Probability) sulla base degli attributi dellistanza, valutati secondo lesperienza del classificatore.

    10. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi che la classe dappartenenza di un documento non dipenda dalla sua lunghezza. La terza ipotesi che la classe dappartenenza di un documento non dipenda dalla sua lunghezza.

    11. Metadatazione automatica di videogiornali mediante Text Categorization Funzione Obiettivo La terza ipotesi che la classe dappartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.La terza ipotesi che la classe dappartenenza di un documento non dipenda dalla sua lunghezza. Dove |cj| denota il numero di documenti di training e |D| il numero totale di documenti usati per il training di tutte le classi (approccio frequentista). N il numero di token presenti in Textj Nk = frequenza della parola wk in Textj.

    12. Metadatazione automatica di videogiornali mediante Text Categorization NaiveBayesTrainer Selezionare le parole o token che compaiono in tutti i documenti del train-set, lelenco ottenuto costituir il vocabolario. Calcolare P(Cj) e P(wk|Cj) Per ogni categoria o classe Cj C Considerare i documenti della categoria Cj tra tutti quelli del train-set e ricavare: P(Cj) =|Ci| / |Vocabolario| Creare un documento Textj dalla concatenazione di tutti i dj (quindi i documenti desempio di una classe). Contare i token presenti in Textj e memorizzarne il valore in N. Per tutte le parole del vocabolario calcolare Nk = frequenza della parola wk in Textj. P(wk|Cj) = (NK+1) / (N+|Vocabolario|) NaiveBayesClassify Riconoscere i token del documento da classificare considerando solo quelle presenti anche nel vocabolario precostituito in fase dapprendimento. Vbn=argmaxCj C P(Cj)*produttoria(i=1 to |docs|)P(wk|Cj)

    13. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione Lappartenenza di un documento ad una categoria , per mezzo del suo carattere soggettivo, non formalizzabile la valutazione dei classificatori TC tipicamente condotta sperimentalmente piuttosto che analiticamente.

    14. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione

    15. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Recall indica la probabilit che se un documento non appartiene alla categoria, questa decisione corretta.

    16. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision indica la probabilit che se un documento classificato sotto la categoria, questa decisione corretta, cio conta il numero di risposte corrette sul numero di risposte totali.

    17. Metadatazione automatica di videogiornali mediante Text Categorization Metrica di Valutazione La Precision e la Recall si possono considerare come laspettativa da parte dellutente sul comportamento del classificatore ed hanno senso solo se utilizzate insieme. Molti sistemi cercano di trovare un bilancio tra queste due misure: Breakeven Point F-Measures

    18. Metadatazione automatica di videogiornali mediante Text Categorization Sperimentazione Inglese Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] ModApt invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%Andrew McCallum Department of Computer Science University of Massachusetts Amherst Nel caso della collezione Reuters-21578[10] ModApt invece i risultati ottenuti sono: Efficacia sul train-set: 87,9% Efficacia sul test-set: 86,8%

    19. Metadatazione automatica di videogiornali mediante Text Categorization Outline MAM Text Categorization Classificazione di un Videogiornale Il Sistema Speech to Text Definizione del Data-set Demo Sperimentazione

    20. Metadatazione automatica di videogiornali mediante Text Categorization Il Sistema Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle pi avanzate soluzioni MAM), lengine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.Si parte da una serie di scene (video monotematici) da cui viene estratto il parlato che viene sottoposto al modulo di text2speech. Il modulo usato, lo stesso di Virage (una delle pi avanzate soluzioni MAM), lengine ViaVoice proposto dalla IBM e Scansoft aziende leader nella settore della speech recognition. Una volta ricavato il testo associato al parlato si passa alla sua classificazione.

    21. Metadatazione automatica di videogiornali mediante Text Categorization Speech2Text Riconosce la voce naturale e il parlato continuo e li converte in testo Addestramento specifico o generale Creazione di un Vocabolario Difficolt a separare la voce dai rumori di sottofondo

    22. Metadatazione automatica di videogiornali mediante Text Categorization Alcune differenze di Vocabolario

    23. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale

    24. Metadatazione automatica di videogiornali mediante Text Categorization Struttura di un videogiornale Dopo unanalisi preliminare dei TG e delle notizie ANSA la classificazione con minor ambiguit risultata la seguente: Cronaca Italiana (Cronaca Nera, Rosa e giudiziaria) Politica Italiana (Politica Interna) Mondo (Cronaca e Politica Estera, Citt del Vaticano) Finanza & Economia (Borsa, i tassi di cambio, il prezzo del petrolio, scioperi, acquisizioni, cessioni e fallimenti societari) Cultura & Societ (Moda, Spettacolo, Scoperte Scientifiche) Sport (Eventi e cronache sportive)

    25. Metadatazione automatica di videogiornali mediante Text Categorization DATASET ANSA ANCHORMAN SERVIZIO MODULO INFORMATIVO

    26. Metadatazione automatica di videogiornali mediante Text Categorization DATASET Riferito a circa un mese di TG annunciati da Marco Betello TG1 Cesara Buonamici TG5 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO 1600 notizie ANSA 206 notizie ANCHORMAN TG 123 servizi TG 140 servizi completi TG 8 (121) TG trascritti con il vocabolario BASE 8 (121) TG trascritti con il vocabolario AMPLIATO

    27. Metadatazione automatica di videogiornali mediante Text Categorization

    28. Metadatazione automatica di videogiornali mediante Text Categorization Mediante lapproccio ten-fold-cross-validation si sono ottenuti i seguenti risultati : SPERIMENTAZIONE

    29. Metadatazione automatica di videogiornali mediante Text Categorization Dimensione del Data-set

    30. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    31. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE Cesara Buonamici

    32. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    33. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    34. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    35. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE

    36. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

    37. Metadatazione automatica di videogiornali mediante Text Categorization SPERIMENTAZIONE REALE

    38. Metadatazione automatica di videogiornali mediante Text Categorization Conclusioni La definizione del data-set la fase pi importante per laddestramento di un buon classificatore. Cosa utilizzare per la classificazione? Scena Anchorman o Modulo Informativo? Sviluppi futuri Aumento della dimensione del data-set per poter avere una precisione maggiore e pi categorie su cui agire. Cercare di effettuare una trascrizione Reale dei servizi.

    39. Metadatazione automatica di videogiornali mediante Text Categorization DEMO Nel corso della presentazione si far riferimento al TG1 condotto nel luglio 2003 da Francesco Giorgino utilizzando un vocabolario ampliato

    40. Metadatazione automatica di videogiornali mediante Text Categorization

    41. Metadatazione automatica di videogiornali mediante Text Categorization

    42. Metadatazione automatica di videogiornali mediante Text Categorization

    43. Metadatazione automatica di videogiornali mediante Text Categorization

    44. Metadatazione automatica di videogiornali mediante Text Categorization

    45. Metadatazione automatica di videogiornali mediante Text Categorization

    46. Metadatazione automatica di videogiornali mediante Text Categorization

    47. Metadatazione automatica di videogiornali mediante Text Categorization Domande?

More Related