1 / 30

Geração automática de tesaurus e recuperação de informação

Geração automática de tesaurus e recuperação de informação. Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL. Plano. Tesaurus e ontologias. Sistemas de recuperação de informação e processamento da linguagem natural.

Télécharger la présentation

Geração automática de tesaurus e recuperação de informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

  2. Plano • Tesaurus e ontologias • Sistemas de recuperação de informação e processamento da linguagem natural • Construção automática de tesaurus a partir de texto analisado • Uso de tesaurus em sistemas de pesquisa e recuperação de informação

  3. Tesaurus e Ontologias • Definição dualista: • Ontologia: conjunto de conceitos + relações • Tesaurus: conjunto de termos de uma língua ligados a uma ontologia • Definição basada na hipôtese relacional: • Tesaurus = Ontologia: conjunto de termos + relações semânticas

  4. Tesaurus e Ontologias multa  coima (sinonímia) presidente  secretário (co-hiponímia) pequeno  grande (antonímia) ministério  ministro (meronímia) banco  instituição (hiperonímia)

  5. Tesaurus e Ontologias • Tesaurus = Ontologia = Terminologia • Propriedades duma Terminologia: • termos relevantes para um domínio • pouca polisemia • pouco interés nos termos “upper-level” • problema de “portabilidade” a outros domínios

  6. Tesaurus e Ontologias WordNet • Sinonímia: única relação entre termos (“word forms”). • Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. • Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. • Polisemia: um termo é polisémico se ele aparecer em diferentes synsets. • As relações semânticas (hiperonímia, meronímia…) são relações entre synsets

  7. Tesaurus e Ontologias Informação associada a “Organisation” em WordNet • Synsets (3 senses): • (1) arrangement, organisation, system (an organised structure for arranging or classifying) • (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) • (3) constitution, establishment, formation, organisation (the act of forming something)

  8. Tesaurus e Ontologias • Results for Hyponyms of “organisation” in WordNet • Sense (1): • distribution, statiscal distribution • coordinate system, frame of reference, reference system • Sense (2): • county, council • government, officials, officialdom • judiciary, bench • Sense (3): • collectivisation • colonisation, settlement • federation

  9. Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta

  10. Sistemas de RI e PLN • Indexação de documentos: • Os documentos são representados por “termos de índices” • Selecção de textos relevantes a uma determinada consulta: • - As consultas são representadas por “termos de consulta” • - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta • - Operadores de consulta: And, Or, And_Not • - Ordenamento dos documentos recuperados

  11. Sistemas de RI e PLN • Uso do PLN para representar texto (documentos e consultas) : • tokenização • eliminação das “stopwords” • Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: • Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. • Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: • - pôr em relação índices com o mesmo significado • - economia de índices

  12. Sistemas de RI e PLN • Reconhecemento automático de descritores: • marcas tipográficas: termos em títulos, resumos, em negrito, ... • eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) • identificação de termos compostos • Indices normalizados e controlados: • Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) • Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

  13. Geração de thesaurus: Propriedades Hipótese distribucional:As palalavras que partilham os mesmos contextos estão associadas semanticamente Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas Textos com conteúdo específico: “domain-specific corpus”

  14. Geração de thesaurus: Etapas • Extracção dos contextos sintácticos do corpus • Métrica de similaridade entre palavras (baseada nos contextos partilhados) • Identificar para cada palavra, a lista de palavras mais semelhantes

  15. Extracção de contextos sintácticos: Etapas • Tagging: marcação em categorias morfossintácticas • Parsing Parcial: marcação em chunks básicos • Heurísticas de “Attachment” • Identificação de relações binárias • Extracção de contextos sintácticos

  16. Tagging e Parsing Parcial “Falta pois a participação directa do funcionário no acto documentário.”(corpus P.G.R.) • Tagger: • Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ • Parsing Parcial (Chunks Básicos): • VP( faltar, pois) • NP(a, participação, directa) • PP(de, NP(o, funcionário)) • PP(em, NP(o, acto, documentário))

  17. Heurísticas de “Attachment” eRelações Sintácticas • Attachment de Chunks Básicos: • <VP(faltar, pois) , NP(a, participação, directa)> • <NP(a, participação, directa), PP(de, NP(o, funcionário))> • <NP(o, funcionário), PP(em, NP(o, acto, documentário))> • Relações Sintácticas entre palavras: • <DOBJ, faltar , participação> • <DE, participação, funcionário> • <EM, funcionário, acto>

  18. Contextos sintácticos <DOBJ, faltar , participação> : <DOBJ, (*) , participação> <DOBJ, falta , (*)> <DE, participação, funcionário> : <DE, participação, (*)> <DE, (*), funcionário> <EM, funcionário, acto > : <EM, funcionário, (*)> <EM, (*), acto>

  19. Medida de SimilaridadeCoeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

  20. Similarity MeasureWeighted Jaccard coefficient

  21. MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.

  22. Relaçoes Thesáuricas entre nomes • Pedro  Maria • livro  romance • maçã salchicha • coisa  livro, salchicha, maçã, romance • (livro  salchicha)? • (Maria  coisa)?? • (Pedro  salchicha)???

  23. Extração de Contextos sintácticos de nomes • Pedro: (<SUBJ, ler , (*)>, 3) (<SUBJ, gostar , (*)>, 1) ( <SUBJ, comer, (*)>, 3) • Maria: (<SUBJ, ler , (*)>,2) (<SUBJ, gostar , (*)>, 3) (<SUBJ, comer, (*)>,2) (<IOBJ-DE, gostar, (*)>,1) • romance: (<DOBJ, ler , (*)>,2) • livro: (<DOBJ, ler , (*)>,3) (<IOBJ-DE, gostar , (*)>,1) • coisa: (<DOBJ, ler , (*)>,1) (<DOBJ, comer, (*)>,1) (<IOBJ-DE, gostar , (*)>,1) • maça: (<DOBJ, comer , (*)>,2). • salchicha: (<DOBJ, comer , (*)>,2) (<IOBJ-DE, gostar,(*)>,1)

  24. Cálculo do Peso dum contexto para cada palabra (3): romance: (<DOBJ, ler , (*)>, 2)GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(romance, <DOBJ, ler , (*)>) = log(2) = 0.3W(romance, <DOBJ, ler , (*)>) = 1.45 livro: (<DOBJ, ler , (*)>, 3)GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(livro, <DOBJ, ler , (*)>) = log(3) = 0.47W(livro, <DOBJ, ler , (*)>) = 1.62 livro: (<IOBJ-DE, gostar , (*)>, 1)GW(< IOBJ-DE, gostar , (*)>) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31LW(livro, < IOBJ-DE, gostar , (*)>) = log(1) = 0.W(livro, < IOBJ-DE, gostar , (*)>) = 0.31

  25. Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81min( (1.4), (1.4) ) = 1.4max( (1.4), (1.4+0.31) ) = 1.71 WJ(maça, coisa) = 1.1 / 2.68 = 0.41min( (1.4), (1.1) ) = 1.1max((1.4), (1.27+0.31+1.1) ) = 2.68 WJ(romance, coisa) = 1.1 / 2.68 = 0.41min( (1.45), (1.1) ) = 1.1max((1.45), (1.27+0.31+1.1) ) = 2.68 WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51min( (1.4+0.25), (1.1+0.31) ) = 1.41max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68

  26. Similidade entre palavras (Ordenamento) (0.83) Pedro  Maria (0.81) maçã salchicha (0.75) livro  romance (0.58) coisa  livro (0.51) coisa  salchicha (0.41) coisa  maçã, romance (0.16) livro  salchicha (0.11) Maria  salchicha (0.09) Maria  coisa (0.0) Pedro  salchicha (0.0) romance salchicha

  27. Listas de palavras semelhantes Corpus da Procuradoria Geral da República (P.G.R.) • juíz| {dirigente, presidente, subinspector, governador, árbitros} • diploma| {decreto, lei, artigo, convenção, regulamento} • decreto| {diploma, lei, artigo, nº, código} • regulamento| {estatuto, código, sistema, decreto, norma} • regra| {norma, princípio, regime, legislação, plano} • renda| {caução, indemnização, reintegração, multa, quota} • conceito| {noção, estatuto, regime, temática, montante}

  28. Thesaurus e Pesquisa de Informação  Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos  Acesso ao thesaurus para expandir as pesquisas  Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

  29. Expansão de pesquisas via thesaurus Expansão associativa:Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminadorcategoria: cargo, carreira, lugar, funçðes... Expansão restrictiva via coocurrências frequêntes:república: presidente da república, assembleia da república...câmara: presidente da câmara, vereador da câmara...

  30. Problemas da expansão Que palavras ou termos da pesquisa devem ser expandidos?query: “TIPO DE REMUNERAÇÃO” Termos associados podem diversificar os textos recuperados:juíz, ministro, investigador

More Related