Geração automática de tesaurus e recuperação de informação

Geração automática de tesaurus e recuperação de informação Pablo Gamallo gamallo@fct.unl.pt http://terra/~gamallo GLINt (Gupo de Lingua Natural) FCT, UNL

Plano • Tesaurus e ontologias • Sistemas de recuperação de informação e processamento da linguagem natural • Construção automática de tesaurus a partir de texto analisado • Uso de tesaurus em sistemas de pesquisa e recuperação de informação

Tesaurus e Ontologias • Definição dualista: • Ontologia: conjunto de conceitos + relações • Tesaurus: conjunto de termos de uma língua ligados a uma ontologia • Definição basada na hipôtese relacional: • Tesaurus = Ontologia: conjunto de termos + relações semânticas

Tesaurus e Ontologias multa  coima (sinonímia) presidente  secretário (co-hiponímia) pequeno  grande (antonímia) ministério  ministro (meronímia) banco  instituição (hiperonímia)

Tesaurus e Ontologias • Tesaurus = Ontologia = Terminologia • Propriedades duma Terminologia: • termos relevantes para um domínio • pouca polisemia • pouco interés nos termos “upper-level” • problema de “portabilidade” a outros domínios

Tesaurus e Ontologias WordNet • Sinonímia: única relação entre termos (“word forms”). • Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto. • Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado. • Polisemia: um termo é polisémico se ele aparecer em diferentes synsets. • As relações semânticas (hiperonímia, meronímia…) são relações entre synsets

Tesaurus e Ontologias Informação associada a “Organisation” em WordNet • Synsets (3 senses): • (1) arrangement, organisation, system (an organised structure for arranging or classifying) • (2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something) • (3) constitution, establishment, formation, organisation (the act of forming something)

Tesaurus e Ontologias • Results for Hyponyms of “organisation” in WordNet • Sense (1): • distribution, statiscal distribution • coordinate system, frame of reference, reference system • Sense (2): • county, council • government, officials, officialdom • judiciary, bench • Sense (3): • collectivisation • colonisation, settlement • federation

Sistemas de RI e PLN Indexação de documentos Selecção de textos relevantes a uma determinada consulta

Sistemas de RI e PLN • Indexação de documentos: • Os documentos são representados por “termos de índices” • Selecção de textos relevantes a uma determinada consulta: • - As consultas são representadas por “termos de consulta” • - As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta • - Operadores de consulta: And, Or, And_Not • - Ordenamento dos documentos recuperados

Sistemas de RI e PLN • Uso do PLN para representar texto (documentos e consultas) : • tokenização • eliminação das “stopwords” • Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: • Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento. • Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a: • - pôr em relação índices com o mesmo significado • - economia de índices

Sistemas de RI e PLN • Reconhecemento automático de descritores: • marcas tipográficas: termos em títulos, resumos, em negrito, ... • eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) • identificação de termos compostos • Indices normalizados e controlados: • Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação) • Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)

Geração de thesaurus: Propriedades Hipótese distribucional:As palalavras que partilham os mesmos contextos estão associadas semanticamente Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas Textos com conteúdo específico: “domain-specific corpus”

Geração de thesaurus: Etapas • Extracção dos contextos sintácticos do corpus • Métrica de similaridade entre palavras (baseada nos contextos partilhados) • Identificar para cada palavra, a lista de palavras mais semelhantes

Extracção de contextos sintácticos: Etapas • Tagging: marcação em categorias morfossintácticas • Parsing Parcial: marcação em chunks básicos • Heurísticas de “Attachment” • Identificação de relações binárias • Extracção de contextos sintácticos

Tagging e Parsing Parcial “Falta pois a participação directa do funcionário no acto documentário.”(corpus P.G.R.) • Tagger: • Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ • Parsing Parcial (Chunks Básicos): • VP( faltar, pois) • NP(a, participação, directa) • PP(de, NP(o, funcionário)) • PP(em, NP(o, acto, documentário))

Heurísticas de “Attachment” eRelações Sintácticas • Attachment de Chunks Básicos: • <VP(faltar, pois) , NP(a, participação, directa)> • <NP(a, participação, directa), PP(de, NP(o, funcionário))> • <NP(o, funcionário), PP(em, NP(o, acto, documentário))> • Relações Sintácticas entre palavras: • <DOBJ, faltar , participação> • <DE, participação, funcionário> • <EM, funcionário, acto>

Contextos sintácticos <DOBJ, faltar , participação> : <DOBJ, (*) , participação> <DOBJ, falta , (*)> <DE, participação, funcionário> : <DE, participação, (*)> <DE, (*), funcionário> <EM, funcionário, acto > : <EM, funcionário, (*)> <EM, (*), acto>

Medida de SimilaridadeCoeficiênte de Jaccard A similaridade entre duas palavras depende de: A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.

Similarity MeasureWeighted Jaccard coefficient

MicroCorpus em Lingua Natural Pedro lê um livro e Maria lê um livro, Pedro lê um romance e Maria lê um romance, Pedro também lê muita coisa mas Pedro gosta de Maria, Maria gosta de livros, Maria gosta de muita coisa. Maria come uma maçã e Pedro come uma maçã, Pedro também come uma salchicha, Pedro come muita coisa, Maria come salchichas, Maria gosta mesmo de salchichas.

Relaçoes Thesáuricas entre nomes • Pedro  Maria • livro  romance • maçã salchicha • coisa  livro, salchicha, maçã, romance • (livro  salchicha)? • (Maria  coisa)?? • (Pedro  salchicha)???

Extração de Contextos sintácticos de nomes • Pedro: (<SUBJ, ler , (*)>, 3) (<SUBJ, gostar , (*)>, 1) ( <SUBJ, comer, (*)>, 3) • Maria: (<SUBJ, ler , (*)>,2) (<SUBJ, gostar , (*)>, 3) (<SUBJ, comer, (*)>,2) (<IOBJ-DE, gostar, (*)>,1) • romance: (<DOBJ, ler , (*)>,2) • livro: (<DOBJ, ler , (*)>,3) (<IOBJ-DE, gostar , (*)>,1) • coisa: (<DOBJ, ler , (*)>,1) (<DOBJ, comer, (*)>,1) (<IOBJ-DE, gostar , (*)>,1) • maça: (<DOBJ, comer , (*)>,2). • salchicha: (<DOBJ, comer , (*)>,2) (<IOBJ-DE, gostar,(*)>,1)

Cálculo do Peso dum contexto para cada palabra (3): romance: (<DOBJ, ler , (*)>, 2)GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(romance, <DOBJ, ler , (*)>) = log(2) = 0.3W(romance, <DOBJ, ler , (*)>) = 1.45 livro: (<DOBJ, ler , (*)>, 3)GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(livro, <DOBJ, ler , (*)>) = log(3) = 0.47W(livro, <DOBJ, ler , (*)>) = 1.62 livro: (<IOBJ-DE, gostar , (*)>, 1)GW(< IOBJ-DE, gostar , (*)>) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31LW(livro, < IOBJ-DE, gostar , (*)>) = log(1) = 0.W(livro, < IOBJ-DE, gostar , (*)>) = 0.31

Similidade entre palavras (2) WJ(maça, salchicha) = 1.4 / 1.71 = 0.81min( (1.4), (1.4) ) = 1.4max( (1.4), (1.4+0.31) ) = 1.71 WJ(maça, coisa) = 1.1 / 2.68 = 0.41min( (1.4), (1.1) ) = 1.1max((1.4), (1.27+0.31+1.1) ) = 2.68 WJ(romance, coisa) = 1.1 / 2.68 = 0.41min( (1.45), (1.1) ) = 1.1max((1.45), (1.27+0.31+1.1) ) = 2.68 WJ(salchicha, coisa) = 1.41 / 2.68 = 0.51min( (1.4+0.25), (1.1+0.31) ) = 1.41max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68

Similidade entre palavras (Ordenamento) (0.83) Pedro  Maria (0.81) maçã salchicha (0.75) livro  romance (0.58) coisa  livro (0.51) coisa  salchicha (0.41) coisa  maçã, romance (0.16) livro  salchicha (0.11) Maria  salchicha (0.09) Maria  coisa (0.0) Pedro  salchicha (0.0) romance salchicha

Listas de palavras semelhantes Corpus da Procuradoria Geral da República (P.G.R.) • juíz| {dirigente, presidente, subinspector, governador, árbitros} • diploma| {decreto, lei, artigo, convenção, regulamento} • decreto| {diploma, lei, artigo, nº, código} • regulamento| {estatuto, código, sistema, decreto, norma} • regra| {norma, princípio, regime, legislação, plano} • renda| {caução, indemnização, reintegração, multa, quota} • conceito| {noção, estatuto, regime, temática, montante}

Thesaurus e Pesquisa de Informação  Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos  Acesso ao thesaurus para expandir as pesquisas  Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação

Expansão de pesquisas via thesaurus Expansão associativa:Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminadorcategoria: cargo, carreira, lugar, funçðes... Expansão restrictiva via coocurrências frequêntes:república: presidente da república, assembleia da república...câmara: presidente da câmara, vereador da câmara...

Problemas da expansão Que palavras ou termos da pesquisa devem ser expandidos?query: “TIPO DE REMUNERAÇÃO” Termos associados podem diversificar os textos recuperados:juíz, ministro, investigador

Geração automática de tesaurus e recuperação de informação

Geração automática de tesaurus e recuperação de informação

Presentation Transcript

Kelime Anlamı

Terrorismo y Delitos Informáticos: Nueva Realidad

Auditoría Informática

UNIVERSIDAD DE CÓRDOBA FACULTAD DE EDUCACIÓN Y CIENCIAS HUMANAS DEPARTAMENTO DE INFORMÁTICA ÁREA: EDUCACIÓN, ECONOMIA Y

La revolución genética

METAL, KAĞIT, AKÜ VE YAĞ GERİ DÖNÜŞÜMÜ

SIVILARIN YÜZEY GERİLİMİ

Ética

Introdução à Informática Prof. Roberto Cabral de Mello Borges

Tipos e instrucciones I

4. SINIF 2. KURUL ÜROGENİTAL SİSTEM HASTALIKLARI ve DOĞUM BİLGİSİ

Informática II

Introducción a la Informática

CÁLCULO NUMÉRICO

Paradigmas de Programación

FORMATURA CURSOS BÁSICOS ESPANHOL, INFORMÁTICA E GASTRONOMIA 25/10/2003 Florianópolis - SC

PROF PAULO MAXIMO, MSc pmaximo@gmail horustech facebook/professor.maximvs

Curso EFA de técnico de Informática e Sistemas

Sisteme giriş, mersis.gumrukticaret.tr/ adresinden gerçekleştirilir.

Eduardo Mena webdiis.unizar.es/ ~ mena/ Dpto. de Informática e Ingeniería de Sistemas

Reconocimiento de Formas en Data Mining

Aplicações da Informática