400 likes | 503 Vues
Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997. Determining Similarity and Inferring Relations in a Lexical Knowledge Base. Apresentado por: Nuno Seco. Estrutura da Tese. Introdução Extracção de Relações Semânticas Atribuição de Pesos às Relações
E N D
Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Determining Similarity and Inferring Relations in a Lexical Knowledge Base Apresentado por: Nuno Seco
Estrutura da Tese • Introdução • Extracção de Relações Semânticas • Atribuição de Pesos às Relações • Quantificação de Semelhanças Semânticas • Inferência de Novas Relações • Conclusões
Porquê?? Para que Serve?? Objectivos e Motivação • Criação de uma Base de Conhecimento Lexical (Ontologia Lexical, Rede Lexical, ...).
Objectivos e Motivação • Aplicações: • Ferramentas de auxílio à escrita • Desambiguação • Sumarização • Recolha de Informação
Abordagens • Duas estratégias seguidas na obtenção da Ontologia Lexical: • Manualmente: WordNet, Cyc, HowNet… • (Semi -) Automáticamente: MindNet
Extracção de Relações Semânticas • Conversão de dicionários (LDOCE) para um formato mais formal. • MIND – MIcrosoft Natural Language Dictionary • Porquê dicionários? • Vocabulário fechado • Linguagem simples
Extracção de Relações Semânticas • Exemplo: • fruit --- “an object that grows on a tree or bush, contains seeds, is used for food, but is not usually eaten with meat or with salt“.
Extracção de Relações Semânticas(1 - Árvores Sintácticas)
Extracção de Relações Semânticas(2 - Forma Lógica) • Tenta-se normalizar o texto, tratando de questões como: • Voz Passiva • ex: “eaten” • Anáfora
Fruit Purp Food Extracção de Relações Semânticas • Utilização de heurísticas: • “If the head verb of phrase is use and it is post-modified by a prepositional phrase containing the preposition for, then create a Purpose relation between the word being defined and the object of for.”
Extracção de Relações Semânticas(3 – Forma Semântica Relacional )
Extracção de Relações Semânticas • São identificadas 16 tipos de relações a extrair, alguns exemplos são: • Causalidade • Hyperonímia • Sinonímia • Meronímia • Objecto_Típico_de • Sujeito_Típico_de
Extracção de Relações Semânticas • Ponto da Situação: • Deriva-se as árvores sintácticas das definições. • Efectua-se um conjunto de transformações e obtém-se as representações lógicas. • Efectuam-se mais transformações e obtém-se a forma semântica relacional. • Permite a extracção de triplos (“SEMRELS”): • x1R x2 • Será que não se pode fazer mais?
Extracção de Relações Semânticas • Serão estas as únicas relações que se conseguem extrair para “car” ?
Extracção de Relações Semânticas • E as definições que contêm a palavra “car”?
Extracção de Relações Semânticas • Através de um processo de inversão obtemos:
Extracção de Relações Semânticas • LDOCE contém: • 33,000 entradas de substantivos • 12,000 entradas de verbos • Processo de extracção obteve: • 147,000 semrels (x1 R x2) • Processo de inversão produz: • 180,000 semrels • 78% das relações (com um erro de -/+ 5%) estão correctas
Atribuição de Pesos às Relações • É importante quantificar a importância dos SEMRELS ou um “caminho” de SEMRELS entre duas palavras. Semrel: car --- Poss ---> people Caminho de Semrels: car --- Purp ---> carry --- Tobj ---> people
Atribuição de Pesos às Relações • Formalizando um pouco mais: • SEMREL • w1Rw2 (car --- Purp ---> carry) • Caminho de SEMRELS • w1R1w2R2w3 (car --- Purp ---> carry --- Tobj ---> people) • w1R1w2…wnRn+1wn+1 • Partes do SEMREL • w1R1 • R1w2
Atribuição de Pesos Utilizando tf.idf • Adaptação de métricas utilizadas em RI. Peso de w1Rw2 para entrada w1 • wik - peso do termo Tk do documento Di • tfik – frequencia Tk no documento Di • N – nº total de documentos (colecção) • nk – nº de documentos com Tk Frequência de _Rw2 na entrada w1 Nº de entradas na BCL Nº de entradas na BCL com _Rw2
Atribuição de Pesos Utilizando tf.idf Quais são as partes mais importantes/salientes de um carro?
Atribuição de Pesos Utilizando tf.idf • Alguns problemas com o tf.idf. • As palavras mais discriminatórias (w2) não representam a maior saliência cognitiva. • Não é uma métrica simétrica: • sc(w1Rw2) != sc(w2Rw1)
Atribuição de Pesos Utilizando Informação Mútua • Informação Mútua (“Mutual Information”) P(x) – probabilidade de x ocorrer P(y) – probabilidade de y ocorrer P(x,y) – probabilidade de x e y co-ocorrerem
P(x) P(y) P(x,y) Atribuição de Pesos Utilizando Informação Mútua • Fazendo a correspondência para o domínio do problema --- MI(w1Rw2): P(w1R) P(Rw2) P(w1Rw2)
Atribuição de Pesos Utilizando Informação Mútua Quais são as partes mais importantes/salientes de um carro?
Atribuição de Pesos Utilizando Informação Mútua • As frequências muito baixas dos SEMRELS podem ser a causa do problema. • Foram testadas algumas variações ao IM standard, mas sem sucesso.
Atribuição de Pesos às Relações • Lei de Zipf: • Ordenando as palavras por ordem de frequência descendente (“rank”) e traçando a curva em relação à frequência da palavra obtém-se uma curva hiperbólica. • A posição classificativa (“rank”) de uma palavra vezes a sua frequência aproxima uma constante K.
Atribuição de Pesos às Relações • Será a Lei de Zipf válida para as relações semânticas (SEMRELS)? • Existem muitos mais SEMRELS distintos do que palavras. • As frequências de cada SEMREL são bastante baixas. • Frequência de 90 é o máximo • Não existem palavras de função.
Atribuição de Pesos às Relações • Para obter uma curva equivalente à de Zipf pode-se traçar uma curva que relaciona o número de SEMRELS com uma determinada frequência em relação à frequência.
Atribuição de Pesos às Relações • Já sabemos como obter uma curva parecida com a de Zipf. • Mas o que interessa saber é quais as palavras que estão relacionadas por relações perto de vértice. • Para isso temos que traçar um gráfico para cada relação.
Atribuição de Pesos às Relações Exemplo: Curva representando a frequência de SEMRELS do tipo TOBJ em relação ao número de SEMRELS com uma dada frequência.
Probabilidades “Verticiais” • Probabilidade de um SEMREL: • Probabilidade das partes do SEMREL:
Probabilidade Estimada • Como as frequências de SEMRELS é baixa a validade das estatísticas pode estar comprometida. • Pode-se utilizar probabilidades estimadas (“Averaged Probabilities”).
Probabilidade Estimada • Factores de Estimação:
Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Determining Similarity and Inferring Relations in a Lexical Knowledge Base Apresentado por: Nuno Seco