1 / 32

Semântica em Integração de Dados – Ontologia Contextual

Semântica em Integração de Dados – Ontologia Contextual. Vinícius Torres. Roteiro. Integração de Esquemas Pré-processamento para Integração Word Sense Disambiguation Spell Check Expansão de abreviação e acrônimos Contexto Modelagem Contextual Ontologia Contextual

merrill
Télécharger la présentation

Semântica em Integração de Dados – Ontologia Contextual

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Semântica em Integração de Dados – Ontologia Contextual Vinícius Torres

  2. Roteiro • Integração de Esquemas • Pré-processamento para Integração • Word Sense Disambiguation • Spell Check • Expansão de abreviação e acrônimos • Contexto • Modelagem Contextual • Ontologia Contextual • Ontologia Contextual para pré-processamento

  3. Integração de Esquemas Integração de Informação: começou com integração de BD, e tem sido estudado pela comunidade de Banco de Dados desde a década de 80. Problema: schema matching, que lida com 2 (ou mais) esquemas de banco de dados para produzir um mapeamento entre seus atributos. Objetivo: merging dos esquemas em um esquema global único.

  4. Integração de Esquemas Integração de esquemas é o processo que recebe esquemas de fontes de dados distintos e produz um esquema unificado.

  5. Integrando 2 esquemas Ex1: S1 S2 CustCustomer Code Number Name First Name Phone Last Name Phone Number Sistemas de Integração de dados assumem que os atributos estejam normalizados Ex2: S1 S2 CustCustomer CNo CustID CompName Contact FirstName Phone

  6. Pré-processamento para Integração Tokenização:A tokenização é o processo de identificar e transformar os atributos em palavras. Remoção de caracteres: “-”, “_”, ”.” ….. UpperCase: FirstName, MyHouse Stop-words: Remoção de palavras sem relevância semântica(artigos, preposições, etc).

  7. Pré-processamento para Integração Spell-check: Um problema adicional na normalização é a correção ortográfica. expansion of abbreviations and acronyms; schema element sense disambiguation; 4 tipos de erros inserção(computter, com letras a mais); deleção(com letras a menos, hous); substituição(housi, com o i no lugar do e) ; transposição(dgo, com o g e o em posições invertidas).[Chan, 2005]

  8. Pré-processamento para Integração • Expansão de Abreviações e Acrônimos: • escolher o sentido correto de acordo com o contexto onde o termo é apresentado ; • difícil, pois pode existir mais de sugestão de expansão, ou ainda, nenhuma.

  9. Pré-processamento para Integração • Expansão de Abreviações e Acrônimos: • 2 categorias de abreviações (Hill, 2008) • Simples: Única Palavra • Prefixo: ‘attri’(attribute) • Aleatório: ‘msg’(Message) e src(Source) • Composta: Multi-palavas • Acrônimos: ‘ssn’(Social Security Number) • Partes das Palavras: doctype(Document Type)

  10. Pré-processamento para Integração • Expansão de Abreviações e Acrônimos: • Expansão baseada em dicíonários: • mais de um termo encontrado; • problema expandido quando de utiliza a web; • dicionário precisa ser constantemente atualizado.

  11. Pré-processamento para Integração Ferramentas para normalização: (Belian, 2008)

  12. WordNet • Alguns relacionamentos do synset car.

  13. Contexto Contexto é definido como um informação contextual usada para representar circunstâncias envolvendo certas entidades, onde a entidade pode ser uma pessoa, lugar, objeto ou um procedimento que é considerado relevante na interação entre usuários e aplicação. [Strang et al., 2003].

  14. Contexto Sistemas Sensíveis ao Contexto auxiliam pessoas nas tarefas diárias adaptando seu comportamento baseado em informações contextuais do usuário. Contexto Computacional é qualquer informação relevante descrevendo entidades em um interação homem-máquina. [Neto, 2005].

  15. Contexto(Fases)

  16. Modelagem Contextual Definir e usar contexto em aplicações computacionais requer um modelo contextual bem definido que deve representar e lidar com o conhecimento contextual. [Strang et al., 2003] • Compartilha um entendimento comum da estrutura da informação; • Reuso de conhecimento contextual; • Raciocínio.

  17. Contexto • Ontologia Contextual para Integração precisa incluir informações contextuais: • Fontes de Dados; • Esquemas; • Vocabulario(significado, relacionamentos semânticos, léxico) • Elementos Contextuais • Usuário; • Ambiente; • Dados; • Associações; • Procedimentos; e • Aplicação.

  18. Ontologia Contextualpara Integração [Belian, 2008]

  19. Ontologia Contextualpara Integração [Belian, 2008]

  20. Ontologia Contextualpara Integração [Belian, 2008]

  21. Ontologia Contextualpara Integração [Belian, 2008]

  22. Ontologia Contextual- Raciocínio • A utilização de Ontologias para representação contextual nos permite inferências: • Se “paciente” = {any}; • Se “cliente” = {saúde privada}; • Se “usuário” = {saúde pública, tratamento de drogas}.

  23. Contexto para resolução semântica • O processo de integração de esquemas geralmente é baseado nas seguintes etapas: • Pre- Integração(processemento) ; • Comparação de Esquemas; • Merging entre as diversas fonte de dados. • [Belian, 2008].

  24. Contexto para resolução semântica • Pré-Integração: • Expansão de abreviações e acrônimos. • Desambiguação de significado; • Spell-check.

  25. Contexto para resolução semântica • Expansão de abreviação e acrônimos: • Exemplo: “PA”

  26. Contexto para Word Sense Disambiguation Word sense disambiguation é determinar qual o significado da palavra em questão a depender do contexto.[Jurafksy, 2000] Exemplo Clássico: Word: “Manga” Dicionário Aurélio On-line manga 1 sf. 1. Parte do vestuário onde se enfia o braço. 2. Qualquer peça de forma tubular que reveste ou protege outra peça. 3. O fruto da mangueira

  27. Contexto para Word Sense Disambiguation • Outro Exemplo: • Word: “Usuário” • Usuário de Computador. • Usuário de drogas em tratamento. • Usuário do SUS.(na esfera particular pode ser cliente ou paciente). • Domínio de Saúde. Porém subdomínios diferentes: • Psicologia • SUS

  28. Contexto para Word Sense Disambiguation Ainda no exemplo: Word: “Usuário”

  29. “Aplicação” Exemplo Normalização: Atributo: “diag_code” Entidade: “office_visit” • Obtem-se o termo completo formado pelos tokens “diag” e “code”; • O termo “diag code” é classificado na ontologia levando em consideração os elementos contextuais; • Diag é expandido na ontologia para Diagnoses; • O termo “Diagnoses Code” é classificado na ontologia. [Belian, 2008]

  30. “Aplicação” Exemplo [Belian, 2008]

  31. Referências • [Chan, 2005] Chan, S., He, B. & Ounis, I. (2005), An in-depth survey on the automatic detection and correction of spelling mistakes, in ‘Proceedings of the 5th Dutch-Belgian Information Retrieval Workshop (DIR)’. • [Hill, 2008] Hill, E. et al. AMAP: Automatically Mining Abbreviation Expansions in Programs to Enhance Software Maintenance Tools. MSR. 2008 • [Strang et al. 2003] Strang, T., Linnhoff-Popien, C., Frank, K.: CoOL: A Context Ontology • Language to enable Contextual Interoperability. Proceedings of 4th IFIP WG 6.1, International • Conference on Distributed Applications and Interoperable Systems, DAIS, 2003. • [Belian, 2008]Belian, Rosalie Barreto A context-based name resolution approach for semantic schema integration - Tese. – Recife – 2008.

  32. Dúvidas? [Belian, 2008]

More Related