Descubrimiento Automático de Hiperónimos en Texto no Estructurado

Descubrimiento Automático de Hiperónimos en Texto no Estructurado Tomado de Rosa María Ortega Mendoza, Tesis de Maestría, INAOE Laboratorio de Tecnologías del Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica

Introducción Relaciones semánticas: • Sinonimia, antonimia, meronimia, hiperonimia, etc. Hiperónimo: Palabra cuyo significado incluye el de otra(s). • animal – gato • color – azul • país – México Recursos lingüísticos construcción Manual Automática • Ejemplo: WordNet • Gran esfuerzo • Tiempo • General • Un sólo idioma • Orientación a un dominio específico. • Menos esfuerzo • Menor precisión

Introducción Ejemplo del uso / Clasificación de textos • Un paso hacia la construcción automática de ontologías • Independiente del uso de recursos lingüísticos externos • Independencia del idioma • Aprovechar información léxica deportes fútbol ----- ----- tenis ----- ----- Atletismo ----- -----

Estado del Arte

Objetivos • Objetivo General: Desarrollar un método para extraer automáticamente hiperónimos a partir de textos no estructurados tomados automáticamente la Web. • Objetivos Específicos: • Definir y aplicar un método de minería de texto que permita obtener patrones léxicos de extracción para la relación de hiperonimia. • Especificar y desarrollar un método incremental para enriquecer el conjunto de patrones de extracción. • Proponer y aplicar un método de selección de tuplas usando algoritmos de ordenamiento basados en grafos.

Método propuesto

Método propuesto • Paso 1: Extraer patrones léxicos a través de la Web. • Paso 2: Aplicar los patrones léxicos para extraer tuplas asociadas al dominio específico. • Paso 3: Pesar los patrones léxicos con base en un método de recomendación. • Paso 4: Pesar las tuplas (idem). • Paso 5: Repetir todos los pasos anteriores, eligiendo las tuplas más confiables como nuevas semillas.

Pesado patrones/tuplas • Peso de la tupla: • Mientras más patrones extraigan la misma tupla tenemos más evidencia de que es correcta. • Peso del patrón: • Mientras más tuplas correctas extraiga un patrón tenemos más evidencia de que es relevante. • Peso del patrón • Número de repeticiones • Número de patrones activados

País – Turquía País – Francia … Tuplas(P1)  Tuplas(P2) Tuplas(P2)  Tuplas(P3) P2 País – Turquía País – costa País – Francia … P4 w12 w23 P1 P3 w34 País – Egipto … w13 Tuplas(P1)  Tuplas(P3) País – Turquía País – caballo País – México … Pesado patrones/tuplas • Método de recomendación basado en grafos • Ejemplo: Tuplas(P3)  Tuplas(P4)

Evaluación • El catálogo es muy grande por lo que su evaluación manual es prácticamente imposible. • La evaluación será a través de un método estadístico • Tomar una muestra aleatoria proporcional al tamaño del catálogo • Con un nivel de confianza definido • Medir la precisión del catálogo • No. de instancias correctas/ No. total de instancias

1er Intento • Experimento: probar un método semi-supervisado para seleccionar tuplas correctas • Minería de texto para obtener patrones léxicos • Se utilizó el algoritmo Expectation- Maximization: • Entrena un clasificador usando los datos etiquetados disponibles y probabilísticamente etiqueta los datos no etiquetados. • Colección de noticias EFE de 1994 y 1995 • 457 mil documentos ( ~1 Gb ).

Resultados Preliminares A través de un conjunto de 17 semillas se descubrieron 34 patrones léxicos

Resultados Preliminares • Se caracterizaron las tuplas en función de los patrones

Resultados Preliminares • Entrenamiento: 500 tuplas (218 positivas y 282 negativas) etiquetadas manualmente • Prueba: 16,450 tuplas • Después de 8 iteraciones EM convergió. Catálogo Completo:Clasificación EM + clasificación manual Clasificación EM

2do Intento • Experimento: proponer un método basado en el pesado de semillas y patrones • Minería de texto para obtener patrones léxicos • Se utilizó la Web para obtener los patrones utilizando semillas • Se utilizó la Web para recuperar tuplas usando los patrones descubiertos

Pertenecer a varios dominios Incluir semillas en género masculino y femenino. Contemplar instancias yconceptos en forma plural y en singular. Encontrando patrones léxicos 1 Seleccionar Semillas (instancia-concepto) 4 Aplicar y Filtrar SFM’s Se observó que las semillas deberían: • Aplicar SFM’s. • Recuperar únicamente aquellas secuencias que contengan ambas etiquetas <instancia> y <concepto> • Se obtuvieron 4 conjuntos de SFM´s. El umbral de soporte utilizado para cada conjunto fue: • instancia(singular)/concepto(singular): • instancia(singular)/concepto(plural): • instancia(plural)/concepto(singular): • instancia(plural)/concepto(plural): • Reunir los 4 conjuntos de SFM’s en un solo conjunto. 2 Reunir Ejemplos • Se utilizó el motor de búsqueda Google. • Se bajaron 500 ejemplos de uso (snippets) para cada semilla. 3 Etiquetar Ejemplos • Todos los ejemplos son normalizados con etiquetas <instancia> <concepto> Resultado de esta Fase: Una lista compuesta de 184/156 patrones léxicos

Análisis de los patrones léxicos • Análisis de los patrones léxicos obtenidos. • Lo anterior puede tratarse de la sig. forma: • Filtrar los patrones, eligiendo solo aquellos que no contienen signos de puntuación. • Filtrar los patrones, recuperando aquellos que contienen por lo menos una frontera (izquierda o derecha). • Algunos patrones son muy generales, pues carecen de alguna frontera. • Varios patrones contienen signos de puntuación. Sin embargo, Google no reconoce signos de puntuación en sus búsquedas. 59

Aplicación los patrones léxicos. • En esta fase, los patrones son aplicados sobre la Web, con la finalidad de obtener un conjunto de tuplas, asociadas a un dominio específico. • Una tupla se encuentra constituída por: • (hipónimo, hiperónimo) • Experimento 1: Mostrar la utilidad de los patrones obtenidos, así como, comprobar que la Web puede ser utilizada como un corpus de texto para extraer hipónimos. • Se buscarán conceptos (hiperónimos) para las palabras (instancias) del vocabulario.

Vocabulario java México petróleo Euro Patrones p/ java snippet 1 Patrones p/ java El * de java El java es un * que : Experimento 1 1 Fijar los patrones 3 Casar patrones fijos con la colección Todos los patrones son fijados con cada una de las palabras del vocabulario. • El conjunto de snippets recolectados, representa la colección sobre la cual se se aplican los patrones. • El matching se realiza casando 1 sola palabra. Patrones p/ Euro El * de Euro : Lista de conceptos p/java Isla que lenguaje : Lista de conceptos p/Euro La moneda . . . . . . . . . 4 Aplicar y Filtrar SFM’s 2 Lanzar los patrones fijados a la Web • Se bajaron 100 ejemplos de uso (snippets) para cada patrón fijado. • Se aplicó SFM’s a caada lista de conceptos (existe una para cada palabra del vocabulario). • Como resultado obtuvimos un catálogo de conceptos para cada instancia (del vocabulario). Patrones p/ Euro snippet1 : . . . . . . . . .

Experimento 1 • Análisis de resultados del experimento 1 • Se obtuvo un catálogo de palabras relacionadas pero no necesariamente relaciones is-a. • Se piensa que con un número mayor de patrones la precisión mejoraría

Vocabulario banco doctor diccionario felino novela profesión rocas vino Experimento 2 • Objetivo: Obtener tuplas con el nombre completo del(a) concepto/instancia cuando se forman de más de una palabra. • 1: Seleccionar un vocabulario y fijarlos como instancias y como conceptos. • 2: Lanzar los patrones fijos a la Web. Se recolectaron 100 snippets por cada patrón fijo. Como resultado obtenemos una colección, sobre la cual aplicamos los patrones convertidos en expresiones regulares. El “matching” es realizado de la siguiente forma: Ejemplo: Patrón: el <instancia> es un felino que Snippet: El tigre de bengala es un felino que siempre le ha fascinado al hombre • 3: Aplicar SFM’s

Resultados Experimento 2

Fase 2: Experimento 2

Fase 4 y 5: Esquema general Vocabulario enfermedad diccionario felino rocas . Web Patrones fijando <concepto> Patrones pesados Lista de patrones el-felino-es-un-*-de = 17 Snippet1 snippet2 el-*-es-un-felino-de . . . el-<instancia>-y-las-<concepto> Matching Pesar patrones Fijar patrones . . . . . . . . . . . . Felino Pantera Fuego Enfemedad Felino Pantera….16.5 Fuego….....0.1 Enfemedad NOTA: Repetir el proceso fijando <instancias> para encontrar <conceptos> Pesar las tuplas Matching . . . . . .

Fase 4 y 5:Esquema General • Fijar los patrones con las palabras del vocabulario buscando que los patrones resultantes sean completamente cerrados. Ejemplo: 25 patrones fueron fijados con instancias 31 patrones fueron fijados con conceptos • Pesar los patrones: Definir una medida que evalúe la confiabilidad de cada patrón. • Realizar el matching de los patrones fijos con la Web • Se bajaron en promedio 600 ejemplos (snippets) por cada uno de los 46 patrones fijados. • Matching a la colección de snippets • Los patrones fueron convertidos a expresiones regulares para permitir extraer parejas (hiperónimo-hiponimo) • Pesar las Tluplas: Definir una medida que evalúe la confiabilidad de cada tupla.

Fase 4 y 5: Experimento 3 • Hipótesis: Un patrón es más confiable si proviene de varias semillas. • Eliminar aquellos patrones cuyo peso <= 1/74 ya que son muy específicos. • De los 59 patrones se eliminaron 13 por tener pesos <= 1/74. • Finalmente se trabajó con 46 patrones. . . . • Una de las conclusiones es que tenemos mucha información • Una lista de palabras relacionadas Donde n= |Patrones| Si Pj no generó esa tupla W(Pj)=min[W(Pj)]

Fase 4 y 5: Experimento 4 • Hipótesis: Un patrón es más confiable si proviene de varias Eliminar aquellos patrones cuyo peso <= 1 ya que son muy específicos. 13 patrones fueron eliminados, por lo tanto se trabajó con 46. • Únicamente extraer instancias que son generadas por 2 o más patrones. Donde n= |Patrones| Si Pj no generó esa tupla W(Pj)=min[W(Pj)]

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 • Buscando Conceptos

Fase 4 y 5: Conclusiones de los experimentos 3 y 4 • Buscando Instancias

Fase 4 y 5: Resultados de los experimentos 3 y 4 • Estadísticas

Hipótesis: Un patrón es más confiable si proviene de varias semillas. El peso de los patrones no esta normalizado con la finalidad de evitar cantidades muy pequeñas al momento de multiplicarlos. Eliminar aquellos patrones cuyo peso <= 1 ya que son muy específicos. Únicamente extraer tuplas que son generadas por 2 o más patrones. Fase 3 y 4: Experimento 10 Donde n= |Patrones| Si Pj no generó esa tupla W(Pj)=min[W(Pj)] Donde nt= Num. de tuplas que genera un determinado patrón

Fase 3 y 4: Experimento 12 • Hipótesis: Un patrón ideal tendría alto recuerdo y alta precisión • F-measure da un promedio entre precisión y recuerdo • Únicamente extraer tuplas que son generadas por 2 o más patrones Donde n= |Patrones| Donde nt= |tuplas que genera un patrón específico| Si Pj no generó esa tupla W(Pj)=min[W(Pj)]

Fase 3 y 4:Experimento 14 • Información mutua. Pantel y Pennacchiotti (2006) utilizan una medida basada en Información Mutua (pmi) para evaluar la fuerza de asociación entre una instancia y un patrón. • Ellos estiman la información mutua entre una tupla i y un patron p con: Donde nt= Num. De tuplas que genera un Determinado patrón

Fase 3 y 4: Comparación de Resultados 1ra Iteración 2da Iteración

Fase 3 y 4: Comparación de Resultados

Fase 3 y 4: Comparación de Resultados • Buscando Instancias • Buscando Conceptos

Patrones

Descubrimiento Automático de Hiperónimos en Texto no Estructurado

Descubrimiento Automático de Hiperónimos en Texto no Estructurado

Presentation Transcript

Introducción a la Metodología SciELO para texto completo

FINANCIAMIENTO ESTRUCTURADO Y TITULARIZACION

TEXTO DISSERTATIVO- ARGUMENTATIVO Ensino Fundamental – 9º ano

Teoría del Color

EL TEXTO EXPOSITIVO

TALLER DE LANZAMIENTO DE LA SEGUNDA COMUNICACIÓN NACIONAL SOBRE CAMBIO CLIMÁTICO

FS -102 ENERGÍA Y CAMBIO CLIMÁTICO

texto instructivo texto narrativo texto poético texto descriptivo

PLANES DE ACCIÓN: Mandato Político y Presupuesto

Edivox: trabalhando com comandos de bloco

TEXTO UNICO ORDENADO DEL REGLAMENTO DE TRANSITO

Musculoesquelético en TC y RM

Página web de HINARI, interfaz, revistas, y otros recursos a texto completo (módulo 2)

DESCUBRIMIENTO, CONQUISTA Y COLONIZACION DE COLOMBIA ( 1500 – 1800 )

Tejido hematopoyético Hemopoyesis

ESTRUCTURAS DE DATOS Tema 4. Grafos.

Pensamento crítico 2008/9

Anticoagulación

CAPÍTULO 8 HISTOLOGIA DO SISTEMA LINFÁTICO

US musculoesquelético

PLANES DE ACCIÓN: Mandato Político y Presupuesto