1 / 79

Gracias a la Web accedemos a una gran cantidad de información.

Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n -gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural.

varvara
Télécharger la présentation

Gracias a la Web accedemos a una gran cantidad de información.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural

  2. Gracias a la Web accedemos auna gran cantidad de información. La sobrecarga de información Por culpa de sufrimos sobrecarga 2%

  3. La sobrecarga de información 3%

  4. Delimitación del problema 5%

  5. Delimitación del problema 6%

  6. Delimitación del problema 8%

  7. Delimitación del problema 9%

  8. Delimitación del problema 11%

  9. Delimitación del problema 13%

  10. Delimitación del problema 14%

  11. Delimitación del problema 16%

  12. Analizadas no sólo en la Web sino también en USENET y correo electrónico. Generalmente basadas en una o más de las siguientes tres técnicas: • Agentes • Filtrado colaborativo (Goldberg et al. 1992) • Recomendación por contenidos Algunas conclusiones “Los usuarios proporcionan feedback explícito sólo a regañadientes” (Balabanovic 1998, p.6). La evaluación implícita proporciona información igualmente útil (Morita y Shinoda 1994) (Lieberman 1995) (Konstan et al. 1997) La coincidencia de palabras clave es inadecuada (Balabanovic et al. 1995, p.8) y otros mecanismos ofrecen mejores resultados (Morita y Shinoda 1994). Los datos acerca de los intereses de los distintos usuarios son muy valiosos al combinarse entre sí (Rucker y Marcos 1997) (Kantor et al. 2000). Soluciones a la sobrecarga de información 17%

  13. Soluciones a la sobrecarga de información 19%

  14. Soluciones a la sobrecarga de información 20%

  15. Soluciones a la sobrecarga de información 22%

  16. Formulación definitiva del problema 23%

  17. Tesis (versión resumida) “Una única técnica sencilla, basada en el uso de vectores de n-gramas de longitud variable, independiente del idioma y aplicable a diversas tareas de tratamiento de lenguaje natural con resultados similares a los de otros métodos ‘ad hoc’ es viable.” 25%

  18. Tesis  Se puede obtener para los distintos n-gramas, gi, de un texto escrito en cualquier idioma una medida de su significatividad, si, distinta de la frecuencia relativa de aparición de los mismos en el texto, fi, pero calculable a partir de la misma.  Esta métrica de la significatividad intradocumental de los n-gramas permite asociar a cada documento, di, un único vector, vi, susceptible de comparación con cualquier otro vector obtenido del mismo modo aun cuando sus respectivas longitudes puedan diferir.  Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual, facilitando  la clasificación  y categorización de documentos,  así como la recuperación de información.  Asimismo, cada vector individual es capaz de transformar el texto original a partir del cual fue obtenido dando lugar a secuencias de palabras clave y resúmenes automáticos. 27%

  19. Soporte para la tesis 28%

  20. Descripción de la técnica blindLight 30%

  21. Descripción de la técnica blindLight 31%

  22. Descripción de la técnica blindLight 33%

  23. Descripción de la técnica blindLight 34%

  24. Descripción de la técnica blindLight 36%

  25. =20.48/97.52 =20.48/81.92 Descripción de la técnica blindLight  = SQ=97.52 ST=81.92 SQT=20.48 38%

  26. Descripción de la técnica blindLight 39%

  27. Descripción de la técnica blindLight 41%

  28. Descripción de la técnica blindLight 42%

  29. Semántica subyacente en blindLight “Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual” 44%

  30. Semántica subyacente en blindLight 45%

  31. Semántica subyacente en blindLight 47%

  32. Semántica subyacente en blindLight 48%

  33. Semántica subyacente en blindLight 50%

  34. Clasificación de documentos con blindLight 52%

  35. Clasificación de documentos con blindLight 53%

  36. Romances Indoeuropeos Germánicos Germánicos del oeste Germánicos del norte Clasificación de documentos con blindLight 55%

  37. Clasificación de documentos con blindLight 56%

  38. Clasificación de documentos con blindLight 58%

  39. Clasificación de documentos con blindLight 59%

  40. Clasificación de documentos con blindLight 61%

  41. Clasificación de documentos con blindLight 63%

  42. Categorización de documentos con blindLight 64%

  43. Categorización de documentos con blindLight 66%

  44. Categorización de documentos con blindLight 67%

  45. Categorización de documentos con blindLight 69%

  46. Categorización de documentos con blindLight 70%

  47. Categorización de documentos con blindLight 72%

  48. Categorización de documentos con blindLight 73%

  49. Categorización de documentos con blindLight 75%

  50. Recuperación de información con blindLight 78%

More Related