1 / 29

Parte III

Parte III. Evaluación de sistemas de IR. Evaluación de la recuperación. Objetivo: evaluar la funcionalidad y eficiencia de un sistema de IR Medidas usuales de evaluación: Tiempo de respuesta Espacio utilizado Evaluación de la eficiencia de recuperación basada en

blake
Télécharger la présentation

Parte III

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Parte III Evaluación de sistemas de IR

  2. Evaluación de la recuperación • Objetivo: evaluar la funcionalidad y eficiencia de un sistema de IR • Medidas usuales de evaluación: • Tiempo de respuesta • Espacio utilizado • Evaluación de la eficiencia de recuperación basada en • Colecciones prueba (TIPSTER/TREC, CACM, CISI,…) • Diferentes medidas de evaluación • Recall y Precision • MAP, etc.

  3. Medidas de evaluaciónrecall y precision • El usuario desea realizar una solicitud de información sobre una colección de docs • Sean • R: docs relevantes • A: docs respuesta Colección |R| |A|

  4. Evolución recuperación – precisiónEjemplo Suponemos las siguiente tabla de docs recuperados

  5. Evolución recuperación – precisiónEjemplo

  6. Evolución recuperación - precisión • Para la representación de las curvas recall-precision generalmente se emplean 11 niveles de recuperación

  7. Consideraciones generales sobre las medidas r y P • En colecciones grandes no es posible disponer de un conocimiento detallado de los docs. • Considerar la combinación de ambas medidas (r y P). • Las medidas de r y P son para queries procesadas en modo batch. Para sistemas de IR interactivos son más convenientes medidas que cuantifiquen la bondad del proceso.

  8. Medida de Precisión promedio • Desde el punto de vista de las medidas de evaluación, los algoritmos de recuperación (search engines) evalúan diferentes queries para evaluar su eficacia. • Una forma habitual de evaluar un algoritmo consiste en promediar las distintas precisiones obtenidas para cada query en cada nivel de recuperación.

  9. Interpolación de la Precisión Promedio • Para representar la evolución de la precisión promedio se efectúa una interpolación de las precisiones en cada nivel de recuperación

  10. Interpolación de la Precisión PromedioEjemplo • Rq={d3,d56,d129} • Aq={d123,d84,d56,d6,d8,d9,d511,d129,d187,d25,d38,d48,d250,d113,d3} • R=33%, P=33% • R=66%, P=25% • R=100%, P=20% Precision interpolada para 11 niveles de recall para Rq

  11. Medida de Precisión Promedio en n • Otra medida usual es el cálculo de la precisión promedio tras n documentos relevantes recuperados (p. ej. 5, 10, 20, 30, 50, 100) • Se calcula la media de las precisiones obtenidas hasta el nivel de corte • Este sistema favorece a los buscadores que recuperan los documentos relevantes rápido • Ej: si al nivel 5 tenemos unas medidas de precisión de 1, 0.66, 0.5, 0.4, 0.3 • AvP@5 = (1+.66+.5+.4+.3)/5 = 0.572

  12. Medida de R-Precision • La idea es generar un valor resumen del ranking mediante la precisión en la posición R-ésima del ranking, siendo R el nº total de docs relevantes para una query • Para Rq={d3, d5,d9,d25,d39,d44,d56,d71, d89,d123} • la 10-Precision es: 0.4 (4 docs relevantes en los 10 primeros) • Para Rq={d3,d56,d129} • la 3-Precision es: 0.33 (1 doc relevantes en los 3 primeros) • Es útil para comprobar el comportamiento de un algoritmo frente a cada ítem

  13. Histogramas de R-Precisión • Las medidas de R-Precisión se pueden usar para comparar el comportamiento de dos algoritmos de forma gráfica a lo largo de diferentes búsquedas. • SearchEngines: A y B • Numero de queries: 10

  14. Comparación de algoritmos IR Curvas recall-precision para dos search engines diferentes

  15. Discounted Cumulative Gain (DCG) • Medida de la efectividad de un buscador • Mide la ganancia de un documento basada en su posición en la lista de documentos de un ranking • Hipótesis • Los documentos más relevantes son más útiles si aparecen en las primeras posiciones del ranking. Su relevancia se debe penalizar proporcionalmente a su posición con el logaritmo de su posición en el ranking • Los documentos más relevantes son más útiles que los parcialmente relevantes y estos, a su vez, más que los no relevantes • Se basa en la medida CG (p – posición en el ranking -)

  16. DCG (II) DCG para una posición p en el ranking nDCG representa la medida DCG normalizada para consultas sucesivas. Para poder calcularla se supone conocida la distribución ideal, no siempre posible.

  17. DCG (III) Ejemplo: Cálculo de la DCG para p=6 • Suponemos un usuario que valora la lista de docs: D1, D2, D3, D4, D5, D6 que son el resultado de una consulta q • Los documentos se valoran en una escala 0 a 3 • 0: no relevante • 1,2: en cierto grado relevante • 3: completamente relevante • Resultado: • 3, 2, 3, 0, 1, 2

  18. DCG (y IV) Supuesto un orden ideal (monótono decreciente): 3,3,2,2,1,0 Ahora podemos calcular el nDCG para la consulta inicial

  19. Medidas alternativas, I • Media armónica • Combina r y P • F=0 no se recuperan docs relevantes • F=1 todos los docs recuperados son relevantes • r y P altas  F alta

  20. Medidas alternativas, II • Medida E (de evaluación) • Combina r y P • b=1  E(j)=1-F(j) • b>1 • usuario interesado en P • b<1 • usuario interesado en r

  21. Medidas alternativas, III (orientadas al usuario) • Pretenden tener en cuenta las diferencias existentes entre usuarios interesados por un doc • Contexto • C: Colección de docs de referencia • I: Ejemplo de solicitud de info • R: Conjunto relevante de docs para I • A: Conjunto recuperado • U: Subconjunto de R conocido por el usuario • |U| = Card(U) • AU: docs conocidos por el usuario relevantes y recuperados • |Rk| = Card(AU) • |Ru| • nº de docs relevantes desconocidos por el usuario que fueron recuperados

  22. Medidas alternativas, IV(orientadas al usuario) |R| |A| |U| |Ru| |Rk|

  23. Medidas alternativas, V(orientadas al usuario) • Alcance • Fracción de los docs conocidos relevantes recuperados • Novedad • Fracción de los docs desconocidos relevantes recuperados

  24. Medidas alternativas, VI(orientadas al usuario) • Recuperación relativa • Cociente entre el nº de docs relevantes encontrados y el nº de docs relevantes que el usuario esperaba encontrar • Si encuentra tantos como esperaba --> RR=1 • Esfuerzo de recuperación • Cociente entre el nº de docs relevantes que el usuario esperaba encontrar y el nº de docs examinados con el fin de cubrir el nº anterior

  25. Colecciones, I • TIPSTER/TREC • TREC  Text Retrieval Conference (1990) • Dedicada a experimentación con colecciones grandes (1.000.000 docs) • Colección TREC: 6 CDs  1Gb cada uno • Docs de: WSJ, AP, FT, etc. • http://trec.nist.gov/

  26. TREC, descripción

  27. Colecciones, II • CACM • 3204 artículos de Communications of the ACM (1958-1979) • Campos • Autores, fecha edición, palabras clave (reducidas a su raíz gramatical) de título y abstract, referencias entre artículos, bibliografía, etc. • Incluye un conjunto de 52 solicitudes de información. Ej: “Qué artículos hay que traten de TSS (Time Sharing System), sistema operativo de ordenadores IBM” • El nº medio de docs relevantes para cada I es pequeño, en torno a 15.

  28. Colecciones, III • ISI (o CISI) • 1460 docs escogidos del ISI (Institute of Scientific Information) • Los docs escogidos se seleccionaron como los más citados en un estudio sobre citación realizado por Small • Propósito general: facilitar la investigación sobre similaridades basadas en términos y patrones de referencias cruzadas • Campos • Autores, palabras clave (reducidas a su raíz gramatical) de título y abstract y nº de “cocitaciones” para cada par de artículos • Incluye un conjunto de 35 solicitudes de información en LN y qs booleanas y 41 sólo en LN. • El nº medio de docs relevantes para cada I es grande, en torno a 50.

  29. Calidad de los resultados • ¿Se pueden aplicar los criterios de medida de la IR clásica a la web? • En IR clásica las medidas usadas son: • Precisión: % de páginas recuperadas que son relevantes • Recuperación: % de páginas relevantes que son recuperadas • En web IR: • El término relevante se liga al de calidad • Una página es valorable si es una página de calidad para el objeto de la búsqueda • Precisión: número de páginas valorables recuperadas

More Related