1 / 63

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren. Karin Haenelt 15.12.2013 / 5.12.2011. Inhalt. Einführung des MTC-Verfahrens Vorbetrachtungen Abkürzungen und Beispiel für diese Folien Präzision und durchschnittliche Präzision

libba
Télécharger la présentation

Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Evaluierung von Information Retrieval SystemenMinimal Test Collection (MTC)- Verfahren Karin Haenelt 15.12.2013 / 5.12.2011

  2. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  3. BeurteilungsmethodeMinimal Test Collection (MTC) Ben Carterette (2008). Low-Cost and Robust Evaluation of Information Retrieval Systems. PhD thesis, University of Massachusetts Amherst Ben Carterette, James Allan, and Ramesh K. Sitaraman. Minimal test collections for retrieval evaluation. In: Proceedings of SIGIR, pages 268-275, 2006. http://ir.cis.udel.edu/~carteret/papers/sigir06.pdf James Allan, Ben Carterette, Javed A. Aslam, Virgil Pavlu, BlagovestDachev, Evangelos Kanoulas (2007). Million Query Track 2007 Overview. Proceedings of TREC 2007. http://maroo.cs.umass.edu/pub/web/getpdf.php?id=800 auch UMass-Verfahren genannt (University of Massachusetts Amherst)

  4. Minimal Test Collection Verfahren (MTC)Grundgedanken (Carterette, Allan, Sitamaran, 2006) Genaue Schätzung der Information RetrievalEvaluierungsmetriken erfordert eine riesige Menge von Relevanzbeurteilungen Eine neue Sicht auf die durchschnittliche Präzision (averageprecision – AP) zeigt, dass es möglich ist, eine Menge von Retrievalsystemen mit hoher Konfidenz mit einer minimalen Menge von Beurteilungen zu evaluieren Diese Sicht führt auch zu einem Algorithmus zum inkrementellen Aufbau von Testkollektionen

  5. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  6. Abkürzungen

  7. Beispiel für diese Folien 2 Systeme: System 1 (S1) und System 2 (S2) 3 Dokumente: A, B, C Ausgabelisten der beiden Systeme:

  8. Beispiel für diese FolienÜbersicht zu den nachfolgenden Betrachtungsvarianten der Evaluierungsmaße prec@r Precision auf Rang r SP sumprecision AP averageprecision

  9. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  10. Anforderungen an Information Retrieval-Evaluierungsmaße • Ein gutes Evaluierungsmaß sollte folgende Systemeigenschaften hoch bewerten • Das System setzt relevante Systeme auf die oberen Ränge (precision) • Das System findet viele relevante Dokumente (recall) • Die durchschnittliche Präzision (AP) erfasst sowohl precision als auch recall eines Systems

  11. Evaluierungsmaß: Präzision auf Rang r Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

  12. Evaluierungsmaß: Durchschnittliche Präzision (averageprecision – AP) Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010)

  13. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  14. Evaluierungsmaße: Präzision und durchschnittliche PräzisionDarstellung als Zufallsexperimente Darstellung als Gleichungen über Bernoulli Experimente Xi für die Relevanz von Dokument i xi Boolescher Indikator der Relevanz von Dokument i

  15. Evaluierungsmaß: PräzisionDarstellung als Zufallsexperiment Ausgabeliste nach einem Beispiel von (Carterette,Kanoulas,Yilmaz, 2010) Auswahl eines Ranges aus der Menge {1, …, t}, 1 ≤ r≤ t Ausgabe der binären Dokumentrelevanz auf diesem Rang Formel und Beispiel

  16. Evaluierungsmaß: Durchschnittliche PräzisionDarstellung als Zufallsexperiment binäre Dokumentrelevanzauf Rang r precision auf dem Rangder relevanten Dokumente multipliziert mit

  17. Darstellungen der Evaluierungsmaße Standard Zufallsexperiment

  18. Beispiel zu

  19. Beispiel zu Precision auf Rang 1 Precision auf Rang 2 Precision auf Rang 3

  20. Evaluierungsmaß: Durchschnittliche PräzisionFormel für beliebige Dokumentreihenfolge (Carterette, Allan, Sitamaran, 2006) für eine Betrachtung der Dokumente in beliebiger Reihenfolge ist zu ersetzen durch den Koeffizienten aij:

  21. Beispiel Variante 1

  22. Beispiel Variante 2

  23. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  24. Minimal Test Collection Verfahren (MTC)Ziele und Methode (Carterette, Allan, Sitamaran, 2006) • Ziel • vergleichende Evaluierung zweier oder mehrerer Systeme • Durchführung eines Minimums an Relevanzbewertungen • Methode • neue Sicht auf durchschnittliche Präzision (AP) ermöglicht • Algorithmus zur Auswahl des nächsten zu bewertenden Dokuments: Dokument mit dem nächst größten Einfluss auf AP • Abbruchkriterium für die Evaluierung • Schätzung des Grades der Konfidenz auf der Basis einer Verteilung möglicher Dokumentbeurteilungen

  25. Minimal Test Collection Verfahren (MTC)Grundstruktur des Dokumentselektionsalgorithmus Carterette, Kanoulas, Yilmaz (2010:77/1) Ableitung eines Dokumentgewichts aus einem algebraischen Ausdruck der Differenz zweier Systeme bezüglich des gewählten Evaluierungsmaßes1) Ordnung der Dokumente nach Dokumentgewicht und Beurteilung des höchstgewichteten Dokuments Aktualisierung der Dokumentgewichte unter Berücksichtigung der Beurteilungen der beurteilten Dokumente Wiederholung bis zum Erreichen der Abbruchbedingung 1) Berechnung mit verschiedenen Maßen möglich: precision, recall, DCG, avarageprecision

  26. Minimal Test Collection (MTC) MethodeDifferenz der durchschnittlichen Präzision zweier Systeme Die durchschnittliche Präzision eines Systems ist Die Differenz der durchschnittlichen Präzision zweier Systeme ist (Carterette, Allan, Sitamaran, 2006)

  27. Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen • Bei der Berechnung der durchschnittlichen Präzision wirken die Relevanzbeurteilungen zusammen • wenn das Dokument auf Rang 1 relevant ist, erhöht sich der Beitrag jedes folgenden relevanten Dokuments • wenn das Dokument auf Rang 1 nicht relevant ist, verringert sich der maximal mögliche Beitrag jedes folgenden relevanten Dokuments

  28. Evaluierungsmaß: Durchschnittliche PräzisionZusammenwirken von Relevanzbeurteilungen Carterette, Kanoulas, Yilmaz (2010:93/1) Sei SP (sumprecision) = AP ∙ |R| Wenn Dokument A relevant ist, ist sein Gesamtbeitrag zu SP :1 + 1/2 + 1/3 -- abhängig von der Relevanz der nachfolgenden Dokumente, da für AP nur die Werte auf den Rängen relevanter Dokumente gezählt werden Wenn Dokument A nicht relevant ist, kann SP nicht größer sein als |R| - 1 – 1/2 – 1/3 Beurteilungen als „nicht relevant“ sind also informativ für AP

  29. Einfluss einer positiven Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) Angenommen, alle Dokumente gelten als nicht relevant wenn ein Dokument als relevant beurteilt wird, ergibt sich folgende Veränderung:

  30. Einfluss einer negativen Dokumentbeurteilung auf die inkrementelle Berechnung von 𝚫SP - Beispiel Beurteilung vonDokument C hat den nächstgrößten Einfluss Beispiel nach (Carterette,Kanoulas,Yilmaz, 2010) Angenommen, alle Dokumente gelten als relevant wenn ein Dokument als nicht relevant beurteilt wird, ergibt sich folgende Veränderung:

  31. Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP (Carterette, 2008:42)

  32. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  33. Minimal Test Collection (MTC) MethodeDokument-Selektions-Algorithmus zum Nachweis von ΔSP: Dokumentgewichte Basis-Effekt zusätzliche Basis für nonrel-Gewichte 1) Zusammenwirken mit beurteilten Dokumenten 1) zusätzlicheBasis für rel-Gewichte: unbeurteilte Dokumente sind nicht-relevant: xk=0 zusätzlicheBasis für nonrel-Gewichte: unbeurteilte Dokumente sind relevant: xk=1 (Carterette, 2008:42) (Carterette,Kanoulas,Yilmaz, 2010)

  34. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  35. Minimal Test Collection (MTC) Dokumentgewichte Start Detail wAR, wBR,wCR

  36. Minimal Test Collection (MTC) Dokumentgewichte Start Detail wAN (max {rank(A),rank(C)}in System s1) = 3 (max {rank(A),rank(C)}in System s2) = 2 Annahme, alle nicht-betrachteten Dokumente seien relevantBewertung von A als nicht-relevant führt zur gezeigten Verminderung der maximal erreichbaren SP

  37. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  38. Minimal Test Collection (MTC)SelektionsalgorithmusStart

  39. Minimal Test Collection (MTC)SelektionsalgorithmusStart

  40. Minimal Test Collection (MTC) Selektionsalgorithmus Start

  41. Minimal Test Collection (MTC)Selektionsalgorithmus1.Iteration - C als relevant beurteilt: x3 = 1 - neue Dokumentgewichte für die übrigen Dokumente:

  42. wN Minimal Test Collection (MTC)Selektionsalgorithmus1.Iteration - C als relevant beurteilt: x3 = 1 - neue Dokumentgewichte für die übrigen Dokumente:

  43. Minimal Test Collection (MTC) Selektionsalgorithmus 1. Iteration

  44. Minimal Test Collection (MTC)Selektionsalgorithmus2.Iteration • C als relevant beurteilt: x3 = 1 • A als nicht-relevant beurteilt: x1 = 0 • - neue Dokumentgewichte für die übrigen Dokumente:

  45. Inhalt • Einführung des MTC-Verfahrens • Vorbetrachtungen • Abkürzungen und Beispiel für diese Folien • Präzision und durchschnittliche Präzision • Darstellung von Präzision und durchschnittlicher Präzision als Zufallsexperiment • MTC-Verfahren, Spezifikation • Erläuterung des Dokument-Selektionsalgorithmus • Formeln für die Dokumentgewichte • Berechnung des (Nicht-)Relevanzeffekts eines Dokuments • Tracing des Selektionsalgorithmus für das Folienbeispiel • Abbruchkriterium für den Algorithmus • Konfidenz • Evaluierungsergebnisse

  46. Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung (Carterette, Allan, Sitamaran, 2006) • Abbruch: wenn feststeht, ob AP1 > AP2 oder umgekehrt • ein Dokument, das die Hypothese Δ AP > 0 unterstützt • ist relevant und hat • ein „positives Gewicht“ (d.h. es hat einen höheren Rang in System 1) • ein Dokument, das die Hypothese Δ AP < 0 unterstützt hat ein „negatives Gewicht“

  47. Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung LHS: Δ AP berechnet über beurteilte relevante Dokumente RHS: obere Grenze des Betrages, um den Δ AP vermindert würde, wenn unbeurteilte Dokumente als relevant beurteilt würden (Carterette, Allan, Sitamaran, 2006) wenn die Summe der Gewichte der relevanten Dokumente größer ist als das mögliche Maximum der Summe der Gewichte der „negativen“ Dokumente, können wir folgern: Δ AP > 0 Sei S die Menge der beurteilten relevanten Dokumente T die Menge der unbeurteilten Dokumente, dann ist ein hinreichendes Abbruchkriterium

  48. Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung Carterette,Kanoulas,Yilmaz, 2010: S. 98a)

  49. Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung Carterette,Kanoulas,Yilmaz, 2010: S. 98b)

  50. Minimal Test Collection (MTC) MethodeAbbruchkriterium für die Berechnung Dokument-Selektions-Algorithmus zum Nachweis von ΔSP Carterette,Kanoulas,Yilmaz, 2010: S. 99a

More Related