1 / 23

Startseite

Startseite. Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido Sautter). Information Retrieval: Methoden zur Selektivitätsabschätzung. Wozu Selektivitätsabschätzung? Beispiel: - 100 Dokumente

nancy
Télécharger la présentation

Startseite

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Startseite Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm, WS 2005/06 Matthias Bracht, 10.01.2006 (Betreuer: Guido Sautter)

  2. Information Retrieval: Methoden zur Selektivitätsabschätzung Wozu Selektivitätsabschätzung? • Beispiel: - 100 Dokumente - 100 enthalten „das“, 50 „auto“, 1 „luxuskarosse“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick • Anfrage: „das AND auto AND luxuskarosse“ Seminar „S2D2“, IPD Böhm

  3. #Dokumente, die für Anfrage relevant sind • #Dokumente insgesamt • Sel(Anfrage) = Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivität • klar: 0 <= Sel(Anfrage) <= 1 • Beispiel von vorheriger Folie:  Sel(„das“) = 100%  Sel(„luxuskarosse“) = 1% Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  4. Information Retrieval: Methoden zur Selektivitätsabschätzung Seminar „S2D2“, IPD Böhm

  5. Information Retrieval: Methoden zur Selektivitätsabschätzung Selektivitätsabschätzung sinnvoll für: • Approximation der Anzahl von Termvorkommen • Bestimmung der Signifikanz der Terme • auf vorheriger Folie „of“ und „the“ gar nicht berücksichtigt! • Reihenfolge der Anfrageabarbeitung  vgl. Einstiegsbeispiel • Berechnung der Relevanzfunktion Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  6. Information Retrieval: Methoden zur Selektivitätsabschätzung Verschiedene Methoden • parametrische Methoden - bedingt sinnvoll, da bestimmte Art der Verteilung angenommen wird • Histogramme • Suffix Trees • Adaptive Sampling Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  7. Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (1) • Klassischer Einsatz: numerische Wertebereiche • Beispiel: Altersstruktur von 100 Maserati-Besitzern, equi-length-Histogramm Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,06 und 0,66! Seminar „S2D2“, IPD Böhm

  8. füge 20 Leute im Alter von 41-43 hinzu, was passiert? Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (2) • Verbesserung: equi-depth-Histogramme • fülle jeden Bucket in etwa gleichmäßig • noch weitere Verbesserung: Varianz-Optimierung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(Alter < 42) = ? Antwort: irgendwo zw. 0,4 und 0,6!  Intervall 3mal kleiner Seminar „S2D2“, IPD Böhm

  9. Information Retrieval: Methoden zur Selektivitätsabschätzung Histogramme (3) • Problem: nicht trivial auf Textkollektionen anwendbar • lexikographische Verteilung erschwert sinnvolle Wahl der Bucketgrenzen • möglicher Ausweg: ein Eimer pro Wort • Counts: • Termhäufigkeit • in wie vielen Dokumenten kommt Term vor (1mal, 2mal, 4mal usw.) Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  10. Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile • geringer Zugriffsaufwand • geringer Speicheraufwand: nur Bucketgrenzen und Counts • equi-length: initialer und Update-Aufwand gering, dafür evtl. sehr ungenaue Abschätzungen • equi-depth: genauere Abschätzungen möglich, aber schwieriger zu bauen (Wahl der Grenzen?) und zu pflegen (Buckets splitten, wenn zu voll?) • Problem der sinnvollen Wahl der Bucketgrenzen • kaum Einsatzmöglichkeiten für Text Retrieval Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  11. at • autautomat • automat • mat • mautautomat • ... Sortieren... Information Retrieval: Methoden zur Selektivitätsabschätzung Suffix Trees • Datenstrukturen, die alle Suffixe von Strings beinhalten • Suffixe werden in Baum einsortiert, gemeinsame Präfixe zusammengefasst • Beispiel: Suffix Tree für „mautautomat“, Suffixe: • mautautomat • mautautomat • autautomat • utautomat • tautomat ... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  12. ma a omat ut t utautomat t utautomat t omat omat automat automat omat automat Information Retrieval: Methoden zur Selektivitätsabschätzung Suffix Tree für „mautautomat“ Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick ut automat Einfügen von „automat“? omat Seminar „S2D2“, IPD Böhm

  13. ... ... ma 100 zda 49 nta 48 serati 2 ybach 1 Information Retrieval: Methoden zur Selektivitätsabschätzung Count-Suffix Tree • jeder Knoten enthält zusätzlich Count c • Beispiel: • 100 Terme: 49x Mazda, 48x Manta, 2x Maserati, 1x Maybach • Problem: Speicher Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  14. serati 2 ybach 1 ... ... ma 100 zda 49 nta 48 serati 2 ybach 1 Information Retrieval: Methoden zur Selektivitätsabschätzung Pruned Count-Suffix Tree • Lösung: Knoten mit c < s (s Schwellwert) werden entfernt • Beispiel: s = 10 • neues Problem: Abschätzung der nicht enthaltenen Terme Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„maserati“) = ? Sel(„matchbox“) = ? Seminar „S2D2“, IPD Böhm

  15. ... ... maut 200 system 20 automat 10 Information Retrieval: Methoden zur Selektivitätsabschätzung Anwendung: Wildcard-Suche • Beispiel: • Dokument mit Termen „lkwmaut“ (40x), „pkwmaut“ (30x), „mautsystem“ (20x), „mautautomat“ (10x), „maut“ (100x) • „maut“-Knoten enthält direkt Anzahl der für die Anfrage relevanten Terme! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„*maut*“) = ? Seminar „S2D2“, IPD Böhm

  16. ... ... ma 99 nta 90 serati 9 Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile • gut geeignet für Texte, insbesondere Wildcard-Anfragen + geringer Zugriffsaufwand • hoher initialer Aufwand, zusätzlicher Speicheraufwand • Genauigkeit für seltenere Terme schlecht • keine Inkrementalität! Beispiel: s = 10, füge „maserati“ hinzu • periodisch neu bauen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  17. Information Retrieval: Methoden zur Selektivitätsabschätzung Adaptive Sampling • Idee: Random Sampling „weitergedacht“ (zufällig Dokumente auswählen) • fortfahren, bis bestimmte Schwellwerte erreicht • Anzahl der betrachteten Dokumente • Anzahl der Treffer der jeweiligen Anfrage • „adaptive“: bestimmte Strategie zur Auswahl der folgenden Samples anwenden • z.B. in der „Nähe“ von Treffern weitersuchen • Blocksampling: komplette Speicherseiten samplen • zusätzliche Abhängigkeiten beachten! Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  18. Information Retrieval: Methoden zur Selektivitätsabschätzung Konfidenzbetrachtung • Frage: Wieviel Sampling ist nötig, um akzeptablen Fehler zu erreichen? Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Figure 5 aus [CRN98] Seminar „S2D2“, IPD Böhm

  19. Information Retrieval: Methoden zur Selektivitätsabschätzung Vor-/Nachteile • kein initialer Aufwand, keine Speicherung von Statistiken nötig (vgl. Histogramme, Suffix Trees) • Genauigkeit: Konfidenzbereiche können für jede Anfrage neu angegeben werden (keine fixe Bucketanzahl/kein Pruning-Schwellwert) • Inkrementalität gegeben • Methode für beliebige Daten verwendbar • hoher Zugriffsaufwand • ggf. sinnvoll: Sampling als Vorstufe zum Aufbau von Histogrammen/Suffix Trees Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  20. Information Retrieval: Methoden zur Selektivitätsabschätzung Zusammenfassung Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Seminar „S2D2“, IPD Böhm

  21. Information Retrieval: Methoden zur Selektivitätsabschätzung Abhängigkeiten/Korrelationen • Beispiel: • Sel(„luxus“) = 1 / 10 • Sel(„maybach“) = 1 / 100 • bei Unabhängigkeit: Antwort 1 / 1000 Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Sel(„luxus“ AND „maybach“) = ? • Dokumente mit „maybach“ enthalten aber vermutlich auch „luxus“ • Sel(„luxus“ AND „maybach“) also eher bei 1 / 100 •  Erweiterung der Methoden, um Abhängigkeiten zu erfassen Seminar „S2D2“, IPD Böhm

  22. Information Retrieval: Methoden zur Selektivitätsabschätzung Synonyme • insbesondere Nachrichtentexte verwenden aus Stilgründen Synonyme • Beispiel: • Dokumente mit „Michael Schumacher“, „der deutsche Rennfahrer“, „Schumi“, „der Rekord-Formel-1-Weltmeister“... Motivation Histogramme Suffix Trees Adaptive Sampling Fazit Ausblick Anzahl der Vorkommen von „Schumacher“? • Erweiterung der Methoden, um Synonyme zu erfassen • nebenbei oben verwendet: Indizierung von Phrasen statt von einzelnen Termen Seminar „S2D2“, IPD Böhm

  23. Information Retrieval: Methoden zur Selektivitätsabschätzung Schlussseite Vielen Dank für eure Aufmerksamkeit! [CRN98]: Chaudhuri, S., Motwani, R., Narasayya, V.; Random Sampling for Histogram Construction: How much is enough? In Proc. of ACM SIGMOD, Seattle, 1998. Seminar „S2D2“, IPD Böhm

More Related