1 / 26

Retrieval und Ranking von Dokumenten

Retrieval und Ranking von Dokumenten. Kursfolien Karin Haenelt. Die einzelnen Schritte (1). Texte auswählen Boolesches Modell Erzeugung der Dokumentvektoren Erzeugung der disjunktiven Normalform der Anfrage Vergleich von Dokument- und Anfragevektoren Vektormodell

domani
Télécharger la présentation

Retrieval und Ranking von Dokumenten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt

  2. Die einzelnen Schritte (1) • Texte auswählen • Boolesches Modell • Erzeugung der Dokumentvektoren • Erzeugung der disjunktiven Normalform der Anfrage • Vergleich von Dokument- und Anfragevektoren • Vektormodell • Erzeugung der Dokumentvektoren(Termfrequenz, normalisierte Termfrequenz, Termgewichtung) • Berechnung der Ähnlichkeit zwischen Dokument und Anfragevektor nach der Cosinusformel

  3. Die einzelnen Schritte (2) • Probabilistisches Modell • Auswahl eines Trainingscorpus • Ermittlung der Beobachtungswerte • rel(Anzahl relevanter Dokumente) • nrel(Anzahl nicht-relevanter Dokumente) • reli (Anzahl rel. Dok. mit Termi) • nreli (Anzahl nicht rel. Dok. mit Termi) • Berechnung der Termstatuswerte • Berechnung der Retrievalstatuswerte für neue Dokumente

  4. Texte (1) • 03.08.2001 09:48 MEZ1) Weiter Stabilisierung an der Weichsel Warschau (dpa) - An den Hochwassergebieten entlang der Deichsel hat sich die Lage weiter beruhigt. In Ostpolen ist der Wasserstand teilweise bereits unter den Alarmpegel gesunken, berichtet der polnische Rundfunk. Die Flutwelle der Weichsel zieht nun durch Pommern Richtung Ostsee. Unterdessen steigt der Wasserstand der Oder in Westpolen weiter an. Im Glogow wurde der Alarmpegel mittlerweile um 124 Zentimeter überschritten. In Dutzenden von Ortschaften stehen Straßen und Ackerland unter Wasser. • 02.08.2001 15:07 MEZ2) Russische Behörden melden Cholera-Erkrankungen im Wolga-GebietMoskau (dpa) - Im russischen Wolgagebiet sind fast 50 Menschen an Cholera erkrankt. Die Opfer, unter ihnen 26 Kinder, hätten in einem mit den lebensgefährlichen Viren verseuchten Gewässer gebadet. Das teilte die Gesundheitsbehörde der Stadt Kasan mit. Nach vorläufigen Angaben gab es keine Todesopfer. Angehörige der Opfer seien vorsorglich in Quarantänestationen gebracht worden, meldete die Agentur Interfax. Zudem werden Bahn-Reisende aus Kasan auf Cholera- Symptome untersucht, berichtete ein Radiosender.

  5. Texte (2) • 02.08.2001 14:57 MEZ3) «Feuerpause» am ÄtnaCatania (dpa) - Der sizilianische Vulkan Ätna hat eine «Feuerpause» eingelegt. «Er brummt, als würde er schnarchen», beschrieb ein Fernsehreporter das Szenario. Im Touristenzentrum Sapienza knallten die Sektkorken. Ein Betreiber sagte, das Zentrum werde im September wieder geöffnet. Nach Tagen des Bangens war eine Lavafront nur 200 Meter vor der Station mit Seilbahn, Souvenirläden und Büros zum Stillstand gekommen. Der größte Vulkan Europas tobt seit mehr als zwei Wochen. Menschen kamen bislang nicht zu Schaden. • 02.08.2001 09:46 MEZ4) Ätna auf Sizilien speit WasserCatania (dpa) - Der Vulkan Ätna auf Sizilien speit auch Wasser. Ein solches Phänomen ist laut italienischen Fernsehberichten seit 15 000 Jahren nicht mehr vorgekommen. Forscher erklären das Ereignis damit, dass in einer Lavaflut das Mineral Amphibol vorkommt. Dieses enthalte Wasser in seiner kristallinen Struktur und erwärme sich, sobald das Magma Gas absondern könne. Unterdessen scheint gut zwei Wochen nach dem Ausbruch des Vulkans die größte Gefahr gebannt. Trotz spektakulärer Lavafluten kamen bislang Menschen nicht zu Schaden.

  6. Texte (3) • 02.08.2001 09:23 MEZ5) Weiterer Deichabschnitt gesprengtWarschau (dpa) - Im Osten Polens haben Pioniere der Armee einen weiteren Deichabschnitt gesprengt. Damit soll ein rascher Abfluss des Hochwassers ermöglicht werden. Außerdem kommen heute auch Hubschrauber zum Einsatz. Sie sollen Betonplatten auf den Deich werfen, um Risse zu schaffen und den Abfluss des Wassers zu beschleunigen, meldet die Agentur IAR. Bereits gestern war eine 50 Meter breite Lücke in den so genannten Sommerdeich der Weichsel südlich von Kazimierz Dolny gesprengt worden. • 01.08.2001 08:29 MEZ6) Millionen-Schaden durch Feuer in WyomingJackson (dpa) - Das vor 10 Tagen ausgebrochene Buschfeuer nahe Jackson im USBundesstaat Wyoming ist weitgehend unter Kontrolle. Bei kühlerem, regnerischem Wetter gelang es der Feuerwehr, den Brand einzudämmen. Das Feuer, das vermutlich durch menschliches Verschulden auf einem Campingplatz entstand, vernichtete 1800 Hektar Land. Menschen kamen nicht zu Schaden. Im benachbarten Yellowstone National Park sind weiterhin mehr als 60 Feuerwehrleute im Einsatz. Dort hat ein Feuer rund 400 Hektar Wald verbrannt.

  7. Texte (4) • 01.08.2001 08:01 MEZ7) Angriff von Computerwurm «Code Red» offenbar abgewehrtWashington (dpa) - Der Angriff des weltweit mit Sorge erwarteten Computerwurms «Code Red» ist offenbar abgewehrt worden. Nach ersten Angaben des FBI hat er kaum Schaden angerichtet. Es werde aber noch einige Zeit dauern, bis eine genaue Schadensanalyse fertig sei, hieß es. Vermutlich hätten die Schutzmaßnahmen gegen die Attacke gewirkt. Der Angriff hatte nach Berechnungen der Experten um 2 Uhr deutscher Zeit begonnen. Bei seinem ersten Auftauchen Mitte Juli hatte «Code Red» unter anderem die Webseiten des Weißen Hauses angegriffen. • 01.08.2001 07:31 MEZ8) Polnische Pioniere beginnen kontrollierten DeichbruchWarschau (dpa) - Polnische Pioniere haben im Osten des Landes mit einem kontrollierten Deichbruch begonnen. Damit soll das Hochwasser der Weichsel in ein unbewohntes Gebiet umgelenkt werden. Die Soldaten begannen am frühen Morgen damit, einen Teil des Deichs der Weichsel abzutragen, berichtet der polnische Rundfunk. Die Gefahr gehe nicht von der Höhe der Flutwelle aus, sondern von der ungewöhnlich langen Verweildauer, sagte ein Feuerwehrsprecher. Das Hochwasser an der Weichsel erstreckt sich mittlerweile über 350 Kilometer.

  8. Texte (5) • 30.07.2001 09:52 MEZ9) Immer mehr Deiche in Polen undichtWarschau (dpa) - In den polnischen Hochwassergebieten ist in der Nähe der ostpolnischen Ortschaft Kamien ein weiterer Deich gebrochen. Das berichtet der polnische Rundfunk. Damit sind an Weichsel und San nun schon fünf Deiche geborsten. Allein südlich von Sandomierz steht ein 52 Quadratkilometer großes Gebiet mit vier Dörfern und hunderten Bauernhöfen unter Wasser. An vielen Stellen sind die durchweichten Deiche nach Angaben der Krisenstäbe mittlerweile löchrig und undicht. Bisher wurden rund 12 000 Menschen in Sicherheit gebracht. • 27.07.2001 12:49 MEZ10) Neue Überschwemmungen in ZentralpolenWarschau (dpa) - Mit neuen Überschwemmungen in Zentralpolen und im Südosten ist die Flutwelle des Hochwassers weiter ins Landesinnere vorgedrungen. Die Rettungskräfte sind pausenlos im Einsatz. Uferbefestigungen wurden mit Sandsäcken verstärkt. Die polnische Regierung hofft auf internationale Hilfe. Es habe erste Kontakte mit der Weltbank gegeben, berichtete der Rundfunksender «Radio RMF» unter Berufung auf die Regierung. Die Zahl der Todesopfer stieg inzwischen auf elf. Im Süden stabilisierte sich die Lage dagegen allmählich.

  9. Texte (6) • 27.07.2001 08:41 MEZ11) Lage in Südpolen bleibt weiter dramatischWarschau - Die Lage in den Hochwassergebieten im Süden und Südosten Polens bleibt dramatisch. Bisher hat die Katastrophe 11 Todesopfer gefordert. Tausende Häuser stehen unter Wasser, mehrere hundert Bauernhöfe sind überflutet. Straßen und Brücken wurden durch die Wassermassen der Weichsel und ihrer Zuflüsse zerstört oder schwer beschädigt. Auch an der Oder in Oberschlesien stiegen die Wasserstände wieder.

  10. Retrievalaufgabe • Retrievalaufgabe • Welche Dokumente benennen einen Schaden, der durch Feuer oder Wasser entstanden ist?

  11. Gewünschtes Ergebnis Relevanz- begriff?

  12. Lösungsansatz • Lösungsansatz • hilfsweise Ansatz des Queryvektors: • Feuer, Opfer, Schaden, Wasser

  13. Boolesches Modell • Anfrage (Feuer | Wasser) & (Opfer | Schaden)

  14. Vektormodell: Termfrequenz

  15. Vektormodell:normalisierte Termfrequenz: maxl

  16. Vektormodell:normalisierte Termfrequenz

  17. Vektormodell: Termgewichtung

  18. Vektormodell: Ähnlichkeit von Dokument und Query

  19. Vektormodell: Ergebnisse

  20. Vektormodell: Ergebnisse tf.idf

  21. Vektormodell: Ergebnisse - Analyse

  22. Probabilistisches Modell Trainingscorpus

  23. Probabilistisches Modell:Termstatuswerte Korrekturfaktoren: reli + 0.5, nreli + 0.5, rel + 1, nrel +1

  24. Dokument Feuer Opfer Schaden Wasser RSV = 7) Angriff von 0 0 1 0 log(1.00) 0 Computerwurm 8) Pioniere beginnen 1 0 0 1 log(2.33) 0 Deichbruch + log(0.43) 9) Deiche in Polen 0 0 0 1 log(0.43) undicht -0.366 10) Neue 0 1 0 1 log(9) + Überschwemmungen log(0.43) 0.588 11) Lage in 0 1 0 1 log(9) + Südpolen dramatisch log(0.43) 0.588 Probabilistisches Modell:Neue Dok.: Retrievalstatuswert

  25. Vergleich der Ergebnisse

  26. Literatur und Danksagung • Karin Haenelt (2002) • Retrieval und Ranking von Dokumenten. Ein Übungsbeispiel. Kursskript. 12.12.2001. (letzte Änderung 05.11.2002) 15 S. kontext.fraunhofer.de/haenelt/kurs/folien/Ranking-Uebung.pdf • Vielen Dankfür das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich • Olena Beck

More Related