1 / 18

Verfahren zur Stammformreduktion

Verfahren zur Stammformreduktion. (z.B. snowball , vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013. Agenda. Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen. Stammformreduktion [Inf12].

haruki
Télécharger la présentation

Verfahren zur Stammformreduktion

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Verfahren zur Stammformreduktion (z.B. snowball, vorwiegend für die deutsche Sprache) Bryan Beck 09.01.2013

  2. Agenda Stammformreduktion Nutzen Verfahren Snowball Nachteile & Alternativen Quellen

  3. Stammformreduktion [Inf12] Rückführung verschiedener Varianten eines Wortes auf gemeinsamen Wortstamm Information Retrieval Erster Algorithmus 1968 von Julie Beth Lovins Sprachabhängig Unterschiedliche Algorithmen für verschiedene Sprachen

  4. Wieso? [Lan12] Häufigeres auftreten des Stammwortes  mehr Suchergebnisse  bessere Suchergebnisse Kleinere Indizierungslisten  weniger Speicherplatz notwendig  bessere Performance Weniger Redundanz

  5. Anwendungsgebiete Freitextsuche Indexierung (teilweise in Suchmaschinen) Tagging Filterung von Stoppwörtern

  6. Beispiel schneller, schnelle, schnelles, schnellen Stammform: schnell schlechtester, schlecht, schlechter, Stammform: schlecht

  7. Deutsche Sprache Schwierige Sprache Starke Flexion Viele Sonderfälle  viele Varianten eines Wortes

  8. Verfahren [Inf12] Porter-Stemmer-Algorithmus N-Gramm Verfahren Lexikographische Verfahren Kombinationen aus mehreren Verfahren … können nicht verifiziert, sondern nur getestet werden

  9. Porter-Stemmer 1980 von Dr. Martin Porter veröffentlicht 5 Schritte Algorithmus Entfernt Suffixe & Affixe im Wort Implementierung für mehrere Sprachen

  10. Porter-Stemmer (Deutsch) [Lan12] Definition zweier Wortregionen R1 und R2 R1 ist die Region nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R2 ist die Region (in R1) nach dem ersten Nicht-Vokal, welcher einem Vokal folgt oder null R1 anpassen, sodass die Wortregion davor mind. 3 Zeichen enthält Markiere s-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n, r oder t steht Markiere st-Endungen, wenn davor ein b, d, f, g, h, k, l, m, n oder t steht Wandle ß in ss um

  11. Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. e, em, en, ern, er, es eine markierte s-Endung 1 Suche nach der längsten der folgenden Endungen und lösche diese, wenn sie innerhalb von R1 steht. en, er, est eine markierte st-Endung 1, sofern mind. 3 Buchstaben davor stehen • 1Der Buchstabe vor der Endung muss nicht zwangsweise in R1 enthalten sein

  12. Porter-Stemmer (Deutsch) [Lan12] Suche nach der längsten der folgenden Endungen end, ung  Lösche aus R2 Wenn ig davor steht, siehe ig Regel ig, ik, isch Lösche aus R2, sofern kein e davor steht lich, heit Lösche aus R2 Wenn er oder en davor steht, lösche aus R1 keit Lösche aus R2 Wenn lich oder ig davor steht, lösche aus R2

  13. Porter-Stemmer (Deutsch) [Lan12] Entferne Umlaut Akzente (ä ö ü  a o u)

  14. Snowball[Por12] Framework für Stemming-Algorithmen eigene Programmiersprache, konzipiert für Stemming Algorithmen Compiler für Übersetzung von Snowball Script (.sbl) nach Java und C

  15. Nachteile [Ste12] Sprachabhängig Schwer anzupassen/verbessern Algorithmen nicht verifizierbar Fehleranfällig Alternativen Grundformreduktion Trunkierung(Wildcard Suche)

  16. Vielen Dank für Ihre Aufmerksamkeit Fragen?

  17. Quellen [Por12] Dr Martin Porter: Snowball Tartarus. Online im Internet: http://snowball.tartarus.org , Stand 26.12.2012 [Inf12] Infobiber, McKaot , EmausBot u.W.: Stemming. Online im Internet: http://de.wikipedia.org/wiki/ Stemming , Stand 26.12.2012 [Clau12] Prof. Michael Clausen, Dr. Frank Kurth: Grundlagen des Multimediaretrievals I. Online im Internet: http://www-mmdb.iai.unibonn.de/lehre/material MMRws0304/skriptMMRI.pdf , Stand 26.12.2012

  18. Quellen [Lan12] Johannes Lang, Rossen Kowatschew: HS Information Retrieval: Stemming. Online im Internet: http://kontext.fraunhofer.de/haenelt/ kurs/Referate/Kowatschew_Lang/stemming.pdf, Stand 26.12.2012 [Ste12] Stein: Stammformreduktion. Online im Internet: http://www.uni-weimar.de/medien/webis/ teaching/lecturenotes/information-retrieval/ unit-de-stemming.pdf , Stand 09.01.2013

More Related