1 / 8

Extrakcia kolok ácií

Extrakcia kolok ácií. Martin Plank. Motivácia. V texte sa vyskytujú ustálené slovné spojenia Je ich potrebné poznať pri strojovom preklade, extrakcii kľúčových slov, generovaní prirodzeného jazyka Metódy: Asociačné metriky – napr. pointwise mutual information

finn
Télécharger la présentation

Extrakcia kolok ácií

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakciakolokácií Martin Plank

  2. Motivácia • V texte sa vyskytujú ustálené slovné spojenia • Je ich potrebné poznať pri • strojovom preklade, • extrakcii kľúčových slov, • generovaní prirodzeného jazyka • Metódy: • Asociačné metriky – napr. pointwisemutualinformation • Lingvistické metódy – vlastnosti kolokácií

  3. Dáta • Štatistiky frekvencií n-gramov – stovky miliónov záznamov • Predspracovanie • Vyradenie n-gramov so stop-slovami, interpunkciou, nízkych frekvencií • Využitie regulárnych výrazov • Lematizácia • Po predspracovaní: • Štatistiky unigramov: 937 767 záznamov, 11,7 MB • Štatistiky bigramov: 4 791 336 záznamov, 94,4 MB • Štatistiky trigramov: 17 757 770 záznamov, 481,9 MB

  4. Indexovanie • Štatistiky trigramov • Rozdelenie do súborov po 1000 záznamov (takmer 18 000 súborov) • Pri veľmi frekventovaných slovách sa prechádza cca polovica súborov => niekoľko násobné zrýchlenie výpočtu

  5. Metóda • Kolokácie sú slabo modifikovateľné • Príklad: trafiť klinec po hlavičke • Slovo klinec sa často používa so slovami dlhý, hrdzavý • Výskyt n-gramu trafiť dlhý/hrdzavý klinec po hlavičke nie je pravdepodobný • Porovnanie štatistík n-gramov => výpočet modifikovateľnosti slovného spojenia • Slovné spojenia s nízkou hodnotou modifikovateľnosti sú pravdepodobne kolokácie

  6. Softvér • Pre najčastejšie kombinácie vybraného slova určí, ktoré z nich sú kolokácie • Implementácia v Jave • Využitie nástroja Apache Lucene pri indexovaní

  7. Vyhodnotenie • Najlepšie výsledky: 30 % najpravdepodobnejších kolokácií • Presnosť: 0,290 • Pokrytie: 0,586 • F-metrika: 0,388

  8. Zhrnutie • Extrakcia kolokácií na základe frekvenčných štatistík n-gramov • Využitie vlastnosti slabej modifikovateľnosti kolokácií • Práca so slovenským jazykom – Slovenský národný korpus • Predspracovanie rozsiahlych dát • Indexovanie • Vyhodnotenie extrakcie – presnosť a pokrytie

More Related