Download
text mining n.
Skip this Video
Loading SlideShow in 5 Seconds..
Text Mining PowerPoint Presentation
Download Presentation
Text Mining

Text Mining

172 Views Download Presentation
Download Presentation

Text Mining

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Text Mining Michal Holub 10th PeWe Ontožúr, 2011 FIIT STU

  2. Motivácia • textové dáta na Webe • potreba jednotnej reprezentácie 10th PeWe Ontožúr

  3. Dolovanie v texte • spracovanie textu • vyvorenie modelu dokumentov • porovnávanie • zhlukovanie, klasifikácia • odporúčanie • extrakcia informácií 10th PeWe Ontožúr

  4. Hlavné kroky spracovania • prevod dát na text • tokenizácia • odstránenie stop slov • stemming a lematizácia • vytvorenie modelu dokumentu 10th PeWe Ontožúr

  5. Prevod na text • DOC, PDF ... TXT • segmentácia HTML • Metall Readabilitywebová služba • http://peweproxy.fiit.stuba.sk/metall • hlavná časť stránky (bez menu, reklám) • štatisticky – počet slov, viet, interpunkcia, čiarky, atď. • regulárne výrazy • strojové učenie na príkladoch 10th PeWe Ontožúr

  6. Tokenizácia • Garabík et al., 2004 • token je arbitrárna jednotka textu • akýkoľvek reťazec znakov medzi dvoma medzerami • aj znaky interpunkcie • text = tokeny a medzery • rozdelenie textu na tokeny • prakticky – oddeľovače sú všetky ne-písmená • získame množinu termov • pomlčky? úvodzovky? ... 10th PeWe Ontožúr

  7. Gramáž • n-tice slov • spolu sa vyskytujúce slová • 2-gramy • 3-gramy • 4-gramy • n-gramy • ‘Kráľ drozdia brada’ vs. ‘Kráľ’ – ‘drozd’ – ‘brada’ 10th PeWe Ontožúr

  8. Stop slová • slová bez sémantického významu • predložky, spojky, častice, zámená • krátke a dlhé slová, ktoré sa často vyskytujú • doménovo závislé • PeWe – web, personalizácia • právnici – zákon • slovník pre daný jazyk • N najpočetnejších slov v kolekcii dokumentov 10th PeWe Ontožúr

  9. Lematizácia a stemming • prevod slov na spoločný tvar • v aute, autom, autá auto • lematizácia – prevod na základný tvar (v slovníku) • je platné slovo • ministrovi minister • stemming – prevod na koreň slova • nemusí byť platné slovo • ministrovi minist 10th PeWe Ontožúr

  10. Lematizácia • pomocou slovníka • nefunguje pre slová, ktoré v slovníku nie sú • mená osôb, hudobných skupín, nové hovorové slová • významovo rozličné slová • pier – lema môže byť „pero“ aj „pera“ • štatistické algoritmy • veľka množina dokumentov 10th PeWe Ontožúr

  11. Stemming • slovník • dá sa aj algoritmicky • odstránenie predpôn a prípon • Lovinsovej algoritmus (1968) • jeden prechod, odstránenie najdlhšej prípony, AJ • upraví stem v prípade potreby (zdvojené písmeno, ...) • Porterov algoritmus (1980) • iteratívne odstraňovanie prípon podľa pravidiel • štandard pre AJ 10th PeWe Ontožúr

  12. Reprezentácia dokumentu • vrecezemiakov • bag of words slov 10th PeWe Ontožúr

  13. Reprezentácia dokumentu • vektor termov • každý term má svoju váhu • TF – počet výskytov termu v dokumente / všetky termy • slová však majú rôznu dôležitosť • DF – počet dokumentov, v ktorých sa term vyskytuje • IDF – inverzná DF • idft = log (N / dft) N – počet dokumentov • čím menšia DF, tým významnejšie slovo • TF-IDF – bežne používaná, = tft * idft 10th PeWe Ontožúr

  14. Podobnosť dokumentov • kosínusová podobnosť • cos uhla medzi vektormi • čím menší uhol, tým sú dokumenty podobnejšie • d – dokument • w1i – váha termu i v dokumente d1 (0 – term nie je) 10th PeWe Ontožúr

  15. Kosínusová podobnosť 10th PeWe Ontožúr

  16. Podobnosť dokumentov • euklidovská vzdialenosť • manhattan vzdialenosť • L1 podobnosť • canberra vzdialenosť • Chebyshev vzdialenosť 10th PeWe Ontožúr

  17. Úlohy • Počet rôznych slov v dokumente • Počet viet v dokumente • Najpočetnejšie slovo v dokumente • Najpočetnejšie stop slovo • Najpočetnejšie slovo v kolekcii 10th PeWe Ontožúr

  18. Úlohy • Najpočetnejšie slovné spojenie • 2, 3, 4-gramy • Najviac podobné abstrakty • Najmenej podobné abstrakty 10th PeWe Ontožúr