html5-img
1 / 18

Text Mining

Text Mining. Michal Holub. 10th PeWe Onto žúr, 2011. FIIT STU. Motivácia. textové dáta na Webe potreba jednotnej reprezentácie. Dolovanie v texte. spracovanie textu vyvorenie modelu dokumentov porovnávanie zhlukovanie, klasifikácia odporúčanie extrakcia informácií.

etana
Télécharger la présentation

Text Mining

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Text Mining Michal Holub 10th PeWe Ontožúr, 2011 FIIT STU

  2. Motivácia • textové dáta na Webe • potreba jednotnej reprezentácie 10th PeWe Ontožúr

  3. Dolovanie v texte • spracovanie textu • vyvorenie modelu dokumentov • porovnávanie • zhlukovanie, klasifikácia • odporúčanie • extrakcia informácií 10th PeWe Ontožúr

  4. Hlavné kroky spracovania • prevod dát na text • tokenizácia • odstránenie stop slov • stemming a lematizácia • vytvorenie modelu dokumentu 10th PeWe Ontožúr

  5. Prevod na text • DOC, PDF ... TXT • segmentácia HTML • Metall Readabilitywebová služba • http://peweproxy.fiit.stuba.sk/metall • hlavná časť stránky (bez menu, reklám) • štatisticky – počet slov, viet, interpunkcia, čiarky, atď. • regulárne výrazy • strojové učenie na príkladoch 10th PeWe Ontožúr

  6. Tokenizácia • Garabík et al., 2004 • token je arbitrárna jednotka textu • akýkoľvek reťazec znakov medzi dvoma medzerami • aj znaky interpunkcie • text = tokeny a medzery • rozdelenie textu na tokeny • prakticky – oddeľovače sú všetky ne-písmená • získame množinu termov • pomlčky? úvodzovky? ... 10th PeWe Ontožúr

  7. Gramáž • n-tice slov • spolu sa vyskytujúce slová • 2-gramy • 3-gramy • 4-gramy • n-gramy • ‘Kráľ drozdia brada’ vs. ‘Kráľ’ – ‘drozd’ – ‘brada’ 10th PeWe Ontožúr

  8. Stop slová • slová bez sémantického významu • predložky, spojky, častice, zámená • krátke a dlhé slová, ktoré sa často vyskytujú • doménovo závislé • PeWe – web, personalizácia • právnici – zákon • slovník pre daný jazyk • N najpočetnejších slov v kolekcii dokumentov 10th PeWe Ontožúr

  9. Lematizácia a stemming • prevod slov na spoločný tvar • v aute, autom, autá auto • lematizácia – prevod na základný tvar (v slovníku) • je platné slovo • ministrovi minister • stemming – prevod na koreň slova • nemusí byť platné slovo • ministrovi minist 10th PeWe Ontožúr

  10. Lematizácia • pomocou slovníka • nefunguje pre slová, ktoré v slovníku nie sú • mená osôb, hudobných skupín, nové hovorové slová • významovo rozličné slová • pier – lema môže byť „pero“ aj „pera“ • štatistické algoritmy • veľka množina dokumentov 10th PeWe Ontožúr

  11. Stemming • slovník • dá sa aj algoritmicky • odstránenie predpôn a prípon • Lovinsovej algoritmus (1968) • jeden prechod, odstránenie najdlhšej prípony, AJ • upraví stem v prípade potreby (zdvojené písmeno, ...) • Porterov algoritmus (1980) • iteratívne odstraňovanie prípon podľa pravidiel • štandard pre AJ 10th PeWe Ontožúr

  12. Reprezentácia dokumentu • vrecezemiakov • bag of words slov 10th PeWe Ontožúr

  13. Reprezentácia dokumentu • vektor termov • každý term má svoju váhu • TF – počet výskytov termu v dokumente / všetky termy • slová však majú rôznu dôležitosť • DF – počet dokumentov, v ktorých sa term vyskytuje • IDF – inverzná DF • idft = log (N / dft) N – počet dokumentov • čím menšia DF, tým významnejšie slovo • TF-IDF – bežne používaná, = tft * idft 10th PeWe Ontožúr

  14. Podobnosť dokumentov • kosínusová podobnosť • cos uhla medzi vektormi • čím menší uhol, tým sú dokumenty podobnejšie • d – dokument • w1i – váha termu i v dokumente d1 (0 – term nie je) 10th PeWe Ontožúr

  15. Kosínusová podobnosť 10th PeWe Ontožúr

  16. Podobnosť dokumentov • euklidovská vzdialenosť • manhattan vzdialenosť • L1 podobnosť • canberra vzdialenosť • Chebyshev vzdialenosť 10th PeWe Ontožúr

  17. Úlohy • Počet rôznych slov v dokumente • Počet viet v dokumente • Najpočetnejšie slovo v dokumente • Najpočetnejšie stop slovo • Najpočetnejšie slovo v kolekcii 10th PeWe Ontožúr

  18. Úlohy • Najpočetnejšie slovné spojenie • 2, 3, 4-gramy • Najviac podobné abstrakty • Najmenej podobné abstrakty 10th PeWe Ontožúr

More Related