Text Mining

Text Mining Michal Holub 10th PeWe Ontožúr, 2011 FIIT STU

Motivácia • textové dáta na Webe • potreba jednotnej reprezentácie 10th PeWe Ontožúr

Dolovanie v texte • spracovanie textu • vyvorenie modelu dokumentov • porovnávanie • zhlukovanie, klasifikácia • odporúčanie • extrakcia informácií 10th PeWe Ontožúr

Hlavné kroky spracovania • prevod dát na text • tokenizácia • odstránenie stop slov • stemming a lematizácia • vytvorenie modelu dokumentu 10th PeWe Ontožúr

Prevod na text • DOC, PDF ... TXT • segmentácia HTML • Metall Readabilitywebová služba • http://peweproxy.fiit.stuba.sk/metall • hlavná časť stránky (bez menu, reklám) • štatisticky – počet slov, viet, interpunkcia, čiarky, atď. • regulárne výrazy • strojové učenie na príkladoch 10th PeWe Ontožúr

Tokenizácia • Garabík et al., 2004 • token je arbitrárna jednotka textu • akýkoľvek reťazec znakov medzi dvoma medzerami • aj znaky interpunkcie • text = tokeny a medzery • rozdelenie textu na tokeny • prakticky – oddeľovače sú všetky ne-písmená • získame množinu termov • pomlčky? úvodzovky? ... 10th PeWe Ontožúr

Gramáž • n-tice slov • spolu sa vyskytujúce slová • 2-gramy • 3-gramy • 4-gramy • n-gramy • ‘Kráľ drozdia brada’ vs. ‘Kráľ’ – ‘drozd’ – ‘brada’ 10th PeWe Ontožúr

Stop slová • slová bez sémantického významu • predložky, spojky, častice, zámená • krátke a dlhé slová, ktoré sa často vyskytujú • doménovo závislé • PeWe – web, personalizácia • právnici – zákon • slovník pre daný jazyk • N najpočetnejších slov v kolekcii dokumentov 10th PeWe Ontožúr

Lematizácia a stemming • prevod slov na spoločný tvar • v aute, autom, autá auto • lematizácia – prevod na základný tvar (v slovníku) • je platné slovo • ministrovi minister • stemming – prevod na koreň slova • nemusí byť platné slovo • ministrovi minist 10th PeWe Ontožúr

Lematizácia • pomocou slovníka • nefunguje pre slová, ktoré v slovníku nie sú • mená osôb, hudobných skupín, nové hovorové slová • významovo rozličné slová • pier – lema môže byť „pero“ aj „pera“ • štatistické algoritmy • veľka množina dokumentov 10th PeWe Ontožúr

Stemming • slovník • dá sa aj algoritmicky • odstránenie predpôn a prípon • Lovinsovej algoritmus (1968) • jeden prechod, odstránenie najdlhšej prípony, AJ • upraví stem v prípade potreby (zdvojené písmeno, ...) • Porterov algoritmus (1980) • iteratívne odstraňovanie prípon podľa pravidiel • štandard pre AJ 10th PeWe Ontožúr

Reprezentácia dokumentu • vrecezemiakov • bag of words slov 10th PeWe Ontožúr

Reprezentácia dokumentu • vektor termov • každý term má svoju váhu • TF – počet výskytov termu v dokumente / všetky termy • slová však majú rôznu dôležitosť • DF – počet dokumentov, v ktorých sa term vyskytuje • IDF – inverzná DF • idft = log (N / dft) N – počet dokumentov • čím menšia DF, tým významnejšie slovo • TF-IDF – bežne používaná, = tft * idft 10th PeWe Ontožúr

Podobnosť dokumentov • kosínusová podobnosť • cos uhla medzi vektormi • čím menší uhol, tým sú dokumenty podobnejšie • d – dokument • w1i – váha termu i v dokumente d1 (0 – term nie je) 10th PeWe Ontožúr

Kosínusová podobnosť 10th PeWe Ontožúr

Podobnosť dokumentov • euklidovská vzdialenosť • manhattan vzdialenosť • L1 podobnosť • canberra vzdialenosť • Chebyshev vzdialenosť 10th PeWe Ontožúr

Úlohy • Počet rôznych slov v dokumente • Počet viet v dokumente • Najpočetnejšie slovo v dokumente • Najpočetnejšie stop slovo • Najpočetnejšie slovo v kolekcii 10th PeWe Ontožúr

Úlohy • Najpočetnejšie slovné spojenie • 2, 3, 4-gramy • Najviac podobné abstrakty • Najmenej podobné abstrakty 10th PeWe Ontožúr

Text Mining

Text Mining

Presentation Transcript

Text Mining Tools

Text Mining Concepts

Text Mining

Text Mining

Text Mining

Text mining- text analytics- data mining

Text Mining

Text Mining Overview

SQL Text Mining

Text Mining

TEXT MINING (2005)

Contextual Text Mining

Text Mining - Übung

Biomedical text mining

Text Mining

Text Mining

Text Mining

Learning Text Mining

Text Mining

Comparative Text Mining

Text Mining Класификација

Text Mining