Klasifikacija teksta, text mining, information retrieval

Klasifikacija teksta,text mining, information retrieval Ivan Krajnović

Klasifikacija teksta • Svrstavanje dokumenata u jednu ili više unaprijed definiranih kategorija • Imena kategorija su “labele” i samo ime se ne koristi u procesu klasifikacije • Klasifikacija se obično obavlja prema sadržaju, a ne prema indeksima, bibliografskim podacima itd.. (metadata)

Podaci • Da bi klasifikator automatski generirali strojnim učenjem, potreban nam je skup ispravno klasificiranih dokumenata. • Skup obično dijelimo na dva ili tri dijela kako bi imali zaseban skup za učenje, provjeru i konačno testiranje.

Značajke • Elementi koji se pojavljuju unutar ili su generirani iz samog dokumenta i odražavaju sadržaj dokumenta. • Za nas – obično n-dimenzionalni vektor broja ponavljanja riječi ili slično. • Želimo koristiti što manje značajki(smanjiti dimenzionalnost) • koristimo upravo one (interset) značajke koje nam omogućuju raspoznavanje kategorija.

Information Retrieval • Grana koja se bavi organizacijom, indeksiranjem, spremanjem i dohvatom “informacija”. • Cilj je donekle interpretirati dokument (indeksirati ga) i dohvatiti dokumente koje korisnik treba, a ne samo odgovoriti na egzaktni upit (npr. upit u “običnoj” tražilici ili SQL upit).

Text mining • Data mining – izoliranje implicitnih, “ne-očitih” informacija iz velikih količina podataka. Traženje odnosa, trendova.. • Text mining - varijanta data mininga u kojoj podatke čini nestrukturirani tekst.

Povijest • Prvi sistemi za automatsku klasifikaciju teksta se pojavljuju u ’60-ima • Do kasnih ’80-tih, prevladavaju “ručno” napravljeni automatski klasifikatori: • Set klasifikacijskih pravila se stvara ručno, koristeći znanje stručnjaka s obrađivanog područja (ekspertni sustavi)

Povijest • U ’90-tima se počinju primjenjivati tehnike strojnog učenja: • omogućavaju automatsko generiranje klasifikatora učenjem na temelju skupa već klasificiranih dokumenata • Prednosti: • brzo generiranje klasifikatora • nije potrebna pomoć stručnjaka • neovisnost o domeni

Primjena - indeksiranje • Stvaranje indeksa (metadata) za sustave dohvata podataka (Information Retrieval) • Boolean IR sistemi – svakom dokumentu se dodjeljuje skup ključnih riječi (ili fraza) uzetih iz predefiniranog rječnika. • Primjer: baza medicinskih ili drugih stručnih dokumenata koju treba indeksirati radi lakšeg pretraživanja i dohvata.

Primjena - indeksiranje • Problem indeksiranja možemo pretvoriti u problem klasifikacije, ako pojedine ključne riječi shvatimo kao kategorije. • Svakom dokumentu ćemo obično dodijeliti više ključnih riječi – tj. svrstati ga u više kategorija.

Primjena - filtriranje • Filtriranje irelevantnih dokumenata – npr. filtriranje spama, ili izoliranje zanimljivih dokumenata. • Dokumente obično klasificiramo u dvije kategorije - onu koju ćemo zadržati i onu koju ćemo odbaciti. • Moguće je i daljnje razvrstavanje relevantnog dijela u podkategorije.

Primjena - clustering • Klasifikacija dokumenata u unaprijed nepoznate kategorije. • Idealno – identifikacija tema, klasifikacija dokumenata i imenovanje tema. • Jednostavnije – samo grupiranje prema sličnosti.

Primjena – stvaranje sažetaka • Izoliranje ključnih dijelova teksta radi bržeg pregledavanja. (tekst se ne reformulira kao kad ručno pišemo sažetak) • Izolirat ćemo one dijelove teksta koji sadrže najviše interset značajki. • Postoji velik broj komercijalnih programa (između ostalog i Autosummarize ugrađen u MS Word)

Primjena – Information extraction • Odnosi se na izoliranje entiteta, odnosa, osobina – semantičkih elemenata teksta. • Idealno – trebalo bi sintetizirati sažetak ili izvući željenu informaciju iz teksta. • Označavanje dijelova teksta. • Ekstrakcija imena, entiteta i odnosa.

Primjena – analiza značenja riječi • Odnosi se na nalaženje značenja riječi uz zadano pojavljivanje (kontekst) u dokumentu • Na kontekste gledamo kao na dokumente, a značenja riječi su nam kategorije. • Svakom kontekstu pridjeljujemo točno jednu kategoriju

Neke praktične primjene • Policijska istraživanja • Velik broj forenzičkih i drugih izvještaja • Potreba za naprednim pretraživanjem, stvaranjem sažetaka, pronalaženjem veza i entiteta • Korporacije • Pronalaženje trendova • Analiza tržišta • Analiza informacija na vlastitom intranetu

Pretprocesiranje • Da bi za klasifikaciju teksta mogli koristiti neki od standardnih algoritama dokument moramo pretprocesirati. • Za svaki dokument želimo stvoriti n-dimenzionalni vektor značajki (brojeva u nekom rasponu).

Pretprocesiranje • Počinjemo s vektorom indeksa: • Najjednostavnije – vektor broja pojavljivanja pojedinih riječi, obično nakon odbacivanja veznika, prijedloga itd.. • Pokušavalo se koristiti i cijele fraze, no eksperimentalni rezultati nisu pokazali poboljšanja koja bi opravdala ovaj pristup.

Smanjivanje dimenzionalnosti • Zašto ? • Ograničenja opreme – brzina, memorija.. • Želimo da naš klasifikator uspješno generalizira podatke. Pokazalo se da su, kod velikog broja nepotrebnih dimenzija i kod velikog broja iteracija, klasifikatori podložni overfittingu • Overfitting – klasifikator jako dobro nauči set podataka za učenje, ali loše generalizira nove podatke.

Smanjivanje dimenzionalnosti • Lokalno/globalno • Lokalno – svaka kategorija ima svoje odabrane značajke. • Globalno – biraju se zajedničke značajke. • Selekcija/ekstrakcija • Selekcija – bira se podskup početnih značajki. • Ekstrakcija – sintetiziraju se nove značajke (npr. kombinacije riječi, korijeni riječi...)

Tipovi klasifikatora • Parametarski • Podaci za učenje se koriste za određivanje parametara neke statističke raspodjele. (npr. Bayesov klasifikator) • Neparametarski • Linearni klasifikatori – gradi se funkcija čija vrijednost određuje pripadnost kategoriji. • Klasifikatori prema primjeru – skup za učenje se koristi kao skup primjera. Dokument koji treba klasificirati se uspoređuje s njima i klasificira prema sličnosti. (npr. algoritam k-NN )

Ispitivanje • Precision • Vjerojatnost da je klasifikacija slučajnog dokumenta u neku kategoriju točna. • Mjera točnosti. • Recall • Vjerojatnost da smo dokument koji pripada u neku kategoriju tamo i klasificirali. • Mjera kompletnosti.

Klasifikacija teksta, text mining, information retrieval