1 / 11

Zpracování informací a znalostí Automatické indexování

Zpracování informací a znalostí Automatické indexování. Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství. Automatická charakteristika obsahu dokumentů. Literatura: Rauch, J.: Metody zpracování informací II, kapitola 5

Télécharger la présentation

Zpracování informací a znalostí Automatické indexování

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zpracování informací a znalostíAutomatické indexování Doc. RNDr. Jan Rauch, CSc. Katedra informačního a znalostního inženýrství

  2. Automatická charakteristika obsahu dokumentů Literatura: • Rauch, J.: Metody zpracování informací II, kapitola 5 • SALTON, G. - McGILL, M.: Introduction to Modern Information Retrieval. Tokyo, McGraw-Hill Book Company Japan 1983, 448 s. • KOWALSKI, J.G. – MAYBURY, M.T.: Information Storage and Retrieval Systems. Theory and Implementation. Kluwer Academic Publishers 2000, 318 s.

  3. Automatická charakteristika obsahu dokumentů • důvody automatické charakteristiky obsahu • vyloučení subjektivity • rostoucí počet dokumentů • jednoduchá indexovací metoda • poznámky - problém specializovaného fondu • modifikace jednoduché indexovací metody • další poznámky

  4. Jednoduchá indexovací metoda Princip: Jestliže se slovo vyskytuje v dokumentu s dostatečnou frekvencí, pak se dokument týká pojmu odpovídajícímu tomuto slovu Vstup: N dokumentů D1,…, DN Výstup: Klíčová slova pro každý dokument

  5. Jednoduchá indexovací metoda - postup 1) Vynechej stop slova. 2) Spočti frekvence zbývajících slov S1, …, SK. Fi,j – frekvence slova Sj v dokumentu Di 3) Zvol prahovou hodnotu P. Sj je klíčové slovo pro Di právě když Fi,j> P

  6. S1 S2 S3 S4 S5 S6 … počítač informace vyhledávání historie systém firma … D1 12 15 9 1 5 0 … D2 11 4 1 13 5 1 … … … … … … … … … D10 000 5 13 8 1 3 15 … Jednoduchá indexovací metoda - příklad Dokumenty:D1 Novák: Vyhledávání informací pomocí počítačů.D2 Kadlec: Historie počítačů. ...D10 000 Kovář: Informace o firmách prahová hodnota P = 6

  7. Jednoduchá indexovací metoda - poznámky • Častý výskyt slova znamená, že dokument se týká tématu odpovídajícího tomuto slovu. • Jestliže se dokument týká tématu odpovídajícího nějakému slovu, pak se toto slovo v dokumentu vyskytuje s velkou frekvencí. • Slova s vysokou frekvencí nemusí rozlišit dokumenty na relevantní a irelevantní. („Počítač" ve fondu informatické literatury).

  8. Modifikace jednoduché indexovací metody Cíl: Klíčová slova • charakterizující obsah • oddělující dokumenty Princip: • vyjádříme stupeň kterým slovo Sj charakterizuje obsah dokumentu Di : Fi,j - frekvence slova Sj v dokumentu Di • vyjádříme stupeň kterým slovo Sj odděluje dokumenty: log (N/DFj ) DFj – počet dokumentů obsahujících Sj • použijeme váhu Wi,j = Fi,j * log (N/DFj ) místo frekvence Fi,j

  9. Modifikovaná jednoduchá indexovací metoda – postup 1) Vynechej stop slova. 2) Spočti váhy Wi,j frekvence zbývajících slov S1, …, SK. Wi,j – frekvence slova Sj v dokumentu Di 3) Zvol prahovou hodnotu P. Sj je klíčové slovo pro Di právě když Wi,j> P

  10. Slovo Sj DFj % N/DFj log(N/DFj ) Fi,j Wi,j Databáze 10 0.1 1 000 3 1 3 2 6 5 15 Uživatel 30 0.3 333.3 2.52 1 2.5 3 7.6 5 12.6 Tiskárna 100 1.0 100 2 1 2 3 6 5 10 Metoda 500 5.0 20 1.3 1 1.3 5 6.5 Počítač 2000 20 5 0.7 1 0.7 9 6.3 Informace 9000 90 1.1 0.15 1 0,1 42 6,1 Váhy slov – příklad N = 10 000, DFj = počet dokumentů se slovem Sj Fi,j = frekvence slova Sj pro dokument Di , Wi,j = Fi,j * log(N/ DFj), práh P = 6

  11. Automatická charakteristika obsahu - další poznámky • Vzít v úvahu délku dokumentu – uvažovat celkový počet slov • Výrazy vyskytující se v mnoha dokumentech nahradit výrazy s užším významem: informace  obchodní informace • Výrazy vyskytující se v málo dokumentech nahradit výrazy s širším významem: algebra  matematika • Nechat u výrazu jeho váhu, umožnit vyjádřit váhu výrazu v dotazu a vzít obě váhy v úvahu při posuzování relevance dokumentu k dotazu • … viz literaturu

More Related