Download
david mare ek n.
Skip this Video
Loading SlideShow in 5 Seconds..
Pavouk - telugština PowerPoint Presentation
Download Presentation
Pavouk - telugština

Pavouk - telugština

135 Vues Download Presentation
Télécharger la présentation

Pavouk - telugština

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. David Mareček Pavouk - telugština

  2. Telugština • Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. • cca 70 miliónů mluvčích • Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F).

  3. Zdroj dat • Výchozí stránka: http://in.telugu.yahoo.com/ • Stránky, které nemají v hlavičce meta tag s kódováním utf-8, se zahazují. • Program během stahování neopustil výchozí stránku.

  4. Parsing • Pro parsování stránky byl použit balík HTML::Parser. • Pro dekódování entit balík HTML::Entities. • Každá stránka rozdělena na odstavce. • Bereme poze ty odstavce, které jsou uvnitř bloku <body> a zároveň nejsou uvnitř bloku <script>.

  5. Zpracování textu • Pro každý odstavec se podle vzorce z přednášky určí podobnost jeho jazyka • Při dostatečné podobnosti (pro telugštinu více jak 0.6) se tento odstavec přidá do korpusu • Hašování obsahu odstavců pomcí CRC (String::CRC), tím zamezíme výskytu shodných odstavců v korpusu

  6. Zpracování linků • Během průchodu stránkou se všechny linky převádějí na absoulutní a ukládají se do pomocného seznamu. • Pokud se z této stránky vložil do korpusu alespoň jeden odstavec, seznam linků se přidá na konec fronty, v opačném případě se zahodí. • Hašování linků pomocí CRC, do fronty se přidávají pouze nenavštívená url.

  7. Korpus • počet odstavců: 11 030 • počet slov: 511 022 • počet znaků (bez mezer): 3 603 193 • velikost 10,6 MB