1 / 7

Hadoop

Hadoop. Parsovanie n ázvov článkov , presmerovaní , kategórií a názvov kapitól. Popis problémovej oblasti. Apache Hadoop Map Reduce Názov článku <title>N ázov </title> N ázov kapitoly ==N ázov == Kategória [[Category: Kateg ória ]]. Roz šírenia. Pig Mahout Casandra HBase

talib
Télécharger la présentation

Hadoop

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hadoop Parsovanienázvov článkov, presmerovaní, kategórií a názvov kapitól

  2. Popis problémovej oblasti • ApacheHadoop • Map Reduce • Názov článku <title>Názov</title> • Názov kapitoly ==Názov== • Kategória [[Category: Kategória]]

  3. Rozšírenia • Pig • Mahout • Casandra • HBase • Zookeeper

  4. Postup práce • Vytvorenie partície pre operačný systém Linux • Inštalácia Hadoop • Vytvorenie regulárnych výrazov • Implementácia funkcií mapuj a redukuj • Implementácie triedy pre koordináciu prác • Implementácia počítadiel

  5. Testovanie • Hadoop projekt • SaxParserprojekt • Enwikilatestarticelsxml

  6. Výsledky • 3 súbory • Kľúč – hodnota (názov článku – zoznam kategórií)

  7. Vyhodnotenie • Spracovávanie po riadkoch • Mahout • XMLInputFormat • Neošetruje chybu typu, výraz je cez viac riadkov • SAXParser – komplikovanejšia implementácia

More Related