1 / 17

Efficient Data Processing with HDFS and Hadoop: Key Concepts and Architecture

This overview discusses the use of Hadoop's HDFS (Hadoop Distributed File System) in processing large datasets, focusing on the handling of 1 TB of data across multiple computers. The system's reliability issues, cluster size considerations, and infrastructure demands are addressed, alongside the advantages of using a distributed file system architecture. Key components such as NameNode, DataNode, and the Map/Reduce paradigm are explained, highlighting the effectiveness of Hadoop in modern data management, with references to popular users like Amazon, Facebook, and IBM.

Télécharger la présentation

Efficient Data Processing with HDFS and Hadoop: Key Concepts and Architecture

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HDFS Hadoop Distributed File System

  2. Problem • Chcemyodczytać a następnieprzetworzyć1 TB danych • 1 komputer, 4 dyski, 100Mb/s każdy = 45 min • 10 komputerów, 4 dyski, 100MB/s każdy = 4,5 min • Problemy • Niezawodnośćkomputerów • Wielkośćklastra • Wspólnainfrastruktura (wydajnainiezawodna)

  3. Rozwiązanie - Hadoop • Hadoop Core • Rozproszony system plików • Map/Reduce • Open Source – Apache • Java • Środowiska: Linux, Windows, OS X, Solaris • Start w 2004

  4. “Moving Computation is Cheaper than Moving Data”

  5. HDFS • Zarządzaneprzezjedenwęzeł – transmisja z wieloma • Plikisądzielone • Transparentnie • Typowawielkośćbloków 64 MB (4KB Unix) • Replikowane • Wręczliniowaskalowalność • Dostęppoprzez Java, C, liniękomend • Działanaistniejącymsystemieplików (ext3, ext4, XFS) • Google GFS

  6. Typywęzłów • HDFS • NameNode • DataNode • Map/Reduce • JobTracker • TaskTracker

  7. NameNode • Tylkojeden w klastrze • Utrzymujeinformacje o systemieplików • Single Point of Failure • Dane trzymane w pamięci RAM • Liczbaplików w klastrzeograniczonawielkośćiąpamięci RAM • Secondary NameNode – przechowujekopięmetadanych

  8. DataNode • Wiele w klastrze • Zarządzablokamidanych • Obsługujeklienta • Okresowowysyłazawartośćwęzła do NameNode

  9. Architektura

  10. Block Placement • Domyślnie 3 repliki • Umiejscowienie (Rack Awareness) • Na tymsamymwęźle • W innejszafie • W jeszczeinnejszafie • Dane czytanesą z najbliższegomiejsca • Re-replikacja

  11. Block Placement

  12. Block Placement

  13. Poprawnośćdanych • CRC32 • Tworzeniepliku • Suma kontrolnanakażde 512 bajtów – generowaneprzezklienta • PrzechowywanenaDataNode • Odczytpliku • Dane isumakontrolnaprzesyłana do klienta I weryfikowana • OkresowawalidacjaprzezDataNode

  14. Web UI • NameNode • DataNode • JobTracker

  15. Bonus • Import Checkpoint • Rebalancer • Rack Awareness • Safemode • Fsck • Recovery Mode • Upgrade and rollback • File permissions and security • Scalability • Synthetic Load Generator • WebHDFS REST API

  16. Ktokorzysta • Amazon • Adobe • Alibaba • eBay • Facebook • IBM • Last.fm • LinkedIn • Powerset / Microsoft • Yahoo – 40 tys. Komputerów, 4500 węzłów

  17. A w praktyce…

More Related