400 likes | 543 Vues
T εχνολογίες Κατανεμημένου Υπολογισμού ( grid, clouds, supercomputers ). storage/memory. network. computation. Moving to exascale performance. Τι είναι το Grid?. To World Wide Web παρέχει πρόσβαση σε πληροφορίες αποθηκευμένες σε εκατομμύρια διαφορετικές τοποθεσίες ανά τον κόσμο.
E N D
TεχνολογίεςΚατανεμημένου Υπολογισμού (grid, clouds, supercomputers)
storage/memory network computation Moving to exascale performance
ΤιείναιτοGrid? • ToWorldWideWebπαρέχειπρόσβασησεπληροφορίεςαποθηκευμένεςσεεκατομμύριαδιαφορετικέςτοποθεσίεςανάτονκόσμο. • Κατ’αναλογίατοGridείναιμίααναπτυσσόμενηυποδομήπουπαρέχειπρόσβασησευπολογιστικήισχύκαιαποθηκευτικόχώροκατανεμημένασεόλοντονκόσμο.
ΤιείναιτοGrid? • Συλλογήγεωγραφικάκατανεμημένωνετερογενώνπόρων • ΜονάδεςΕπεξεργασίας • ΑποθηκευτικέςΜονάδες • ΑποτελείταιαπόδιασυνδεδεμέναμέσωτουInternet, clusters • Προσφέρειπρόσβασησεέναενιαίοισχυρόεικονικόυπολογιστή • Υποβολήαπότουςχρήστεςμεγάλουπλήθουςεργασιώνχωρίςναενδιαφέρονταιπουθαεκτελεστούν
ΠοιαείναιταχαρακτηριστικάενόςGrid συστήματος? • Οι πόροι ανήκουν σε διαφορετικούς διαχειριστικούς τομείς και διαφορετικούς φορείς • Οι πόροι είναι γεωγραφικά κατανεμημένοι • Οι πόροι χαρακτηρίζονται από μεγάλη ετερογένεια • Ισχύουν διαφορετικές πολιτικές διαχείρισης των πόρων
ΠοιεςείναιοιανάγκεςπουμαςοδήγησανστοGrid?ΠοιεςείναιοιανάγκεςπουμαςοδήγησανστοGrid?
LHC (Large HadronCollider) πείραμα • Το LHC θα φέρει σε σύγκρουση δύο ακτίνες πρωτονίων • Εάν το Higgs μποζόνιου υπάρχει, τότε σίγουρα το LHC θα το βρει! • Διεξαγωγή 4 πειραμάτων με ανιχνευτές • ALICE • ATLAS • CMS • LHCB
ΤιθέλουνοιεπιστήμονεςτουCERN αλλάκαιγενικότερα? • Απεριόριστη υπολογιστική ισχύ • Απεριόριστο αποθηκευτικό χώρο • Αξιόπιστη πρόσβαση σε κοινούς πόρους, δεδομένα, εφαρμογές και αποτελέσματα που προέρχονται από την επεξεργασία των δεδομένων • Δυνατότητα να συνεργάζονται με συναδέλφους απλά, αποτελεσματικά Solution: Grid Computing !!!!!!!!!!!!!!!!!!!
EGEE - EGI • Enabling Grids for E-Science(EGEE) • European Grid Infrastructure • Έργα της Ευρωπαϊκής Ένωσης με σκοπό την δημιουργία πλέγματος (Grid) στην Ευρώπη
HellasGride-Infrastructure • Sites: • HG-01-GRNET • HG-02-IASA • HG-03-AUTH • HG-04-CTI-CEID • ΗG-05-FORTH • HG-06-EKT
HG-04-CTI-CEID site • The HG-04-CTI-CEID siteτέθηκεσελειτουργίατονΦεβρουάριοτου2006 • Τοcluster αποτελείταιαπόδύοracks με64 HP servers. Κάθεserver έχειdual Intel Xeon CPU στα3.4GHz • Υπάρχουν4 HP DL360 servers, κάθεέναςεκτωνοποίωνέχειέναν80GB SCSI σκληρόδίσκο, 2GB RAM καιδύοεπεξεργαστές. Αυτοίοιservers αποτελούνταβασικάτμήματατουsite (management, computing element, storage element, monitoring) • Ταυπόλοιπα60 μηχανήματα(HP DL140 servers) λειτουργούνωςWorking Nodes,κάθεέναςεκτωνοποίωνέχει80GB SATA σκληρόδίσκο, 2GB RAM καιδύοεπεξεργαστές • Τοrack επιπλέονπεριλαμβάνειέναSAN (Storage Area Network) το οποίο ελέγχει 14 SCSI δίσκους (300GB οκαθένας) τουκύριουαποθηκευτικούχώρουκαιέναoptical switchγιατηνδιασύνδεσητωνservers μετονκύριοαποθηκευτικόχώρο • ΗσυνολικήχωρητικότητατουStorage Element είναι4.2TB.
Middleware • Λογισμικό(σύνολοαπόservices) πουοργανώνεικαιενοποιείδιαφορετικούςυπολογιστικούςπόρουςπουανήκουνσεέναGrid • ΤοmiddlewareτουGridκρύβειμεγάλομέροςαπότηνπολυπλοκότητατουGridπεριβάλλοντοςαπότοχρήστηκαιτουδίνειτηνεντύπωσηότιόλοιοιπόροιείναι διαθέσιμοισεαυτόνσεέναενιαίοεικονικόκέντρο • gLite Middleware for Grid Computing
Βασικά υποσυστήματα του glite • Πρόσβαση • ΤοσύστημααπότοοποίοοιχρήστεςυποβάλλουνδιεργασίεςστοGrid • Υπηρεσίες Ασφάλειας • Ασφαλής Πρόσβαση • Χωρισμός των χρηστών σε Virtual Organizations (VO) • Υπηρεσίες Πληροφόρησης και Παρακολούθησης • Συγκέντρωση πληροφοριών σχετικά με τα στατικά και τα δυναμικά χαρακτηριστικά στων πόρων του δικτύου • Παρακολούθηση και Καταγραφή στατιστικών • Globus Monitoring and Discovery Service (MDS) • Relational Grid Monitoring Architecture (RGMA) • Υπηρεσίες Διαχείρισης Εργασιών • Worklod Management System (WMS) • Λαμβάνειτιςεντολέςχρηστώνγιατηνυποβολήμίαςεργασίας • Εξετάζειτουςκαταλόγουςπληροφοριώνγιαναβρειτουςκατάλληλουςυπολογιστικούςπόρουςγιατηνεκτέλεσητηςεργασίας • Computing Element (CE) • ΔιαχειρίζεταιμίαφάρμαομογενώνυπολογιστικώνκόμβωνταοποίαονομάζονταιWorker Nodes • Εκτελείτιςβασικέςσυναρτήσειςτωνουρώναναμονής • Χρησιμοποιείταιγια τηνυποβολήτωνεργασιώνγιαεκτέλεσησταWorker nodes • Παρακολουθείτηνκατάστασηεκτέλεσηςμίαςεργασίας • Υπηρεσίες Διαχείρισης Δεδομένων • Storage Element (SE) • File & Replica Catalog Service • Data Management
Τεχνολογίες σχετικές με τα δίκτυα πλέγματος • Desktop (Volunteer) Grids: • Είναι μια υπολογιστική και αποθηκευτική υποδομή που στηρίζεται στην εθελοντική προσφορά κοινών υπολογιστών, από τους χρήστες τους, με σκοπό την εκτέλεση κατανεμημένων υπολογιστικά εργασίων. • Cloud Computing: • Cloud computing είναι ένα είδος κατανεμημένου υπολογισμού όπου οι πόροι είναι πολλές φορές εικονικοί (virtualized) και επομένως μπορούν να μεταβληθούν σε μέγεθος/πλήθος δυναμικά.
Volunteer Computing – Goodwill Grids BOINC (Berkeley Open Infrastructure for Network Computing) middlware, is an open-source software platform for computing using volunteered resources. SETI@home is a scientific experiment that uses Internet-connected computers in the Search for Extraterrestrial Intelligence (SETI). Folding@home, is a distributed computing project for disease research that simulates protein folding, computational drug design, and other types of molecular dynamics. 'Desktop grid' computing - which uses desktop PCs within an organization - is superficially similar to volunteer computing, but because it has accountability and lacks anonymity, it is significantly different. 20
Cloud Computing • Cloud computing involves distributed computing over a network, where a program or application may run on many connected computers at the same time. • Το Cloud computing παρέχει την δυνατότητα κλιμάκωσης των παρεχόμενων πόρων ανάλογα με τις ανάγκες του χρήστη και/ή της εφαρμογής. • Οι υποδομές Cloud (υπολογιστικές ή αποθηκευτικές) στηρίζονται σε υπολογιστές κοινής χρήσης (desktop)και χρησιμοποιούν εξειδικευμένο λογισμικό για τον διαμοιρασμό των πόρων αυτών, παρέχοντας πλήθος υπηρεσιών μέσο του διαδικτύου. Αντίθετα, οι υποδομές Grid (υπολογιστικές ή αποθηκευτικές) στηρίζονται σε υπολογιστέςμεγάλων δυνατοτήτων. • Η χρήση της Virtualization τεχνολογίαςείναι βασικό συστατικό για την παροχή των παραπάνω δυνατοτήτων. Αντίθετα στις υποδομές Grid όλα τα παραπάνω ρυθμίζονται από τον διαχειριστή των πόρων.
Cloud Computing • Η χρήση της Virtualization τεχνολογίαςείναι βασικό συστατικό για την παροχή των παραπάνω δυνατοτήτων.
Τύποι Cloud Computing • Infrastructure as a Service (IaaS) ένας χρήστης αγοράζει πρόσβαση σε υπολογιστικούς και αποθηκευτικούς πόρους, μέσω του διαδικτύου. Αν χρειαστεί περισσότερους πόρους μπορεί να τους αγοράσει. • Software as a Service (SaaS) η χρήση μιας εφαρμογής που δεν τρέχει τοπικά στον υπολογιστή του χρήστη αλλά σε κάποιο απομακρυσμένο μηχάνημα.. • Platform as a Service (PaaS) η ανάπτυξη εφαρμογών χρησιμοποιώντας Web-based εργαλεία, τα οποία τρέχουν υλικό και λογισμικό που παρέχεται από έναν τρίτο.
Amazon Web Services • Amazon Web Services είναι ένα πολύ γνωστό παράδειγμα Infrastructure as a Service (IaaS). • Παρέχει πρόσβαση σε υπολογιστικούς, αποθηκευτικούς και δικτυακούς πόρους. • Ο χρήστης πληρώνει μόνο για τους πόρους που χρησιμοποιεί (π.χ., CPU/per hour of use, MB/per hour of use κτλ) • Π.χ. η Amazon Elastic Compute Cloud (Amazon EC2™) είναι μία δικτυακή υπηρεσία που παρέχει μεταβλητή υπολογιστική δύναμη σε μία διεργασία. Συγκεκριμένα ο χρηστης: • Επιλέγει το περιβάλλον μέσα στο οποίο θα τρέχει η εργασία του (π.χ. λειτουργικό συστημα, απαιτούμενες βιβλιοθήκες κ.α.) δημιουργώντας ένα Amazon Machine Image (AMI) • Καθοριζει θέματα ασφάλειας και δικτυακής πρόσβασης • Εκκινεί το περιβάλλον μέσα στο οποίο τρέχει την ή τις εργασίες που επιθυμεί • Πληρώνει μόνο για τους πόρους που χρησιμοποιεί. • Π.χ. Amazon Simple Storage Service (Amazon S3™) είναι μία δικτυακή υπηρεσία μέσω της οποίας ένας χρήστης μπορεί να αποθηκεύσει και να ανακτήσει μεγάλες ποσότητες δεδομένων οποιαδήποτε στιγμή και από οπουδήποτε.
Data Centers (DCs) • Large scale applications • webmail, websearch, facebook, youtube • Cloud computing • Amazon EC2, Microsoft Azure Facebook’s data centers store more than 40 billion photos, and users upload 40 million new photos each day, ~ 2,000 photos every second Warehouse-scale computers Based on Clusters: Commodity (not high-end) hardware Wide variety of applications
Mega DC and modular units • Mega Data Centers: 500,000+ servers • Modular DC – quick deployment • Unit packaged (often) in standard shipping container formats (called pods) • Contains: ~2000 servers, storage, network
Supercomputers (SCs) • Special purpose high-end systems • High Performance Computing (HPC) applications Quantum physics, weather forecasting, climate research, Oil and gas exploration, molecular modeling, physical simulations • Dedicated execution mode vs. virtualized services in the Cloud
Top 500 Twice-a-year list of the Top 500 documents the most powerful systems on the planet http://top500.org/ Fastest system: K Supercomputer - 10.51 PFLOPs 864 racks , 88,128 2.0GHz 8-core SPARC64 VIIIfx processors 705,024 cores
Clusters and Supercomputers • Clusters have dominated the Top500 list (~80%) • Clusters: cheaper, decent performance • SCs: top systems in Top500, but expensive
Exascale Roadmap Challenges: – Power & Cost – Concurrency – Memory Capacity – Resiliency – Interconnects “Data Movement Not Flops, is the Bottleneck to Performance” Al Geist in Paving the Roadmap to Exascale, SciDAC Review 2010
Interconnection Networks • Network that connects the processing elements of the large computing system together • Multi-layer network • On chip - Distance order: mm • On board - Distance order: cm • Server-to-server (LAN) Distance order: cm, m, km • Focus on server-to-server interconnects
Interconnection Networks: Data Center topology In the front-end: route the request to the appropriate server. Top Of Rack switch 1 Gbps links Servers (up to 48) as blades • Most of the current data centers: based on commodity switches for the interconnection network. • Fat-tree 2-Tier or 3-Tier architecture • Fault tolerant (e.g. a ToR switch is usually connected to 2 or more aggregate switches) • Drawbacks: • High power consumption of switches and high number of links required. • Latency (multiple store-and-forward processing).
Optical Interconnects Solution: optical interconnects Q: where to attach the optics?A: Wherever possible. As close to as possible to the processor Critical issues: Cost, Reliability, Performance
Inter-DC connectivity • Resource management / Load balancing, in order to spread resource usage more uniformly across the available datacenters • Maintenance, in order to perform various tasks in datacenter’s infrastructure without affecting the provided services. • Disaster Recovery, in order to handle any failure in a single data-center