R és MapReduce

R és MapReduce „Big Data” elemzési módszerek Kocsis Imre ikocsis@mit.bme.hu 2013.10.09.

MapReduce: a teljes kép Forrás: [1], p 30

MapReduce: a keretrendszer feladatai [1] • „What” és „how” szétválasztása • Job: „kód” • Mapper, reducer, (partitioner, combiner) • Egy kijelölt csomópontnak adjuk ki („JobTracker”) • Ütemezés (scheduling) • „task”-okra szétválasztás; pl bemeneti (k,v) párok blokkja • task-ok csomóponthoz rendelése • Szükség lehet várakozási sorra is! • „stragglers”  spekulatív végrehajtás • map és reduce is a leglassabb task-tól függ • Kulcselolszlásmiatt reduce esetén nem mindenképp megoldás

Kitérő: Zipf eloszlás • Zipf törvénye: természetes nyelvi szövegben (a legtöbb nyelvre, elég nagy korpuszra, …) bármely szó gyakorisága inverz arányos a frekvenciatáblában vett helyezésével (ranking). • „A leggyakoribb háromszor olyan gyakori, mint a harmadik” • k: helyezés, s: paraméter (klasszikusan 1), N: elemek száma

MapReduce: a keretrendszer feladatai [1] • Adat és kód kolokáció • „kódot visszük az adathoz” • Taszk indításnál: helyi  „rack”  „távoli” • Szinkronizáció • Map és Reduce között • „shuffle and sort” (nagy, elosztott GROUP BY key) • Hibakezelés!

Partícionálás és Kombinálás • Legegszerűbb part.: hash(kulcs) mod #reducer • f: kulcs  reducer • Kombinálás: lokális aggregálás • „mini-reducer” • Word count? • Hálózati kommunikáció redukálása • Általánosságban nem „csereszabatos” a reducer-rel

R és funkcionális programozás • Az R-ben ez is van. • Ismerkedjünk meg: • lapply, sapply, tapply, apply, mapply, Reduce, {plyr csomag}, … • ‚foreach’ csomag (doParallel/doMC/doSNOWbackend)

foreach

RHadoop

R és Hadoop? • Miért? • R reuse: nyelv és létező megvalósítások • Vizualizáció!!! • R: létező funkcionális programozási támogatás • Megvalósítások? • RHadoop (github: RevolutionAnalytics/RHadoop), RHIPE, segue, HadoopStreaming, rHadoopClient, … • Kulcs: Streaming API • stdin/stdout: „tetszőleges” futtatható állomány befűzhető map vagy reduce taszknak

Wordcount - Java (Persze ez így nem teljesen fair…) Olvasni: [5]

Wordcount - R rmr.options(backend = "local")!

(R)Hadoop-ot • rmr2 local backend [6] • Kész VM használata [7] • http://vcl.inf.mit.bme.hu !

k-means [6] • Adatpontok: vektortér • Klaszter reprezentációja: súlyponttal / ”középponttal” (vektor-átlag) • : i-edik klaszter reprezentánsa • Minimalizálandó a négyzetes távolságösszeg, mint hiba:

Egy megoldás [8] repr. kezdeti halmaza while változik dofor adott sorrendben do klaszter-indexe ifthen { } return R: kmeans; példa

k-means rmr2/blob/master/pkg/tests/kmeans.R dist.fun= function(C, P){ apply(C, 1, function(x) colSums((t(P) - x)^2))}

k-means: map kmeans.map = function(., P) { nearest = { if(is.null(C)) sample(1:num.clusters,nrow(P), replace = T) else { D = dist.fun(C, P) nearest = max.col(-D)}} if(!(combine || in.memory.combine)) keyval(nearest, P) else keyval(nearest, cbind(1, P))}

k-means: map • Kulcs: P ponthoz legközelebbi klaszter-centrum • C „normál” R objektum • scoping miatt elérhető a map-ben • P: HDFS-ből • Érték: P • Ha még nincsenek klaszter-centrumok: mintavétel visszahelyezéssel • Vektorizáltkeyval ismét • in.memory.combine, combine: nem a mapreduce függvényé!

k-means: reduce kmeans.reduce = { if (!(combine||in.memory.combine)) function(., P) t(as.matrix(apply(P, 2, mean))) else function(k, P) keyval( k, t(as.matrix(apply(P, 2, sum))))}

k-means: reduce • Azonos kulcshoz (középpont) tartozó vektorok átlaga • Azaz: • Map: a legközelebbi klaszterbe sorol (középpont) • Reduce: kialakult új középpontok • Szemlétesen: a középpontokat „tologatjuk” • Beragadhat lokális minimumba! (aut. Megállásnál) • Algoritmust lásd (aut. megállással): [8], p 1422

kmeans.mr: törzs (1)

kmeans.mr: törzs (1) • Iterációk C felüldefiniálásával • Minden menetben mapreduce-szal új középpontok

kmeans-törzs (2)

Regresszió f függvény, • bemenet: az attribútumok értéke, • kimenet: megfigyelések legjobb közelítése • „ökölszabály” • Példa: testtömeg/magasság együttes eloszlás valójában egyenesreilleszthető,

Regressziós módszerek • Alapelv: Véletlen változó Hiba Közelítés Jósolt esemény Megfigyelhető változók • Átlagos hiba (mean error) Becsült érték Mért érték

Lineáris regresszió • Egyszerű lin. függvény illesztése az adatokra • nem vár alapvető változást a rendszer viselkedésében • Legkisebb négyzetek módszere • keressük azokat az a,b paramétereket, amelyekre • cél: minimális (Sum of Squared Errors) minimalizálása

Levezetés (parc. deriválás) Xi, Yi a mért értékpárok (pl. idő, terhelés)

Lineáris regresszió • Legjobban illeszkedő egyenes • , ahol • DE:Anscombe’squartet • Minőségilegkülönbözőadatok • Azonos regressziósegyenes

Lineáris regresszió: általános alak • Solve: • :„design matrix” - tanító-minták a sorok • : „targetlabels”

„Summationform” • és • … és ezek a szummák már párhuzamosíthatóak m-ben.

„Summationform”-ban felírható problémák [9] • LocallyWeightedLinearRegression • NaiveBayes • Gaussian DiscriminativeAnalysis • k-means • Logisticregression • Neuralnetwork • PrincipalComponentAnalysis • Independent ComponentAnalysis • ExpectationMaximization • SupportVectorMachine

„Summationform” • Gradienseket és (stat. modellre nézve) elégséges statisztikákat számító algoritmusok

Hivatkozások • [1] Lin, J., & Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. Synthesis Lectures on Human Language Technologies, 3(1), 1–177. doi:10.2200/S00274ED1V01Y201006HLT007 • [2] http://www.slideshare.net/jeffreybreen/big-data-stepbystep-using-r-hadoop-with-rhadoops-rmr-package • [3] http://www.cloudera.com/content/support/en/downloads.html • [4] http://hortonworks.com/products/hortonworks-sandbox/ • [5] http://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html • [6] http://home.mit.bme.hu/~ikocsis/notes/2013/10/23/(r)hadoop-sandbox-howto/ • [7] http://home.mit.bme.hu/~ikocsis/notes/2013/10/28/rhadoop-sandbox-with-the-cloudera-quickstart-vm/ • [8] Iványi, A. "Informatikaialgoritmusok." ELTE EötvösKiadó, Budapest(2004). • [9] Chu, C. T., Kim, S. K., Lin, Y. A., Yu, Y., Bradski, G. R., Ng, A. Y., & Olukotun, K. (2006). Map-reduce for machine learning on multicore. In B. Schölkopf, J. Platt, & T. Hofmann (Eds.), Advances in Neural Information Processing Systems 19: Proceedings of the 2006 Conference (pp. 281–288). MIT Press.

R és MapReduce

R és MapReduce

Presentation Transcript

Cloud Computing Skepticism

MapReduce Theory, Implementation and Algorithms

Efficient Parallel Set-Similarity Joins Using MapReduce Rares Vernica, Michael J. Carey, Chen Li

Optimizing Iterative MapReduce Jobs

Jimmy Lin The iSchool University of Maryland Tuesday, March 31, 2009

GPPD

MapReduce, GPGPU and Iterative Data mining algorithms

Apache Mahout Feb 13, 2012 Shannon Quinn

MapReduce Design Patterns

Distributed Systems CS 15-440

Data-Intensive Computing with MapReduce

MapReduce , Collective Communication, and Services

Introduction to MapReduce and Hadoop

CS61A Lecture 30 MapReduce

Thilina Gunarathne

Airavat : Security and Privacy for MapReduce

Hadoop 与数据立方原理和实践

Hector Garcia-Molina Zoltan Gyongyi

Cloud Tools Overview

云计算与云数据管理

FutureGrid Services II Using HPC Systems MapReduce & Eucalyptus on FutureGrid

Cloud Computing Skepticism

R és MapReduce

R és MapReduce

Presentation Transcript

Cloud Computing Skepticism

MapReduce Theory, Implementation and Algorithms

Efficient Parallel Set-Similarity Joins Using MapReduce Rares Vernica, Michael J. Carey, Chen Li

Optimizing Iterative MapReduce Jobs

Jimmy Lin The iSchool University of Maryland Tuesday, March 31, 2009

GPPD

MapReduce, GPGPU and Iterative Data mining algorithms

Apache Mahout Feb 13, 2012 Shannon Quinn

MapReduce Design Patterns

Distributed Systems CS 15-440

Data-Intensive Computing with MapReduce

MapReduce , Collective Communication, and Services

Introduction to MapReduce and Hadoop

CS61A Lecture 30 MapReduce

Thilina Gunarathne

Airavat : Security and Privacy for MapReduce

Hadoop 与数据立方 原理和实践

Hector Garcia-Molina Zoltan Gyongyi

Cloud Tools Overview

云计算与云数据管理

FutureGrid Services II Using HPC Systems MapReduce &amp; Eucalyptus on FutureGrid

Cloud Computing Skepticism

Hadoop 与数据立方原理和实践

FutureGrid Services II Using HPC Systems MapReduce & Eucalyptus on FutureGrid