Analisis Data Output

Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]

Outline • Pengukuran Central Tendency • Mean, Median, Mode • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

Pengukuran Central Tendency (1) • Sample mean – Jumlah semua hasil observasi dibagi banyaknya observasi • Selalu ada dan unik • Mean memberikan beban yang sama pada semua observasi • Mean sangat dipengaruhi oleh outlier • Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; • # observasi genap – mean dari dua nilai tengah • Selalu ada dan unik • Tidak terpengaruh outlier

Pengukuran Central Tendency (2) mode • Modus sample – plot histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; • Modus mungkin tidak ada (yaitu, semua sample memiliki frekuensi yang sama) • Bisa lebih dari satu (yaitu, bimodal) • Jika hanya ada satu modus, distribusi tersebut adalah unimodal mode mode mode

Pengukuran Central Tendency (3) • Pakah data categorical? • Ya: gunakan modus • Contoh: sumber daya yang paling banyak dipakai dalam sistem • Apakah jumlah total penting? • Ya: gunakan mean • Contoh: total response time untuk Web requests • Apakah distribusi tidak simetris? • Ya: gunakan median • Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean. • Tidak: gunakan mean. Kenapa?

Sistem A Sistem B 10 5 9 5 11 5 10 4 10 31 Mean: 10 10 Modus: 10 5 Min,Max: [9,11] [4,31] Penyalahgunaan Mean yang umum (1) • Kegunaan mean bergantung pada jumlah observasi dan varians • Contoh: dua sample response time: 10 ms and 1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya. • Penggunaan mean tanpa ,mempedulikan ketaksimetrisan

Penyalahgunaan Mean yang umum(2) • Mean suatu hasil kali dengan mengalikan mean • Mean suatu hasil kali sama dengan hasil kali mean jika kedua variabel acak tersebut independen. • Jika x dan y berkorelasi E(xy) != E(x)E(y) • Rata-rata user pada sistem system 23; rata-rata proses/user 2. Rata-rata # proses pada sistem? Apakah sama dengan 46? • Tidak! Umlah proses yang dipakai bersama oleh user bergantung pada beban.

Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

1.5 s 80% 4 s Frequency 20% Mean=2s 60% ~ 0.001 s ~5 s 40% Frequency Response Time Mean=2s Response Time Merangkum Variabilitas • Merangkum dengan satu bilangan cukup jarang dilakukan • Jika ada dua sistem dengan mean yang sama, kita biasanya memilih yang variabilitasnya lebih rendah • Indeks penyebaran • Range, Varians, 10- dan 90-percentil, Semi-interquantile range, dan mean absolute deviation

Range (kisaran) • Mudah dihitung; range = max – min • Pada banyak skenario, tidak terlalu berguna: • Min mungkin sama dengan nol • Max bisa jadi merupakan “outlier” • Dengan lebih banyak sample, max mungkin terus naik, dan min mungkin terus turun → tidak ada titik “stabil” • Range berguna jika kinerja sistem terbatas

Varians dan Standard Deviasi • Jika ada sample dari n observasi {x1, x2, …, xn}, varians sample dihitung sebagai: • Varians sample: s2 (kuadrat satuan observasi) • Standard deviasi sample: s (dalam satuan observasi) • Perhatikan (n-1) pada perhitungan varians • (n-1) dari n selisih bersifat independen • Jika ada (n-1) selisih, selisih ke-n dapat dihitung • Jumlah independent terms adalah “derajat kebebasan” / degrees of freedom (df)

Standard Deviasi (SD) • Standard deviasi dan mean memiliki satuan yang sama • Lebih baik! • Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? • Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah? • Pengukuran lain yang banyak digunakan – C.O.V • C.O.V = Rasio standard deviasi terhadap mean • C.O.V tidak memiliki satuan • C.O.V menunjukkan besar variabilitas • C.O.V pada (a) adalah 1 dan pada (b) adalah .1

Percentile, Quantile, Quartile • Batas atas dan bawah dinyatakan dalam persen atau pecahan • 90-percentile→0.9-quantile • –quantile: men-sort dan mengambil [(n-1)+1]th observasi • [] mean dibulatkan ke integer terdekat • Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) • 25% dari observasi ≤ Q1 (quartile pertama) • Quartile kedua Q2 juga merupakan median • Range (Q3 – Q1) adalah interquartile range • (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range

Mean Absolute Deviation • Mean absolute deviation dihitung sebagai:

Pengaruh Outlier • Range: besar • Varians sample: besar, tetapi lebih kecil dari range • Mean absolute deviation: lebih kecil dari varians • Tidak mengkuadratkan (memperbesar) outlier • SIQR range: sangat resistant • Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency

Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan Sistem dengan Mengunakan Sample Data • Sample vs. Populasi • Confidence Interval untuk Mean • Membandingkan dua alternatif • Transient Removal

Membandingkan Sistem dengan menggunakan Sample Data • Kata “sample” dan “example” memiliki akar yang sama – “essample” (French) • Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example) • Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem. • Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat. • Konsep Confidence interval (interval kepercayaan) sebagai building block

Sample versus Populasi • Bangkitkan 1-juta bilangan acak • Dengan mean  dan SD  dan letakkan di satu tempat • Anbil sample dari n observasi • {x1, x2, …, xn} memiliki mean , standard deviasi s • mungkin berbeda dari ! • Di dunia nyata, mean populasi  tidak diketahui atau tidak mungkin didapati • Dengan demikian, dapatkan estimasi  dari x x x

Confidence Interval untuk Mean • Definisikan batas c1 dan c2 sedemikian sehingga: Prob{c1 << c2} = 1- • (c1, c2) adalah confidence interval •  adalah significance level • 100(1- ) adalah confidence level • Biasanya diinginkan  yang kecil • confidence level 90%, 95% atau 99% • Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2

Teorema Central Limit (CLT) • Kita tidak membutuhkan banyak sample. Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n)) • SD sample mean  /sqrt(n) disebut Standard error • Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah ( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) • z1-/2 adalah quantil (1-/2) dari unit normal variate (didapat dari tabel!) • s adalah SD sample x x x

Contoh Confidence Interval • Waktu CPU didapat dengan mengulangi eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari • {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} • Mean = 3.9, standard deviasi (s) = 0.95, n=32 • Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)

x 90% kemungkinan bahwa interval ini berisi  x x - c + c Arti Confidence Interval (CI) • Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. • Contoh, Ambil 100 sample dan buat CI. Dalam 10 kasus, interval tidak berisi mean populasi.

Besar Confidence Interval • z1-/2s/sqrt(n) = c • Maka, z1-/2 = (c.sqrt(n))/s • s yang lebih besar menunjukkan confidence interval yang lebih besar • n yang lebih besar menunjukkan confidence interval yang lebih pendek • → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi • → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2. • Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.

Bagaimana jika n tidak besar? • Untuk sample yang lebih sedikit, confidence interval dapat dibuat hanya jika populasi terdistribusi normal • t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)

mean 0 Mean is zero Mean is nonzero Pengujian Zero Mean • Cek apakah nilai yang terukur jauh berbeda dari nol • Tentukan confidence interval • Cek apakah nol ada di dalam interval

Membandingkan Dua Alternatif • Contoh • Penjadwalan “SJF” vs. “FIFO” • Teknik statistik untuk perbandingan seperti ini: • Observasi berpasangan • Observasi tidak berpasangan • Aproksimasi uji visual

Observasi berpasangan (1) • n eksperimen dengan korespondensi satu-satu antara pengujian pada sistem A dengan pengujian pada sistem B • Tidak ada korespondensi => tidak berpasangan • Uji ini menggunakan ide mean nol… • Perlakukan kedua sample sebagai satu sample dengan n pasang • Untuk setiap pasangan, hitung selisihnya • Buat confidence interval untuk selisih • CI termasul nol => sistem tidak banyak berbeda

Observasi berpasangan (2) • Enam beban kerja yang hampir sama digunakan pada dua sistem.{(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik? • Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6} • Sample mean = -.32, sample SD = 9.03 • CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69) • Quantil .95 dari t dengan DF 5 adalah 2.015 • Confidence interval 90% = (-7.75, 7.11) • Sistem tidak berbeda karena mean nol ada dalam CI

mean mean mean Aproksimasi Uji Visual • Hitung confidence interval untuk mean • Jika CI tidak bertumpangan, satu sistem lebih baik dari yang lainnya CI bertumpangan tetapi mean yang satu tidak berada pada CI yang lain => perlu pengujian lagi CI tidak bertumpangan => alternatif berbeda CI betumpangan dan mean yang satu lebih baik dari yang lain => tidak banyak berbeda

Menentukan Ukuran Sample • Tujuan: menentukan ukuran sample n sekecil mungkin sehingga hasil dapat dipercaya • Metode: • himpunan pengukn awal • estimasi varians pengukuran • gunakan estimasi untuk menentukan ukuran sample untuk ketepatan • Akurasi r% => +r% pada confidence 100(1-)%

Transient Removal • Pada banyak simulasi, diinginkan adanya steady state performance • Buang status transient awal • Bagaimanapun, pendefinisian status transient secara tepat cukup sulit! • Dikembangkan beberapa heuristik : • Long run • Inisialisasi yang layak • Truncation • Penghapusan data awal • Membuang rata-rata replika • Batch mean

Long Run • Penggunaan long run (percobaan yang lama/banyak) • Dampak status transient dapat diabaikan • Penggunaan sumber daya yang sia-sia • Seberapa banyak menjadi “cukup banyak”? • Metode ini diusulkan untuk digunakan secara terpisah

Abaikan Varians Batch mean Transient interval Ukuran batch n Batch Mean • Jalankan simulasi untuk waktu lama • Bagi observasi (N) menjadi m batch, masing-masing dengan ukuran n • Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 … • Plot varians vs. ukuran batch

Analisis Data Output

Analisis Data Output

Presentation Transcript

DATA OUTPUT

ANALISIS DATA

Output Data Analysis

Analisis Data Berkala

METODE ANALISIS DATA

ANALISIS DATA

ANALISIS DATA

ANALISIS DATA KATEGORI

ANALISIS DATA BERKALA

Analisis Data Spasial

ANALISIS DATA

ANALISIS DATA

X. ANALISIS DATA

Analisis data

DATA(31:0) – output DATA DATA(32) – output BeginOfEvent DATA(33) – output EndOfEvent

Analisis Input – Output

ANALISIS DATA

Analisis Data Hujan

ANALISIS DATA

Analisis Data Kualitatif

ANALISIS DATA

Analisis Data