1 / 35

Analisis Data Output

Analisis Data Output. Slide terutama diambil dari : “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]. Outline. Pengukuran Central Tendency Mean, Median, Mode Bagaimana merangkum Variabilitas?

kort
Télécharger la présentation

Analisis Data Output

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]

  2. Outline • Pengukuran Central Tendency • Mean, Median, Mode • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

  3. Pengukuran Central Tendency (1) • Sample mean – Jumlah semua hasil observasi dibagi banyaknya observasi • Selalu ada dan unik • Mean memberikan beban yang sama pada semua observasi • Mean sangat dipengaruhi oleh outlier • Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; • # observasi genap – mean dari dua nilai tengah • Selalu ada dan unik • Tidak terpengaruh outlier

  4. Pengukuran Central Tendency (2) mode • Modus sample – plot histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; • Modus mungkin tidak ada (yaitu, semua sample memiliki frekuensi yang sama) • Bisa lebih dari satu (yaitu, bimodal) • Jika hanya ada satu modus, distribusi tersebut adalah unimodal mode mode mode

  5. Pengukuran Central Tendency (3) • Pakah data categorical? • Ya: gunakan modus • Contoh: sumber daya yang paling banyak dipakai dalam sistem • Apakah jumlah total penting? • Ya: gunakan mean • Contoh: total response time untuk Web requests • Apakah distribusi tidak simetris? • Ya: gunakan median • Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean. • Tidak: gunakan mean. Kenapa?

  6. Sistem A Sistem B 10 5 9 5 11 5 10 4 10 31 Mean: 10 10 Modus: 10 5 Min,Max: [9,11] [4,31] Penyalahgunaan Mean yang umum (1) • Kegunaan mean bergantung pada jumlah observasi dan varians • Contoh: dua sample response time: 10 ms and 1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya. • Penggunaan mean tanpa ,mempedulikan ketaksimetrisan

  7. Penyalahgunaan Mean yang umum(2) • Mean suatu hasil kali dengan mengalikan mean • Mean suatu hasil kali sama dengan hasil kali mean jika kedua variabel acak tersebut independen. • Jika x dan y berkorelasi E(xy) != E(x)E(y) • Rata-rata user pada sistem system 23; rata-rata proses/user 2. Rata-rata # proses pada sistem? Apakah sama dengan 46? • Tidak! Umlah proses yang dipakai bersama oleh user bergantung pada beban.

  8. Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

  9. 1.5 s 80% 4 s Frequency 20% Mean=2s 60% ~ 0.001 s ~5 s 40% Frequency Response Time Mean=2s Response Time Merangkum Variabilitas • Merangkum dengan satu bilangan cukup jarang dilakukan • Jika ada dua sistem dengan mean yang sama, kita biasanya memilih yang variabilitasnya lebih rendah • Indeks penyebaran • Range, Varians, 10- dan 90-percentil, Semi-interquantile range, dan mean absolute deviation

  10. Range (kisaran) • Mudah dihitung; range = max – min • Pada banyak skenario, tidak terlalu berguna: • Min mungkin sama dengan nol • Max bisa jadi merupakan “outlier” • Dengan lebih banyak sample, max mungkin terus naik, dan min mungkin terus turun → tidak ada titik “stabil” • Range berguna jika kinerja sistem terbatas

  11. Varians dan Standard Deviasi • Jika ada sample dari n observasi {x1, x2, …, xn}, varians sample dihitung sebagai: • Varians sample: s2 (kuadrat satuan observasi) • Standard deviasi sample: s (dalam satuan observasi) • Perhatikan (n-1) pada perhitungan varians • (n-1) dari n selisih bersifat independen • Jika ada (n-1) selisih, selisih ke-n dapat dihitung • Jumlah independent terms adalah “derajat kebebasan” / degrees of freedom (df)

  12. Standard Deviasi (SD) • Standard deviasi dan mean memiliki satuan yang sama • Lebih baik! • Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? • Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah? • Pengukuran lain yang banyak digunakan – C.O.V • C.O.V = Rasio standard deviasi terhadap mean • C.O.V tidak memiliki satuan • C.O.V menunjukkan besar variabilitas • C.O.V pada (a) adalah 1 dan pada (b) adalah .1

  13. Percentile, Quantile, Quartile • Batas atas dan bawah dinyatakan dalam persen atau pecahan • 90-percentile→0.9-quantile • –quantile: men-sort dan mengambil [(n-1)+1]th observasi • [] mean dibulatkan ke integer terdekat • Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) • 25% dari observasi ≤ Q1 (quartile pertama) • Quartile kedua Q2 juga merupakan median • Range (Q3 – Q1) adalah interquartile range • (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range

  14. Mean Absolute Deviation • Mean absolute deviation dihitung sebagai:

  15. Pengaruh Outlier • Range: besar • Varians sample: besar, tetapi lebih kecil dari range • Mean absolute deviation: lebih kecil dari varians • Tidak mengkuadratkan (memperbesar) outlier • SIQR range: sangat resistant • Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency

  16. Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan Sistem dengan Mengunakan Sample Data • Sample vs. Populasi • Confidence Interval untuk Mean • Membandingkan dua alternatif • Transient Removal

  17. Membandingkan Sistem dengan menggunakan Sample Data • Kata “sample” dan “example” memiliki akar yang sama – “essample” (French) • Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example) • Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem. • Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat. • Konsep Confidence interval (interval kepercayaan) sebagai building block

  18. Sample versus Populasi • Bangkitkan 1-juta bilangan acak • Dengan mean  dan SD  dan letakkan di satu tempat • Anbil sample dari n observasi • {x1, x2, …, xn} memiliki mean , standard deviasi s • mungkin berbeda dari ! • Di dunia nyata, mean populasi  tidak diketahui atau tidak mungkin didapati • Dengan demikian, dapatkan estimasi  dari x x x

  19. Confidence Interval untuk Mean • Definisikan batas c1 dan c2 sedemikian sehingga: Prob{c1 << c2} = 1- • (c1, c2) adalah confidence interval •  adalah significance level • 100(1- ) adalah confidence level • Biasanya diinginkan  yang kecil • confidence level 90%, 95% atau 99% • Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2

  20. Teorema Central Limit (CLT) • Kita tidak membutuhkan banyak sample. Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n)) • SD sample mean  /sqrt(n) disebut Standard error • Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah ( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) • z1-/2 adalah quantil (1-/2) dari unit normal variate (didapat dari tabel!) • s adalah SD sample x x x

  21. Contoh Confidence Interval • Waktu CPU didapat dengan mengulangi eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari • {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} • Mean = 3.9, standard deviasi (s) = 0.95, n=32 • Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)

  22. x 90% kemungkinan bahwa interval ini berisi  x x - c + c Arti Confidence Interval (CI) • Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. • Contoh, Ambil 100 sample dan buat CI. Dalam 10 kasus, interval tidak berisi mean populasi.

  23. Besar Confidence Interval • z1-/2s/sqrt(n) = c • Maka, z1-/2 = (c.sqrt(n))/s • s yang lebih besar menunjukkan confidence interval yang lebih besar • n yang lebih besar menunjukkan confidence interval yang lebih pendek • → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi • → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2. • Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.

  24. Bagaimana jika n tidak besar? • Untuk sample yang lebih sedikit, confidence interval dapat dibuat hanya jika populasi terdistribusi normal • t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)

  25. mean 0 Mean is zero Mean is nonzero Pengujian Zero Mean • Cek apakah nilai yang terukur jauh berbeda dari nol • Tentukan confidence interval • Cek apakah nol ada di dalam interval

  26. Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

  27. Membandingkan Dua Alternatif • Contoh • Penjadwalan “SJF” vs. “FIFO” • Teknik statistik untuk perbandingan seperti ini: • Observasi berpasangan • Observasi tidak berpasangan • Aproksimasi uji visual

  28. Observasi berpasangan (1) • n eksperimen dengan korespondensi satu-satu antara pengujian pada sistem A dengan pengujian pada sistem B • Tidak ada korespondensi => tidak berpasangan • Uji ini menggunakan ide mean nol… • Perlakukan kedua sample sebagai satu sample dengan n pasang • Untuk setiap pasangan, hitung selisihnya • Buat confidence interval untuk selisih • CI termasul nol => sistem tidak banyak berbeda

  29. Observasi berpasangan (2) • Enam beban kerja yang hampir sama digunakan pada dua sistem.{(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik? • Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6} • Sample mean = -.32, sample SD = 9.03 • CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69) • Quantil .95 dari t dengan DF 5 adalah 2.015 • Confidence interval 90% = (-7.75, 7.11) • Sistem tidak berbeda karena mean nol ada dalam CI

  30. mean mean mean Aproksimasi Uji Visual • Hitung confidence interval untuk mean • Jika CI tidak bertumpangan, satu sistem lebih baik dari yang lainnya CI bertumpangan tetapi mean yang satu tidak berada pada CI yang lain => perlu pengujian lagi CI tidak bertumpangan => alternatif berbeda CI betumpangan dan mean yang satu lebih baik dari yang lain => tidak banyak berbeda

  31. Menentukan Ukuran Sample • Tujuan: menentukan ukuran sample n sekecil mungkin sehingga hasil dapat dipercaya • Metode: • himpunan pengukn awal • estimasi varians pengukuran • gunakan estimasi untuk menentukan ukuran sample untuk ketepatan • Akurasi r% => +r% pada confidence 100(1-)%

  32. Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal

  33. Transient Removal • Pada banyak simulasi, diinginkan adanya steady state performance • Buang status transient awal • Bagaimanapun, pendefinisian status transient secara tepat cukup sulit! • Dikembangkan beberapa heuristik : • Long run • Inisialisasi yang layak • Truncation • Penghapusan data awal • Membuang rata-rata replika • Batch mean

  34. Long Run • Penggunaan long run (percobaan yang lama/banyak) • Dampak status transient dapat diabaikan • Penggunaan sumber daya yang sia-sia • Seberapa banyak menjadi “cukup banyak”? • Metode ini diusulkan untuk digunakan secara terpisah

  35. Abaikan Varians Batch mean Transient interval Ukuran batch n Batch Mean • Jalankan simulasi untuk waktu lama • Bagi observasi (N) menjadi m batch, masing-masing dengan ukuran n • Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 … • Plot varians vs. ukuran batch

More Related