370 likes | 568 Views
Analisis Data Output. Slide terutama diambil dari : “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]. Outline. Pengukuran Central Tendency Mean, Median, Mode Bagaimana merangkum Variabilitas?
E N D
Analisis Data Output Slide terutama diambil dari: “The Art of Computer Systems Performance Analysis” by Raj Jain, Wiley 1991. [Chapters 12, 13, and 25]
Outline • Pengukuran Central Tendency • Mean, Median, Mode • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal
Pengukuran Central Tendency (1) • Sample mean – Jumlah semua hasil observasi dibagi banyaknya observasi • Selalu ada dan unik • Mean memberikan beban yang sama pada semua observasi • Mean sangat dipengaruhi oleh outlier • Sample median – daftar hasil observasi dengan urutan naik; hasil observasi yang di tengah adalah median; • # observasi genap – mean dari dua nilai tengah • Selalu ada dan unik • Tidak terpengaruh outlier
Pengukuran Central Tendency (2) mode • Modus sample – plot histogram dari observasi; temukan puncak dengan frekuensi paling besar; titik ini adalah modus; • Modus mungkin tidak ada (yaitu, semua sample memiliki frekuensi yang sama) • Bisa lebih dari satu (yaitu, bimodal) • Jika hanya ada satu modus, distribusi tersebut adalah unimodal mode mode mode
Pengukuran Central Tendency (3) • Pakah data categorical? • Ya: gunakan modus • Contoh: sumber daya yang paling banyak dipakai dalam sistem • Apakah jumlah total penting? • Ya: gunakan mean • Contoh: total response time untuk Web requests • Apakah distribusi tidak simetris? • Ya: gunakan median • Median lebih tidak terpengaruh oleh outlier, dibandingkan dengan mean. • Tidak: gunakan mean. Kenapa?
Sistem A Sistem B 10 5 9 5 11 5 10 4 10 31 Mean: 10 10 Modus: 10 5 Min,Max: [9,11] [4,31] Penyalahgunaan Mean yang umum (1) • Kegunaan mean bergantung pada jumlah observasi dan varians • Contoh: dua sample response time: 10 ms and 1000 ms. Mean adalah 505 ms! Nilai yang benar, tetapi tidak ada gunanya. • Penggunaan mean tanpa ,mempedulikan ketaksimetrisan
Penyalahgunaan Mean yang umum(2) • Mean suatu hasil kali dengan mengalikan mean • Mean suatu hasil kali sama dengan hasil kali mean jika kedua variabel acak tersebut independen. • Jika x dan y berkorelasi E(xy) != E(x)E(y) • Rata-rata user pada sistem system 23; rata-rata proses/user 2. Rata-rata # proses pada sistem? Apakah sama dengan 46? • Tidak! Umlah proses yang dipakai bersama oleh user bergantung pada beban.
Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal
1.5 s 80% 4 s Frequency 20% Mean=2s 60% ~ 0.001 s ~5 s 40% Frequency Response Time Mean=2s Response Time Merangkum Variabilitas • Merangkum dengan satu bilangan cukup jarang dilakukan • Jika ada dua sistem dengan mean yang sama, kita biasanya memilih yang variabilitasnya lebih rendah • Indeks penyebaran • Range, Varians, 10- dan 90-percentil, Semi-interquantile range, dan mean absolute deviation
Range (kisaran) • Mudah dihitung; range = max – min • Pada banyak skenario, tidak terlalu berguna: • Min mungkin sama dengan nol • Max bisa jadi merupakan “outlier” • Dengan lebih banyak sample, max mungkin terus naik, dan min mungkin terus turun → tidak ada titik “stabil” • Range berguna jika kinerja sistem terbatas
Varians dan Standard Deviasi • Jika ada sample dari n observasi {x1, x2, …, xn}, varians sample dihitung sebagai: • Varians sample: s2 (kuadrat satuan observasi) • Standard deviasi sample: s (dalam satuan observasi) • Perhatikan (n-1) pada perhitungan varians • (n-1) dari n selisih bersifat independen • Jika ada (n-1) selisih, selisih ke-n dapat dihitung • Jumlah independent terms adalah “derajat kebebasan” / degrees of freedom (df)
Standard Deviasi (SD) • Standard deviasi dan mean memiliki satuan yang sama • Lebih baik! • Contoh a) Mean = 2 s, SD = 2 s; variabilitas tinggi? • Contoh b) Mean = 2 s, SD = 0.2 s; variabilitas rendah? • Pengukuran lain yang banyak digunakan – C.O.V • C.O.V = Rasio standard deviasi terhadap mean • C.O.V tidak memiliki satuan • C.O.V menunjukkan besar variabilitas • C.O.V pada (a) adalah 1 dan pada (b) adalah .1
Percentile, Quantile, Quartile • Batas atas dan bawah dinyatakan dalam persen atau pecahan • 90-percentile→0.9-quantile • –quantile: men-sort dan mengambil [(n-1)+1]th observasi • [] mean dibulatkan ke integer terdekat • Quartile membagi data menjadi bagian 25%, 50%, 75% → quartile (Q1, Q2, Q3) • 25% dari observasi ≤ Q1 (quartile pertama) • Quartile kedua Q2 juga merupakan median • Range (Q3 – Q1) adalah interquartile range • (Q3 – Q1)/2 adalah semi-interquartile (SIQR) range
Mean Absolute Deviation • Mean absolute deviation dihitung sebagai:
Pengaruh Outlier • Range: besar • Varians sample: besar, tetapi lebih kecil dari range • Mean absolute deviation: lebih kecil dari varians • Tidak mengkuadratkan (memperbesar) outlier • SIQR range: sangat resistant • Gunakan SIQR untuk indeks penyebaran jika median dipakai sebagai indeks central tendency
Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan Sistem dengan Mengunakan Sample Data • Sample vs. Populasi • Confidence Interval untuk Mean • Membandingkan dua alternatif • Transient Removal
Membandingkan Sistem dengan menggunakan Sample Data • Kata “sample” dan “example” memiliki akar yang sama – “essample” (French) • Satu sample tidak membuktikan teori – satu sample hanya merupakan satu contoh (example) • Pada intinya – tidak dapat diberikan pernyataan yang pasti mengenai karakteristik semua sistem. • Bagaimanapun, pernyataan probabilistik mengenai range sebagian besar sistem dapat dibuat. • Konsep Confidence interval (interval kepercayaan) sebagai building block
Sample versus Populasi • Bangkitkan 1-juta bilangan acak • Dengan mean dan SD dan letakkan di satu tempat • Anbil sample dari n observasi • {x1, x2, …, xn} memiliki mean , standard deviasi s • mungkin berbeda dari ! • Di dunia nyata, mean populasi tidak diketahui atau tidak mungkin didapati • Dengan demikian, dapatkan estimasi dari x x x
Confidence Interval untuk Mean • Definisikan batas c1 dan c2 sedemikian sehingga: Prob{c1 << c2} = 1- • (c1, c2) adalah confidence interval • adalah significance level • 100(1- ) adalah confidence level • Biasanya diinginkan yang kecil • confidence level 90%, 95% atau 99% • Satu pendekatan: ambil k sample, cari sample mean, sort, dan ambil ke-[1+0.05(k-1)] sebagai c1 dan ke-[1+0.95(k-1)]th sebagai c2
Teorema Central Limit (CLT) • Kita tidak membutuhkan banyak sample. Confidence interval dapat ditentukan dari satu sample, karena ~ N(, /sqrt(n)) • SD sample mean /sqrt(n) disebut Standard error • Dengan menggunakan CLT, confidence interval 100(1- )% untuk mean populasi adalah ( -z1-/2s/sqrt(n), +z1-/2s/sqrt(n)) • z1-/2 adalah quantil (1-/2) dari unit normal variate (didapat dari tabel!) • s adalah SD sample x x x
Contoh Confidence Interval • Waktu CPU didapat dengan mengulangi eksperimen sebanyak 32 kali. Himpunan yang telah di-sort terdiri dari • {1.9,2.7,2.8,2.8,2.8,2.9,3.1,3.1,3.2,3.2,3.3,3.4,3.6,3.7,3.8,3.9,3.9,4.1,4.1,4.2,4.2,4.4,4.5,4.5,4.8,4.9,5.1,5.1,5.3,5.6,5.9} • Mean = 3.9, standard deviasi (s) = 0.95, n=32 • Untuk confidence interval 90%, z1-/2 = 1.645, dan kita dapatkan {3.90 + (1.645)(0.95)/(sqrt(32))} = (3.62,4.17)
x 90% kemungkinan bahwa interval ini berisi x x - c + c Arti Confidence Interval (CI) • Dengan confidence 90%, kita dapat mengatakan bahwa mean populasi berada dalam batasan ini; yaitu, kemungkinan error adalah 10%. • Contoh, Ambil 100 sample dan buat CI. Dalam 10 kasus, interval tidak berisi mean populasi.
Besar Confidence Interval • z1-/2s/sqrt(n) = c • Maka, z1-/2 = (c.sqrt(n))/s • s yang lebih besar menunjukkan confidence interval yang lebih besar • n yang lebih besar menunjukkan confidence interval yang lebih pendek • → dengan observasi yang lebih banyak, kita dapat melakukan prediksi yang lebih baik terhadap mean populasi • → hubungan akar kuadrat n menunjukkan bahwa penambahan observasi sebesar faktor 4 hanya mengurangi confidence interval dengan faktor 2. • Perhitungan Confidence Interval seperti yang dijelaskan di sini, hanya berlaku untuk n ≥ 30.
Bagaimana jika n tidak besar? • Untuk sample yang lebih sedikit, confidence interval dapat dibuat hanya jika populasi terdistribusi normal • t[1-α/2;n-1] adalah quantil (1-α/2) dari t-variate dengan derajat kebebasan (n-1)
mean 0 Mean is zero Mean is nonzero Pengujian Zero Mean • Cek apakah nilai yang terukur jauh berbeda dari nol • Tentukan confidence interval • Cek apakah nol ada di dalam interval
Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal
Membandingkan Dua Alternatif • Contoh • Penjadwalan “SJF” vs. “FIFO” • Teknik statistik untuk perbandingan seperti ini: • Observasi berpasangan • Observasi tidak berpasangan • Aproksimasi uji visual
Observasi berpasangan (1) • n eksperimen dengan korespondensi satu-satu antara pengujian pada sistem A dengan pengujian pada sistem B • Tidak ada korespondensi => tidak berpasangan • Uji ini menggunakan ide mean nol… • Perlakukan kedua sample sebagai satu sample dengan n pasang • Untuk setiap pasangan, hitung selisihnya • Buat confidence interval untuk selisih • CI termasul nol => sistem tidak banyak berbeda
Observasi berpasangan (2) • Enam beban kerja yang hampir sama digunakan pada dua sistem.{(5.4, 19.1), (16.6, 3.5), (0.6,3.4), (1.4,2.5), (0.6, 3.6) (7.3, 1.7)} Apakah salah satunya lebih baik? • Selisih kinerja adalah {-13.7, 13.1, -2.8, -1.1, -3.0, 5.6} • Sample mean = -.32, sample SD = 9.03 • CI = -0.32 + t[sqrt(81.62/6)] = -0.32 + t(3.69) • Quantil .95 dari t dengan DF 5 adalah 2.015 • Confidence interval 90% = (-7.75, 7.11) • Sistem tidak berbeda karena mean nol ada dalam CI
mean mean mean Aproksimasi Uji Visual • Hitung confidence interval untuk mean • Jika CI tidak bertumpangan, satu sistem lebih baik dari yang lainnya CI bertumpangan tetapi mean yang satu tidak berada pada CI yang lain => perlu pengujian lagi CI tidak bertumpangan => alternatif berbeda CI betumpangan dan mean yang satu lebih baik dari yang lain => tidak banyak berbeda
Menentukan Ukuran Sample • Tujuan: menentukan ukuran sample n sekecil mungkin sehingga hasil dapat dipercaya • Metode: • himpunan pengukn awal • estimasi varians pengukuran • gunakan estimasi untuk menentukan ukuran sample untuk ketepatan • Akurasi r% => +r% pada confidence 100(1-)%
Outline • Pengukuran Central Tendency • Bagaimana merangkum Variabilitas? • Membandingkan sistem dengan menggunakan Sample Data • Membandingkan dua alternatif • Transient Removal
Transient Removal • Pada banyak simulasi, diinginkan adanya steady state performance • Buang status transient awal • Bagaimanapun, pendefinisian status transient secara tepat cukup sulit! • Dikembangkan beberapa heuristik : • Long run • Inisialisasi yang layak • Truncation • Penghapusan data awal • Membuang rata-rata replika • Batch mean
Long Run • Penggunaan long run (percobaan yang lama/banyak) • Dampak status transient dapat diabaikan • Penggunaan sumber daya yang sia-sia • Seberapa banyak menjadi “cukup banyak”? • Metode ini diusulkan untuk digunakan secara terpisah
Abaikan Varians Batch mean Transient interval Ukuran batch n Batch Mean • Jalankan simulasi untuk waktu lama • Bagi observasi (N) menjadi m batch, masing-masing dengan ukuran n • Hitung varians batch mean dengan menggunakan prosedur untuk n = 2, 3, 4, 5 … • Plot varians vs. ukuran batch