Pemeriksaan Asumsi Sebaran Data

PemeriksaanAsumsiSebaran Data

Do you remember this picture?

PEMERIKSAAN ASUMSI SEBARAN DATA • Polasebaranteoritisuntuk data (Binom, Normal, Eksponensial, Poisson) memegangperananpentingdalamanalisis data terutamamenyangkuttahappendugaan parameter, pengujianhipotesisdanpenetapantarafkepercayaanatautarafnyataataskesimpulan yang akandiambil. • Dari populasi Normal  karakteristikutamaadalahnilai rata-rata danragam. • Pemilihanjenispendugamana yang dianggaplebihbaiksangatdipengaruhiolehperilaku data dankriteria yang dipilih. • Untukpengujianhipotesisbagi data yang berasaldaripolasebaran Normal, pendugakuadratterkecilmemilikikeunggulanteoritisdanrelatifmudahditerapkankarenateknikanalisistelahberkembanglanjut.

Hasilanalisis data yang didasarkanpadaasumsisebarantertentumenjaditidaksahapabilaternyataasumsitersebutsampaibatas-batastertentutidakdapatdipenuhi. • Memeriksakebenaranasumsipolasebaran data  Apakahbetul-betulmengikutipolasebaran normal, dapatdidekatidengansebaran normal atauapakahdapatdiubahmenjadiberpola normal? • Penyimpangandariasumsipolasebaranteoritistidakselalumempunyaidampakbesarterhadaphasilanalisis data, kadang-kadangpengaruhnyakecilsajasehinggadapatdiabaikan.

PEMERIKSAAN DENGAN DIAGRAM KOTAK GARIS YANG DIPERLUAS • Pemeriksaankesesuaianpolasebaran data padaumumnyakitalakukanterhadap data yang telahdiurutkanmenurutbesarnya • Ringkasan 5 angkadapatdiperluaslagimenjadiringkasan 7 angka (denganmenambahkanduaangka “perdelapan”). Ataumenjadiringkasan 9 angka (denganmenambahkanduabuahangka “perenambelas”) • urutan “perdelapan” = ([urutanKuartil]+1)/2 • urutan “perenambelas” = ([urutan “perdelapan”]+1)/2

RINGKASAN 9-ANGKA • Contoh Data : (dibangkitkan dari sebaran normal dengan nilai tengah 20 dan ragam 25) Merupakan perluasan dari tabel ringkasan 5 - angka

DAHAN DAUN FK 5 6 9 1 7 8 9 10 11 12 9 2 13 17 4 14 1469 8 15 18 10 16 689 13 17 33579 18 18 067 21 19 7 22 20 22359 27 21 467 30 22 67 32 23 24 246 35 25 78 37 26 27 39 27 28 1 40 RINGKASAN 9-ANGKA YANG DIHASILKAN Dengan menggantikan lambang-lambang angka ringkasan dengan persentase atau fraksi banyaknya data yang lebih kecil daripada lambang-lambang tersebut didapatkan :

Sehinggasetiaplambangkiniakanmemilikisepasangnilaiyaitufraksidanbesarannyadisajikandibawahini:Sehinggasetiaplambangkiniakanmemilikisepasangnilaiyaitufraksidanbesarannyadisajikandibawahini: • Denganmengambilnilaifraksisebagai x danbesarannyasebai y makakesembilanlambangtersebutdapatdigambarkanmenjadi 9 buahtitikdalam plot x dan y sepertigambarberikut:

“Quantile Box Plot”/plot kotakkuantilmerupakancarasederhanatetapikasaruntukmemeriksapolasebaran data secaranonparametrik • Kumpulan data denganpolasimetrikakanmemperlihatkankecenderunganpotongan-potongangaris yang membentukgarislurus • Adanyapotongangaris yang menaiksecaratajamdiluarkotak E menunjukkankemungkinanpencilan, sedangkankenaikan yang tajamdidalamkotak K dapatmemberikanpetunjukbahwa data tersebutmungkinberasaldariduabuahpopulasi yang berbeda. • Data yang tidakberpolasimetrikakanterlihatdarikecenderunganpotongan-potongangaristersebutmembentukkurvamelengkung.

SOAL : • DATA A • DATA B

A  Digit pada daun adalah angka satuan • BDigit pada daun adalah angka desimal

Plot kotak kuantil untuk masing-masing kumpulan data dapat dilihat pada gambar di samping. Pola sebaran data A yang miring ke kanan sebenarnya sudah dapat dilihat dari diagram dahan daun tetapi pola yang melengkung ini ikut memperjelas adanya ketidaksimetrikan

Perilaku data B sulit kita deteksi karena berdasarkan gambar di samping orang cenderung menyimpulkan bahwa data tersebut simetrik tetapi pola dalam dahan daun menunjukkan adanya dua puncak

PLOT KUANTIL-KUANTIL • Istilahkuantil = istilahpersentil • Misal : jikaditetapkannilaikuantil 0.67 untuksuatukumpulan data, makahaliniberartiada 0.67 bagian data yang nilainyalebihkecildarinilaikuantildan 0.33 bagianlainnyamemilikinilai yang lebihtinggi. Nilaikuantilinidilambangkandengan Q (0.67) • Penetapannilaikuantildapatdilakukanjika data yang kitamilikitelahdiurutkandarikecil-besar. • Untuksuatukumpulan data yi, i = 1, …, n setelahdiurutkanakanmenghasilkankumpulanbaruyaitu y(i)denganpenunjuk (i) adalahnomorurutbesarnya data tersebutdansetiap y(i)adalahnilaikuantili/n • Dalampraktekkitadefinisikankuantilsebagaiberikut: Q (pi) = y(i)untuki = 1, …, n pi = (i-0.5)/n

Alasanpemilihan pi = (i-0.5)/n • Seandainya n = 10 dandigunakani/n maka Q (0.25) akanberadadiantaraurutan ke-2 dan ke-3 yang menyebabkantidakadasatunilaipengamatan pun yang dapatmembagi data tersebutmenjadiduayaitu 0.25 bagiandibawahdan 0.75 bagianatasnya • Kalaukitamenggunakan (i-0.5)/n maka Q(0.25) = y(3) dianggapsetengahnyaberadadibagianbawahdansetengahnyalagidibagianatassehinggatercapaipembagian 0.25 dan 0.75 • ingatbahwa Q (0.25) tidak lain adalahkuartil 1

Plot kuantiladalah plot antaranilai y(i)denganfraksi pi. Plot inilebihterperincidibandingkandengan plot kotakkuantilkarenasemuapengamatanditampilkandalam plot. • Tujuan : • Memeriksakesesuaianpolasebaran data terhadappolasebaranteoritik membandingkanantarakuantil yang didasarkanpada data (kuantilempirik)dengankuantildarisebarantertentu(kuantilteoritik)melalui plot kuantil-kuantilatau plot Q-Q.

f 0.8 0.6 0.4 0.2 -1- -- 2 -- x -2 -1 0 1 4 6 • Polasebaranteoritik yang banyakmelandasianalisis data adalahSebaran Normal • Fungsipeluangsebaran normal: Bentuk Sebaran Normal dicirikan oleh dua paramater: rata-rata () dan ragam (2)

f 0.3413 0.1360 --  -- 0.0213 -1 0 1 2 3 x -2 -3 BENTUK SEBARAN NORMAL BAKU YANG MEMILIKI  = 0 DAN =1 • Catatan : • titik -1 dan +1  titik belok • luas daerah antara titik belok = 2 (0.3413) = 0.6826

Fungsi F(z) dikenalsebagaifungsisebaran Normal Kumulatif. HubungandenganKuantildapatdilihatdibawahini : • Q (0.0014) = -3 • Q (0.0227) = -2 • Q (0.9773) = 2 • Q (0.9986) = 3 • Sehinggasecaraumumdapatdirumuskanbahwa : F {Q (pi) }= pi dan Q (pi) = F-1(pi) • dimana F-1 adalahkebalikanfungsi F dan pi = (i-0.5)/n, pidalamfungsisebarankumulatifberartipeluang. • untukmenghitungluasdaerahdibawahkurva normal bakumelaluitabel.

Prosedur pemeriksaan kenormalan data dengan menggunakan plot Q-Q • Buatstatistikperingkat y(1), …, y(i), …, y(n) • dengan y(1)statistikperingkatpertama (minimum) y(i)statistikperingkatke-i y(n)statistikperingkatke-n (maksimum) • Untuksetiap y(i) ditetapkannilai pi = (i-0.5)/n. Plot antara y(i)dengan piadalahplot kuantilempirik. • Untuksetiap pi, kitatetapkan F-1(pi) = Q (pi) denganbantuantabelsebaran normal baku. Nilai Q (pi) adalahkuantil Normal Baku. Plot antara Q (pi) dan piadalahplot kuantilteoritik • Selanjutnyabuat plot antara y(i)dengan Q (pi) yang merupakan plot kuantil-kuantil

Contoh data :

Pola pencaran titik-titik dalam plot membentuk garis lurus menjadi petunjuk bahwa sebaran data dapat didekati oleh pola sebaran normal

Pola pencaran titik-titik dalam plot cenderung tidak membentuk garis lurus karena titik-titik sebelah kiri maupun kanan cenderung menjauh dari pola garis lurus

Pola pencaran titik-titik dalam plot cenderung tidak membentuk garis lurus karena titik-titik sebelah kiri maupun kanan cenderung menjauh dari pola garis lurus dan membentuk pola sigmoid

Merupakan plot antara kuantil kuantil empirik dengan teoritik yang merupakan plot antara nilai-nilai pada sumbu Y kedua kuantil tersebut

Jika sebaran teoritik dapat merupakan pendekatan untuk pola sebaran data yang kita miliki, maka kuantil empirik tersebut akan memiliki kemiripan dengan kuantil yang didasarkan pada sebaran tertentu dan titik-titik dalam plot akan berkisar di seputar garis y = x. Garis ini menjadi patokan dalam memeriksa kesesuaian pola sebaran data apabila data tersebut telah dibakukan sebelumnya. • Seandainya data belum dibakukan maka garis patokan adalah y =  + x atau y(i) =  +  Q(pi)

Catatan: • Meskipun sebenarnya sebaran data dapat didekati oleh pola sebaran teoritik tertentu, namun keragaman yang terkandung dalam data akan menyebabkan adanya penyimpangan dari pola garis lurus. • Setiap plot kuantil-kuantil hanya memeriksa pola sebaran dari satu peubah saja, sedangkan pola hubungan yang terjadi antara satu peubah dengan peubah lain tidak terdeteksi dalam plot ini. • Plot Q-Q ini umumnya digunakan dalam memeriksa pola dari sisaan setelah dilakukan analisis data.

Pemeriksaan Asumsi Sebaran Data