470 likes | 693 Views
Outlier P ada Analisis Regresi. By Eni Sumarminingsih , SSi , MM. Pendahuluan. Tujuan dari Analisis Regresi adalah mengepas persamaan pada peubah yang terobservasi Model regresi linier klasik mengasumsikan hubungan berikut : Dimana n adalah ukuran contoh
E N D
Outlier PadaAnalisisRegresi By EniSumarminingsih, SSi, MM
Pendahuluan TujuandariAnalisisRegresiadalahmengepaspersamaanpadapeubah yang terobservasi Model regresi linier klasikmengasumsikanhubunganberikut : Dimana n adalahukurancontoh Variabel xi1, …, xipadalahvariabelpenjelasdanyiadalahvariabelrespon
Padatheoriklasikdiasumsikaneroreimenyebar normal dengan rata – rata noldanragam2 Jadidengananalisisregresikitamenduga parameter Dari data
Denganmenggunakanmetodependugaregresipada data tersebutdidapatkan Dimanaadalahkoefisienregresi adalahnilaiduga y yang didapatdaripersamaanberikut
Residual ridariamatanke I adalahselisihantara y observasidan y dugaan MetodeKuadratTerkecil (MKT) atau Ordinary Least Square (OLS) adalahmetode paling populeruntukmenduga parameter model regresi
Idedasarmetode OLS adalahmencarinilaidugaparamete yang meminimumkanJumlahKuadratGalat
Efek Outlier padaRegresi Linier Sederhana Model Regresi Linier Sederhana Misalkitamemiliki 5 observasi (x1,y1),…, (x5,y5) yang jikadiplotkanakantampaksepertiberikut : setiaptitiksangatdekatdengangarisregresi
Misalkanterdapatkesalahanpenulisan y4, makatitik (x4,y4) akanterletakjauhdarigarisidealnya. Titikinidinamakan outlier dalam y, danmempengaruhigaris LS
Outlier jugadapatterjadidalam X. Berikutadalah plot dari 5 titik (x1,y1), … (x5,y5) berikutgaris LS-nya
Misalkankitamembuatkesalahandalammencatat x1 sehinggamakakitadapatkangambarberikut
Titik (x1,y1) dinamakan outlier dalamarah x danefeknyapadapenduga LS sangatbesarkarenamerubahgaris LS. Titik (x1,y1) disebutleverage point
Perhatikanbahwa (xk,yk) dalamgambarberikutbukan leverage point. Mengapa?
Breakdown Point Misalkanterdapat sample dengan n titik data Dan misalkan T adalahpendugaregresisehingga Misalkan Z’ adalah sample yang didapatdari Z dimana m titikdalam Z digantidengantitik – titik yang sembarang(adakemungkinan outlier)
Notasikan bias(m; T, Z) adalah bias maksimum yang dapatdisebabkanolehkontaminasitersebut Jika bias (m;T, Z) infinite berarti m outlier dapatmemilikiefek yang besarpada T ataudapatdikatakanbahwa estimator “breaks down”
Breakdown point dari estimator T pada sample Z didefinisikansebagai Dengankata lain, break down point adalahproporsikontaminasiterkecil yang dapatmenyebabkan estimator T menghasilkan yang cukupjauhdari T(Z)
Breakdown point untuk MKT (OLS) adalah Karenatelahkitalihatbahwasatu outlier sudahdapatmerubahnilaikoefisienregresi Hal inimenunjukkanbahwa OLS sangatsensitifterhadap outlier
IdentifikasiPencilanpada Y Dalambeberapaanalisisregresiseringkaliditemukanadanyaamatanekstrem, yaitubernilaijauhdenganamatan yang lain dalamsampel Adanyaamatanekstremataupencilaninidapatmenyebabkan residual yang besardanseringkalimemilikiefek yang besarpadadugaanfungsiregresi yang menggunakan OLS sehinggapendugakoefisienregresimenjadi bias danatautidakkonsisten
Pencilanharusditelitidenganhati – hatiapakahsebaiknyaamataninidipertahankanataudihilangkan. Jikadipertahankan, efekpencilaniniharusdikurangi
Suatuamatandapatmenjadipencilanpada Y ataupada X ataupadakeduanya
PendeteksianOutlier Untukpendeteksianpencilan , diperlukansuatumatriks yang dinamakan hat matrix yang dilambangkandenganH
Elemen diagonal darimatriksHmemberikaninformasitentang data observasi yang mempunyainilaileverage yang besar Elemen diagonal ke-idarimatriksH yang dilambangkandenganhiidiperolehdari:
Denganadalahvektorbaris yang berisinilai-nilaidarivariabelbebasatauindependendalampengamatanke-i. Padaelemen diagonal matriksH, diperoleh dimana p adalahbanyaknyapeubahdalam model
Pendeteksianpencilanpada X Jikanilailebihbesardari 2(p+1)/n makapengamatanke-idikatakansebagaioutlier pada X (leverage point).
PendeteksianPencilanpada Y Hipotesis yang digunakanuntukmengujiadalah: H0 : Pengamatanke-ibukanoutlier H1 : Pengamatanke-imerupakanoutlier Statistikujiyang dapatdigunakanuntukmengujiadalahstudentized residual ataustudentized deleted residual yang didefinisikan:
PendeteksianPencilanpada Y Kriteria yang digunakanuntukmengujiadatidaknyaoutlieradalah dimana p adalahbanyaknyavariabelbebasditambahsatu
PendeteksianPengamatanBerpengaruh Pengamatanberpengaruh • merupakanpengamatan yang berpengaruhbesardalampendugaankoefisienregresi • memilikinilaigalatatausisaan yang besarataumungkin pula tidak, tergantungpada model yang digunakan
Metodeuntukmendeteksipengamatanberpengaruh • Cook’s Distance Cook’s Distance merupakanjarakantarapendugaan parameter dengan MKT yang diperolehdari n pengamatanatauobservasiyaitudanpendugaan parameter yang diperolehdenganterlebihdahulumenghapuspengamatanatauobservasike-iyaitu
Hipotesisuntukmengujiadanyapengamatanberpengaruhadalahsebagaiberikut:Hipotesisuntukmengujiadanyapengamatanberpengaruhadalahsebagaiberikut: H0 : Pengamatanke-itidakberpengaruh H1 : Pengamatanke-iberpengaruh kriteria yang digunakanuntukmengujihipotesistersebutadalahsebagaiberikut, alpha = 0.5:
2. The Difference In Fits Statistic (DFITS) Hipotesisuntukmengujiadanyapengamatanberpengaruhadalahsebagaiberikut: H0 : Pengamatanke-itidakberpengaruh H1 : Pengamatanke-iberpengaruh merupakanpengaruhpengamatanatauobservasike-ipadanilaiduga yang didefinisikansebagai
MetodeuntukPenangananPencilan • MetodeTheil Merupakanmetoderegresinonparametrik Tidakterpengaruhterhadapadanya data outlierataupencilan Asumsi: • Contoh yang diambilbersifatacakdankontinyu; • Regresibersifat linier; • Data diasumsikantidakberdistribusi normal.
Misalkanterdapat n pasanganpengamatan, (X1, Y1), (X2, Y2), …, (Xn, Yn), persamaanregresi linier sederhanaadalah: Theil (1950) dalamSprent (1991, hal 179-180) mengusulkanperkiraanslopegarisregresisebagai median slopedariseluruhpasangangarisdarititik-titikdengannilai X yang berbeda
Untuksatupasangan (Xi, Yi) dan (Xj, Yj) slope-nyaadalah untuki < j pendugadinotasikandengandinyatakansebagai median darinilai-nilaisehingga
Penduga M (M-Estimator) denganFungsi Huber PendugaM adalahsolusi (1) Dimana(.)adalahfungsikriteria yang dapatberubah-ubah
UntukmendapatkanpendugakoefisienregresimakafungsikriteriaditurunkandandisamakandengannolUntukmendapatkanpendugakoefisienregresimakafungsikriteriaditurunkandandisamakandengannol DimanaadalahhasildiferensiasidarifungsikriteriadanXijadalahobservasike-ipadaregressorke-j
Bentukumumdaripersamaan (1) adalah Dan bentukumumpersamaan (2) adalah
Dan fungsipengaruhnyaadalah Dengan
Persamaankeduadapatdituliskan Dengan Jikamakapersamaan (2) menjadi
Untukfungsipengaruh Huber, diperlolehpembobotsebagaiberikut :