290 likes | 768 Views
Analisa Data Statistik Chap 14: Regresi Linear Jamak (Multiple Linear Regression). Agoes Soehianie, Ph.D. LATAR BELAKANG.
E N D
Analisa Data StatistikChap 14: Regresi Linear Jamak (Multiple Linear Regression) Agoes Soehianie, Ph.D
LATAR BELAKANG Sering kali ada lebih dari 1 variabel independen (Xk) yang menentukan variabel dependen (Y). Sehingga model Regresi Jamak (Multiple Regression Model) diperlukan. Jikalau hubungan antara Y dan Xk linear maka model disebut Model Regresi Linear Jamak (Multiple Linear Regression Model). Untuk populasi model tsb, berarti nilai rata-rata Y akan diberikan oleh Y = β0 + β1X1 + β2X2 + ….+ βkXk Dan estimasi bagi Y yang diperoleh dari sampel adalah:
MENGHITUNG KOEFISIEN Misalkan dari sampel diperoleh data {Yi, X1i, X2i, …, Xki} untuk i=1,n maka model regresi linear jamaknya adalah: Dengan ei adalah random error. Memakai cara yg sama dengan regresi linear, didefinisikan SSE: Dengan diferensiasi thd b0, b1, dst hasilnya = 0, maka diperoleh satu set sistem persamaan linear bari b0,b1, ….
Persamaan Bagi Koefisien Sistem Persamaan Linear ini diselesaikan dengan metoda yg dikenal, misalnya Eliminasi-Gauss atau Gauss-Jordan, Dekomposisi LU dll
Contoh Sebuah studi tentang emisi NOx dari sebuah truk dilakukan untuk melihat pengaru dari kelembaban, suhu, dan tekanan udara mempengaruhi emisi NOx. Model yg ingin dites adalah: Dengan Y adalah kadar (ppm) dari NOx yg diemisi truk, X1 : kelembaban, X2 : suhu dan X3 : tekanan udara saat percobaan. Y = β0 + β1X1 + β2X2 + β3X3
Matrix SPL bagi Koefisien Y = β0 + β1X1 + β2X2 + β3X3
Tabel Perhitungan Manual Σ Mean
Matrix SPL dan SOlusi = Mb = N Salah satu cara solusi : b =M-1 N M-1 Y = 0.5455 -0.0025X1 – 0.0042X2 + 0.0293X3
Perluasan : Regresi Polinomial • Model multiple regresi linear juga bisa langsung diterapkan untuk model regresi polinomial: Y = b0 + b1x + b2x2+b3x3 + ….+ bnxn Dengan analogi : x = x1 x2=x2 x3 = x3 …. Xn = xn dengan Substitusi ini semua rumus yang dipakai untuk menghitung koefisien b0, b1 dst bisa dipergunakan dengan penyesuaian seperlunya. Soal. Diberikan data berikut X 0 1 2 3 4 5 6 7 8 Y 9.1 7.3 3.2 4.6 4.8 2.9 5.7 7.1 8.8 Buatlah kurva regresi Y thd X jika Y = b0+b1X + b2X2 + b3X3
ANOVA UNTUK REGRESI JAMAK LINEAR Hipotesa yg ingin diperiksa adalah : H0 : β1= β2= β3= β4=… 0 berarti Y tidak bergantung semua Xk H1 : Paling tidak ada 1 nilai βk ≠ 0 Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F: Dengan v1=k dan v2=n-(k+1) dan test 1 ekor bagian atas. Jadi H0 ditolak Jika F > Fkritis
ANOVA: Sumber-sumber Variansi SSTot SSE SSR X : mean (X,Y)
TESTING INVIDUAL KOEFISIEN Untuk masing-masing koefisien, dapat dilakukan test hipotesa H0 : βk = 0 H1 : βk ≠ 0 Dengan mempergunakan variabel test: Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1). Dengan Sbk adalah standard error dari koefisien bk. Perhitungan Sbk secara manual rumit, melibatkan elemen diagonal dari matrix variansi-kovariansi. (Lihat Text Book)
INTERVAL BAGI KOEFISIEN Interval kepercayaan 100(1-α)% bagi koefisien βk adalah: Variabel t ini terdistribusi menurut student-t dengan derajat kebebasan v=n-(k+1).
Contoh. Ym: Y mean Y’: Y Prediksi
Hipotesa Testing (Global) Hipotesa yg ingin diperiksa adalah : H0 : β1= β2= β3=0 berarti Y tidak bergantung semua Xk H1 : Paling tidak ada 1 nilai βk ≠ 0 Untuk memeriksa kebenaran hipotesa ini bisa digunakan F-test, dengan nilai F: Dengan jumlah data n=20 dan jumlah variabel independen k=3
Contoh. Dilakukan multiple regresi linear: Y = b0 + b1X1+ b2X2+ b3X3 Hasilnya adalah: b0 b1 b2 b3 Persamaan Regresinya: Yprediksi= Y = 427.19 – 4.583X1 -14.831X2+ 6.101X3 Dari model ini kemudian bisa dihitung: SStot=SSE+SSR
Contoh. Dari tabel diperoleh: SSE = 41 695 SSR = 171 200 SSTot = 212 916 Banyak data n=20, banyak variabel bebas k=3
Contoh. Dari tabel F untuk v1=3 danv2=16, dan tingkat signifikan α=0.05 Diperoleh nilai kritis F adalah F(3,16) = 3.24. Hasil perhitungan menunjukkan F=21.9. Karena 21.9 > 3.24 maka H0 ditolak, sehingga tidak benar kalau dikatakan bahwa X1, X2 dan X3 seluruhnya tidak menentukan nilai Y.
Koefisien Korelasi Jamak dan Determinasi Jamak Koefisien Determinasi Jamak (Multiple Determination) R2 adalah total variasi data Y yang bisa dijelaskan oleh model regresi, yaitu: Yaitu variansi karena regresi dibagi variasi total. Sedangkan R : koefisien korelasi jamak = Selain itu juga didefinisikan Adjusted R2 R2 selalu bertambah dengan penambahan variabel independen. R2adj memperhitungkan pengaruh ini, sehingga akan “menghukum” overfitted model.
Koefisien Korelasi Jamak dan Determinasi Jamak Dari tabel diperoleh: SSE = 41 695 SSR = 171 200 SSTot = 212 916 Banyak data n=20, banyak variabel bebas k=3 Selain itu juga didefinisikan Adjusted R2 Koefisien adjusted R2 baru berarti bilamana dalam pembentukan model ingin diketahui apakah penambahan variabel independen baru memang memperbaiki model atau tidak.
TESTING INVIDUAL KOEFISIEN Untuk masing-masing koefisien, dapat dilakukan test hipotesa H0 : β1 = 0 H0 : β2 = 0 H0 : β3 = 0 H1 : β1 ≠ 0 H1 : β2 ≠ 0 H1 : β3 ≠ 0 Dari output Excell Sb1 = standard error b1 = 0.772, maka t1 Hasil ini bisa dilihat juga di output Excell tsb (kolom tstat), demikian juga untuk t2 =-3.119 dan t3 = 1.521. Dari Output Excell hal itu bisa secara cepat dilihat pada nilai P-value yang menyatakan luas daerah sebelah kanan nilai t-hitung
TESTING INVIDUAL KOEFISIEN Test ini adalah test 2 ekor dengan derajat kebebasan v=n-(k+1) = 20-(3+1)=16. Untuk tingkat signifikan α = 0.05 maka t0.025 (v=16) = 2.120 (dari tabel). Berarti H0 di tolak jika thitung < -2.12 atau thitung > 2.12. Berarti dari t1 = -5.93 t2 =-3.119 dan t3 = 1.521, H0 ditolak untuk t1, t2 dan diterima untuk t3. Berarti variabel X1 (temp) dan X2(insulasi) memiliki pengaruh signifikan pada biaya Y (cost), sedangkan X3 (age) tidak berkontribusi secara signifikan thd Y(cost).
INTERVAL BAGI KOEFISIEN Interval bagi koefisien βk untuk tingkat kepercayaan 95% dapat juga disusun. Nilai t0.025 =2.12 untuk v=20-(3+1) Hasil tsb juga dapat dilihat pada output Excell. Pada kolom lower95% dan Upper 95%. Terlihat memang interval 95% bagi koefisien Age membentang dari -2.405 hingga 14.607!