900 likes | 1.65k Views
ANALISIS REGRESI ( REGRESSION ANALYSIS ). Oleh: Agung Priyo Utomo, S.Si., MT.(agung@stis.ac.id) Sekolah Tinggi Ilmu Statistik (STIS). HUBUNGAN ANTAR VARIABEL. REGRESI DAN KORELASI (Keduanya mempelajari hubungan antar variabel). REGRESI
E N D
ANALISIS REGRESI (REGRESSION ANALYSIS) Oleh: Agung Priyo Utomo, S.Si., MT.(agung@stis.ac.id) Sekolah Tinggi Ilmu Statistik (STIS) Agung Priyo Utomo (STIS Jakarta)
HUBUNGAN ANTAR VARIABEL Agung Priyo Utomo (STIS Jakarta)
REGRESI DAN KORELASI(Keduanya mempelajari hubungan antar variabel) REGRESI • Mempelajari bentuk hubungan antar variabel melalui suatu persamaan (RLS, RLB, Regresi non Linear). Hubungan bisa berupa hubungan sebab akibat. • Dapat mengukur seberapa besar suatu variabel mempengaruhi variabel lain • Dapat digunakan untuk melakukan peramalan nilai suatu variabel berdasarkan variabel lain Agung Priyo Utomo (STIS Jakarta)
REGRESI DAN KORELASI(Keduanya mempelajari hubungan antar variabel) KORELASI • Mempelajari keeratan hubungan antar 2 variabel kuantitatif yang bisa dilihat dari besarnya angka, bukan tandanya • Dapat mengetahui arah hubungan yang terjadi (berbanding lurus jika tandanya positif, dan berbanding terbalik jika tandanya negatif) • Nilainya berkisar -1 sampai dengan 1 • Tidak bisa menyatakan hubungan sebab akibat Agung Priyo Utomo (STIS Jakarta)
Korelasi yang tinggi tidak selalu berarti bahwa suatu variabel menyebabkan/mempengaruhi variabel yang lain Contoh: (1) # kematian karena kekeringan di musim panas # soft drink yang dikonsumsi di musin panas High positive correlation Apakah soft drink menyebabkan kematian? (2) Gaji guru dan jumlah $ yang diperoleh dalam penjualan minuman keras. High positive correlation Apakah guru membelanjakan uangnya untuk membeli minuman keras? Agung Priyo Utomo (STIS Jakarta)
DEPENDENT AND INDEPENDENT VARIABLE • Dependent Variable/Variabel Tak Bebas (Y): Variabel yang nilainya ditentukan oleh variabel lain. Diasumsikan bersifat random/stochastic • Independent Variable/Variabel Bebas (X): Variabel yang nilainya ditentukan secara bebas (variabel yang diduga mempengaruhi variabel tak bebas). Diasumsikan bersifat fixed/non stochastic. • Syarat : Y: Berjenis data kuantitatif X: Berjenis data kuantitatif atau kualitatif/kategorik Agung Priyo Utomo (STIS Jakarta)
JENIS DATA UNTUK Y • Data Observasi diperoleh tanpa melakukan kontrol thd var. X tdk kuat menyatakan cause-effect relationships • Data Eksperimen diperoleh dengan melakukan kontrol thd var. X dapat menyatakan cause-effect relationships Agung Priyo Utomo (STIS Jakarta)
Examples • Effect of Car Age on its Price (to what degree can Car Age predict Its Price) • Effect of Woman Age on Her Fertility (to what degree can Woman Age predict Her Fertility level) • Effect of A Person Height on His/Her Weight (to what degree can A Person Height predict His/Her Weight) • Effect of Household Income to Their Consumption Expenditure (to what degree can Household Income predict Their Consumption Expenditure) • Effect of Dow Jones Performance on Darts performance (to what degree can Dow Jones predict Dart performance) Agung Priyo Utomo (STIS Jakarta)
KONSEP DASAR • Pada suatu nilai X tertentu akan tdp banyak kemungkinan nilai-nilai Y (Y akan terdistribusi mengikuti suatu fungsi peluang tertentu Distribusi Normal) dengan Nilai rata-rata E(Y) dan Nilai varians 2 tertentu • Nilai rata-rata E(Y) diasumsikan berubah secara sistematik mengikuti perubahan nilai X, yg digambarkan dalam bentuk garis linier • Nilai varians 2 pada setiap nilai X akan sama Agung Priyo Utomo (STIS Jakarta)
PROSEDUR DALAM ANALISIS REGRESI Identifikasi dan pembentukan model Pendugaan parameter model Pengujian keberartian parameter Penilaian ketepatan model (goodness of fit) dan pemeriksaan asumsi Agung Priyo Utomo (STIS Jakarta)
IDENTIFIKASI MODELContoh Ploting Data Car Age vs Price Scatter plot (diagram pencar) • Berguna utk mengidentifikasi model hubungan antara variabel X dan Y. • Bila pencaran titik-titik pada plot ini menunjukkan adanya suatu kecenderungan (trend) yang linier, maka model regresi linier layak digunakan. Relationship can be represented by line of best fit Agung Priyo Utomo (STIS Jakarta)
KETERANGAN • Ternyata titik-titik (plotting data) tersebut terlihat mengelompok di sekitar garis lurus • Pada scatter plot tersebut, sebenarnya bisa ditarik beberapa garis yang dekat terhadap titik-titik tersebut • Tujuan kita di sini adalah 1. Mencari garis yang paling tepat 2. Melakukan Peramalan 3. Ingin mengetahui hubungan yang terjadi (seberapa besar pengaruh usia keendaraan terhadap harga jualnya) Agung Priyo Utomo (STIS Jakarta)
Beberapa Contoh Model Regresi Linear • First-Order Model with One Predictor Variable • Second-Order Model with One Predictor Variable • Second-Order Model with Two Predictor Variables with Interaction • etc. Agung Priyo Utomo (STIS Jakarta)
Model Regresi Linear Sederhana • Yi = 0 + 1Xi + i (i = 1, 2, …, n) dimana : Yi merupakan nilai dari variabel dependent pada observasi ke-i 0 dan 1 merupakan parameter model i merupakan komponen error (pengaruh variabel bebas lain selain variabel X) Xi adalah nilai variabel bebas X pada observasi ke-i n adalah banyaknya data observasi (sampel) • Note: 0 dan 1 disebut juga koefisien regresi, 0 merupakan intercept dan 1 merupakan slope (gradien garis) yang menyatakan perubahan nilai Y untuk setiap kenaikan satu satuan X Agung Priyo Utomo (STIS Jakarta)
Beberapa Asumsi • Yi (Variabel Tak Bebas/Dependent Variable) merupakan random variable/bersifat stochastic • Xi (Variabel bebas/Independent Variable) bersifat fixed/non stochastic (bukan merupakan random variable) • E(i)= 0 • E(i j) = E(εi2) = 2 untuk i = j (Homoscedastic) • E(i j) = 0 untuk i j (Non autocorrelation) Agung Priyo Utomo (STIS Jakarta)
Beberapa Asumsi (Lanjutan) • i merupakan random variable yang terdistribusi secara bebas dan indentik mengikuti distribusi normal dengan rata-rata 0 dan varian 2 atau biasa dituliskan sebagai i ~ NID(0, 2) iid BAGAIMANA JIKA ADA ASUMSI YANG TIDAK TERPENUHI? BAGAIMANA MENDETEKSINYA? BAGAIMANA MENGUJI? BAGAIMANA ALTERNATIF SOLUSINYA? Agung Priyo Utomo (STIS Jakarta)
Sifat penting dari Yi = 0 + 1Xi + i Nilai Y berisi penjumlahan 2 komponen, yaitu suku konstan (0 + 1Xi) dan suku random (i) Karena E(i)=0, maka E(Yi) = 0 + 1Xi Nilai observasi Y akan berada di sekitar garis regresi (bisa dibawah atau diatas garis), simpangan ini yang disebut dengan error Suku i diasumsikan memiliki varian yg konstan, yaitu 2, sehingga Var(Yi) juga konstan (2). Suku i diasumsikan tidak saling berkorelasi dgj, shg Yi jg tdk saling berkorelasi Yj. Yi berasal dari suatu distribusi peluang dengan rata-rata 0 + 1Xi dan varian 2. Agung Priyo Utomo (STIS Jakarta)
PENDUGAAN/ESTIMASI PARAMETER Agung Priyo Utomo (STIS Jakarta)
Least Squares Criterion • Prinsipnya: Min • Pada model regresi linear sederhana dengan asumsi yang telah diberlakukan, maka dipakai Metode OLS untuk mengestimasi parameter model • Estimasi Parameter • Prediksi/estimasi untuk Y jika nilai X diketahui Agung Priyo Utomo (STIS Jakarta)
CONTOH: REED AUTO SALES Sebagai bagian dari kampanyenya, Reed Auto menggunakan media televisi untuk iklan selama akhir pekan yang lalu. Berikut adalah data dari 5 sampel penjualan. Banyaknya iklan TVJumlah Mobil Terjual 1 14 3 24 2 18 1 17 3 27 Agung Priyo Utomo (STIS Jakarta)
CONTOH: REED AUTO SALES • Kemiringan Persamaan Regresi Estimasi b1 = 220 - (10)(100)/5 = 5 24 - (10)2/5 • Intercept Persamaan Regresi Estimasi b0 = 20 - 5(2) = 10 • Estimasi Persamaan Regresi y = 10 + 5x Interpretasi: Jika banyaknya iklan bertambah 1 kali, maka dapat meningkatkan banyak penjualan mobil sebanyak 5. ^ Agung Priyo Utomo (STIS Jakarta)
CONTOH: REED AUTO SALES • Scatter Diagram 30 25 20 y = 5x + 10 15 Jumlah Mobil Terjual 10 5 0 Banyaknya Iklan TV 0 1 2 3 4 Agung Priyo Utomo (STIS Jakarta)
Example: Relationship between Car Age (X) and its Price (Y) Agung Priyo Utomo (STIS Jakarta)
Prosedur Penghitungan untuk Estimasi Parameter Agung Priyo Utomo (STIS Jakarta)
Regression line and data points for Car Age and Price Data Agung Priyo Utomo (STIS Jakarta)
Sifat-sifat Estimator Least Squares • Jika semua asumsi yang diberlakukan terhadap model regresi terpenuhi, maka menurut suatu teorema (Gauss Markov theorem) estimator tersebut akan bersifat BLUE (Best Linear Unbiased Estimator). • Best = Terbaik, mempunyai varian yang minimum • Linear = Linear dalam Variabel Random Y • Unbiased = Tak bias • Artinya estimator tersebut akan unbiased, linier dan mempunyai varian yang minimum diantara semua estimator unbiased & linier yang lain. Agung Priyo Utomo (STIS Jakarta)
Residual Agung Priyo Utomo (STIS Jakarta)
Inferensi dalam Analisis Regresi • Model Regresi Linear Sederhana Yi = 0 + 1Xi + i Dimana i merupakan random variabel yang terdistribusi NID(0,2) • Contoh: Sebuah Perusahaan, Westwood Company, sedang meneliti tentang hubungan antara jumlah sparepart yang diproduksi (X) dengan jumlah jam kerja yang diperlukan (Y) dari 10 proses produksi terakhir. (Data ada di buku Neter and Wasserman, halaman 40) Agung Priyo Utomo (STIS Jakarta)
INFERENSI TENTANG MODELConfidence Interval dan Uji Hipotesis • Confidence Interval (1-)100% untuk 1 • Pada contoh Westwood Company, diperoleh n = 10 SSE = 60 MSE = 7.5 Sehingga CI 95 % untuk 1 adalah P(1.89 ≤ 1 ≤ 2.11) = 95 % Agung Priyo Utomo (STIS Jakarta)
INFERENSI TENTANG MODELConfidence Interval dan Uji Hipotesis • Uji Hipotesis Tentang 1 a. H0: 1 = 0 b. H0: 1≤ 0 c. H0: 1≥ 0 H1: 1≠ 0 H1: 1 > 0 H1: 1 < 0 Statistik Uji: Keputusan pada tingkat sign. : Tolak H0 jika a. b. c. • Kesimpulan : Jika H0 ditolak, maka dengan tingkat kepercayaan (1- ) 100 %, terdapat hubungan yang linier antara variabel X dan variabel Y (terdapat pengaruh yg signifikan dari variabel X thd variabel Y) Agung Priyo Utomo (STIS Jakarta)
INFERENSI TENTANG MODELConfidence Interval dan Uji Hipotesis • Pada contoh Westwood Co., diperoleh t* = 42.58 t(0.975,8) = 2.306 dan t(0.95,8) = 1.860 • Keputusan? • Kesimpulan? Statistik Uji-t setara dengan Statistik Uji-F Agung Priyo Utomo (STIS Jakarta)
PENDEKATAN ANOVA DALAM ANALISIS REGRESI • Dasar: Partisi dari Sum Squares Total (SST) dan derajat bebas SST SSE SSR Total Sum of Squares Error SS Regression SS df n – 1 n – 2 1 • Rumus untuk penghitungan Agung Priyo Utomo (STIS Jakarta)
ILUSTRASI GEOMETRIS PARTISI JUMLAH KUADRAT Yi Agung Priyo Utomo (STIS Jakarta)
PENDEKATAN ANOVA DALAM ANALISIS REGRESI • Mean Squares (MS): SS dibagi dengan derajat bebasnya • Tabel ANOVA untuk Regresi Linear Sederhana Agung Priyo Utomo (STIS Jakarta)
PENDEKATAN ANOVA DALAM ANALISIS REGRESI • Anova tersebut dapat digunakan untuk menguji H0: 1 = 0 vs H1: 1≠ 0 • Tabel ANOVA untuk Kasus Westwood Company Pada Westwood Co., diperoleh SSR = 13600 dan SSE = 60, sehingga Agung Priyo Utomo (STIS Jakarta)
PENDEKATAN ANOVA DALAM ANALISIS REGRESI • Tabel ANOVA untuk Kasus Westwood Company • Keputusan: Tolak H0 jika F* > F(1-;1, n-2) • Dari tabel F, diperoleh F(0.95;1, 8) = 5,32 • Kesimpulan? Agung Priyo Utomo (STIS Jakarta)
PENILAIAN KETEPATAN MODEL (GOODNESS OF FIT) • Koefisien Determinasi (R2) Mengukur proporsi keragaman total dari nilai observasi Y di sekitar rataannya yang dapat diterangkan oleh garis regresinya atau variabel bebas yg digunakan. • Nilainya: 0 ≤ R2 ≤ 1, makin mendekati 1 berarti model regresi yg digunakan makin tepat/baik Agung Priyo Utomo (STIS Jakarta)
PERAMALAN NILAI RATA-RATA Y (Y|X) PADA X=X0 • E(y) = y|x = 0 + 1x • y = b0 + b1x • Var(y) = var[y+b1(x-x)] • Confidence Interval (1-)100% untuk rata-rata y pada x=x0 adalah ^ _ _ ^ Agung Priyo Utomo (STIS Jakarta)
PERAMALAN NILAI INDIVIDU Y (Yi) PADA X=X0 • yi = 0+ 1xi + i • Berdasarkan n pengamatan, maka yi = b0+ b1xi + i = yi + i • Confidence Interval (1-)100% untuk rata-rata y pada x=x0 adalah ^ Agung Priyo Utomo (STIS Jakarta)
KOEFISIEN KORELASILinear Correlation Coefficient • suatu ukuran yang menyatakan erat tidaknya hubungan linier yang ada antara variable X dan Y, • nilai korelasi dirumuskan sebagai • Nilai koefisien korelasi berkisar -1 sampai 1 (-1 ≤ r ≤ 1) • tanda positif atau negatif dari R sesuai dengan tanda positif atau negatif pada parameter 1 Agung Priyo Utomo (STIS Jakarta)
Various degrees of linear correlation Agung Priyo Utomo (STIS Jakarta)
Various degrees of linear correlation Agung Priyo Utomo (STIS Jakarta)
CONTOH: REED AUTO SALES • KOEFISIEN DETERMINASI R2 = SSR/SST = 100/114 = 0,8772 Artinya: Hubungan regresi sangat kuat karena 88% variasi mobil yang terjual dapat dijelaskan oleh banyaknya iklan TV. • KOEFISIEN KORELASI Agung Priyo Utomo (STIS Jakarta)
KESETARAAN UJI KOEFISIEN REGRESI DAN KOEFISIEN KORELASI • rXY = rYX • Hipotesis H0: β1 = 0 setara dengan H0: ρ = 0 H1: β1 0 H1: ρ 0 • Tolak H0 berarti ada hubungan linier antara variabel X dan Y Agung Priyo Utomo (STIS Jakarta)
KESETARAAN UJI KOEFISIEN REGRESI DAN KOEFISIEN KORELASI (L) • Statistik Uji: • Tolak H0 jika Agung Priyo Utomo (STIS Jakarta)
Example: linear correlation coefficient for Car Age and Price Data Agung Priyo Utomo (STIS Jakarta)
SPSS Printout for one Predictor R2, Percentage of Variance Agung Priyo Utomo (STIS Jakarta)
Error of prediction Is regression Significant? Intercept Slope Agung Priyo Utomo (STIS Jakarta)
MODEL REGRESI LINIER BERGANDA • Model Regresi Linier Berganda yi = 0 + 1xi1 + 2xi2 + … + pxip + i • Persamaan Regresi Linier Berganda E(yi) = 0 + 1xi1 + 2xi2 + … + pxip • Estimasi Persamaan Regresi Linier Berganda yi = b0 + b1xi1 + b2xi2 + … + bpxip dimana yi = variabel tak bebas (response/dependent variable) xi = variabel bebas (predictor/independent variable) ke-i i = suku sisaan (error/residual) i = koefisien regresi dari variabel bebas ke-i ^ Agung Priyo Utomo (STIS Jakarta)