401 likes | 884 Views
DATA MINING ( Regresi). Nama : Firdaus NIM : 110155201067. Pengertian Regresi.
E N D
DATA MINING (Regresi) Nama : Firdaus NIM : 110155201067
Pengertian Regresi • Sir Francis Galton (1822 – 1911), memperkenalkan model peramalan, penaksiran, ataupendugaan, yang selanjutnyadinamakanregresi, sehubungandenganpenelitiannyaterhadaptinggibadanmanusia. Penelitianinimembandingkanantaratinggianaklaki-lakidantinggibadanayahnya. • Analisisregresidigunakanuntukmenentukanbentuk (dari) hubunganantarvariabel. • Tujuananalisisregresiadalahuntukmeramalkanataumenduganilaidarisatuvariabeldalamhubungannyadenganvariabel yang lain, bentukhubunganinidiketahuidaripersamaangarisregresinya.
Teori Regresi • Banyakanalisisstatistikabertujuanuntukmengetahuiapakahadahubunganantaraduaataulebihpeubah. Bilahubungandemikianinidapatdinyatakandalambentukrumusmatematik, makakitaakandapatmenggunakannyauntukkeperluanperamalan. Masalahperamalandapatdilakukandenganmenerapkanpersamaanregresi. • Istilahregresiberasaldaripengukuran yang dilakukanoleh Sir Francis Galton yang membandingkantinggibadananaklaki- lakidengantinggibadanayahnya. • Galton menunjukkanbahwatinggibadananaklaki – lakidari ayah yang tinggibeberapagenerasicenderungmundur (regressed) mendekatinilaitengahpopulasi. • Sekarangini, istilahregresiditetapkanpadasemuajenisperamalan, dantidakharusberimplikasisuaturegresimendekatinilaitengahpopulasi.
Lingkup Regresi • “Regression” dapatbermakna: • Regression (psychology), a defensive reaction to some unaccepted impulses • Regression analysis, a statistical technique for estimating the relationships among variables. • Beberapatiperegresi: • Regresi Linear • Regresi linear sederhana • RegresiLogistik • Regresi Nonlinear • RegresiNonparametrik • Regresi Robust • Regresi Stepwise.
Analisis Regresi Analisisregresimerupakansalahsatumetodeuntukmenentukanhubungansebab-akibatantarasatuvariabeldenganvariabel (satuataulebihvariabel) lainnya. Variabel "penyebab" disebutdenganbermacam-macamistilah: variabelpenjelas, variabeleksplanatorik, variabelindependen, atausecarabebas, variabel X (karenaseringkalidigambarkandalamgrafiksebagaiabsis, atausumbu X). Variabelakibatmerupakanvariabel yang dipengaruhi, variabeldependen, variabelterikat, atauvariabel Y. Keduavariabelinidapatmerupakanvariabelacak (random), namunvariabel yang dipengaruhiharusselaluvariabelacak. Analisisregresimerupakananalisis yang sangatpopulerdanluaspemakaiannya. Bidangkajianlingkungan yang memerlukananalisissebab-akibatbiasanyajugamenggunakan “analisisregresi”.
Tujuan Analisis Regresi • Membuatestimasi rata-rata dannilaivariabeltergantungdengandidasarkanpadanilaivariabelbebas. • Mengujihipotesiskarakteristikdependensi • Untukmeramalkannilai rata-rata variabelbebasdengandidasarkanpadanilaivariabelbebasdiluarjangkaun sample.
Persyaratan Penggunaan model regresi • Model kelayakanregresi linear didasarkanpadahal-halsebagaiberikut: • Model regresidikatakanlayakjikaangkasignifikansipada ANOVA sebesar < 0.05 • Predictor yang digunakansebagaivariabelbebasharuslayak. Kelayakaninidiketahuijikaangka Standard Error of Estimate < Standard Deviation • Koefesienregresiharussignifikan. PengujiandilakukandenganUji T. Koefesienregresisignifikanjika T hitung > T table (nilaikritis) • Tidakbolehterjadimultikolinieritas, artinyatidakbolehterjadikorelasi yang sangattinggiatausangatrendahantarvariabelbebas. Syaratinihanyaberlakuuntukregresi linier bergandadenganvariabelbebaslebihdarisatu. • Tidakterjadiotokorelasi. Terjadiotokorelasijikaangka Durbin dan Watson (DB) sebesar < 1 dan > 3
Persyaratan Penggunaan model regresi • Keselerasan model regresidapatditerangkandenganmenggunakannilai r2semakinbesarnilaitersebutmaka model semakinbaik. Jikanilaimendekati 1 maka model regresisemakinbaik. Nilai r2mempunyaikarakteristikdiantaranya: 1) selalupositif, 2) Nilai r2maksimalsebesar 1. JikaNilai r2sebesar 1 akanmempunyaiartikesesuaian yang sempurna. Maksudnyaseluruhvariasidalamvariabel Y dapatditerangkanoleh model regresi. Sebaliknyajika r2samadengan 0, makatidakadahubungan linier antara X dan Y. • Terdapathubungan linier antaravariabelbebas (X) danvariabeltergantung (Y) • Data harusberdistribusi normal • Data berskala interval ataurasio • 10.Keduavariabelbersifatdependen, artinyasatuvariabelmerupakanvariabelbebas (disebutjugasebagaivariabel predictor) sedangvariabellainnyavariabeltergantung (disebutjugasebagaivariabel response)
Uji Hipotesis UjiHipotesis Pengujianhipotesisdapatdidasarkandenganmenggunakanduahal, yaitu: tingkatsignifikansiatauprobabilitas (α) dantingkatkepercayaanatauconfidence interval. Didasarkantingkatsignifikansipadaumumnyaorangmenggunakan 0,05. Kisarantingkatsignifikansimulaidari 0,01 sampaidengan 0,1. Yang dimaksuddengantingkatsignifikansiadalahprobabilitasmelakukankesalahantipe I, yaitukesalahanmenolakhipotesisketikahipotesistersebutbenar. Tingkat kepercayaanpadaumumnyaialahsebesar 95%, yang dimaksuddengantingkatkepercayaanialahtingkatdimanasebesar 95% nilai sample akanmewakilinilaipopulasidimana sample berasal. Dalammelakukanujihipotesisterdapatduahipotesis, yaitu: H0 (hipotessisnol) dan H1 (hipotesisalternatif)
Contoh Uji Hipotesis Contohujihipotesismisalnya rata-rata produktivitaspegawaisamadengan 10 (μ x= 10), makabunyihipotesisnyaialah: H0: Rata-rata produktivitaspegawaisamadengan 10 H1: Rata-rata produktivitaspegawaitidaksamadengan 10 Hipotesisstatistiknya: H0: μ x= 10 H1: μ x > 10 Untukujisatusisi (one tailed) atau H1: μ x < 10 H1: μ x ≠ 10 Untukujiduasisi (two tailed) Beberapahal yang harusdiperhatikandalamujihipotesisialah; Untukpengujianhipotesiskitamenggunakan data sample. Dalampengujianakanmenghasilkanduakemungkinan, yaitupengujiansignifikansecarastatistikjikakitamenolak H0 danpengujiantidaksignifikansecarastatistikjikakitamenerima H0. Jikakitamenggunakannilai t, makajikanilai t yang semakinbesarataumenjauhi 0, kitaakancenderungmenolak H0; sebaliknyajikanila t semakinkecilataumendekati 0 kitaakancenderungmenerima H0.
Karakterstik Model yang Baik • Model dikatakanbaikmenurut Gujarati (2006), jikamemenuhibeberapakriteriasepertidibawahini: • Parsimoni: Suatu model tidakakanpernahdapatsecarasempurnamenangkaprealitas; akibatnyakitaakanmelakukansedikitabstraksiataupunpenyederhanaandalampembuatan model. • MempunyaiIdentifikasiTinggi: Artinyadengan data yang ada, parameter-parameter yang diestimasiharusmempunyainilai-nilai yang unikataudengankata lain, hanyaakanadasatu parameter saja. • Keselarasan (Goodness of Fit): Tujuananalisisregresiialahmenerangkansebanyakmungkinvariasidalamvariabeltergantungdenganmenggunakanvariabelbebasdalam model. Olehkarenaitu, suatu model dikatakanbaikjikaeksplanasidiukurdenganmenggunakannilai adjusted r2yang setinggimungkin. • KonsitensiDalamTeori: Model sebaiknyasegarisdenganteori. Pengukurantanpateoriakandapatmenyesatkanhasilnya. • KekuatanPrediksi: Validitassuatu model berbandinglurusdengankemampuanprediksi model tersebut. Olehkarenaitu, pilihlahsuatu model yang prediksiteoritisnyaberasaldaripengalamanempiris.
Hubungan Antara Dua Variabel Hubunganantaraduapeubahtersebutdiatasdapatdinyatakandalambentukmatematissbb: 1. Model regresi linear: Y = a + b X 2. Model regresi non linear: 2.1. Kuadratik : Y = a + bX + c X2 2.2. Eksponensial : Y = a (ecX) atau Y = a (e-cX) 2.3. Asimtotis : Y = a - b(e-cX) 2.4. Logistik : Y = a / (1+b rX).
Regresi Berganda Model regresi yang melibatkanlebihdarisatupeubah independent dinamakan model regresiberganda,. Salahsatucontoh yang populeradalahRegresi Linear Berganda. Aplikasipentingdari model regresiiniialah (i) membuatpersamaandenganbeberapapeubah independent (Xi) yang dapatdigunakanuntukmendugaperilakupeubah independent (Y); dan (ii) menemukanpeubah-peubah independent (Xi) yang berhubungandenganpeubah Y, mengurutkantingkatkepentingannya, danmenginterpretasikanhubungan- hubungan yang ada. Model matematikanyaadalah: Y = a + b1X1 + b2X2 + ........ + bnXn dimana: Y = peubah independent X1 = peubah independent pertama X2 = peubah independent kedua Xn = peubah independent ke n A = intercept b1, b2, bn, ....... = koefisienregresi.
Saran • prinsip yang perlu dipegang dalam pembuatan model adalah prinsip kesederhanaan. Prinsip ini menyukai model yang melibatkan parameter yang lebih sedikit atau dengan demikian jumlah peubah yang lebih sedikit. Peubah-peubah penjelas yang memang mampu memberikan kontribusi dalam pendugaan model saja yang sebaiknya dilibatkan, kecuali ada landasan teori terkait dalam penyusunannya. Sehingga jelas bahwa tahapan pemilihan peubah penjelas merupakan salah satu hal utama dalam melakukan analisis regresi.
Kesimpulan Bilaterdapatsuatu data yang terdiriatasduaataulebihvariabel, adalahsewajarnyauntukmempelajaricarabagaimanavariabel-variabelitusalingberhubungandansalingmempengaruhisatusama lain. Hubungan yang didapatpadaumumnyadinyatakandalambentukpersamaanmatematik yang menyatakanhubunganfungsionalantaravariabel-variabel. Studi yang menyangkutmasalahinidikenaldengananalisisregresi. Analisisregresibertujuanuntuk, pertama, mengestimasiataumendugasuatuhubunganantaravariabel – variabelekonomi, misalnya Y = f(x). Kedua, melakukanperamalanatauprediksinilaivariabelterikat (tidakbebas) atau dependent variable berdasarkannilaivariabelterkait (variabelindependen/bebas). Penetuanvariabelmana yang bebasdanmana yang terkaitdalambeberapahaltidakmudahdilaksanakan. Studi yang cermat, diskusi yang seksama (denganparapakar), berbagaipertimbangan, kewajaranmasalah yang dihadapidanpengalamanakanmembantumemudahkanpenetuankeduavariabeltersebut.