160 likes | 254 Views
DATA MINING. 1. Data Mining adalah usaha penemuan pengetahuan di intelejensia buatan ( bidang machine learning ) atau analisis statistik dengan mencari atau menemukan aturan-aturan , pola-pola dan struktur dari himpunan data yang besar. Fungsi Data Mining.
E N D
Data Mining adalahusahapenemuanpengetahuandiintelejensiabuatan (bidangmachine learning) atauanalisisstatistikdenganmencariataumenemukanaturan-aturan, pola-poladanstrukturdarihimpunan data yang besar.
Fungsi Data Mining 1. Fungsi Minor ataufungsitambahan * Deskription (deskripsi) * Estimation (estimasi) * Prediction (prediksi) 2. Fungsi Mayor ataufungsiutama * Classification (klasifikasi) * Clustering (pengelompokan) * Association (asosiasi)
Desciption • DeskripsiGrafis * Diagram Titik * Histogram • DeskripsiLokasi * Rata-rata * Median * Modus * Kuartil, DesildanPersentil • DeskripsiKeberagaman • Range (rentang • VariansdanStandarDeviasi
Estimation • Rata-rata sampelsebagaiestimasi rata-rata populasi • Varianssampelsebagaiestimasivarianspopulasi • StandarDeviasisampelsebagaistandardeviasipopulasi
Prediction • Regresi Linier Sederhana • Regresi Linier Berganda
Classification • Dalamklasifikasi, terdapat target variabelkategori, misalpenggolonganpendapatandapatdipisahkandalambeberapakategori. • Beberapaalgoritmaklasifikasidiantaranyaadalah Mean Vector, K-Nearest Neighbour, C.45, danBayessian.
Data Historis Data historisdisebutjuga data latihanatau data pengalaman, karenadari data tersebutakandidapatlatihanuntukmendapatkanpengetahuan. Data historisjugadisebut data lampau yang merupakan data pengalamanbagi user. Algoritmaklasifikasiakanmenggunakan data latihanuntukpengetahuan yang hendakdihasilkandalamklasifikasi data mining. Data terdiriatasduajenis, yaitu predictor variable/pemrediksidan target variable/tujuan.
AlgoritmaKlasfikasi, CART (Classification and Regression Tres) Langkah-langkahAlgoritmaCART: • Susunlahcaloncabang (candidate split) yang dilakukanterhadapseluruhvariabelprediktor. Daftar yang berisicaloncabangdisebutcaloncabangmutakhir. • Berikanpenilaiankeseluruhancaloncabangmutakhirdenganmenghitungbesaran(s|t) • Tentukancabang yang memilikikesesuaian (s|t). Setelahnoktahkepuusantidakadalagi, algoritma CART dihentikan.
Kesesuaian(goodness) (s|t)daricaloncabang s padanoktahkeputusan t tL = cabang kiri dari noktah keputusan t tR = calon cabang kanan dari noktah keputusan t
Clustering • Pengklusteranmerupakanpengelompokan record, pengamatan, ataumemperhatikandanmembentukkelasobjek-objek yang memilikikemiripan. • Beberapaalgoritmapengelompokkandiantaranyaadalah EM dan Fuzzy C-Means
AlgoritmaPengelompokan K-Means Langkah-langkahalgoritma K-Means: • Tentukanberapakelompok yang akandibuatsebanyak k kelompok. • Secarasembarangpilih k buahcatatan yang adasebagaipusat-pusatkeompokawal. • Setiapcatatanakanditentukanpusatkelompokterdekatnya. • Perbaruipusat-pusatkelompok. • Pusatkelompok yang terdekatpadasetiapcatatanakanditentukan, danseterusnyasampainilairasiotidakmembesarlagi.
RumusJarakduatitik: Between Cluster Variation (BCV): BCV=d(m1,m2)+d(m1,3)+d(m2,m3) Dalamhalini, d(mi,j) menyatakanjarak mikemj Within Cluster Variation (WCV): WCV=(jarakpusattiap cluster yang paling minimum)2
Assosiation • Tugasasosiasi data mining adalahmenemukanatribut yang munculdalamsatuwaktu.
AlgoritmaAsosiasi MBA (Market Basket Analysis) Langkah-langkahalgoritma MBA: • Tetapkanbesaran darikonsepitemsetsering, nilai minimum besaran support danbesaran confidence yang diinginkan. • Menetapkansemuaitemsetsering, yaituitemset yang memilikifrekuensiitemset minimal sebesarbilangansebelumnya. • Dari semuaitemsetsering, hasilkanaturanasosiasi yang memenuhinilai minimum support dan confidence
Support (AB) = P(AB) Confidence(AB) = P(B|A)