470 likes | 669 Views
Pertemuan X DATA MINING. 1. Apa Data Mining?. Data mining ( pencarian pengetahuan dari data) Mengekstrak secara otomatis pola atau pengetahuan yang menarik ( tidak sederhana , tersembunyi , tidak diketahui sebelumnya , berpotensi berguna ) dari data dalam jumlah sangat besar.
E N D
Apa Data Mining? • Data mining (pencarianpengetahuandari data) • Mengekstraksecaraotomatispolaataupengetahuan yang menarik (tidaksederhana, tersembunyi, tidakdiketahuisebelumnya, berpotensiberguna) dari data dalamjumlahsangatbesar.
Data Mining adalahusahapenemuanpengetahuandiintelejensiabuatan (bidangmachine learning) atauanalisisstatistikdenganmencariataumenemukanaturan-aturan, pola-poladanstrukturdarihimpunan data yang besar.
Mengapa Data Mining:Banjir Data • Twitter: 8000an tweet per detik 600 juta tweet per hari. • Facebook: 30 milyar item (link, status, note, fotodst) per bulan. 500 juta user menghabiskan 700 milyarmenit per bulandisitus FB. • Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 jutatransaksi per hari se Indonesia. • Kartukredit visa: berlakudi 200 negara. 10 ributransaksi per detik 850 jutatransaksi per hari.
ApaDatamining? • Namaalternatif: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence dsb • Keuntunganbagiorganisasi yang menerapkan data mining?
KeuntunganDatamining • Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya. • Meramalkan masa depan perusahaan dapat mempersiapkan diri
Contoh: Midwest grocery chain menggunakan DM untukmenganalisisipolapembelian: saatpriamembelirotidihariKamisdanSabtu, merekajugamembeliminuman. Analisislebihlanjut: pembeliinibelanjadiharikamisdansabtu, tapidiharikamisjumlah item lebihsedikit. Kesimpulan yang diambil: pembelimembeliminumanuntukdihabiskansaat weekend. Tindaklanjut: menjualminumandenganharga full dihariKamisdanSabtu. Mendekatkanposisirotidanminuman.
Lanjutan.. CONTOH KASUS : JikaAndamempunyaikartukredit, sudahpastiAndabakalseringmenerimasuratberisibrosurpenawaranbarangataujasa. Jika Bank pemberikartukreditAndamempunyai 1.000.000 nasabah, danmengirimkansebuah (hanyasatu) penawarandenganbiayapengirimansebesarRp. 1.000 per buahmakabiaya yang dihabiskanadalahRp. 1 Milyar!! Jika Bank tersebutmengirimkanpenawaransekalisebulan yang berarti 12x dalamsetahunmakaanggaran yang dikeluarkan per tahunnyaadalahRp. 12 Milyar!! Dari danaRp. 12 Milyar yang dikeluarkan, berapapersenkahkonsumen yang benar-benarmembeli? Mungkinhanya 10 %-nyasaja. Secaraharfiah, berarti 90% daridanatersebutterbuangsia-sia.
Lanjutan.. • Dari contohkasusdiatasmerupakansalahsatupersoalan yang dapatdiatasioleh data mining darisekianbanyakpotensipermasalahan yang ada. Data mining dapatmenambang data transaksibelanjakartukredituntukmelihatmanakahpembeli-pembeli yang memangpotensialuntukmembeliproduktertentu. Mungkintidaksampaipresisi 10%, tapibayangkanjikakitadapatmenyaring 20% saja, tentunya 80% danadapatdigunakanuntukhallainnya.
Arsitektur dan Model Data Mining Contoh • Prosesuntukmenemukan model ataufungsi yang menjelaskanataumembedakankonsepataukelas data dengantujuanuntukdapatmemprediksikelasdarisuatuobjek yang labelnyatidakdiketahui • Contoh : MendeteksiPenipuan • Tujuan : Memprediksikasuskecurangantransaksikartukredit. • Pendekatan : • Menggunakantransaksikartukreditdaninformasidilihatdariatribut account holder • Kapancutomermelakukanpembelian, Dengancaraapa customer membayar, sebarapasering customer membayarsecaratepatwaktu, dll • Berinama/tandatransaksi yang telahdilaksanakansebagaitransaksi yang curangatau yang baik. Inisebagaiatributklass ( the class attribute.) • Pelajari model untuk class transaksi • Gunakan model iniuntukmendeteksikecurangandenganmenelititransaksikartukreditpada account.
ContohAplikasi Bank me-mining transaksi customer untukmengidentifikasi customer yang kemungkinanbesartertarikterhadapprodukbaru. Setelahteknikinidigunakan, terjadipeningkatan20 kali lipatpenurunanbiayadibandingkandengancarabiasa.
Contoh Aplikasi Perusahaan transportasimemining data customer untukmengelompokkan customer yang memilikinilaitinggi yang perludiprioritaskan.
Data Mining padaIndustri Retail • Industri Retail: besarnya data penjualan, sejarahbelanjapelanggan, dan lain-lain • Aplikasidari Retail data mining • Mengidentifikasiperilakupembelianpelanggan • Menentukankecenderunganpolabelanjapelanggan • Meningkatkanmutudarilayananpelanggan • Mencapaikepuasanpelanggan • Tingkatkanperbandingankonsumsibarang-barang • Mendisainkeefektifandistribusidantransportasibarang
Knowledge Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Pembersihan Data Data Integration Databases ProsesDatamining
Data Mining dan Business Intelligence Semakin mendukung pengambilan keputusan End User PengambilanKeputusan Business Analyst Presentasi Data Teknik Visualiasi Data Mining Data Analyst Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses DBA Sumber Data Database, Web, Paper, Files, Web, eksperimen
Data Mining: Multi DisiplinIlmu Teknologi DB Statistik Data Mining Visualisasi Machine Learning Pattern Recognition Ilmu Lain Algoritma
Mengapatidakanalisis data biasa? • Jumlah data yang sangatbesar • Algoritmaharus scalable untukmenangani data yang sangatbesar (tera) • Dimensi yang sangatbesar: ribuan field • Data Kompleks • Aliran data dan sensor • Data terstruktur, graph, social network, multi-linked data • Database dariberbagaisumber, database lama • Spasial (peta), multimedia, text, web • Software Simulator
Data Mining dariberbagaisudutpandang • Data • Relational, datawarehouse,web, transactional, stream, OO, spacial, text, multimedia • Pengetahuan yang akanditambang • Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier • Teknik • Database, OLAP, machine learning, statistik, visualiasi • Penerapan • Retail, telekomunikasi, banking, analisiskejahatan, bio-data mining, saham, text mining, web mining
Model dalam Data Mining • Verification Model • Model inimenggunakan (hypothesis) daripengguna, danmelakukan test terhadapperkiraan yang diambilsebelumnyadenganmenggunakan data-data yang ada. • Model verifikasimenggunakanpendekatantop downdenganmengambilhipotesadari user danmemeriksavaliditasnyadengan data sehinggabisadibuktikankebenaranhipotesatersebut.
Model dalam Data Mining • Discovery Model • Padadirected knowledge discovery, data mining akanmencobamencaripenjelasannilai target field tertentu (sepertipenghasilan, respons, usia, dan lain-lain) terhadap field-field yang lain. • Padaundirected knowledge discoverytidakada target field karenakomputerakanmencaripola yang adapada data. Jadiundirected knowledge discoverydigunakanuntukmengenalihubungan/relasi yang adapada data sedangkan directed discovery akanmenjelaskanhubungan/relasitersebut.
Data Mining: Data apasaja? • Database Tradisional • Relational database, data warehouse, transactional database • Advanced Database • Data streams dan data sensor • Time-series data, temporal data, sequence data (incl. bio-sequences) • Structure data, graphs, social networks and multi-linked data • Object-relational databases • Heterogeneous databases dan legacy databases • Spatial data dan spatiotemporal data • Multimedia database • Text databases • World-Wide Web
Top-10 Algorithm di ICDM’06 • #1: C4.5 (61 votes) • #2: K-Means (60 votes) • #3: SVM (Support Vector Machine)(58 votes) • #4: Apriori (52 votes) • #5: EM (Expectation Maximization) (48 votes) • #6: PageRank (46 votes) • #7: AdaBoost (45 votes) • #7: kNN (45 votes) • #7: Naive Bayes (45 votes) • #10: CART (Classification and Regression Tree)(34 votes)
Aplikasi Data Mining Pemasaran/ Penyewaan • Identifikasi pola pembayaran pelanggan • Menemukan asosiasi diantara karakteristik demografik pelanggan • Analisis keranjang pemasaran Perbankan • Mendeteksi pola penyalahgunaan kartu kredit • Identifikasi pelanggan yang loyal • Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan Asuransi & Pelayanan Kesehatan • Analisis dari klaim • Memprediksi pelanggan yang akan membeli polis baru • Identifikasi pola perilaku pelanggan yang berbahaya
Aplikasi Data Mining • Analisa Perusahaan danManajemenResiko • PerencanaanKeuangandanEvaluasiAset • PerencanaanSumberDaya (Resource Planning) • Persaingan (competition) Competitive Intelligence • Telekomunication • menerapkan data mining untukmelihatdarijutaantransaksi yang masuk, transaksimanasaja yang masihharusditanganisecara manual (dilayaniolehorang).
Fungsi Data Mining 1. Fungsi Minor ataufungsitambahan * Deskription (deskripsi) * Estimation (estimasi) * Prediction (prediksi) 2. Fungsi Mayor ataufungsiutama * Classification (klasifikasi) * Clustering (pengelompokan) * Association (asosiasi)
Fungsi Minor • Deskripsi • Terkadangpenelitidananalissecarasederhanainginmencobamencaricarauntukmenggambarkanpoladankecendrungan yang terdapatdalam data yang dimiliki. • Estimasi • Estimasihampirsamadenganklasifikasi, kecualivariabel target estimasilebihkearahnumerikdaripadakearahkategori. Model dibangunmenggunakan record lengkap yang menyediakannilaidarivariabel target sebagainilaiprediksi. • Prediksi • Prediksihampirsamadenganklasifikasidanestimasi, kecualibahwadalamprediksinilaidarihasilakanadadimasamendatang.
Fungsi Mayor • Klasifikasi • Dalamklasifikasiterdapat target variabelkategori, misalpenggolonganpendapatandapatdipisahkandalamtigakategori, yaitutinggi, sedangdanrendah. • Pengklusteran • Pengklusteranmerupakanpengelompokan record, pengamatan, ataumemperhatikandanmembentukkelasobjek-objek yang memilikikemiripan. • Asosiasi • Tugasasosiasi data miningadalahmenemukanatribut yang munculdalamsatuwaktu. Dalamduniabisnislebihumumdisebutanalisiskeranjangbelanja
1. Description • DeskripsiGrafis * Diagram Titik * Histogram • DeskripsiLokasi * Rata-rata * Median * Modus * Kuartil, DesildanPersentil • DeskripsiKeberagaman • Range (rentang) • VariansdanStandarDeviasi
1 N = Xi Rata-rata • adalahnilaitunggal yang dianggapdapatmewakilikeseluruhannilaidalam data
Median • adalahnilaitengahdari data yang adasetelah data diurutkan
Modus • adalahnilai yang paling seringmunculdalam data
Kuartil, DesildanPersentil • Adalahnilai-nilai yang membagiseperangkat data yang telahterurutmenjadibeberapabagian yang sama
Range (rentang) NilaiJarak= NilaiMaksimum – Nilai Minimum
2.Estimation • Rata-rata sampelsebagaiestimasi rata-rata populasi • Varianssampelsebagaiestimasivarianspopulasi • StandarDeviasisampelsebagaistandardeviasipopulasi
3.Prediction • Regresi Linier Sederhana • Regresi Linier Berganda
Regresi Linier Sederhana Y’ = a + b X a = Y pintasan, ( nilai Y’ bila X = 0) b = kemiringangarisregresi X = nilaitertentudarivariabelbebas Y’= nilai yang dihitungpadavariabel tidakbebas.