1 / 47

Pertemuan X DATA MINING

Pertemuan X DATA MINING. 1. Apa Data Mining?. Data mining ( pencarian pengetahuan dari data) Mengekstrak secara otomatis pola atau pengetahuan yang menarik ( tidak sederhana , tersembunyi , tidak diketahui sebelumnya , berpotensi berguna ) dari data dalam jumlah sangat besar.

Download Presentation

Pertemuan X DATA MINING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pertemuan XDATA MINING 1

  2. Apa Data Mining? • Data mining (pencarianpengetahuandari data) • Mengekstraksecaraotomatispolaataupengetahuan yang menarik (tidaksederhana, tersembunyi, tidakdiketahuisebelumnya, berpotensiberguna) dari data dalamjumlahsangatbesar.

  3. Data Mining adalahusahapenemuanpengetahuandiintelejensiabuatan (bidangmachine learning) atauanalisisstatistikdenganmencariataumenemukanaturan-aturan, pola-poladanstrukturdarihimpunan data yang besar.

  4. Mengapa Data Mining:Banjir Data • Twitter: 8000an tweet per detik 600 juta tweet per hari. • Facebook: 30 milyar item (link, status, note, fotodst) per bulan. 500 juta user menghabiskan 700 milyarmenit per bulandisitus FB. • Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 jutatransaksi per hari se Indonesia. • Kartukredit visa: berlakudi 200 negara. 10 ributransaksi per detik  850 jutatransaksi per hari.

  5. ApaDatamining? • Namaalternatif: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence dsb • Keuntunganbagiorganisasi yang menerapkan data mining?

  6. KeuntunganDatamining • Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya. • Meramalkan masa depan  perusahaan dapat mempersiapkan diri

  7. Contoh: Midwest grocery chain menggunakan DM untukmenganalisisipolapembelian: saatpriamembelirotidihariKamisdanSabtu, merekajugamembeliminuman. Analisislebihlanjut: pembeliinibelanjadiharikamisdansabtu, tapidiharikamisjumlah item lebihsedikit. Kesimpulan yang diambil: pembelimembeliminumanuntukdihabiskansaat weekend. Tindaklanjut: menjualminumandenganharga full dihariKamisdanSabtu. Mendekatkanposisirotidanminuman.

  8. Lanjutan.. CONTOH KASUS : JikaAndamempunyaikartukredit, sudahpastiAndabakalseringmenerimasuratberisibrosurpenawaranbarangataujasa. Jika Bank pemberikartukreditAndamempunyai 1.000.000 nasabah, danmengirimkansebuah (hanyasatu) penawarandenganbiayapengirimansebesarRp. 1.000 per buahmakabiaya yang dihabiskanadalahRp. 1 Milyar!! Jika Bank tersebutmengirimkanpenawaransekalisebulan yang berarti 12x dalamsetahunmakaanggaran yang dikeluarkan per tahunnyaadalahRp. 12 Milyar!! Dari danaRp. 12 Milyar yang dikeluarkan, berapapersenkahkonsumen yang benar-benarmembeli? Mungkinhanya 10 %-nyasaja. Secaraharfiah, berarti 90% daridanatersebutterbuangsia-sia.

  9. Lanjutan.. • Dari contohkasusdiatasmerupakansalahsatupersoalan yang dapatdiatasioleh data mining darisekianbanyakpotensipermasalahan yang ada. Data mining dapatmenambang data transaksibelanjakartukredituntukmelihatmanakahpembeli-pembeli yang memangpotensialuntukmembeliproduktertentu. Mungkintidaksampaipresisi 10%, tapibayangkanjikakitadapatmenyaring 20% saja, tentunya 80% danadapatdigunakanuntukhallainnya.

  10. Arsitektur dan Model Data Mining Contoh • Prosesuntukmenemukan model ataufungsi yang menjelaskanataumembedakankonsepataukelas data dengantujuanuntukdapatmemprediksikelasdarisuatuobjek yang labelnyatidakdiketahui • Contoh : MendeteksiPenipuan • Tujuan : Memprediksikasuskecurangantransaksikartukredit. • Pendekatan : • Menggunakantransaksikartukreditdaninformasidilihatdariatribut account holder • Kapancutomermelakukanpembelian, Dengancaraapa customer membayar, sebarapasering customer membayarsecaratepatwaktu, dll • Berinama/tandatransaksi yang telahdilaksanakansebagaitransaksi yang curangatau yang baik. Inisebagaiatributklass ( the class attribute.) • Pelajari model untuk class transaksi • Gunakan model iniuntukmendeteksikecurangandenganmenelititransaksikartukreditpada account.

  11. ContohAplikasi Bank me-mining transaksi customer untukmengidentifikasi customer yang kemungkinanbesartertarikterhadapprodukbaru. Setelahteknikinidigunakan, terjadipeningkatan20 kali lipatpenurunanbiayadibandingkandengancarabiasa.

  12. Contoh Aplikasi Perusahaan transportasimemining data customer untukmengelompokkan customer yang memilikinilaitinggi yang perludiprioritaskan.

  13. Data Mining padaIndustri Retail • Industri Retail: besarnya data penjualan, sejarahbelanjapelanggan, dan lain-lain • Aplikasidari Retail data mining • Mengidentifikasiperilakupembelianpelanggan • Menentukankecenderunganpolabelanjapelanggan • Meningkatkanmutudarilayananpelanggan • Mencapaikepuasanpelanggan • Tingkatkanperbandingankonsumsibarang-barang • Mendisainkeefektifandistribusidantransportasibarang

  14. Knowledge Pattern Evaluation Data Mining Task-relevant Data Selection Data Warehouse Pembersihan Data Data Integration Databases ProsesDatamining

  15. Data Mining dan Business Intelligence Semakin mendukung pengambilan keputusan End User PengambilanKeputusan Business Analyst Presentasi Data Teknik Visualiasi Data Mining Data Analyst Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses DBA Sumber Data Database, Web, Paper, Files, Web, eksperimen

  16. Data Mining: Multi DisiplinIlmu Teknologi DB Statistik Data Mining Visualisasi Machine Learning Pattern Recognition Ilmu Lain Algoritma

  17. Mengapatidakanalisis data biasa? • Jumlah data yang sangatbesar • Algoritmaharus scalable untukmenangani data yang sangatbesar (tera) • Dimensi yang sangatbesar: ribuan field • Data Kompleks • Aliran data dan sensor • Data terstruktur, graph, social network, multi-linked data • Database dariberbagaisumber, database lama • Spasial (peta), multimedia, text, web • Software Simulator

  18. Data Mining dariberbagaisudutpandang • Data • Relational, datawarehouse,web, transactional, stream, OO, spacial, text, multimedia • Pengetahuan yang akanditambang • Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier • Teknik • Database, OLAP, machine learning, statistik, visualiasi • Penerapan • Retail, telekomunikasi, banking, analisiskejahatan, bio-data mining, saham, text mining, web mining

  19. Model dalam Data Mining • Verification Model • Model inimenggunakan (hypothesis) daripengguna, danmelakukan test terhadapperkiraan yang diambilsebelumnyadenganmenggunakan data-data yang ada. • Model verifikasimenggunakanpendekatantop downdenganmengambilhipotesadari user danmemeriksavaliditasnyadengan data sehinggabisadibuktikankebenaranhipotesatersebut.

  20. Model dalam Data Mining • Discovery Model • Padadirected knowledge discovery, data mining akanmencobamencaripenjelasannilai target field tertentu (sepertipenghasilan, respons, usia, dan lain-lain) terhadap field-field yang lain. • Padaundirected knowledge discoverytidakada target field karenakomputerakanmencaripola yang adapada data. Jadiundirected knowledge discoverydigunakanuntukmengenalihubungan/relasi yang adapada data sedangkan directed discovery akanmenjelaskanhubungan/relasitersebut.

  21. Data Mining: Data apasaja? • Database Tradisional • Relational database, data warehouse, transactional database • Advanced Database • Data streams dan data sensor • Time-series data, temporal data, sequence data (incl. bio-sequences) • Structure data, graphs, social networks and multi-linked data • Object-relational databases • Heterogeneous databases dan legacy databases • Spatial data dan spatiotemporal data • Multimedia database • Text databases • World-Wide Web

  22. Top-10 Algorithm di ICDM’06 • #1: C4.5 (61 votes) • #2: K-Means (60 votes) • #3: SVM (Support Vector Machine)(58 votes) • #4: Apriori (52 votes) • #5: EM (Expectation Maximization) (48 votes) • #6: PageRank (46 votes) • #7: AdaBoost (45 votes) • #7: kNN (45 votes) • #7: Naive Bayes (45 votes) • #10: CART (Classification and Regression Tree)(34 votes)

  23. Aplikasi Data Mining Pemasaran/ Penyewaan • Identifikasi pola pembayaran pelanggan • Menemukan asosiasi diantara karakteristik demografik pelanggan • Analisis keranjang pemasaran Perbankan • Mendeteksi pola penyalahgunaan kartu kredit • Identifikasi pelanggan yang loyal • Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan Asuransi & Pelayanan Kesehatan • Analisis dari klaim • Memprediksi pelanggan yang akan membeli polis baru • Identifikasi pola perilaku pelanggan yang berbahaya

  24. Aplikasi Data Mining • Analisa Perusahaan danManajemenResiko • PerencanaanKeuangandanEvaluasiAset • PerencanaanSumberDaya (Resource Planning) • Persaingan (competition)  Competitive Intelligence • Telekomunication • menerapkan data mining untukmelihatdarijutaantransaksi yang masuk, transaksimanasaja yang masihharusditanganisecara manual (dilayaniolehorang).

  25. Fungsi Data Mining 1. Fungsi Minor ataufungsitambahan * Deskription (deskripsi) * Estimation (estimasi) * Prediction (prediksi) 2. Fungsi Mayor ataufungsiutama * Classification (klasifikasi) * Clustering (pengelompokan) * Association (asosiasi)

  26. Fungsi Minor • Deskripsi • Terkadangpenelitidananalissecarasederhanainginmencobamencaricarauntukmenggambarkanpoladankecendrungan yang terdapatdalam data yang dimiliki. • Estimasi • Estimasihampirsamadenganklasifikasi, kecualivariabel target estimasilebihkearahnumerikdaripadakearahkategori. Model dibangunmenggunakan record lengkap yang menyediakannilaidarivariabel target sebagainilaiprediksi. • Prediksi • Prediksihampirsamadenganklasifikasidanestimasi, kecualibahwadalamprediksinilaidarihasilakanadadimasamendatang.

  27. Fungsi Mayor • Klasifikasi • Dalamklasifikasiterdapat target variabelkategori, misalpenggolonganpendapatandapatdipisahkandalamtigakategori, yaitutinggi, sedangdanrendah. • Pengklusteran • Pengklusteranmerupakanpengelompokan record, pengamatan, ataumemperhatikandanmembentukkelasobjek-objek yang memilikikemiripan. • Asosiasi • Tugasasosiasi data miningadalahmenemukanatribut yang munculdalamsatuwaktu. Dalamduniabisnislebihumumdisebutanalisiskeranjangbelanja

  28. Data Mining Menggunakan Business Intelligence

  29. Decision Tree

  30. Naive Bayes

  31. Clustering

  32. FUNGSI MINOR

  33. 1. Description • DeskripsiGrafis * Diagram Titik * Histogram • DeskripsiLokasi * Rata-rata * Median * Modus * Kuartil, DesildanPersentil • DeskripsiKeberagaman • Range (rentang) • VariansdanStandarDeviasi

  34. Diagram Titik

  35. Histogram

  36. 1 N = Xi Rata-rata • adalahnilaitunggal yang dianggapdapatmewakilikeseluruhannilaidalam data

  37. Median • adalahnilaitengahdari data yang adasetelah data diurutkan

  38. Modus • adalahnilai yang paling seringmunculdalam data

  39. Kuartil, DesildanPersentil • Adalahnilai-nilai yang membagiseperangkat data yang telahterurutmenjadibeberapabagian yang sama

  40. Range (rentang) NilaiJarak= NilaiMaksimum – Nilai Minimum

  41. VariansdanStandarDeviasi

  42. 2.Estimation • Rata-rata sampelsebagaiestimasi rata-rata populasi • Varianssampelsebagaiestimasivarianspopulasi • StandarDeviasisampelsebagaistandardeviasipopulasi

  43. 3.Prediction • Regresi Linier Sederhana • Regresi Linier Berganda

  44. Regresi Linier Sederhana Y’ = a + b X a = Y pintasan, ( nilai Y’ bila X = 0) b = kemiringangarisregresi X = nilaitertentudarivariabelbebas Y’= nilai yang dihitungpadavariabel tidakbebas.

  45. Regresi Linier Berganda

More Related