350 likes | 629 Views
Pertemuan III. Topik Khusus 1. Oleh : Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer. Topik Khusus 1. Permasalahan Kenapa Harus ada DM?. Data yang disimpan dalam waktu yang lama akan menjadi kumpulan data yang berukuran sangat besar . Permasalahan :
E N D
Pertemuan III TopikKhusus 1 Oleh: AchmadZakkiFalani UniversitasNarotama FakultasIlmuKomputer
TopikKhusus 1 PermasalahanKenapaHarusada DM?.. • Data yang disimpandalamwaktuyang lama akan menjadi kumpulan data yang berukuransangatbesar. • Permasalahan: Bagaimanacaranya agar data tersebutdapatmenjadiPENGETAHUAN / KNOWLEDGE (INFORMASI yang PENTING / BERHARGA).
TopikKhusus 1 Definis Data Mining • Ekstraksiatau "menambang" pengetahuandari data dalam jumlah yang besar. (JiaWeihan) • Proses pencarianterhadappengetahuan– yang sebelumnyatidakdiketahui; valid; dandapatdigunakan‐‐ dari database yang besardankemudianmenggunakanpengetahuantersebutuntukmembuatkeputusanbisnis yang penting. (Cabena)
TopikKhusus 1 Data Mining Solusi BI • Apaitu Data Mining?.. Data?.. Mining?...
TopikKhusus 1 Istilah2 Database dalam DM • Field (Columns) = Attributes • Record (Rows) = Instance
TopikKhusus 1 KDD vs DM • Data Mining = Knowledge Discovery in Databases / KDD. (Cabena). • Data Mining = subset (salah satu tahap) dari KDD saja (Jiawei Han). Batasan ini yang selanjutnyadigunakan. KDD DM
TopikKhusus 1 Tujuan DM (1) Top Level Management • Menemukan pola‐pola pengetahuan yang tersembunyi dalam data. Dimanaknowledge tersebutdapatdigunakanuntukdecision making, process control, information management, atauquery processing. Knowledge Medium Level Management Informasi Low Level Management Data
TopikKhusus 1 Tujuan DM (2) Contoh-contoh yang dapatdilakukan DM: • Market segmentation ‐ Identify the common characteristics of customers who buy the same products from your company. • Customer churn ‐ Predict which customers are likely to leave your company and go to a competitor. • Fraud detection ‐ Identify which transactions are most likely to be fraudulent. • Direct marketing ‐ Identify which prospects should be included in a mailing list to obtain the highest response rate. • Interactive marketing ‐ Predict what each individual accessing a Web site is most likely interested in seeing. • Market basket analysis ‐ Understand what products or services are commonly purchased together; e.g., beer and diapers. • Trend analysis ‐ Reveal the difference between a typical customer this month and last. Sumber: • http://www.laits.utexas.edu/~norman/BUS.FOR/course.mat/Alex
TopikKhusus 1 Jenis Data yang Dapat di Mining • Non / Relational Databases • Data Warehouse • Transactional Database • Text Database • Multimedia Database • World Wide Web (Web Mining)
TopikKhusus 1 Tahapan Proses KDDversiJiaWeihan Knowledge Evaluation & Presentation Patterns Data Mining Data Mining Selection & Transformation Data Warehouse Cleaning & Integration Database
TopikKhusus 1 Tahapan Proses KDDversi Peter Cabena • Business Objective Determination • Data Preparation: - Data Selection - Data Preprocessing - Data Transformation • Data Mining • Analisys of Results • Knowledge
TopikKhusus 1 Business Objective Determination (1) • Mendefinisikanpermasalahanatautantanganbisnisdenganjelas. • Tahapan ini sangat penting tapi sering diabaikan/jarangdisebut. • Denganditentukan Business Objective Determinationnya, dapatdiketahuiatributmana yang diperlukanuntukproses mining
TopikKhusus 1 Business Objective Determination Contoh: • Suatu bank hendakmelakukanpenawaranprodukinvestasi (reksadana), tabunganberjangka(deposito), atauaplikasikartukredit. Bank tersebutakanmenggunakan data yang telah ada, dimana dari data tersebut didapatkan beberapaperilaku customer yang dapatdipelajaridandijadikanreferensi.
TopikKhusus 1 Data Preparation (2) Contoh: • Data Cleaning: Digunakanuntukmenghilangkannoise dan yang inkonsisten. • Data integration: Menggabungkanberbagaimacamsumberdata.
TopikKhusus 1 Data Preparation (2) • Mempersiapkan data yang diperlukanuntukproses data mining. • Tujuan: agar data yang digunakanbenar - benarsesuaidenganpermasalahanyang akandipecahkan, dapatdijaminkebernarannya, dan dalam format yang sesuai. • Tahapanini paling banyakmenghabiskanresources (manusia, biaya, danwaktu) yang tersedia. Biasanya mencapai 60% dari seluruh proyekKDD
TopikKhusus 1 Motivasi Preparation (2) • Garbage in Garbage Out: Tanpatersedianyadata yang berkualitas, hasildari proses mining akankurangbermutu / baik. • Pengambilankeputusan yang bermutuharusdihasilkandari data yang bermutupula. Contoh: Alamat -> Surabaya sby sby-jatim
TopikKhusus 1 Noisy Data • Noise adalahkesalahan yang terjadisecararandom atau karena variasi yang terjadi dalampengukuranvariabel • Bagaimanamengatasinya?? Solusi: Smoothing • PendekatanSmoothing: • Binning • Clustering • Regression
TopikKhusus 1 Binning • Metode‐metode binning menghaluskannilaipada data yang terurut dengan memperhatikan nilai‐nilai yang ada di sekitarnya. • Nilai‐nilai yang terurut didistribusikan ke dalamsejumlah “buckets” ataubins. • Penghalusan data dilakukansecaralokal.
TopikKhusus 1 Binning • Binning ada 3 pendekatanyaitu: • Bin‐means • Bin‐medians • Bin‐boundaries
TopikKhusus 1 ContohSoal • Terdapatdata acakdenganurutansebagaiberikut: 4,15,21,8,25,34,28,24,21 Lakukan binning denganequidepth=3 • Sorting data : 4,8,15,21,21,24,25,28,34 Partition into (equidepth) binning: Bin 1: 4, 8 , 15 Bin 2: 21, 21, 24 Bin 3: 25, 28, 34
TopikKhusus 1 Bin-Means (nilai rata-rata) • Bin 1: 9, 9, 9 • Bin 2: 22, 22, 22 • Bin 3: 29, 29, 29
TopikKhusus 1 Bin-Median (nilaitengah) • Bin 1: 8, 8, 8 • Bin 2: 21, 21, 21 • Bin 3: 28, 28, 28
TopikKhusus 1 Bin-Boundaris (nilaibatas) • Bin 1: 4, 4, 15 • Bin 2: 21, 21, 24 • Bin 3: 25, 25, 34
TopikKhusus 1 ContohSoal • Terdapatdata acakdenganurutansebagaiberikut: 2,16,20,9,24,31,29,23,27 Lakukan binning denganequidepth=3
TopikKhusus 1 Data Mining Teknik • PRISM • R1-HOLTE • Clasification Rule • Hunts • ID3 • …dll…
TopikKhusus 1 Data Mining PRISM • Diperkenalkanoleh J. Cendrowska (1987). • Termasukkategorialgoritma covering, berbedadengan ID3 yang termasukdalamkategorialgoritmadivide andconquer. • Disebutdenganpendekatan covering, karenapadasetiapstage diidentifikasi rule yang mengcoversejumlahinstances. • Output algoritma PRISM adalahsejumlahclassification rules. • PRISM hanyamenghasilkan rule‐rule yang sempurnaatau 100% benar.
TopikKhusus 1 Data Mining Algoritma PRISM
TopikKhusus 1 PRISM Datasheet Total Instance?...
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM
TopikKhusus 1 Data Mining PRISM – LatihanSoal