240 likes | 374 Views
Classification. Supervised learning. Supervised vs Unsupervised Methods. Data mining dapat dikategorikan sebagai supervised ataupun unsupervised. Dalam unsupervised method, tidak ada variabel tujuan yg diidentifikasikan .
E N D
Classification Supervised learning
Supervised vs Unsupervised Methods • Data mining dapatdikategorikansebagai supervised ataupun unsupervised. • Dalam unsupervised method, tidakadavariabeltujuanygdiidentifikasikan. • Kebanyakanmetoda data mining adalah supervised method, yang berarti : • Adavariabel target ygdispesifikasisebelumnya • Algoritmadiberikanbeberapacontohdimananilaidarivariabel target disediakansehinggaalgoritmadapatmempelajariygmananilaivariabel target berhubungandenganygmananilaivariabelpemrediksi.
Methodology for Supervised Modelling • Algoritmadisediakan data training untukmembuat model ygdiaplikasikanpada data test
Classification Task • Beberapacontohfungsiklasifikasi: • Banking: • Pemberiankredit good or bad credit risk • Transaksikartukredit fraudulent or not • Education: • Penempatan student barukesuatujalurtertentu • Medicine: • Mendiagnosaapakahkeberadaanjenispenyakit • Law: • Menentukanakanpenulisanterhadapygmeninggalataupemalsuan • Homeland security: • Mengidentifikasikanapakahseseotangygberperilakumendikasikankemungkanancamanteroris.
Contohkutipanpengklasifikasianpendapatan. (sebagai data training) • Makaberdasarkanklasifikasidari data training, akandapatmengassignrekordbaru, misalseorangprofesorwanitaberusia 63 thmgkndiklasifikasikanke high-income
Classification Techniques • Nearest-neighbor (KNN) • Naïve Bayes • Decision Tree based Methods • Rule-based Methods • Support Vector Machines • Neural Networks • Boosting, Bagging, Random Forests
Test Record Training Records Choose k of the “nearest” records Nearest Neighbor Classifiers • Basic idea: • Jikadiaberjalansepertiitik, makadiaitik
K-Nearest Neighbor • K-nearest neighbors darisuatu record x: titik2 data ygmemiliki k terkeciljarakke x
Nearest Neighbor Classifiers • Requires three things • The set of stored records • Distance Metric to compute distance between records • The value of k, the number of nearest neighbors to retrieve • To classify an unknown record: • Compute distance to other training records • Identify k nearest neighbors • Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote)
K-Nearest Neighbor (KNN) Algorithm • K-NN merupakan instance-based learning, dimana data training disimpansehinggaklasifikasiuntuk record baruygbelumdiklasifikasidptditemukandenganmembandingkankemiripan yang paling banyakdalam data training.
Contoh: scatter plot untukrasio sodium/ potasiumthdumur • 200 pasien • Y light gray • X dark gray • (A) • B, C medium gray
Jikaadapasienbaru, makadilihatyg paling dekat (k=1) pasien 2 (drug A)
Important issue in K-NN • Berapabanyak neighbor ygseharusnyadipertimbangkan (k)? • Bagaimanamengukurjarak? • Bagaimanamengkombinasikaninformasidarilebihdarisatuobservasi? • Haruskahseluruhtitiksamabobotnya, ataubeberapatitikmemilikiinformasilebihdariyg lain
DISTANCE FUNCTION • Fungsijarak yang paling umumdigunakan Euclidean distance • Dimana, x=x1,x2,…xm, dan y1,y2,…ymmerepresentasikannilaiatribut m dariduarekord
Untuk data kontinyubisajugadigunakanrumusannormalisasi/ standarisasisebelumdilakukanklasifikasi: • Untukvariabelkategori:
Contoh: nilai variable untuk age & gender (k=1) • Makajarakantarapasien A & B d(A,B)=√[(50-20)2 + 02]= 30; danjarakantara A & C d(A,C)= √[(50-50)2 + 12]=1 • Hal iniberartipasien A lebih similar ke C daripadake B
Jikadilakukannormalisasi min-max, makaditemukan: d(A,B)=0.6, d(A,C)=1 sehinggadihasilkanpasien B lebihmiripkepasien A • Dan jugabiladilakukan Z-score standarization, makadihasilkan: d(A,B)=0.6, d(A,C)=1, sehinggadidapatkanpasien C yglebihmiripkepasien A • Seringterjadipenyimpanganygdilakukanolehnormalisasi min-max
Combination Function • Simple Unweighted Voting • Menentukan k, jmlrekordygmemilikisuaradalampengklasifikasianrekordbaru • Membandingkanrekordbaruke k-nn, yakni k rekordygberjarak minim dalamukuranjarak • Sekali k rekorddipilih, makaygdiperhatikanjaraknya. Satu record satu vote • Makabilaterdapat k=3, danterdapat 2 rekordyglebihdekatkesuatu record (misal: medium gray), makamemiliki confidence 66.67%
Weighting Voting • Diharapkanmemperkecilkesalahan • Merupakankebalikanproporsijarakdarirekordbarudenganklasifikasi. • Vote dibobotkandengan inverse square darinilaijarak
Quantifying Attribute Relevance: Stretching the Axes • Adanyakemungkinansuatuatributmemilikiinformasiygpentingthdyg lain, makadilakukanpengalianterhadapnilaitertentu. MisaladanyainformasiNa/K ratio tiga kali lebihpentingdariage, makauntukpencarianjaraksbb:
Choosing k • Pemilihankygterlalukecilmenyebabkan sensitive terhadap noise • Namunkterlalubesar, neighborhood dapatmencangkup titik2 darikelas lain • Sehinggadilakukanpemilihandenganmeminimkanestimasi error pengklasifikasian