1 / 24

Classification

Classification. Supervised learning. Supervised vs Unsupervised Methods. Data mining dapat dikategorikan sebagai supervised ataupun unsupervised. Dalam unsupervised method, tidak ada variabel tujuan yg diidentifikasikan .

kalli
Download Presentation

Classification

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Classification Supervised learning

  2. Supervised vs Unsupervised Methods • Data mining dapatdikategorikansebagai supervised ataupun unsupervised. • Dalam unsupervised method, tidakadavariabeltujuanygdiidentifikasikan. • Kebanyakanmetoda data mining adalah supervised method, yang berarti : • Adavariabel target ygdispesifikasisebelumnya • Algoritmadiberikanbeberapacontohdimananilaidarivariabel target disediakansehinggaalgoritmadapatmempelajariygmananilaivariabel target berhubungandenganygmananilaivariabelpemrediksi.

  3. Methodology for Supervised Modelling • Algoritmadisediakan data training untukmembuat model ygdiaplikasikanpada data test

  4. Classification Task • Beberapacontohfungsiklasifikasi: • Banking: • Pemberiankredit good or bad credit risk • Transaksikartukredit  fraudulent or not • Education: • Penempatan student barukesuatujalurtertentu • Medicine: • Mendiagnosaapakahkeberadaanjenispenyakit • Law: • Menentukanakanpenulisanterhadapygmeninggalataupemalsuan • Homeland security: • Mengidentifikasikanapakahseseotangygberperilakumendikasikankemungkanancamanteroris.

  5. Contohkutipanpengklasifikasianpendapatan. (sebagai data training) • Makaberdasarkanklasifikasidari data training, akandapatmengassignrekordbaru, misalseorangprofesorwanitaberusia 63 thmgkndiklasifikasikanke high-income

  6. Classification Techniques • Nearest-neighbor (KNN) • Naïve Bayes • Decision Tree based Methods • Rule-based Methods • Support Vector Machines • Neural Networks • Boosting, Bagging, Random Forests

  7. Test Record Training Records Choose k of the “nearest” records Nearest Neighbor Classifiers • Basic idea: • Jikadiaberjalansepertiitik, makadiaitik

  8. K-Nearest Neighbor • K-nearest neighbors darisuatu record x: titik2 data ygmemiliki k terkeciljarakke x

  9. Nearest Neighbor Classifiers • Requires three things • The set of stored records • Distance Metric to compute distance between records • The value of k, the number of nearest neighbors to retrieve • To classify an unknown record: • Compute distance to other training records • Identify k nearest neighbors • Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote)

  10. K-Nearest Neighbor (KNN) Algorithm • K-NN merupakan instance-based learning, dimana data training disimpansehinggaklasifikasiuntuk record baruygbelumdiklasifikasidptditemukandenganmembandingkankemiripan yang paling banyakdalam data training.

  11. Contoh: scatter plot untukrasio sodium/ potasiumthdumur • 200 pasien • Y light gray • X dark gray • (A) • B, C  medium gray

  12. Jikaadapasienbaru, makadilihatyg paling dekat (k=1)  pasien 2 (drug A)

  13. Important issue in K-NN • Berapabanyak neighbor ygseharusnyadipertimbangkan (k)? • Bagaimanamengukurjarak? • Bagaimanamengkombinasikaninformasidarilebihdarisatuobservasi? • Haruskahseluruhtitiksamabobotnya, ataubeberapatitikmemilikiinformasilebihdariyg lain

  14. DISTANCE FUNCTION • Fungsijarak yang paling umumdigunakan Euclidean distance • Dimana, x=x1,x2,…xm, dan y1,y2,…ymmerepresentasikannilaiatribut m dariduarekord

  15. Untuk data kontinyubisajugadigunakanrumusannormalisasi/ standarisasisebelumdilakukanklasifikasi: • Untukvariabelkategori:

  16. Contoh: nilai variable untuk age & gender (k=1) • Makajarakantarapasien A & B  d(A,B)=√[(50-20)2 + 02]= 30; danjarakantara A & C  d(A,C)= √[(50-50)2 + 12]=1 • Hal iniberartipasien A lebih similar ke C daripadake B

  17. Jikadilakukannormalisasi min-max, makaditemukan: d(A,B)=0.6, d(A,C)=1 sehinggadihasilkanpasien B lebihmiripkepasien A • Dan jugabiladilakukan Z-score standarization, makadihasilkan: d(A,B)=0.6, d(A,C)=1, sehinggadidapatkanpasien C yglebihmiripkepasien A • Seringterjadipenyimpanganygdilakukanolehnormalisasi min-max

  18. Combination Function • Simple Unweighted Voting • Menentukan k, jmlrekordygmemilikisuaradalampengklasifikasianrekordbaru • Membandingkanrekordbaruke k-nn, yakni k rekordygberjarak minim dalamukuranjarak • Sekali k rekorddipilih, makaygdiperhatikanjaraknya. Satu record satu vote • Makabilaterdapat k=3, danterdapat 2 rekordyglebihdekatkesuatu record (misal: medium gray), makamemiliki confidence 66.67%

  19. Weighting Voting • Diharapkanmemperkecilkesalahan • Merupakankebalikanproporsijarakdarirekordbarudenganklasifikasi. • Vote dibobotkandengan inverse square darinilaijarak

  20. Sehinggadipilih vote tertinggiyakni dark gray

  21. Quantifying Attribute Relevance: Stretching the Axes • Adanyakemungkinansuatuatributmemilikiinformasiygpentingthdyg lain, makadilakukanpengalianterhadapnilaitertentu. MisaladanyainformasiNa/K ratio tiga kali lebihpentingdariage, makauntukpencarianjaraksbb:

  22. Choosing k • Pemilihankygterlalukecilmenyebabkan sensitive terhadap noise • Namunkterlalubesar, neighborhood dapatmencangkup titik2 darikelas lain • Sehinggadilakukanpemilihandenganmeminimkanestimasi error pengklasifikasian

More Related