220 likes | 1.05k Views
Klasifikasi Berdasarkan Teorema Bayes. Naïve Bayes Classifier. Pendahuluan. A statistical classifier : menyelesaikan prediksi probabilitas , sebagai contoh memprediksi peluang keanggotaan suatu class Foundation: Teorema Bayes Performance:
E N D
KlasifikasiBerdasarkanTeoremaBayes Naïve Bayes Classifier
Pendahuluan • A statistical classifier: • menyelesaikanprediksiprobabilitas, sebagaicontohmemprediksipeluangkeanggotaansuatu class • Foundation: • TeoremaBayes • Performance: • pengklasifikasi Bayesian sederhana, memilikikinerja yang dapatdibandingkanpengklasifikasidecision treedanneural network
DasarTeoremaBayes • Diketahui X merupakan sample data. • Dalambayes X disebut “evidence” ataufakta • Label class tidakdiketahui • Umumnya X merupakan record data yang disusundari n atribut • H merupakansuatu hypothesis bahwa X termasukdari class C • Classification adalahuntukmenentukan P(H|X), peluanghipotesisdari data sample X • Dengankata lain, dicaripeluangbahwa record X termasukkelas C, dengandiketahuiatribut yang menjelaskan X. • Atau, peluangkeluarnyahasil H jikadiketahuinilai X tertentu.
Dasar Teorema Bayes (lanjutan) • P(H) (prior probability), peluangawal • Misal: X akanmembelikomputer, tanpamemperhatikanumur, penghasilan, … • P(X) (prior probabilitiy) peluangbahwa data sampel X diamatitanpamemperhatikannilai yang lain • P(X|H) (posteriori probability), peluangdiamatinya data sampel X denganmempertimbangkan H • Misal: Jika X akanmembelikomputer, peluang X adalahberumur 31..40, medium income
Bayesian Theorem • Jikadiberikan data training X, posteriori probability darisuatu hypothesis H, P(H|X), mengikutiteoremaBayes • Dengankata lain, dapatditulissebagaiberikut: posteriori = likelihood x prior/evidence • Memperkirakan X termasukdalamkelasCijikapeluang P(Ci|X) merupakantertinggidiantarasemua P(Ck|X) untuksemuaklask • Permasalahannyata: diperlukanpengetahuanawaldaribanyakpeluang, halinidapatmerupakanbiayakomputasi yang mencolok
Bayes Learning • Misalterdapatbeberapaalternatifhipotesa h -> h є H. • Bayes Learning: • Memaksimalkanhipotesis yang paling mungkin h, maksimumapriori (MAP)
Naïve Bayesian Classifier • Di mana: • vNBadalahnilai output hasilklasifikasi naïve bayes
Contoh Kasus Data Cuaca dan Keputusan Main (Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidakadadalamtabeltersebut
Pembahasan • Dalamcontohtersebutada 14 titikdengankeluaranmainatautidak. • Setiap data ditandaidenganatributcuaca, temperatur, kelembabandanangin. • Akandipakainaïvebayesuntukmenentukankelasdari data berikut: • (Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidakadadalamtabeltersebut
Pembahasan (lanjutan) • Soal: (Cuaca= cerah, Temperatur=dingin, Kelembaban=tinggi, Angin=besar) yang tidakadadalamtabeltersebut • P(main) = 9/14 = 0.64 • P(tidak) = 5/14 = 0.36 • P(Angin=besar | main) = 3/9 = 0.33 • P(Angin=besar | tidak) = 3/5 = 0.60 • P(main) P(cerah|main) P(dingin|main) P(tinggi|main) P(besar|main) = 9/14*2/9*3/9*3/9 = 0.0053 • P(tidak) P(cerah|tidak) P(dingin|tidak) P(tinggi|tidak) P(besar|tidak) = 5/14*3/5*1/5*4/5*3/5 = 0.0206 • Dengan Naïve Bayesdisimpulkanuntuktidak main.
EstimasiProbabilitas • Alasan: • Adakemungkinandihasilkan under-estimate probablilitas bias jika data yang diamatidalamjuml. kecilataubisajugadihasilkannolkarenasalahsatuprobabilitas = 0 • Rumus: • P(ai|vj) = nc+ m*p n + m dimana: n = jumlah data training dimana v=vj nC = jumlah data training dimana v=vjdan a= ai p = prior estimate untuk P(ai|vj) m = ukuransampelekuivalen
Jikainginmengelompokkanmobilwarnamerah, asaldomestikdantipe SUV ??Makadidapatkannilai-nilaiestimasisbb: (misal m= 3)
P(merah|ya) = 3+3*0.5 = 0.56 P(merah|tidak) = 2+3*0.5 = 0.43 5+3 5+3 • P(SUV|ya) = 1+3*0.5 = 0.31 P(SUV|tidak) = 3+3*0.5 = 0.56 5+3 5+3 • P(domestik|ya) = 2+3*0.5 P(domestik|tdk) = 3+3*0.5 5+3 5 +3 = 0.43 = 0.56 • Jikadiketahui: P(ya) = 0.5 dan P(tidak)=0.5, maka v=yabisadihitung P(ya)P(merah|ya)P(SUV|ya)P(domestik|ya) = 0.5*0.56*0.31*0.43 = 0.037 P(tidak)P(merah|tidak)P(SUV|tidak)P(domestik|tidak) = 0.5*0.43*0.56*0.56 = 0.069 Olehkarena 0.069> 0.037, makadisimpulkan data tersebutdikelompokkaan ‘tidak’.
Klasifikasidengan data kontinyu • Contoh: • BerapakahP(MemilikiRumah=Tidak| Pendapatan=125K)
Untuk data kontinyu • Keterangan: • Pmenyatakanpeluang • Ximenyatakanatributkei. • ximenyatakannilaiatributkei. • Ymenyatakankelas yang dicari. • yimenyatakan sub kelasY yang dicari. • µ menyatakanrata-rata dariseluruhatribut ( ) . • menyatakanvariandariseluruhatribut ( ).
Tugas Kelompok (@ 4 orang) • Cari1kasus nyata seputar aplikasi klasifikasi (data 20 record minimum) untuk data latih & 5 data uji • Lakukan perbandingan 2 metode: KNN (weighted dan Unweighted votting) dengan Naive Bayes Classifier • Berapa nilai akurasi tertinggi, rata2 dan terendah • Data mix kontinyu & tidak kontinyu untuk setiap setiap fitur dalam satu data set yang terpisah • Tidak boleh sama kasus yang dipilih