220 likes | 402 Views
Penggunaan Teori Set Kasar dalam Perlombongan Data. Dibentangkan oleh :. Noranisah Amerudin Pelajar Kerja Kursus dan Tesis Universiti Kebangsaan Malaysia nisauum@hotmail.com. Isi Kandungan. Pengenalan Konsep asas Set Kasar Proses Penjanaan Petua. Pengenalan. Perlombongan data :
E N D
Penggunaan Teori Set Kasar dalam Perlombongan Data Dibentangkan oleh : Noranisah Amerudin Pelajar Kerja Kursus dan Tesis Universiti Kebangsaan Malaysia nisauum@hotmail.com
Isi Kandungan • Pengenalan • Konsep asas Set Kasar • Proses Penjanaan Petua
Pengenalan • Perlombongan data : • Mencari hubungan dan corak yang wujud dalam pangkalan data; yang tersembunyi di dalam jumlah data yang besar • Membuat ramalan
Teknik Perlombongan Data • Rangkaian Neural • Evolutionary Programming • Memory Based Reasoning • Pohon Keputusan • Algoritma Genetik • Teori Set Kasar
Pengenalan (2) • Teori set kasar telah diperkenalkan oleh Zdzislaw Pawlak pada awal tahun 1980-an. • Matlamat utama teori ini : • menginduksi dan menggabungkan (synthesize) konsep penghampiran dengan data yang ada. • membina pengkelasan yang dapat mengkelaskan objek yang tidak dapat dilihat dengan jelas. • menjelaskan dan menerangkan ciri model data yang diperolehi.
Konsep asas dalam Set Kasar • Sistem maklumat & Jadual Keputusan • Ketidakbolehbezaan (Indiscernibility) • Penghampiran Set (Set Approximation) • Pengurangan (Reducts and Core) • Petua Keputusan (Decision Rules)
Sistem Maklumat • Sistem maklumat terdiri daripada sepasang (U, A) • U adalah set terhingga objek yang tidak kosong. • A adalah set terhingga atribut yang tidak kosong dan diwakilkan sebagai • bagi setiap • dipanggil set nilai atribut a. Age LEMS x1 16-30 50 x2 16-30 0 x3 31-45 1-25 x4 31-45 1-25 x5 46-60 26-49 x6 16-30 26-49 x7 46-60 26-49
Jadual Keputusan • Jadual Keputusan : • d adalah atribut keputusan dan • A adalah atribut syarat. Age LEMS Walk x1 16-30 50 yes x2 16-30 0 no x3 31-45 1-25 no x4 31-45 1-25 yes x5 46-60 26-49 no x6 16-30 26-49 yes x7 46-60 26-49 no
Isu di dalam Jadual Keputusan • Objek yang tidak mempunyai perbezaan yang nyata dipersembahkan beberapa kali. • Sesetengah atribut berlebihan dan tidak dikehendaki.
Ketidakbolehbezaan (Indiscernibility) • Subset tidak kosong bagi atribut syarat ialah {Age}, {Lems}dan {Age,Lems}. • IND({Age}) = {{x1,x2, x6}, {x3, x4}, {x5, x7}} • IND({Lems}) = {{x1}, {x2}, {x3, x4}, {x5, x6, x7}} • IND{(Age, Lems)} = {{x1}, {x2}, {x3,x4}, {x5, x7}, {x6}} Age LEMS Walk x1 16-3050 yes x2 16-300 no x3 31-45 1-25 no x4 31-45 1-25 yes x5 46-6026-49 no x6 16-3026-49 yes x7 46-6026-49 no
Penghampiran Set(Approximation Set) A-lower approximation AX = {x1, x6} A-upper approximation ĀX = {x1, x3, x4, x6} A-boundary region BNA(X) = ĀX – AX = {x3, x4}
Penghampiran Set (2) A-lower approximation AX = {x | [x]A X} A-upper approximation ĀX = {x | [x]A X 0}
Penghampiran Set (3) • Jika kawasan sempadan tidak kosong, maka ia adalah kasar. • Set kasar wujud apabila objek-objek berada di antara dua sempadan iaitu positif dan negatif.
Ketepatan Penghampiran (Accuracy Approximation) • Setelah melakukan penghampiran, kita boleh mengira ketepatan penghampiran yang telah dibuat. • Formula : Di mana |X| mewakili kardinaliti X 0 Jika B(X) = 1 adalah tepat /crisp kepada B. Jika B(X) < 1 adalah kasar /rough kepada B.
Pengurangan(Reducts) • Selalunya terdiri daripada beberapa subset atribut yang lebih minima dan ini dikenali sebagai reducts. • Dengan kata lain membuang data yang berulang atau bertindan. • Tujuan utama adalah untuk mengetahui atribut mana yang boleh mewakili keseluruhan atribut untuk mewakili data-data dalam pangkalan data dan kebergantungan di antara atribut-atribut.
Pengurangan (2) • T = (U,C,D) adalah tidak bergantung jika semua c C adalah diperlukan dalam T. • Semua set atribut syarat diperlukan dalam T diwakili dengan CORE(C). CORE (C) = RED (C) di mana RED(C) adalah semua set atribut yang dikurangkan daripada C.
Contoh Reducts & CORE (3) Reduct1 = {Muscle-pain,Temp.} Reduct2 = {Headache, Temp.} CORE = {Headache,Temp} {MusclePain, Temp} = {Temp}
Petua Keputusan(Decision rules) • Apabila reducts telah dijumpai, tugas membina petua-petua yang tepat daripada atribut keputusan daripada sistem maklumat boleh dilakukan. • Petua keputusan dibuat dengan menggabungkan atribut-atribut reducts. • Petua keputusan mengekstrak pengetahuan di mana boleh digunakan apabila mengkelaskan objek-objek baru dalam sistem maklumat.
Petua Keputusan(2) Jadual Kesetaraan (Equivalence Class) Petua Keputusan yang dihasilkan Matrik Pembezaan (Discernibility Matrix)
Proses Penjanaan Petua Proses penjanaan rules menggunakan pendekatan Set Kasar
Matlamat • Matlamat tesis saya seterusnya ; • Menghasilkan sebuah cengkerang pakar (tool) yang dapat menentukan samada seseorang pesakit itu menghidapi penyakit Telinga, Hidung dan Tekak (ENT) atau tidak dengan menggunakan teknik set kasar.