260 likes | 561 Views
Model Capaian Maklumat. Model Capaian Maklumat Model Boolean Model Ruang Vektor. Model Capaian Maklumat. Model capaian maklumat merupakan kerangka formal yang menyokong semua fasa utama dalam proses capaian maklumat termasuk Perwakilan item (dokumen) Perwakilan kepada kehendak pengguna
E N D
Model Capaian Maklumat Model Capaian Maklumat Model Boolean Model Ruang Vektor
Model Capaian Maklumat • Model capaian maklumat merupakan kerangka formal yang menyokong semua fasa utama dalam proses capaian maklumat termasuk • Perwakilan item (dokumen) • Perwakilan kepada kehendak pengguna • Padanan kehendak dan item • Pangkatan capaian item • Kerangka formal yang telah dicadangkan termasuk • Teori set, boolean algebra, linear algebra, probability, fuzzy set theory, neural networks, Bayesian networks dan banyak lagi • Perbincangan akan meliputi • Model Boolean, model ruang vektor dan latent semantic indexing
Model Umum • D : set perwakilan dokumen • Q : set perwakilan kehendak pengguna (kueri) • R : D x Q real numbers fungsi yang akan menentukan bagi setiap dokumen dan kueri suatu nombor tertentu (real number) bagi diwakili oleh suatu pangkatan (berkaitan) dokumen berdasarkan kueri yang dimasukkan.
Model Boolean • Dokumen diwakilkan dalam bentuk satu set katakunci. kata kunci hanya dinyatakan sama ada ujud atau tiada di dalam sesuatu dokumen • Kueri : dinyatakan dalam ungkapan katakunci yang dihubungkan dengan and, or dan not , termasuk penggunaan kurungan untuk penilaian berdasarkan kepentingan. • Pangkatan : bagi setiap term indeks ki set dokumen Dki dimana ki ujud : Dki = {dj | Wi,j = 1} dan ungkapan boolean boleh diungkapkan dalam bentuk set-theoritik • Setiap term ki digantikan dengan set Dki • Operator boolean and (), or () dan not () dan juga operator tindanan() , penyatuan () dan pelengkap (~) • Hasil capaian adalah set yang berkaitan dan yang selebihnya tidak berkaitan
Operator Boolean • Q1 AND Q2 • Documents that are in BOTH sets: Q1 and Q2 • Q1 OR Q2 • Documents that are in at least in one set: Q1 or Q2 • NOT Q1 • All documents except the one in set Q1 • Q1 \ Q2 • Logical “minus” all documents from Q1 except those that belong to Q2 • Used also as “binary NOT” (Q1 NOT Q2) • Q1 XOR Q2 • Exclusive OR - documents that belong to exactly one set: Q1 or Q2, but not both • In other words (Q1 OR Q2) \ (Q1 AND Q2)
Contoh : • Dapatkan semua dokumen mengandungi “information” dan “retrieval” • Dapatkan semua dokumen mengandungi “information” atau “retrieval” (atau kedua-duanya) • Dapatkan semua dokumen mengandungi “information” atau “retrieval”, tetapi bukan kedua-duanya. • Dapatkan semua dokumen mengandungi “information” dan “retrieval” atau tidak mengandungi kedua-dua “retrieval” dan “science”
Model Boolean : Kekuatan • Sehingga sekarang merupakan model capaian yang popular kerana • Mudah untuk difahamai untuk kueri yang mudah • Kawalan yang baik bagi set jawapan dengan menggunakan ungkapan boolean yang kompleks. • Penjanaan yang efisyen • Selagimana pengenalpastian dokumen berasaskan kepada term dititikberatkan. • Pengguna dengan hanya sedikit latihan dengan senang dapat menformulasikan kueri boolean yang mudah • Model boolean boleh ditingkatkan bagi membolehkan penjanaan pangkatan
Model Boolean : Masalah • Terlalu rigid : AND bermaksud SEMUA ; OR bermaksud SALAH SATU • Susah jika permintaan pengguna yang kompleks. • Susah untuk mengawal bilangan dokuman yang dicapai • Semua dokumen yang padan akan dipulangkan tanpa ada senarai keutamaan • Susah untuk pangkatkan output • Semua dokumen yang padan, memenuhi kueri pada aras yang sama • Susah untuk menjanakan “relevent feedback” secara automatik • Jika dokumen yang dikenalpasti oleh pengguna adalah releven, bagaimana untuk menjana term baru bagi sesuatu kueri? AND? OR?
Capaian “Extended Boolean” • membenarkan proses pangkatan dilakukan Bagi dokumen yang mengandungi term t1 dan t2 dengan pemberat w1 dan w2 maka similarity coefficient dikira
Model Ruang Vektor • Setiap term dianggap sebagai term indeks dimana ianya tidak berkaitan diantara satu sama lain. • Setiap term indeks adalah mewakili term penting bagi sesuatu aplikasi. architecture bus computer database …. network Koleksi sains komputer Term indeks dalam satu koleksi
Model Vektor • Dokumen : dokumen dengan set term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada dokumen dj = (W1,j , W2,j, …… , Wi,j) • Kueri : kueri adalah term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada kehendak pengguna q = (W1,j , W2,j, …… , Wi,j)
T1 T2 …. Tt D1 w11 w21 … wt1 D2 w12 w22 … wt2 : : : : : : : : Dn w1n w2n … wtn Model Ruang Vektor • Setiap term, I, di dalam suatu dokumen atau kueri, j, diberi nilai (real) pemberat wij. • Koleksi bagi n dokumen boleh diwakilkan dalam bentuk model ruang vektor dengan matrik term-dokumen • Kemasukkan matrik bergantung kepada pemberat term dalam suatu dokumen; kosong bermaksud term tidak significance dalam dokumen atau tidak ujud di dalam dokumen tersebut.
T3 5 D1 = 2T1+ 3T2 + 5T3 Q = 0T1 + 0T2 + 2T3 2 3 T1 D2 = 3T1 + 7T2 + T3 7 T2 Perwakilan Grafik Example: D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 • Adakah D1 atau D2 lebih sama dgn Q? • Bagaimana untuk mengukur darjah kesamaan? Jarak ? Sudut?
Model Ruang Vektor Perkara yang penting di dalam permodelan ruang vektor ialah • menentukan pemberat bagi dokumen dan pemberat bagi kueri • Pengiraan persamaan antara dokumen dan kueri
Model Ruang Vektor : Penentuan Pemberat • Penyelesaian mudah : kepentingan sesuatu term berkait dengan kekerapan keujudan term tersebut. • Jika term A dinyatakan lebih banyak/kerap dari term B, maka dokumen itu lebih menceritakan tentang A berbanding B. • katakan freqi,j adalah kekerapan keujudan term ki dalam suatu dokumen dj, maka • Wi,j = freqi,j • Masalah : penyelesaian mudah ini tidak normal jika perbandingan berdasarkan panjang suatu dokumen • Satu laman dokumen yang menyebut 10 kali mengenai A berbanding 100 laman dokumen yang menyebut 20 kali mengenai A • Penyelesaian : • Bahagi setiap bilangan kekerapan (freq) dengan panjang dokumen • Bahagi setiap bilangan kekerapan dengan bil. Kekerapan yang maksima bagi setiap item dalam dokumen
Model Ruang Vektor : Penentuan Pemberat • Masalah : term yang ujud di dalam banyak dokumen tidak semestinya menggambarkan ianya berkaitan dengan dokumen tersebut • Term komputer di dalam perpustakaan kejuruteraan • Penyelesaian : pemberat menggabungkan dua nilai pengukuran • Pemberat bagi kekerapan term dalam sesbuah dokumen • Pemberat disongsangkan bagi memberi penumpuan kepada keujudan term di dalam keseluruhan koleksi dokumen yang ada. Ia menunjukkan term yang jarang muncul dalam keseluruhan dokumen adalah lebih bermakna • Digabungkan :
Model Ruang Vektor : Penentuan Pemberat Jika koleksi mengandungi 10000 dokumen dan term A ujud sebanyak 20 kali pada dokumen tertentu dan maksima suatu term yang ujud pada dokumen ialah 50. Term A ujud 2000 kali pada keseluruhan koleksi dokumen maka fi,j = freqi,j / max{ freqk,j} = 20/50 = 0.4 idfi = log2(n/ni) = log2 (10000/2000) = log2(5) = 2.32 wi,j = fi,j . idfi = 0.4 * 2.32 = 0.93
Model Ruang Vektor : Penentuan Pemberat Pemberat kueri dicadangkan seperti berikut • freqi,j merupakan kekerapan term ki dalam teks kueri q yang diminta • Kueri dianggap seperti dokumen lain di dalam koleksi.
Model Ruang Vektor : pengukuran kesamaan (similarity) • Pengukuran kesamaan merupa fungsi dijanakan bagi mendapatkan darjah kesamaan diantara sepasang vektor. • Memandangkan kueri dan dokuemn dalam bentuk vektor maka pengukuran kesamaan boleh mendapatkan kesamaan di antara dua dokumen, dua kueri atau satu dokumen dan satu kueri. • Terdapat beberapa kaedah digunakan didalam mendapatkan pengukuran kesamaan. Diantaranya : • Inner product • Cosine • Jaccard Coefficient.
Model Ruang Vektor : pengukuran kesamaan (similarity)Inner Product • Inner product : pengukuran kesamaan yang paling mudah • Dokumen : • Kueri : • Pengukuran yang digunakan : • Contoh • Dokumen dan kueri • d1 = (3, 2, 5, 4) • d2 = (6, 4, 10, 8) • q = (2, 0, 4, 3) Pengukuran kesamaan : Sim(q, d1) = 6+0+20+12 = 38 Sim(q, d2) = 12+0+40+24=76
Model Ruang Vektor : pengukuran kesamaan (similarity)Inner Product management architecture text information computer retrieval database Binary: • D = 1, 1, 1, 0, 1, 1, 0 • Q = 1, 0 , 1, 0, 0, 1, 1 sim(D, Q) = 3 • Size of vector = size of vocabulary = 7 • 0 means corresponding term not found in document or query Weighted D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 sim(D1, Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2, Q) = 3*0 + 7*0 + 1*2 = 2
Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine • Cosine : pernormalan pengukuran kesamaan inner product • Dokumen : • Kueri : • Pengukuran cosine yang digunakan :
Pengukuran cosine • Contoh : • Dokumen dan kueri • d1=(3, 2, 5, 4) • d2=(6, 4, 10, 8) • q = (2, 0, 4, 3) • Vektor • |d1| =7.35 • |d2| =14.70 • |q | = 5.38 Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine • Cosine mengukur berdasarkan sudut antara dua vektor • Semua nilai di antara 0 – 1 • Pendekatan cosine ialah, 1, menunjukkan dua vektor tersebut mewakilkan konsep yang sama. 0, menunjukan keduanya tidak mewakili konsep yang sama • Kesamaan • sim(q,d1) = (6+0+20+12) / (7.35 5.38) = 0.96 • sim(q,d2) = (12+0+40+24) / (14.70 5.38) = 0.96
Pengukuran cosine • Contoh : • Dokumen dan kueri • d1=(6, 4, 0, 8) • d2=(0, 0, 5, 0) • q = (3, 2, 0, 4) • Vektor • |d1| =10.77 • |d2| = 5.00 • |q | = 5.385 Model Ruang Vektor : pengukuran kesamaan (similarity)Cosine • Kesamaan • sim(q,d1) = (18+8+0+32) / (10.77 5.385) = 1.00 • sim(q,d2) = (0+0+0+0) / (5.00 5.385) = 0
Model Ruang Vektor : pengukuran kesamaan (similarity)Jaccard Coefficient Jaccard Coefficient: D1 = 2T1 + 3T2 + 5T3 Sim(D1, Q) = 10 / (38+4-10) = 10/32 = 0.31 D2 = 3T1 + 7T2 + T3 Sim(D2, Q) = 2 / (59+4-2) = 2/61 = 0.04 Q = 0T1 + 0T2 + 2T3