180 likes | 439 Views
Retrieval Techniques. By: Zainal A. Hasibuan Disampaikan Pada Kuliah Tamu di Universitas Dian Nuswantoro 200 9. Tujuan Sesi Ini…. Memahami taksanomi retrieval techniques Memahami karakteristik dari berbagai retrieval techniques
E N D
Retrieval Techniques By: Zainal A. Hasibuan Disampaikan Pada Kuliah Tamu di Universitas Dian Nuswantoro 2009
Tujuan Sesi Ini… • Memahami taksanomi retrieval techniques • Memahami karakteristik dari berbagai retrieval techniques • Memahami kelemahan dan kelebihan dari masing-masing retrieval techniques
Taksanomi Retrieval Techniques Searching
Cara Menemukan Informasi (User Tasks) • Browsing • Untuk pengguna yang belum begitu “pasti” mengenai informasi apa yang dicarinya • Browsing dapat dilakukan secara acak maupun secara terstruktur (menu based) • Searching • Untuk pengguna yang sudah tahu informasi yang dicarinya • Menggunakan kata-kata kunci
Model Klasik Retrieval Techniques • Model Boolean • Fuzzy • Extended Boolean • Model Vektor • General vector space • Latent semantic indexing • Neural network • Model Probabilistik • Inferensia network • Neural network
Karakteristik Model Klasik • Dokumen direpresentasikan dengan menggunakan indeks term • Bobot indeks term menunjukkan spesifikasi untuk dokumen tertentu • Pengolahan komputasi dilakukan dengan pendekatan matematik statistik
Model Boolean • Model ini berdasarkan teori himpunan dan aljabar Boolean. • Dokumen adalah himpunan dari istilah (term) dan kueri adalah pernyataan Boolean yang ditulis pada term. • Dokumen diprediksi apakah relevan atau tidak. • Model ini menggunakan operator Boolean. • Istilah (term) dalam sebuah kueri dihubungkan dengan menggunakan operator AND, OR atau NOT. • Metode ini merupakan metode yang paling sering digunakan pada`mesin penelusur (search engine) karena kecepatannya.
Contoh Model Boolean • A and B D1AB, D2AB, ...d1AB > d2AB > • ... dengan dAB = min(dA,dB) • A or B D1AB, D2AB, ...d1AB > d2AB > • … dengan dAB = max(dA,dB) • Not A U – dA • Dimana dA menyatakan bobot istilah A pada dokumen D. • Bobot istilah ini didapat dari hasil proses Indexing. • Min(dA,dB) berarti bahwa sebuah dokumen di retrieve dengan • bobot sebesar nilai terkecil dari bobot-bobot istilah yang • dipunyainya. • Max(dA,dB) berarti bahwa sebuah dokumen di retrieve dengan • bobot sebesar nilai terbesar dari bobot-bobot istilah yang • dipunyainya.
Kelebihan Model Boolean • Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan • Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator. • Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersial.
Kelemahan Boolean Model • Model Boolean tidak bisa memperingkat dokumen yang terambil. • Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan Boolean/kueri yang diberikan (exact match) • Sehingga dokumen yang terambil bisa sangat banyak atau sangat sedikit. • Akibatnya ada kesulitan dalam mengambil keputusan • Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. • Akibatnya pengguna harus memiliki pengetahuan banyak mengenai kueri dengan Boolean agar pencariann menjadi efisien • Tidak bisa menyelesaikan partial matching pada kueri
Extended Boolean Model • Teknik Extended Boolean berdasarkan p-norm model merupakan pengembangan lebih lanjut dari model Boolean. • Teknik ini memakai operator yang dikomputasi berdasarkan rumus Savoy(1993),
Rumus Extended Boolean • p adalah nilai p-norm yang dimasukkan pada kueri. • Wia adalah bobot istilah A dalam indeks pada dokumen Di. • Wib adalah bobot istilah B dalam indeks pada dokumen Di.
Pemeringkatan Extended Boolean • Langsung mengurutkan dokumen (dari besar ke kecil) berdasarkan bobot dokumen yang didapat dengan rumus RSV (retrieval status value) di atas. • Memakai rumus Learning Scheme. • RSV(Di) = RSVinit (Di) + ik norm * RSVinit (Dk) untuk i= 1, 2,...., n, • Dimana : • RSVinit(Di) merupakan retrieval status value dari dokumen i yang dikomputasi berdasarkan rumus teknik retrieval P-norm model. • ik merupakan bobot keterhubungan antara dokumen i dan k. • Bobot keterhubungan ini didapat dari nilai relevance link yang merupakan hasil dari proses pembelajaran.
Memilih relasi istilah Membaca isi dokumen Memilih relasi dokumen Contoh Implementasi Boolean Model Berbasis Hyperteks Source: Hasibuan, Zainal A. and Yofi Andre, 1999
Citra Komputer1. S048 2.000000 1. S005 0.0995702. S005 1.000000 2. S048 0.0391203. S006 1.000000 3. T044 0.0313004. S030 1.000000 4. S006 0.0260805. S067 1.000000 5. T005 0.0223506. T005 1.000000 6. S030 0.0130407. T044 1.000000 7. S067 0.013040 Perbandingan Boolean vs. Extended Boolean Search: Citra and Komputer
Kecendrungan frekuensi istilah pada abstrak skripsi Fasilkom
Latihan…. • Lakukan percobaan untuk memilih indeks secara otomatis dari suatu koleksi dokumen • Terapkan query model Boolean untuk mendapatkan kembali dokumen dari koleksi dokumen tersebut • Evaluasi dokumen yang terambil • Relevan atau tidak relevankah dokomen yang terambil?