500 likes | 1.12k Views
Sistem Temu Kembali Informasi/ Information Retrieval. Konsep Dasar Sistem Temu Kembali Informasi. Dokumen. Penyimpanan yang T erorganisasi. Database. Database Mahasiswa. U nstructured. Siapa pemain dalam novel tersebut ?. Digital Library UB. Google. Database Retrieval vs IR.
E N D
Sistem Temu Kembali Informasi/ Information Retrieval KonsepDasarSistem Temu KembaliInformasi
Database Database Mahasiswa
Unstructured Siapa pemain dalam novel tersebut ?
Database Retrieval vs IR • Database retrieval – Dokumenmana yang mengandunghimpunan keyword? – Semantikdidefinisikandenganbaik – Error darisuatuobyekmengakibatkankegagalan! • Information retrieval – Informasimengenaisuatusubyekatautopik – Semantikdapatbersifatlepas (longgar) – Error kecilditoleransi
Pengertian IR • Pencarianmateri (biasanyadokumen) darisesuatu yang sifatnyatak-terstruktur (unstructured, biasanyateks) untukmemenuhikebutuhaninformasidaridalamkoleksibesar (biasanyadisimpandalamkomputer). • Representasi, penyimpanan, organisasi, pencariandanakseske item informasiuntukmemenuhikebutuhaninformasipengguna. • Penekananpadaprosesretrieval informasi (bukan data). • Karakterisasikebutuhaninformasitidaklahmudah.Harusditranslasikedalamsuatu query terlebihdahulu.
Information Retrieval • Secarateknis: indexing (pembuatanindex) danretrieval (pencarianketerangan) dokumentextual. • Pencarianhalamanpada WWW adalahaplikasi paling “ngetop” saatini • Fokuspertama: me-retrieve dokumen- dokumen yang relevandengan query. • Fokuskedua: me-retrieve himpunanbesardokumensecaraefisien. • Tujuan: Me-retrieve semuadokumen yang relevansekaligus me-retrieve sesedikitmungkindokumenyang tidakrelevan
Relevan • Relevansimerupakansuatujudgment (keputusan) subyektifdandapatdidasarkanpada: – Topik yang tepat. – Waktu (informasiterbaru). – Otoritatif (darisuatusumberterpercaya). – Kebutuhaninformasidaripengguna. • Kriteriarelevansiutama: suatusistem IR sebaiknya (harus) memenuhikebutuhaninformasipengguna.
Pencarian Keyword • Ide paling sederhanadarirelevansi: apakah string query adadidalamdokumen (katademikata, verbatim)? • Ide yang lebihfleksibel: Berapaseringkata-katadidalam query munculdidalamdokumen, tanpamelihaturutannya (bagof words)?
Masalahdengan Keyword • Mungkintidak me-retrieve dokumenrelevan yang menyertakansynonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” • Mungkin me-retrieve dokumentak-relevan yang menyertakanambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilakumenggigit)
BukanSekedar Keyword • Kita akanmendiskusikandasar-dasar IRberbasiskeyword, tetapi… – Fokuspadaperluasandanpengembanganterakhiruntukmendapatkanhasilterbaik. • Kita akanmembahasdasar-dasarpembangunansistem IR yang efisien, tetapi… – Fokuspadaalgoritmadankemampuandasar, bukanmasalahsistem yang memungkinkanpengembanganke database ukuranindustri.
IR Cerdas • Memanfaatkanpengertianataumaknadarikata yang digunakan. • Melibatkanurutankatadidalam query. • Beradaptasidenganpenggunaberdasarkanpadafeedback, langsungatautidaklangsung. • Memperluaspencariandengan term terkait. • Mengerjakanpemeriksaanejaaan/perbaikantandapengenalotomatis. • MemanfaatkanOtoritasdarisumber
Perkembangan IR • KlasifikasiDokumen • Clustering Dokumen • PeringkasanTeks • Question Answering System
Portal Jurnal • Computer.org (gunakan proxy UB) : • http://scholar.google.com/ • http://www.sciencedirect.com/ : • Other