340 likes | 622 Views
Pertemuan ke- 2. Model dalam sistem temu kembali informasi yasmi afrizal yasmi_afrizal@yahoo.co.id. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester G anjil 20 10 /201 1. Pertemuan ke- 2. Definisi IR.
E N D
Pertemuan ke-2 Model dalam sistem temu kembali informasiyasmi afrizal yasmi_afrizal@yahoo.co.id Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Definisi IR • Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanyateks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalamkomputer). • Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna. • Penekanan pada proses retrieval informasi (bukan data). • Karakterisasi kebutuhan informasi tidaklah mudah.Harus ditranslasi ke dalam suatu query terlebihdahulu. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Motivasi • Data retrieval – Dokumen mana yang mengandung himpunan keyword? – Semantik didefinisikan dengan baik – Error dari suatu obyek mengakibatkan kegagalan! • Information retrieval – Informasimengenai suatu subyek atau topik – Semantik dapat bersifat lepas (longgar) – Error kecil ditoleransi Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Motivasi IR di tengah pertunjukan – IR dalam 20 tahun terakhir: • Klasifikasi dan kategorisasi • Sistem dan bahasa • Antarmuka pengguna dan visualisasi – Masih, area dilihat sebagai bidang yang sempit – Web mengubah persepsi ini • Repository pengetahuan universal • Akses universal gratis (biaya rendah) • Volume raksasa dari informasi tanpa editorial boardterpusat • Meskipun banyak masalah: IR merupakan kunci untuk menemukan solusi! Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Sistem IR • Menerima query pengguna yang mewakili kebutuhan informasi • Mencari dan menginterpretasikan content(isi) dari item-item informasi • Membangkitkan suatu ranking yang mencerminkan relevansi terhadap kebutuhan informasi tersebut • Ide mengenai relevansi adalah sangat penting Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Kebutuhan IR • WWW: lebih 25 milyar halaman web, 1.3 milyar gambar dan lebih 1 milyar pesan Usenet yang diindeks pada Google (2006) • Berbagai kebutuhan informasi: – Mencari dokumen yang masuk dalam topik tertentu – Mencari suatu informasi spesifik – Mencari jawaban dari suatu pertanyaan – Mencari informasi dalam bahasa berbeda – ... Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Penjualan Software Text Retrieval Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Information Retrieval (IR) • Secara teknis: indexing (pembuatan index) dan retrieval (pencarian keterangan) dokumen textual. • Pencarian halaman pada WWW adalah aplikasi paling “ngetop” saat ini • Fokus pertama: meretrieve dokumen- dokumen yang relevan dengan query. • Fokus kedua: meretrieve himpunan besardokumen secara efisien. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Information vs Data Retrieval • Sistem data retrieval (seperti database) berurusan denganstructured data yang mempunyai semantik terdefinisi dengan baik dan kebutuhan meretrieve hasil yang pasti (exact) • Sistem IR berurusan dengan dokumen bahasa alami(natural language) dan error kecil dapat diabaikan. • Sistem IR harus menginterpretasikan content kemudian meranking daftar content sesuai dengan tingkat relevansinya. • Tujuan: Meretrieve semua dokumen yang relevan sekaligus meretrieve sesedikit mungkin dokumenyang tidak relevan Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Sistem IR Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ContohSistem IR • Conventional (katalog perpustakaan) Pencarian dengan kata kunci, judul, penulis, dll. • Text-based (Google, Yahoo, ASK). Pencarian dengan kata kunci (keyword). Pencarian terbatasmenggunakan query dalam bahasa alami. • Multimedia (QBIC, WebSeek, SaFe) Pencarian dengan penampilan visual (bentuk, warna,…) • Sistem jawaban pertanyaan (AskJeeves, Answerbus) Pencarian dalam bahasa alami (terbatas) • Lainnya: IR lintas-bahasa, music retrieval Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Sistem IR di Web • Pencarian halaman webhttp://www.google.com • Pencarian gambar http://images.google.com • Pencarian isi (content) gambarhttp://wang.ist.psu.edu/IMAGE/ • Pencarian jawaban pertanyaanhttp://www.askjeeves.com • Pencarian musik? Hari-hati, jangan melanggar hukum. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Relevansi • Relevansi merupakan suatu judgment (keputusan) subyektif dan dapat didasarkan pada: – topik yang tepat. – waktu (informasi terbaru). – otoritatif (dari suatu sumber terpercaya). – kebutuhan informasi dari pengguna. • Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Pencarian Keyword • Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)? • Ide yang lebih fleksibel: Berapa seringkata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bagof words)? Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Masalah dengan Keyword • Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” • Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit) Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Bukan SekedarKeyword • Kita akan mendiskusikan dasar-dasar IRberbasis keyword, tetapi… – Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil terbaik. • Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi… – Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR Cerdas • Memanfaatkan pengertian atau makna dari kata yang digunakan. • Melibatkan urutan kata di dalam query. • Beradaptasi dengan pengguna berdasarkanpada feedback, langsung atau tidak langsung. • Memperluas pencarian dengan term terkait. • Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal otomatis. • Memanfaatkan Otoritas dari sumber informasi. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Indeks • Sistem IR jarang mencari koleksi dokumensecara langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Indexing Otomatis • Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia. • Ketika informasi yang dicari adalah teks,metode automatic indexing akan sangat efektif. • Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR dari Koleksi Besar • Information retrieval dari koleksi sangat besar bersandar pada: – Jumlah computer power yang besar untuk mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak. • komputasi kinerja-tinggi – Pemahaman pengguna terhadap informasi dan kemampuan dari sistem. • Interaksi manusia - komputer • Machine-learning banyak digunakan untuk mendapatkan kinerja terbaik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Searching & Browsing •Orang dalam perulangan Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IRdari Koleksi DokumenTeks • Kategori utama dari metode: – Ranking kemiripan terhadap query (vector space model). – Pencocokan exact (Boolean). – Ranking berdasarkan tingkat kepentingan dokumen(PageRank) – Kombinasi beberapa metode • Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IstilahPenting • Information retrieval: sub-bidang ilmukomputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya. • Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit. • Browsing: Eksplorasi tak-terstruktur dari badan informasi. • Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Istilah • Query: Suatu string teks, menggambarkaninformasi yang sedang dicari pengguna.Setiap kata dari query dinamakan search term. • Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakansimbol khusus, misalnya regular expression. • Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata. • Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulisatau judul. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Istilah • Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian. • Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file). • Pada pencarian full text, word list adalah semuaterm di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming. • Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen. • Keyword: Nama untuk term-term dalam word list,terutama dengan controlled vocabulary Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Mengurutan& RankingHit • Ketika pengguna men-submit suatu query kesistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akansangat besar. • Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan. • Tiga metode utama: – Mengurutkan hit, misal berdasarkan tanggal – Meranking hit berdasarkan kemiripan antara query dan dokumen – Meranking hit berdasarkan kepentingan dari dokumen Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR Berbasis Teks • Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model). • Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean. • Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen. • Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan. • Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Frekuensi Kata • Observasi: Beberapa kata lebih umum daripada yang lain. • Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini: – Mempengaruhi efektifitas dan efisiensi dari struktur data yang digunakan untuk mengindeks dokumen – Banyak model retrieval memanfaatkannya Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Frekuensi Kata • Contoh: Contoh berikut ini diambil dari : – Jamie Callan, Characteristics of Text, 1997 – 19 Juta kata sampel – Slide berikut memperlihatkan 50 kata yang paling umum, diranking (r) berdasarkan frekuensinya (f). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Frekuensi Kata
Pertemuan ke-2 Distribusi Ranking Frekuensi • Untuk semua kata di dalam suatu dokumen, untuk setiap kata w – f adalah frekuensi munculnya w – r ranking dari w disusun menurut frekuensi. (kata yang paling umum muncul mempunyai rank =1)
Pertemuan ke-2 Contoh Frekuensi Rank • Slide berikut memperlihatkan kata-kata di dalamdata Callan yang telah dinormalisasi. Dalam contoh ini: – r adalah ranking dari kata w dalam sampel. – f adalah frekuensi kata w di dalam sampel. – n adalah jumlah total kemunculan kata di dalam sampel.
Pertemuan ke-2 ...ContohRanking Frekuensi