150 likes | 566 Views
Praktikum Sistem Temu Balik Informasi. D3 Komputer & Sistem Informasi Sekolah Vokasi UGM Oleh Kabul Kurniawan. Profil Pengajar. Nama : Kabul Kurniawan, A.Md. Alamat : Jl. Kaliurang KM 5,2 Blok G. 12 A No. HP : 085642639139 Email : kabulkurniawan@gmail.com Web : KabulKurniawan.Com
E N D
Praktikum Sistem Temu Balik Informasi D3 Komputer & Sistem Informasi Sekolah Vokasi UGM Oleh Kabul Kurniawan
Profil Pengajar • Nama : Kabul Kurniawan, A.Md. • Alamat : Jl. Kaliurang KM 5,2 Blok G. 12 A • No. HP : 085642639139 • Email : kabulkurniawan@gmail.com • Web : KabulKurniawan.Com • fb : kabulkurniawan@gmail.com • Twitter : @kabulkurniawan • YM : kabulkurniawan
Aturan Main • Presensi : 20% • Tugas/Quiz : 20% • Presentasi : 10% • UAS : 50% Konversi Nilai : 80 – 100 = A 65 – 79 = B 45 – 64 = C 20 – 44 = D 0 – 19 = E
Materi • Introduction • Boolean Retrieval • Dictionary and Postings • Dictionaries and Tollerant Retrieval • Index Construction • Index Compression • Scoring, Term Weighting, Vector Space Model • Score Computing • Evaluation
Tugas Tugas Individu SoftFile, kirim ke : email : tugaskomsi@gmail.com, Subyek : nim_tugas1_PSTBI
Tools • Notepad ++ • XAMPP (Apache, Mysql, PHP)
Introduction • Sistem Temu-Balik Informasi (Information Retrieval) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis (Wikipedia). • Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Contoh : Google, Bing, Baidu, Yahoo Search dsb.
Definisi • Pencarian materi (biasanya dokumen) dari sesuatu yang sifatnya tak-terstruktur (unstructured, biasanya teks) untuk memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer). • Representasi, penyimpanan, organisasi, pencarian dan akses ke item informasi untuk memenuhi kebutuhan informasi pengguna. • Penekanan pada proses retrieval informasi (bukan data). • Karakterisasi kebutuhan informasi tidaklah mudah. Harus ditranslasi ke dalam suatu query terlebih dahulu.
Proses Utama dalam IR • Indexing • Seraching
Indexing • Word Token (mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase), • StopWord Removal (Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti:and, or, not dan sebagainya), • Stemming (Proses mengubah suatu kata bentukan menjadi kata dasar) dan • Term Weighting (Proses pembobotan setiap term di dalam dokumen).
Boolean Retrieval • Model boolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). • Query direpresentasikan sebagai ekspresi boolean • Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta menggunakan tanda kurung untuk menentukan scope operator • Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan
Boolean Retrieval • Query : Brutus AND Caesar AND NOT Calpurnia Result : 110100 AND 110111 AND 101111 = 100100
Inverted Index • Langkah-langkah membuat inverted Index: • Koleksi Dokumen yang akan di index • Tokenisasi Text, Ubah setiap dokumen menjadi kumpulan token • Lakukan proses linguistik, produksi daftar token yang ternormalisasi yang akan menjadi kata dasar (term) index • Buat daftar inverted index yang terdiri dari dictionary dan postings