StopList dan Stemming yasmi afrizal yasmi_afrizal@yahoo.co.id

Pertemuan ke-3 StopList dan Stemmingyasmi afrizal yasmi_afrizal@yahoo.co.id Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Sistem Temu-kembali Informasi Sistem temu-kembali informasi pada prinsipnyaadalah suatu sistem yang sederhana. Misalkan ada sebuahkumpulan dokumen dan seorang user yangmemformulasikan sebuah pertanyaan (request atauquery). Jawaban dari pertanyaan tersebut adalahsekumpulan dokumen yang relevan dan membuangdokumen yang tidak relevan. Secara matematis haltersebut dapat dituliskan sebagai berikut : Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 indexing Sistem temu-kembali informasi pada dasarnya dibagidalam dua komponen utama yaitu sistem pengindeksan(indexing) yang menghasilkan basis data sistem dan temukembaliyang merupakan gabungan dari user interfacedan look-up-table. • Indexing merupakan sebuah proses untuk melakukanpengindeksan terhadap kumpulan dokumen yang akandisediakan sebagai informasi kepada pemakai. Prosespengindeksan bisa secara manual ataupun secara otomatis. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Tahapan Pengindeksan • Parsing Dokumen yaitu proses pengambilan kata-katadari kumpulan dokumen. • Stoplist yaitu proses pembuangan kata buang seperti:tetapi, yaitu, sedangkan, dan sebagainya. • Stemming yaitu proses penghilangan/ pemotongandari suatu kata menjadi bentuk dasar. Kata“diadaptasikan” atau “beradaptasi” mejadi kata“adaptasi” sebagai istilah. • Term Weighting dan Inverted File yaitu prosespemberian bobot pada istilah. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Teknik pembobotan 1. Teknik pembobotan berdasarkan frekuensikemunculan istilah pada satu dokumen. Teknik pembobotan ini cukupsederhana dimana bobot suatu istilah pada sebuahdokumen berdasarkan jumlah kemunculannya padadokumen tersebut. 2. Teknik pembobotan berdasarkan rumus yaitu: Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 .....Teknik pembobotan • Dimana : • Wik adalah bobot istilah k pada dokumen i. • tfik merupakan frekuensi dari istilah k dalamdokumen i. • n adalah jumlah dokumen dalam kumpulandokumen. • dfk adalah jumlah dokumen yangmengandung istilah k. • Maxj tfij adalah frekuensi istilah terbesar padasatu dokumen. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 teknik temu-kembali informasi Ada beberapa teknik temu-kembali informasi yangtelah dikembangkan yaitu teknik Boolean sederhana danteknik Boolean berperingkat serta teknikExtended Boolean Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Teknik Boolean • Teknik Boolean merupakan suatu cara dalammengekspresikan keinginan pemakai ke sebuah kueridengan mamakai operator-operator Boolean yaitu : “and”, “or”, dan “not”. Adapunmaksud dari operator “and” adalah untukmenggabungkan istilah-istilah kedalam sebuahungkapan, dan operator “or” adalah untukmemperlakukan istilah-istilah sebagai sinonim,sedangkan operator “not” merupakan sebuahpembatasan. • Teknik Boolean sederhana, kueridiproses sesuai dengan operator yang digunakan danmenampilkan dokumen berdasarkan urutan dokumenditemukan. • Teknik Booleanberperingkat, dokumen diperingkat berdasarkanbobot dari dokumen. Adapun pembobotan darimasing-masing dokumen berdasarkan aturan sebagaiberikut : Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 ...Komponen Sistem IR Dimana dA menyatakan bobot istilah A padadokumen D. Bobot istilah ini didapat dari hasil prosesIndexing. Min(dA,dB) berarti bahwa sebuah dokumendi retrieve dengan bobot sebesar nilai terkecil daribobot-bobot istilah yang dipunyainya. Max(dA,dB)berarti bahwa sebuah dokumen di retrieve dengan bobot sebesar nilai terbesar dari bobot-bobot istilahyang dipunyainya. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Teknik Extended Boolean Teknik Extended Boolean berdasarkan p-norm modelmerupakan pengembangan lebih lanjut dari modelBoolean. Teknik ini memakai operator yangdikomputasi berdasarkan rumus Savoy,sebagai berikut : Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 Sistem Pencarian Web Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-3 AreaTerkait • Manajemen Basis Data • Ilmu Perpustakaan dan Informasi • Kecerdasan Buatan • Pemrosesan bahasa alamai • Pembelajaran Mesin Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Relevansi • Relevansi merupakan suatu judgment (keputusan) subyektif dan dapat didasarkan pada: – topik yang tepat. – waktu (informasi terbaru). – otoritatif (dari suatu sumber terpercaya). – kebutuhan informasi dari pengguna. • Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Pencarian Keyword • Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)? • Ide yang lebih fleksibel: Berapa seringkata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bagof words)? Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Masalah dengan Keyword • Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” • Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit) Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Bukan SekedarKeyword • Kita akan mendiskusikan dasar-dasar IRberbasis keyword, tetapi… – Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil terbaik. • Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi… – Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 IR Cerdas • Memanfaatkan pengertian atau makna dari kata yang digunakan. • Melibatkan urutan kata di dalam query. • Beradaptasi dengan pengguna berdasarkanpada feedback, langsung atau tidak langsung. • Memperluas pencarian dengan term terkait. • Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal otomatis. • Memanfaatkan Otoritas dari sumber informasi. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Indeks • Sistem IR jarang mencari koleksi dokumensecara langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Indexing Otomatis • Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia. • Ketika informasi yang dicari adalah teks,metode automatic indexing akan sangat efektif. • Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 IR dari Koleksi Besar • Information retrieval dari koleksi sangat besar bersandar pada: – Jumlah computer power yang besar untuk mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak. • komputasi kinerja-tinggi – Pemahaman pengguna terhadap informasi dan kemampuan dari sistem. • Interaksi manusia - komputer • Machine-learning banyak digunakan untuk mendapatkan kinerja terbaik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Searching & Browsing •Orang dalam perulangan Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 IRdari Koleksi DokumenTeks • Kategori utama dari metode: – Ranking kemiripan terhadap query (vector space model). – Pencocokan exact (Boolean). – Ranking berdasarkan tingkat kepentingan dokumen(PageRank) – Kombinasi beberapa metode • Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 IstilahPenting • Information retrieval: sub-bidang ilmukomputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya. • Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit. • Browsing: Eksplorasi tak-terstruktur dari badan informasi. • Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 ...Istilah • Query: Suatu string teks, menggambarkaninformasi yang sedang dicari pengguna.Setiap kata dari query dinamakan search term. • Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakansimbol khusus, misalnya regular expression. • Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata. • Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulisatau judul. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 ...Istilah • Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian. • Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file). • Pada pencarian full text, word list adalah semuaterm di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming. • Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen. • Keyword: Nama untuk term-term dalam word list,terutama dengan controlled vocabulary Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Mengurutan& RankingHit • Ketika pengguna men-submit suatu query kesistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akansangat besar. • Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan. • Tiga metode utama: – Mengurutkan hit, misal berdasarkan tanggal – Meranking hit berdasarkan kemiripan antara query dan dokumen – Meranking hit berdasarkan kepentingan dari dokumen Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 IR Berbasis Teks • Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model). • Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean. • Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen. • Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan. • Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 Frekuensi Kata • Observasi: Beberapa kata lebih umum daripada yang lain. • Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini: – Mempengaruhi efektifitas dan efisiensi dari struktur data yang digunakan untuk mengindeks dokumen – Banyak model retrieval memanfaatkannya Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 ...Frekuensi Kata • Contoh: Contoh berikut ini diambil dari : – Jamie Callan, Characteristics of Text, 1997 – 19 Juta kata sampel – Slide berikut memperlihatkan 50 kata yang paling umum, diranking (r) berdasarkan frekuensinya (f). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011

Pertemuan ke-2 ...Frekuensi Kata

Pertemuan ke-2 Distribusi Ranking Frekuensi • Untuk semua kata di dalam suatu dokumen, untuk setiap kata w – f adalah frekuensi munculnya w – r ranking dari w disusun menurut frekuensi. (kata yang paling umum muncul mempunyai rank =1)

Pertemuan ke-2 Contoh Frekuensi Rank • Slide berikut memperlihatkan kata-kata di dalamdata Callan yang telah dinormalisasi. Dalam contoh ini: – r adalah ranking dari kata w dalam sampel. – f adalah frekuensi kata w di dalam sampel. – n adalah jumlah total kemunculan kata di dalam sampel.

Pertemuan ke-2 ...ContohRanking Frekuensi

StopList dan Stemming yasmi afrizal yasmi_afrizal@yahoo.co.id