330 likes | 569 Views
Pertemuan ke- 3. StopList dan Stemming yasmi afrizal yasmi_afrizal@yahoo.co.id. Jurusan Teknik Informatika Universitas Ahmad Dahlan Semester G anjil 20 10 /201 1. Pertemuan ke- 3. Hukum Zipf.
E N D
Pertemuan ke-3 StopList dan Stemmingyasmi afrizal yasmi_afrizal@yahoo.co.id Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 Hukum Zipf • Jika kata-kata di dalam suatu koleksi diranking, r, berdasarkan frekuensinya, f, maka memenuhi relasi: r × (f/n) = c dimana n adalah jumlah kemunculan katadi dalam koleksi, 19 juta dalam contoh. • Koleksi berbeda mempunyai konstanta c berbeda. • Dalam teks bahasa Inggris, c sekitar 0.1. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 MetodeHukumZipf • Stop lists: Abaikan kata-kata yang sangatsering (upper cut-off). Digunakan oleh hampir semua sistem. • Significant words: Abaikan kata yang paling sering dan paling sedikit (upper and lower cut- off). Jarang digunakan. • Term weighting: Berikan bobot berbeda untukterm-term berdasarkan pada frekuensinya, kata- kata yang paling sering dibobot kurang. Digunakan oleh hampir semuametode perankingan. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 PandanganLogik Dokumen • Representasi dokumen dipandang sebagai suatu continuum (rangkaian kesatuan). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 Arsitektur Sistem IR Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 Arsitektur IR: Contoh Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 KomponenSistemIR • Operasi Teks membentuk kata-kata indeks(token) – Tokenization (pemisahan kata) – Penghapusan Stopword (seperti ‘the’, ‘of’, …) – Stemming (mengubah kata-kata berbeda ke bentuk akarnya) • Indexing membangun suatu inverted index dari kata ke penunjuk dokumen. – Pemetaan dari kata kunci ke Id dokumen. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 ...Komponen Sistem IR • Searching meretrieve dokumen-dokumen yang mengandung token query yang diberikan dari inverted index. • Ranking memberikan score kepada semua dokumen yang diretrieve sesuai dengan relevance metric. • User Interface menangani interaksi dengan pengguna: – Input query dan output dokumen. – Feedback relevansi – Visualisasi hasil. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 ...Komponen Sistem IR • Operasi Query mentransformasi query untuk meningkatkan retrieval: – Query expansion menggunakan thesaurus. – Query transformation menggunakan feedbackrelevansi. – Optimisasi query untuk meningkatkan kinerja. (kurang penting daripada dalam sistem data retrieval) • Pertanyaan: bagaimana menambahkan suatukomponen personalisasi ke sistem IR? Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 Pencarian Web • Aplikasi IR terhadap dokumen pada WWW • Perbedaan: – Ukuran – lebih dari 25 milyar dokumen diindeks padaGoogle, terus bertambah – Perubahan dokumen tidak dapat dikendalikan. – Harus menghimpun corpus dokumen dengan menjaring (spidering) web. – Dapat mengeksploitasi informasi layout struktural dalam HTML (XML). – Dapat mengeksploitasi struktur link dari web Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 Sistem Pencarian Web Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-3 AreaTerkait • Manajemen Basis Data • Ilmu Perpustakaan dan Informasi • Kecerdasan Buatan • Pemrosesan bahasa alamai • Pembelajaran Mesin Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Relevansi • Relevansi merupakan suatu judgment (keputusan) subyektif dan dapat didasarkan pada: – topik yang tepat. – waktu (informasi terbaru). – otoritatif (dari suatu sumber terpercaya). – kebutuhan informasi dari pengguna. • Kriteria relevansi utama: suatu sistem IR sebaiknya (harus) memenuhi kebutuhan informasi pengguna. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Pencarian Keyword • Ide paling sederhana dari relevansi: apakah string query ada di dalam dokumen (kata demi kata, verbatim)? • Ide yang lebih fleksibel: Berapa seringkata-kata di dalam query muncul di dalam dokumen, tanpa melihat urutannya (bagof words)? Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Masalah dengan Keyword • Mungkin tidak meretrieve dokumen relevan yang menyertakan synonymous terms. – “restaurant” vs. “café” – “NDHU” vs. “National Dong Hwa University” • Mungkin meretrieve dokumen tak-relevan yang menyertakan ambiguous terms. – “bat” (baseball vs. mamalia) – “Apple” (perusahaan vs. buah-buahan) – “bit” (unit data vs. perilaku menggigit) Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Bukan SekedarKeyword • Kita akan mendiskusikan dasar-dasar IRberbasis keyword, tetapi… – Fokus pada perluasan dan pengembangan terakhir untuk mendapatkan hasil terbaik. • Kita akan membahas dasar-dasar pembangunan sistem IR yang efisien, tetapi… – Fokus pada algoritma dan kemampuan dasar, bukan masalah sistem yang memungkinkan pengembangan ke database ukuran industri. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR Cerdas • Memanfaatkan pengertian atau makna dari kata yang digunakan. • Melibatkan urutan kata di dalam query. • Beradaptasi dengan pengguna berdasarkanpada feedback, langsung atau tidak langsung. • Memperluas pencarian dengan term terkait. • Mengerjakan pemeriksaan ejaaan/perbaikan tanda pengenal otomatis. • Memanfaatkan Otoritas dari sumber informasi. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Indeks • Sistem IR jarang mencari koleksi dokumensecara langsung. Berdasarkan pada koleksi dokumen, dibangun sebuah index. Pengguna mencari index tersebut. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Indexing Otomatis • Tujuan dari automatic indexing adalah membangun index dan meretrieve informasi tanpa intervensi manusia. • Ketika informasi yang dicari adalah teks,metode automatic indexing akan sangat efektif. • Penelitian automatic indexing fundamental dimulai oleh Gerald Salton, Professor of Computer Science di Cornell & mahasiswa Pasca-Sarjananya (Sistem SMART). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR dari Koleksi Besar • Information retrieval dari koleksi sangat besar bersandar pada: – Jumlah computer power yang besar untuk mengerjakan algoritma sederhana terhadap jumlah data yang sangat banyak. • komputasi kinerja-tinggi – Pemahaman pengguna terhadap informasi dan kemampuan dari sistem. • Interaksi manusia - komputer • Machine-learning banyak digunakan untuk mendapatkan kinerja terbaik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Searching & Browsing •Orang dalam perulangan Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IRdari Koleksi DokumenTeks • Kategori utama dari metode: – Ranking kemiripan terhadap query (vector space model). – Pencocokan exact (Boolean). – Ranking berdasarkan tingkat kepentingan dokumen(PageRank) – Kombinasi beberapa metode • Contoh: Web search engine, seperti Google & Yahoo, menggunakan metode kombinasi, berdasarkan pada pendekatan pertama dan ketiga, dengan kombinasi exact dipilih menggunakan machine learning Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IstilahPenting • Information retrieval: sub-bidang ilmukomputer yang berurusan dengan penemuan kembali dokumen (khususnya teks) terotomatis berdasarkan pada content dan contextnya. • Searching: Pencarian informasi spesifik di dalam badan informasi. Hasilnya adalah sehimpunan hit. • Browsing: Eksplorasi tak-terstruktur dari badan informasi. • Linking: Berpindah dari satu item ke item lain mengikuti link (sambungan) seperti rujukan (referensi). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Istilah • Query: Suatu string teks, menggambarkaninformasi yang sedang dicari pengguna.Setiap kata dari query dinamakan search term. • Query dapat berupa search term tunggal, string dari term, frase atau ekspresi tertentu menggunakansimbol khusus, misalnya regular expression. • Pencarian Full text: Metode yang membandingkan query dengan setiap kata di dalam teks, tanpa membedakan fungsi dari berbagai kata. • Pencarian Bidang : Metode pencarian pada bidang struktural atau bibliografis spesifik, seperti penulisatau judul. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Istilah • Corpus: Koleksi dokumen yang diindeks dan dijadikan target pencarian. • Daftar kata: Himpunan semua term yang digunakan dalam indeks untuk suatu corpus (dikenal sebagai vocabulary file). • Pada pencarian full text, word list adalah semuaterm di dalam corpus, stop words dihapus. Term- term terkait dikombinasi dengan stemming. • Controlled vocabulary: Metode indexing dimana word list bersifat tetap. Term-term dari vocabulary tersebutdipilih untuk mendeskripsikan setiap dokumen. • Keyword: Nama untuk term-term dalam word list,terutama dengan controlled vocabulary Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Mengurutan& RankingHit • Ketika pengguna men-submit suatu query kesistem IR, sistem mengembalikan sehimpunan hit. Pada koleksi dokumen besar, himpunan hit akansangat besar. • Nilai untuk pengguna sering tergantung pada urutan hit ditampilkan. • Tiga metode utama: – Mengurutkan hit, misal berdasarkan tanggal – Meranking hit berdasarkan kemiripan antara query dan dokumen – Meranking hit berdasarkan kepentingan dari dokumen Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 IR Berbasis Teks • Sebagian besar metode ranking didasarkan pada model ruang vektor (vector space model). • Sebagian besar metode pencocokan (matching)didasarkan ada operator Boolean. • Metode Web search mengkombinasikan model ruang vektor dengan ranking berdasarkan pada tingkat kepentingan dokumen. • Banyak sistem (dalam praktek) menggabungkan fitur- fitur dari beberapa pendekatan. • Pada bentuk dasar, semua pendekatan menganggap kata sebagai token terpisah, dengan usaha minimal untuk memahami kata-kata secara linguistik. Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 Frekuensi Kata • Observasi: Beberapa kata lebih umum daripada yang lain. • Statistika: Koleksi sangat besar dari dokumen teks tak-terstruktur mempunyai karakteristik statistik serupa. Statistik ini: – Mempengaruhi efektifitas dan efisiensi dari struktur data yang digunakan untuk mengindeks dokumen – Banyak model retrieval memanfaatkannya Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Frekuensi Kata • Contoh: Contoh berikut ini diambil dari : – Jamie Callan, Characteristics of Text, 1997 – 19 Juta kata sampel – Slide berikut memperlihatkan 50 kata yang paling umum, diranking (r) berdasarkan frekuensinya (f). Jurusan Teknik Informatika Universitas Ahmad DahlanSemester Ganjil 2010/2011
Pertemuan ke-2 ...Frekuensi Kata
Pertemuan ke-2 Distribusi Ranking Frekuensi • Untuk semua kata di dalam suatu dokumen, untuk setiap kata w – f adalah frekuensi munculnya w – r ranking dari w disusun menurut frekuensi. (kata yang paling umum muncul mempunyai rank =1)
Pertemuan ke-2 Contoh Frekuensi Rank • Slide berikut memperlihatkan kata-kata di dalamdata Callan yang telah dinormalisasi. Dalam contoh ini: – r adalah ranking dari kata w dalam sampel. – f adalah frekuensi kata w di dalam sampel. – n adalah jumlah total kemunculan kata di dalam sampel.
Pertemuan ke-2 ...ContohRanking Frekuensi