170 likes | 386 Views
INDEXING. Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012. INDEXING. INVERTED FILES SUFFIX TREE & SUFFIX ARRARYS SIGNATURE FILES. INVERTED FILES. Terdiri dari Vocabulary (kata) daftar kata yang berbeda dari sebuah object kalimat/document Occurrences (kemunculan)
E N D
INDEXING Teknik Informatika Universitas Trunojoyo Semester Genap 2011-2012
INDEXING • INVERTED FILES • SUFFIX TREE & SUFFIX ARRARYS • SIGNATURE FILES
INVERTED FILES • Terdiri dari • Vocabulary (kata) daftar kata yang berbeda dari sebuah object kalimat/document • Occurrences (kemunculan) Daftar posisi kemunculan dalam database dari masing-masing kata
Contoh INVERTED FILES • Kebutuhan penyimpanan vocabulary lebih kecil • Kemunculan banyak kata mempengaruhi besarnya penyimpanan apalagi kalau tiap kemunculan harus ditampilkan
INVERTED FILES – Block Addressing • Suatu teknik yang digunakan untuk menguraingi kebutuhan penyimpanan, dengn jalan: • Membagi text menjadi beberapa block • Occurance mengacu pada block • Kelebihan • Mengurangi jumlah pointers • Selluruh kemunculan kata dalam single block digabung dalam satu reference yaitu block
INVERTED FILES Searching • Model pencarian yang dapat dilakukan • Single Word Query diakhiri dengan ditemukannya daftar dari posisi kata yang dicari • Context Query lebih jika sulit dilakukan dengan inverted files
INVERTED FILES Search Algorithm • Vocabulary Search • Kata atau paterns query dicari dalam vocabulary • Frase dan kedekatan kata query dibagi menjadi single word • Retrieval of Occurances • Daftar posisi dari kata yang ditemukan ditampilkan • Manipulation of Occurances • Daftar posisi diproses lagi untuk menemukan kata kedekatan atau operasi boolean • Jika block addressing digunakan, maka butuh pencarian text langsung untuk menemukan kesalahan informasi dalam occurances
Suffix Tree • Melihat text sebagai sebuah sting yang panjang, setiap posisi dalam text diawali sebuah suffix text, dan setiap suffix text ditandai dengan posisi yang uniq
Implementasi pd IR Model • INVERTED FILES • Vocabulary & Occurrences • Position index • SUFFIX TREE & SUFFIX ARRAY • Phrase search & Keyword search • SIGNATURE FILES • Efficient