90 likes | 351 Views
Pencocokan (Matching). Proses penyamaan antara query dengan indeks dokumen dalam rangka pemanggilan dokumen dari database (basis data). Pencocokan dilakukan dengan pernyamaan karakter. Ada juga dengan semantik. Contoh:
E N D
Pencocokan (Matching) Proses penyamaan antara query dengan indeks dokumen dalam rangka pemanggilan dokumen dari database (basis data). Pencocokan dilakukan dengan pernyamaan karakter. Ada juga dengan semantik. Contoh: Query: mangga; indeks Mangga (MANGGA) secara karakter berbeda, akan tetapi secara semantik sama. Pencocokan akan menjadikan pemanggilan dokumen. Dokumen terpanggil dari database disebut recall (R).
Ada dua jenis pencocokan: • Exact Match: pencocokan yang dilakukan oleh STBI dimana karakter dari query harus sama percis dengan karakter istilah/indeks yang ada atau mewakili dokumen. Kalau tidak sama karakternya, maka tidak terjadi pemanggilan dokumen, tidak recall • Partial Match: pencocokan yang dilakukan oleh STBI, dimana sebahagian saja karakter query yang sama dengan karaktet istilah/indeks dalam dokumen sudah terjadi pemanggilan.
Lanjutan • Partial match, bergantung kepada banyak persamaan yang ditetapkan dalam program. Misal: ditetapkan 4 karakter dari awal istilah/query sama akan terjadi pemanggilan. Query: Argonomy Dokumen terpangil: argonomy, ARGONMY, argonomi, ARGONOMI, Argology, Argomobil, Argosensus, dsb.
Keunggulan dan Kelemahan Exact Match • Keunggulan: presisi (precition atau P) tingggi (dokumen relevan dengan kebutuhan pengguna tinggi), dan lebih khusus • Kelemahan:Recall rendah (dokumen terpanggil sedikit). Ada kalanya lost (tidak menemukan apa-apa) karena dokumen yang mirip/hampir sama subyek tidak terpanggil. • Pencocokan Exact Match biasanya pada database yang bersifat: numerik, dokumen rahasia, berkaitan dengan kesehatan, laboratorium dsb.
Keunggulan dan Kelemahan Partial Match • Keunggulan: Dokumen terpanggil (recall atau R) tinggi (termasuk dokumen yang mirip subyeknya akan terpanggil) • Kelemahan: Presisi rendah. • Pencocokan ini lebih banyak digunakan terutama untuk database berbasis teks. • Perlu diketahui bahwa semakin sedikit karakter yang dipersyaratkan untuk dapat pemanggilan, maka semakin tinggi recall. Dan sebaliknya apabila semakin banyak karakter yang dipersyaratkan maka akan semakin tinggi presisi.
Akibat pencocokan partial maka dapat dilakukan Limiting searches dengan cara membatasi istilah penelusuran (query) • Truncation: pemenggalan/pemotongan istilah Penelusurandengancaratruncationdimaksudkanuntukmemperbolehkansuatupenelusurandipanduataudiarahkanuntukmendapatkansemuabentukkata/istilah yang berbeda, akantetapimempunyaiakarkata yang sama. Denganmenggunakantandaatausimbol truncation (#, ? atau $, dsb). Suatukataatauistilahdipenggalataudipotongpadaposisitertentu, misalnyadikiri, dikananataupadakeduanya. • right truncation Query : Cardi$ maka sistem akan memanggil dokumen yang berisi istilah: Cardiology, Cardiovascular, Cardiotoxin, Cardiovirus, Cardiomyopahty, Cardioverter dsb, asalkan akar katanya Cardi.
(b) left truncation #diopilin, akan memanggil dokumen yang berisi istilah: Cardiopilin; Anticardiopilin, dsb, asalkan akhir istilahnya diopilin #FORMakan memanggil dokumen yang berisi istilah Inform, Conform, Deform, Reform dsb. (c) right and left truncation #dio# akan memanggil dokumen yang berisi istilah: Cardiotocography; Cardiotocogram; Cardiotonic; Cardioprotective; Cardiotoxins; cardiovascular dsb., asalkan kata ditengahnya “dio”
(d) Pemenggalandiposisitengah (midle truncated), biasajugadinamaidengansebutanWild Card. Wild Carddigunakanuntukmemperbolehkanbeberapahurufmunculpadaposisitertentudidalamsuatukata, ataudapatdigunakanuntukmemperbolehkanvariasidalampengucapan. Misalnya: COL#R, akanmendapatkancantuman yang berisikataatauistilahCOLOUR, COLOR, dsb. WOM#N akanmendapatkancantuman yang berisikataWOMAN, WOMEN, dsb. F#ETUS, akanmendapatkankataFETUS (US spelling) danFOETUS (British spelling).