150 likes | 314 Views
Materi 4. Information Retrieval. Term Weighting. Overview. Dalam korpus yang besar , sebuah boolean query mampu mengembalikan hasil yang besar pula. Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen , manakah yang benar-benar cocok untuk kita ?
E N D
Materi 4 Information Retrieval Term Weighting
Overview • Dalamkorpus yang besar, sebuahboolean query mampumengembalikanhasil yang besar pula. • Andaikanhasilboolean retrieval mengembalikan 10.000 dokumen, manakah yang benar-benarcocokuntukkita? • Bagaimana pula dengan user yang kurangmemilikipengetahuan yang bagusdalamboolean query?
Overview • Permasalahan: Kita butuhmengurutkandokumenhasilretrievaldisesuaikandenganquery yang kitamasukkan. • Pemecahan: Pemberian score/nilaiuntuksetiapdokumendalamkorpusterhadapquerykita. (untukdirangkingkan)
Scoring • Yang sudahkitapelajaritentang scoring/nilaiadalahscore 1 untukdokumen yang relevandengan query danscore 0 untukdokumen yang tidakrelevan. • Kita akanmasukketahapberikutnya: • dokumen yang memiliki token query lebihbanyakdidalamnya, akanmemiliki score yang lebihtinggi. • query berupafree text (tanpa operator)
Overlap Measure [1] • Ideperangkingan yang sederhanaadalah overlap measure (Manning, 2008) • Sebagaicontoh, kitalihatkasusberikut.
Overlap Measure [2] • Misalkancontoh query-nyaadalah: “Brutus Mercy Antony” • Makadokumen “Antony and Cleopatra” memiliki score 3 (Karenaketiga token dalam query dimilikisemuaolehdokumentersebut). • Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2. • Nah, denganbegitu, dokumen “Antony and Cleopatra” menempatirangkingpertama.
Overlap Measure [3] • Tapi, apakahmasihditemuikelemahandaripenghitungan overlap measure? • Bagaimanakalau query hanyasatukata/token saja? • Overlap measure tidak: • Mempertimbangkanjumlahsuatu token dalamsuatudokumen. • Mempertimbangkanscarcitydaritiap token • Tidakmemperhitungkanjumlahkorpusdanjumlah token dalamquery.
Overlap Measure [4] • Ideselanjutnyaadalahmenemukanmetode scoring yang lebihbaik. • Scoring jugatetapdapatdilakukanmeskihanyaadasatu token dalam query. • Dokumenakansemakinrelevanjikamemuat token yang semakinbanyak. • Inisemuamenujukeideberikutnya term weighting.
Term Frequency • Untukbisamendapat score tadi, pertama-tama kitaperlumemberikanbobottiap token dalamtiapdokumen. Ex: • Bobot token ditentukandarijumlahkemunculan token tersebutdidalamdokumen. ( term frequency – tf) • term frequency dinotasikandengantf(t,d), dimanat token, dand dokumen
Document Frequency DOCUMENT FREQUENCY (df) , defined to be the number of documents in the collection that contain a term t.
Components • N jmldokumen • tf(t,d) • df • idf inverse df + 1
tf-idf weighting df t = jumlah token padadokumeni i = dokumenke-… j & k = token ke-…
Referensi • http://come2dz.wordpress.com/