1 / 14

Materi 4

Materi 4. Information Retrieval. Term Weighting. Overview. Dalam korpus yang besar , sebuah boolean query mampu mengembalikan hasil yang besar pula. Andaikan hasil boolean retrieval mengembalikan 10.000 dokumen , manakah yang benar-benar cocok untuk kita ?

hoai
Download Presentation

Materi 4

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Materi 4 Information Retrieval Term Weighting

  2. Overview • Dalamkorpus yang besar, sebuahboolean query mampumengembalikanhasil yang besar pula. • Andaikanhasilboolean retrieval mengembalikan 10.000 dokumen, manakah yang benar-benarcocokuntukkita? • Bagaimana pula dengan user yang kurangmemilikipengetahuan yang bagusdalamboolean query?

  3. Overview • Permasalahan: Kita butuhmengurutkandokumenhasilretrievaldisesuaikandenganquery yang kitamasukkan. • Pemecahan: Pemberian score/nilaiuntuksetiapdokumendalamkorpusterhadapquerykita. (untukdirangkingkan)

  4. Scoring • Yang sudahkitapelajaritentang scoring/nilaiadalahscore 1 untukdokumen yang relevandengan query danscore 0 untukdokumen yang tidakrelevan. • Kita akanmasukketahapberikutnya: • dokumen yang memiliki token query lebihbanyakdidalamnya, akanmemiliki score yang lebihtinggi. • query berupafree text (tanpa operator)

  5. Overlap Measure [1] • Ideperangkingan yang sederhanaadalah overlap measure (Manning, 2008) • Sebagaicontoh, kitalihatkasusberikut.

  6. Overlap Measure [2] • Misalkancontoh query-nyaadalah: “Brutus Mercy Antony” • Makadokumen “Antony and Cleopatra” memiliki score 3 (Karenaketiga token dalam query dimilikisemuaolehdokumentersebut). • Dokumen “Julius Caesar” dan “Macbeth” memiliki score 2. • Nah, denganbegitu, dokumen “Antony and Cleopatra” menempatirangkingpertama.

  7. Overlap Measure [3] • Tapi, apakahmasihditemuikelemahandaripenghitungan overlap measure? • Bagaimanakalau query hanyasatukata/token saja? • Overlap measure tidak: • Mempertimbangkanjumlahsuatu token dalamsuatudokumen. • Mempertimbangkanscarcitydaritiap token • Tidakmemperhitungkanjumlahkorpusdanjumlah token dalamquery.

  8. Overlap Measure [4] • Ideselanjutnyaadalahmenemukanmetode scoring yang lebihbaik. • Scoring jugatetapdapatdilakukanmeskihanyaadasatu token dalam query. • Dokumenakansemakinrelevanjikamemuat token yang semakinbanyak. • Inisemuamenujukeideberikutnya term weighting.

  9. Term Frequency • Untukbisamendapat score tadi, pertama-tama kitaperlumemberikanbobottiap token dalamtiapdokumen. Ex: • Bobot token ditentukandarijumlahkemunculan token tersebutdidalamdokumen. ( term frequency – tf) • term frequency dinotasikandengantf(t,d), dimanat  token, dand  dokumen

  10. Document Frequency DOCUMENT FREQUENCY (df) , defined to be the number of documents in the collection that contain a term t.

  11. Components • N  jmldokumen • tf(t,d) • df • idf inverse df + 1

  12. tf-idf weighting df t = jumlah token padadokumeni i = dokumenke-… j & k = token ke-…

  13. Referensi • http://come2dz.wordpress.com/

More Related