1 / 33

Information Retrieval “Pengenalan Information Retrieval”

Information Retrieval “Pengenalan Information Retrieval”. I am Ardytha Luthfiarta I am here because I want to share about Information Retrieval . You can find me at http://kulino.dinus.ac.id/. CV. I am Junta Zeniarja I am here because I want to share about Information Retrieval .

gparker
Download Presentation

Information Retrieval “Pengenalan Information Retrieval”

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Information Retrieval“Pengenalan Information Retrieval”

  2. I am Ardytha Luthfiarta I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/ CV

  3. I am Junta Zeniarja I am here because I want to share about Information Retrieval. You can find me at http://kulino.dinus.ac.id/ or http://juntazeniarja.com CV

  4. Course Outline

  5. Course Outline

  6. Course Outline

  7. BukuPenunjang

  8. Boolean Model • Setiap ‘term’ hanya disimbolkan dengan • 1 : Muncul dalam dokumen • 0 : Tidak muncul dalam dokumen • Belum merepresentasikan informasi tentang frekuensi kemunculan kata, lokasi kata, atau urutan kemunculan kata.

  9. Vector Space Model • Memodelkan ‘term’ kedalam ruang vektor. • Setiap titik memiliki jarak dan arah di dalam ruang vektor

  10. Setiap kata (term) merupakan satu dimensi dalam ruang vektor. • Setiap titik merupakan satu dokumen. • Nilai vektor merepresentasikan jumlah kemunculan kata tertentu dalam dokumen tersebut

  11. Similarity • Kemiripan dua vektor bisa dihitung dari seberapa dekat dua titik tersebut dalam ruang vektor. • Salah satunya dengan menghitung jarak dengan euclidean distance.

  12. Memiliki kelemahan karena hanya menghitung kemiripan dari jumlah kemunculan kata.

  13. Angular Similarity • Contoh penghitungan kemiripan lain adalah berdasarkan sudut diantara 2 vektor.

  14. Contoh perhitungn kemiripan dengan menghitung nilai cos dari sudut diantara dua vektor.

  15. Similarity

  16. Document Ranking • Misalkan q sebagai vector dari query dan (D1, D2,..., Dn) sebagai dokumen yang akan dibandingkan. • Hitung nilai kemiripan kosinus q dengan setiap dokumen (D1, D2, ..., Dn) • Urutkan dokumen berdasarkan nilai kemiripan yang dihasilkan.

  17. Pengertian Vector Space Model (VSM) - (1) • Vector Space Model (VSM) adalah model Information Retrieval yang berbasis token untukmemungkinkanpartial matchingdanpemeringkatandokumen(pengindexan). • Atau model yang digunakanuntukmengukurkemiripanantarasuatudokumendengansuatuquery. • Denganprinsipdasarmengubahsuatudokumenmenjadikumpulan token-token. • Querymenjadivector token yang berfungsiuntukmencari token yang berhubungandenganmelihatkesamaanvectordokumendanqueryberdasarkanjarakvector.

  18. Pengertian Vector Space Model (VSM) - (2) • Querydandokumendianggapsebagai vector-vector padaruang n-dimensi, …, ), dimana t adalahjumlahdariseluruhterm yang adadalamleksikon. • Leksikonadalahdaftarsemua term yang adadalamindeks. • UntuksetiaptermtidakhanyadilihatadaatautidakadadalamdokumennamundiberibobotmenggunakanschemeTFatauTF-IDF. • TF-IDFmerupakanskemapembobotan yang seringdigunakandalamVector Space Model (VSM) bersamadengancosine similarityuntukmenentukankesamaanantaraduabuahdokumen.

  19. Pembobotan Kata (TF-IDF) – (1) • TF –IDF mempertimbangakanfrekuensi kata-kata yang berbedadalamsemuadokumendanmampumembedakandokumen. DalamVector Space Model (VSM), setipa vector disusunoleh term danbobot yang mewakilidokumen. • Kesamaandokumendapatdinyatakandengansudutataujarakantara vector, semakinkecilsudutataujarakberartisemakinmiripduadokumentersebut.

  20. Pembobotan Kata (TF-IDF) – (2) • TF (Term Frequency)merupakanfrekuensikemunculanterm (t)padadokumen (d). • DF (Document Frequency)merupakanbanyaknyadokumendimanasuatuterm (t)muncul. Atausebuahdokumen yang mengandungterm (t). • IDF (Inverse Document Frequency)

  21. Pembobotan Kata (TF-IDF) – (3) • RumusdariTF-IDFadalahsebagaiberikut :

  22. Perankingan • Prangkingan dilakukanuntukmengukurkemiripanantaravector query danvector document yang akandibandingkan. • Salah satumetode yang biasadigunakandalamperhitungankemiripanadalahpengukurancosine, yang enentukansudutantaravector document danvector query yang didefinisikansebagai : • Dimana, adalahbobotdariterm (t), penyebutdalampersamaaninidisebutfaktornormalisasi yang berfungsiuntukmenghilangkanpengaruhpanjangdokumen. • Panjangdokumencenderungmemilikinilai yang lebihbesarkarenamemilikifrekuensikemunculan kata yang besar pula.

  23. ContohPerhitungan - (1)

  24. ContohPerhitungan – (2)

  25. ContohPerhitungan – (3)

  26. Cosine Similarity – (1) • Fungsisimilarityadalahfungsi yang menerimaduabuahobjekdanmengembalikannilaikemiripan (similarity) antarakeduaobjektersebutberupabilanganriil. • Umumnya, nilai yang dihasilkanolehfungsisimilarityberkisarpada interval [0…1]. Namun, ada juga yang menghasilkannilai yang beradadiluar interval tersebut. Makauntukmemetakanyadapatdilakukannormalisasi. • Cosine similarity adalahperhitungankesamaanantaraduavector n dimensidenganmencarikosinusdarisudutdiantarakeduanyadanseringdigunakanuntukmembandingkandokumendalamtext mining.

  27. Cosine Similarity – (2) • Berikutrumus Cosine Similarity :

  28. Cosine Similarity – (3) • Semakinbesarhasilfungsi similarity, makakeduaobjek yang dievaluasidianggapsemakinmirip. Sebaliknya, jikasemakinkecilhasilfungsi similarity, makakeduaobjektersebutdianggapsemakinberbeda. • Padafungsi yang menghasilkannilaipadajangkauan [0…1], nilai 1 melambangkankeduaobjekpersissama, sedangkannilai 0 melambangkankeduaobjeksamasekaliberbeda.

  29. ContohPerhitungan – (4)

  30. ContohPerhitungan – (5)

  31. Kelebihan & Kekurangan Vector Space Model (VSM) Kelebihan • Adanyaperingkatpenganbilaninformasi • Menampilkanreferensi yang sesuaikebutuhan • Penyocokansecarapartial Kekurangan • Menganggapinformasiadalahindependen • Bobotpermasalahan (istilah) tidaklagidiperlukan

  32. Kesimpulan & Review

  33. Any questions ? You can find us at: Website: http://kulino.dinus.ac.id/ or http://juntazen.com Email: ardytha.luthfiarta@dsn.dinus.ac.id or junta@dsn.dinus.ac.id Thanks!

More Related