1 / 61

Model Temu-Balik Informasi

Model Temu-Balik Informasi. Pertemuan ke-3. Sistem Temu-Balik Informasi. Model Temu-Balik Informasi. Sistem Temu-Balik Komputer 2010 2010. Keamanan Informasi Informasi Keamanan. Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen

donal
Download Presentation

Model Temu-Balik Informasi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ModelTemu-BalikInformasi Pertemuanke-3 SistemTemu-Balik Informasi

  2. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelInformationRetrieval •Suatumodelretrievalmenentukandetaildari: –Representasidokumen –Representasiquery –Mekanismeretrieval •Menetapkansuatugagasanrelevansi. •Gagasanrelevansidapatberupabinaryatau continuous(yaituretrievalteranking). 2

  3. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan TermIndeks •SistemIRbiasanyamenggunakanterm indeks(indexterm)untukmemrosesquery. •Indexterm: –suatukeywordataukelompokkataterpilih –suatukata(lebihumum) •Stemmingdapatditerapkan: –connect:connecting,connection,connections •Suatuinvertedfiledibangununtukterm- termindeksyangdipilih 3

  4. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IR&TermIndeks 4

  5. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PencocokanTermIndeks •Pencocokanpadalevelindextermsangattidak tepat •Tidakheranmengapapenggunaseringtidak terpuaskan •Karenakebanyakanpenggunatidakbelajar mengenaiformasiquery,bahkanbisalebih buruk •Ketidakpuasandaripenggunaweb •Masalahpenentuanrelevansimerupakankritik bagisistemIR:ranking 5

  6. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Ranking •Rankingadalahpengurutandokumen-dokumen yangditerimayang(sangatdiharapkan) mencerminkanrelevansidaridokumentersebut denganquerypengguna •Rankingdidasarkanpadapemikiran fundamentalmengenairelevansi,seperti: –Himpunanindexterm –Pemakaianterm-termterbobot –Kemungkinanrelevansi •Setiaphimpunandaripemikiranmengarahkan kesuatumodelIRtertentu. 6

  7. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IkhtisarModelIR 7

  8. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelKlasik •ModelBoolean(settheoretic) –Representasi:himpunanindexterm –Modelalternatif:Fuzzy,ExtendedBoolean •ModelRuangVektor(algebraic) –Representasi:vectordalamruangt-dimensi –Modelalternatif:GeneralizedVS,LatentSemantic Indexing,Neuralnetwork •ModelProbabilistik(probabilistic) –Berpijakpadateoripeluang –Modelalternatif:Inferencenetwork,Beliefnetwork 8

  9. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelTerstruktur •Memungkinkanreferensikestrukturyang terdapatdidalamteks •ModelNon-overlappinglists –Membagitekskedalamregionalteksnon- overlappingyangdihimpundalamlists(listof chapters,listofallsections,…) •ModelProximalnodes –Mengaturlistnon-overlappingkedalamsuatuhirarki •Textretrievalterstrukturmenggabungkan informasipadaisiteksdenganinformasipada strukturdokumen 9

  10. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBrowsing •ModelIRberdasarkanpadatugas browsingpengguna –ModelFlat(tanpastruktur) –Modelstructureguided(sepertidirektori Yahoo) –ModelHypertext(sepertinavigasihalaman web) 10

  11. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan DimensiModelLain •Pandanganlogikdaridokumen –Indexterm –Fulltext –Fulltext+Structure(misal:hypertext) •TugasPengguna –Retrieval –Browsing 11

  12. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelIR •ModelIR,pandanganlogikdokumendantugasretrieval merupakanaspekberbedadarisistem 12

  13. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Adhocretrieval:Corpusdokumentetap,query bervariasi. •Filtering:Querytetap,alirandokumenkontinu. –UserProfile:Modelpreferensiyangrelatifstatis. –Keputusanbinerdarirelevant/not-relevant. •Routing:Samadengasfilterinnfilteringtetapi secaraberkelanjutanmenyediakanlistteranking bukanfilteringbiner. 13

  14. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Adhocretrieval: 14

  15. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Filtering 15

  16. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Preprocessing •Potongkarakterataumarkupyangtak-diinginkan (misal:tagHTML,tandabaca,bilangan). •Pecahkankedalamtoken-token(keyword) berdasarkanwhitespace. •Ubahtokenkekata“root”(akarkata,stem) –computationalcompute •Hilangkanstopwordumum(misal:a,the,it). •Deteksifraseumum(mungkinmenggunakankamus khususdomain). •Banguninvertedindex(daftarkeyworddari dokumenyangmemuatkeywordtersebut). 16

  17. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBoolean •Dokumendirepresentasikansebagaisuatu himpunandarikeyword. •Querymerupakanekspresibooleandarikeyword, terhubungdenganAND,OR,danNOT,termasuk menggunakankurungsikuuntukmenandakan cakupan. –[[Rio&Brazil]|[Hilo&Hawaii]]&hotel&!Hilton] •Output:Dokumenrelevanatautidak.Tidakada pencocokanparsialatauranking. 17

  18. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan DiagramBoolean 18

  19. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan OperatorAdjacent&Near •abacusadjactor Termabacus&actoradalahterkaitsatu denganlainnya,misal:"abacusactor" •abacusnear4actor Termabacus&actordalam4katadarisatu denganlainnya,misal:"theactorhasanabacus" •Beberapasistemmendukungoperatorlain, sepertiwith(duatermdalamkalimatsama)atau same(duatermdalamparagrafsama). 19

  20. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan QueryBoolean •Queryboolean:duaataulebihtermpencarian, dihubungkandenganoperatorboolean •Contoh: abacusANDactor abacusORactor (abacusANDactor)OR(abacusANDatoll) NOTactor 20

  21. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan EvaluasiOperatorBoolean •Precedencedarioperatorharusdidefinisikan: adj,near and,not or tinggi rendah Contoh: AandBorCandB dievaluasisebagai (AandB)or(CandB) 21

  22. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelRetrievalBoolean •Modelretrievalyangpopulerkarena: –Mudahmemahamiquerysederhana –Bersihdari“formalisme” •Modelbooleandapatdiextenduntuk menyertakanranking. •Implementasiefisienlayakmungkinbagi querynormal. 22

  23. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBoolean-Masalah •Terlalukaku:ANDberartisemua;ORberartiada(bukan pencocokanparsial). •Sulitmengekspresikanpermintaanpenggunayang kompleks.Querydiformulasikanolehpengguna kebanyakanterlalusederhana •Sulitmengontroljumlahdokumenyangdiretrieve. –Semuadokumenyangcocokakandikembalikan. •Sulitmerankingoutput. –Semuadokumenyangcocoksecaralogismemenuhiquery. •Sulitmengerjakanrelevancefeedback. –Jikasuatudokumendiidentifikasiolehpenggunasebagairelevan atautak-relevan,bagaimanaquerydimodifikasi? •Seringmengembalikanterlalusedikitatauterlalubanyak23 dokumensebagairesponthdpquerypengguna

  24. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelStatistik •Dokumenbiasanyadiwakilkanolehbagof words(kata-katadenganfrekuensi,tak-terurut). •Bag=himpunanyangmemungkinkanbanyak kemunculandarielemenyangsama. •Penggunamenentukanhimpunantermyang diinginkandenganbobot(weight)opsional: –Termqueryterbobot: Q=<database0.5;text0.8;information0.2> –Termquerytak-terbobot: Q=<database;text;information> –Tidakadakondisibooleanditetapkandalamquery. 24

  25. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RetrievalStatistik •Retrievaldidasarkanpadasimilarity(kemiripan) antaraquerydandokumen. •Dokumenoutputdirankingsesuaidengan kemiripanterhadapquery. •Similaritydidasarkanpadafrekuensi kemunculandarikatakunci(keyword)dalam querydandokumen. •MendukungRelevancefeedbackotomatis: –Dokumenrelevan“ditambahkan”kequery. –Dokumentak-relevan“dihilangkan”dariquery. 25

  26. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IsupadaRetrievalStatistik •Bagaimanamenentukankepentingankatadalam suatudokumen? –Pengertiankata? –Katan-gram(danfrase,idiom,…)term •Bagaimanamenentukanderajatkepentingan darisuatutermdidalamdokumendandidalam koleksikeseluruhan? •Bagaimanamenentukanderajatkemiripan antaradokumendanquery? •Padaweb,apaitukoleksi&apaefekdarilink, informasiformat,dll? 26

  27. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelRuangVektor •Setelahpreprocessingdiperolehttermberbeda; dinamakanindextermatauvocabulary. •Terminimembentuksuaturuangvector. Dimensi=t=|vocabulary| •Setiapterm,i,didalamdokumenatauquery,j, diberikansuatunilairealweight,wij •Dokumendanquerydiekspresikansebagaivektor t-dimensi: dj=(w1j,w2j,…,wtj) •Definisikanfungsibobotgi(dj)=wij 27

  28. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan GraphicRepresentation 28

  29. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KoleksiDokumen •Koleksindokumendapatdirepresentasikandalam modelruangvektordengansuatumatriksterm- document. •Entrididalammatriksbersesuaiandengan“bobot” daritermdidalamdokumen;nolberartitermtidak berpengaruhatautidakhadirdidalamdokumen. 29

  30. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Contoh •Terdapat3dokumenberikut: 30

  31. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PembobotanBiner •Bobot(weight):tij=1jikadokumeni mengandungtermjdannoljikatidak 31

  32. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RuangVektordenganBobot •RuangvektorTerm Ruangn-dimensi,dimananadalahjumlahterm berbedayangdigunakanuntukmeng-indeks himpunandokumen(yaituukurandaridaftarkata). •Vector Dokumenjdirepresentasikandenganvektorkolom. Besarnyadalamdimensiiadalahtij,dimana: tij>0jikatermimunculdalamdokumenj tij=0jikatidak tijadalahbobotdaritermidalamdokumenj. 32

  33. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan MatriksJarang •Ruangvektortermmerupakanmatrikssangat jarang. •Invertedfileadalahcaraefisienuntuk merepresentasikansuaturuangvektorterm. Jugamenyediakanmetodemudahuntuk menyimpandatatambahan. •Kebanyakanmetodepenyimpananmatriks jarangdirancanguntukpemrosesanbarisatau kolom.Invertedfiledikelolauntukpemrosesan baris,yaitusemuainformasimengenaisuatu termyangdiberikandisimpanbersama. 33

  34. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile •Invertedfilemerupakandaftartermpencarian yangdiaturuntukassociativelook-up,untuk menjawabpertanyaan: –Dalamdokumenmanatermpencariantertentuhadir? –Dimanadalamsetiapdokumensetiaptermhadir? (mungkinbeberapakemunculan) •Dalamsistempencarianteksbebas,daftarkata danfilepostingbersama-samamenyediakan suatusisteminvertedfile.Jugamengandungdata yangdiperlukanuntukmenghitungbobotdan informasiyangdigunakanuntukmenampilkan hasil. 34

  35. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile-Definisi •Daftarkataadalahdaftar semuatermberbedadalam corpussetelahmenghilangkan stopwords&stemming. Kadangdisebutpula vocabularyfile. 35

  36. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile-Definisi •Posting:Entrididalamsisteminvertedfileyang mewakiliinstancetermdaridalamsuatudokumen, misal:ada3postinguntuk"abacus": "abacus"dalamdokumen3 •InvertedList:Daftarsemuapostingdalamsistem invertedfileyangmenunjukkankatatertentu,misal: "abacus"dalamdokumen3,19&22 •Inimerupakanrepresentasisparsedarisuatubaris dalammatriksvektorterm 36

  37. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile&QueryBoolean •Contoh:abacusandactor Postingabacus Postingactor •Hanyadokumen19yang mengandungterm"abacus" dan"actor". 37

  38. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PeningkatanInvertedFile •Lokasi:Setiappostingmemeganginformasi mengenailokasidarisetiaptermdidalam dokumen. Penggunaan –Rancanganantarmukapengguna-highlightlokasidari termpencarianoperatoradjacencydannear(dalam pencarianboolean) •Frekuensi:Setiapinvertedlistmenyertakan jumlahpostingdarisetiapterm. Penggunaan –Pembobotanterm 38 –Optimisasipemrosesanquery

  39. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PeningkatanInvertedFile 39

  40. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan EvaluasiOperasiAdjacency •Contoh:abacusadjactor •Dokumen19,lokasi63dan64,lokasi munculnyaterm"abacus"dan"actor"adjacent. 40

  41. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PencocokanQuery(Boolean) Query:(abacusorasp*)andactor 1.Darifileindex(daftarkata),temukanfileposting: "abacus" setiapkatayangdiawali"asp" "actor" 2.Gabungkanpostinglistini.Untuksetiap dokumenyangmunculdalampostingslist, evaluasiekspresiBooleanuntukmelihatapakah trueataufalse. Langkah2sebaiknyadiselesaikandalamsatulangkah 41

  42. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PostingFile&PencocokanQuery 42

  43. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Kemiripan&Ranking •Metodeyangdidiskusikansejauhini hanyamenanganiqueryboolean •Dapatkahkitamengidentifikasidokumen berdasarkanpadakemiripan? •Bagaimanakitamerankinghasil pencarian? 43

  44. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RevisiRuangVektor x=(x1,x2,...,xn)adalahvektordalamruang vektorn-dimensi •Panjangdarixdiberikanoleh: |x|2=x12+x22+x32+...+xn2 Jikax1danx2merupakanvektor: •Innerproduct(ataudotproduct): x1.x2=x11x21+x12x22+x13x23+...+x1nx2n •Cosinussudutantaravektorx1danx2: 44

  45. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Kemiripan(TandaBobot) •Seberapamiripdokumen-dokumenberikut? 45

  46. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RuangVektorTerm •tij=1jikatermidalamdokumenjdannoljikatidak 46

  47. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Contoh:PerbandinganDokumen 47

  48. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KemiripanQuery&Dokumen (Vektor3-Dimensi) 48

  49. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KemiripanQuery&Dokumen 49

  50. ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan MatriksMunculnyaTerm 50

More Related