650 likes | 926 Views
Model Temu-Balik Informasi. Pertemuan ke-3. Sistem Temu-Balik Informasi. Model Temu-Balik Informasi. Sistem Temu-Balik Komputer 2010 2010. Keamanan Informasi Informasi Keamanan. Model Information Retrieval • Suatu model retrieval menentukan detail dari : – Representasi dokumen
E N D
ModelTemu-BalikInformasi Pertemuanke-3 SistemTemu-Balik Informasi
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelInformationRetrieval •Suatumodelretrievalmenentukandetaildari: –Representasidokumen –Representasiquery –Mekanismeretrieval •Menetapkansuatugagasanrelevansi. •Gagasanrelevansidapatberupabinaryatau continuous(yaituretrievalteranking). 2
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan TermIndeks •SistemIRbiasanyamenggunakanterm indeks(indexterm)untukmemrosesquery. •Indexterm: –suatukeywordataukelompokkataterpilih –suatukata(lebihumum) •Stemmingdapatditerapkan: –connect:connecting,connection,connections •Suatuinvertedfiledibangununtukterm- termindeksyangdipilih 3
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IR&TermIndeks 4
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PencocokanTermIndeks •Pencocokanpadalevelindextermsangattidak tepat •Tidakheranmengapapenggunaseringtidak terpuaskan •Karenakebanyakanpenggunatidakbelajar mengenaiformasiquery,bahkanbisalebih buruk •Ketidakpuasandaripenggunaweb •Masalahpenentuanrelevansimerupakankritik bagisistemIR:ranking 5
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Ranking •Rankingadalahpengurutandokumen-dokumen yangditerimayang(sangatdiharapkan) mencerminkanrelevansidaridokumentersebut denganquerypengguna •Rankingdidasarkanpadapemikiran fundamentalmengenairelevansi,seperti: –Himpunanindexterm –Pemakaianterm-termterbobot –Kemungkinanrelevansi •Setiaphimpunandaripemikiranmengarahkan kesuatumodelIRtertentu. 6
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IkhtisarModelIR 7
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelKlasik •ModelBoolean(settheoretic) –Representasi:himpunanindexterm –Modelalternatif:Fuzzy,ExtendedBoolean •ModelRuangVektor(algebraic) –Representasi:vectordalamruangt-dimensi –Modelalternatif:GeneralizedVS,LatentSemantic Indexing,Neuralnetwork •ModelProbabilistik(probabilistic) –Berpijakpadateoripeluang –Modelalternatif:Inferencenetwork,Beliefnetwork 8
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelTerstruktur •Memungkinkanreferensikestrukturyang terdapatdidalamteks •ModelNon-overlappinglists –Membagitekskedalamregionalteksnon- overlappingyangdihimpundalamlists(listof chapters,listofallsections,…) •ModelProximalnodes –Mengaturlistnon-overlappingkedalamsuatuhirarki •Textretrievalterstrukturmenggabungkan informasipadaisiteksdenganinformasipada strukturdokumen 9
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBrowsing •ModelIRberdasarkanpadatugas browsingpengguna –ModelFlat(tanpastruktur) –Modelstructureguided(sepertidirektori Yahoo) –ModelHypertext(sepertinavigasihalaman web) 10
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan DimensiModelLain •Pandanganlogikdaridokumen –Indexterm –Fulltext –Fulltext+Structure(misal:hypertext) •TugasPengguna –Retrieval –Browsing 11
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelIR •ModelIR,pandanganlogikdokumendantugasretrieval merupakanaspekberbedadarisistem 12
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Adhocretrieval:Corpusdokumentetap,query bervariasi. •Filtering:Querytetap,alirandokumenkontinu. –UserProfile:Modelpreferensiyangrelatifstatis. –Keputusanbinerdarirelevant/not-relevant. •Routing:Samadengasfilterinnfilteringtetapi secaraberkelanjutanmenyediakanlistteranking bukanfilteringbiner. 13
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Adhocretrieval: 14
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Retrieval:AdHocvsFiltering •Filtering 15
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Preprocessing •Potongkarakterataumarkupyangtak-diinginkan (misal:tagHTML,tandabaca,bilangan). •Pecahkankedalamtoken-token(keyword) berdasarkanwhitespace. •Ubahtokenkekata“root”(akarkata,stem) –computationalcompute •Hilangkanstopwordumum(misal:a,the,it). •Deteksifraseumum(mungkinmenggunakankamus khususdomain). •Banguninvertedindex(daftarkeyworddari dokumenyangmemuatkeywordtersebut). 16
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBoolean •Dokumendirepresentasikansebagaisuatu himpunandarikeyword. •Querymerupakanekspresibooleandarikeyword, terhubungdenganAND,OR,danNOT,termasuk menggunakankurungsikuuntukmenandakan cakupan. –[[Rio&Brazil]|[Hilo&Hawaii]]&hotel&!Hilton] •Output:Dokumenrelevanatautidak.Tidakada pencocokanparsialatauranking. 17
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan DiagramBoolean 18
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan OperatorAdjacent&Near •abacusadjactor Termabacus&actoradalahterkaitsatu denganlainnya,misal:"abacusactor" •abacusnear4actor Termabacus&actordalam4katadarisatu denganlainnya,misal:"theactorhasanabacus" •Beberapasistemmendukungoperatorlain, sepertiwith(duatermdalamkalimatsama)atau same(duatermdalamparagrafsama). 19
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan QueryBoolean •Queryboolean:duaataulebihtermpencarian, dihubungkandenganoperatorboolean •Contoh: abacusANDactor abacusORactor (abacusANDactor)OR(abacusANDatoll) NOTactor 20
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan EvaluasiOperatorBoolean •Precedencedarioperatorharusdidefinisikan: adj,near and,not or tinggi rendah Contoh: AandBorCandB dievaluasisebagai (AandB)or(CandB) 21
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelRetrievalBoolean •Modelretrievalyangpopulerkarena: –Mudahmemahamiquerysederhana –Bersihdari“formalisme” •Modelbooleandapatdiextenduntuk menyertakanranking. •Implementasiefisienlayakmungkinbagi querynormal. 22
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelBoolean-Masalah •Terlalukaku:ANDberartisemua;ORberartiada(bukan pencocokanparsial). •Sulitmengekspresikanpermintaanpenggunayang kompleks.Querydiformulasikanolehpengguna kebanyakanterlalusederhana •Sulitmengontroljumlahdokumenyangdiretrieve. –Semuadokumenyangcocokakandikembalikan. •Sulitmerankingoutput. –Semuadokumenyangcocoksecaralogismemenuhiquery. •Sulitmengerjakanrelevancefeedback. –Jikasuatudokumendiidentifikasiolehpenggunasebagairelevan atautak-relevan,bagaimanaquerydimodifikasi? •Seringmengembalikanterlalusedikitatauterlalubanyak23 dokumensebagairesponthdpquerypengguna
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelStatistik •Dokumenbiasanyadiwakilkanolehbagof words(kata-katadenganfrekuensi,tak-terurut). •Bag=himpunanyangmemungkinkanbanyak kemunculandarielemenyangsama. •Penggunamenentukanhimpunantermyang diinginkandenganbobot(weight)opsional: –Termqueryterbobot: Q=<database0.5;text0.8;information0.2> –Termquerytak-terbobot: Q=<database;text;information> –Tidakadakondisibooleanditetapkandalamquery. 24
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RetrievalStatistik •Retrievaldidasarkanpadasimilarity(kemiripan) antaraquerydandokumen. •Dokumenoutputdirankingsesuaidengan kemiripanterhadapquery. •Similaritydidasarkanpadafrekuensi kemunculandarikatakunci(keyword)dalam querydandokumen. •MendukungRelevancefeedbackotomatis: –Dokumenrelevan“ditambahkan”kequery. –Dokumentak-relevan“dihilangkan”dariquery. 25
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan IsupadaRetrievalStatistik •Bagaimanamenentukankepentingankatadalam suatudokumen? –Pengertiankata? –Katan-gram(danfrase,idiom,…)term •Bagaimanamenentukanderajatkepentingan darisuatutermdidalamdokumendandidalam koleksikeseluruhan? •Bagaimanamenentukanderajatkemiripan antaradokumendanquery? •Padaweb,apaitukoleksi&apaefekdarilink, informasiformat,dll? 26
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan ModelRuangVektor •Setelahpreprocessingdiperolehttermberbeda; dinamakanindextermatauvocabulary. •Terminimembentuksuaturuangvector. Dimensi=t=|vocabulary| •Setiapterm,i,didalamdokumenatauquery,j, diberikansuatunilairealweight,wij •Dokumendanquerydiekspresikansebagaivektor t-dimensi: dj=(w1j,w2j,…,wtj) •Definisikanfungsibobotgi(dj)=wij 27
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan GraphicRepresentation 28
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KoleksiDokumen •Koleksindokumendapatdirepresentasikandalam modelruangvektordengansuatumatriksterm- document. •Entrididalammatriksbersesuaiandengan“bobot” daritermdidalamdokumen;nolberartitermtidak berpengaruhatautidakhadirdidalamdokumen. 29
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Contoh •Terdapat3dokumenberikut: 30
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PembobotanBiner •Bobot(weight):tij=1jikadokumeni mengandungtermjdannoljikatidak 31
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RuangVektordenganBobot •RuangvektorTerm Ruangn-dimensi,dimananadalahjumlahterm berbedayangdigunakanuntukmeng-indeks himpunandokumen(yaituukurandaridaftarkata). •Vector Dokumenjdirepresentasikandenganvektorkolom. Besarnyadalamdimensiiadalahtij,dimana: tij>0jikatermimunculdalamdokumenj tij=0jikatidak tijadalahbobotdaritermidalamdokumenj. 32
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan MatriksJarang •Ruangvektortermmerupakanmatrikssangat jarang. •Invertedfileadalahcaraefisienuntuk merepresentasikansuaturuangvektorterm. Jugamenyediakanmetodemudahuntuk menyimpandatatambahan. •Kebanyakanmetodepenyimpananmatriks jarangdirancanguntukpemrosesanbarisatau kolom.Invertedfiledikelolauntukpemrosesan baris,yaitusemuainformasimengenaisuatu termyangdiberikandisimpanbersama. 33
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile •Invertedfilemerupakandaftartermpencarian yangdiaturuntukassociativelook-up,untuk menjawabpertanyaan: –Dalamdokumenmanatermpencariantertentuhadir? –Dimanadalamsetiapdokumensetiaptermhadir? (mungkinbeberapakemunculan) •Dalamsistempencarianteksbebas,daftarkata danfilepostingbersama-samamenyediakan suatusisteminvertedfile.Jugamengandungdata yangdiperlukanuntukmenghitungbobotdan informasiyangdigunakanuntukmenampilkan hasil. 34
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile-Definisi •Daftarkataadalahdaftar semuatermberbedadalam corpussetelahmenghilangkan stopwords&stemming. Kadangdisebutpula vocabularyfile. 35
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile-Definisi •Posting:Entrididalamsisteminvertedfileyang mewakiliinstancetermdaridalamsuatudokumen, misal:ada3postinguntuk"abacus": "abacus"dalamdokumen3 •InvertedList:Daftarsemuapostingdalamsistem invertedfileyangmenunjukkankatatertentu,misal: "abacus"dalamdokumen3,19&22 •Inimerupakanrepresentasisparsedarisuatubaris dalammatriksvektorterm 36
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan InvertedFile&QueryBoolean •Contoh:abacusandactor Postingabacus Postingactor •Hanyadokumen19yang mengandungterm"abacus" dan"actor". 37
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PeningkatanInvertedFile •Lokasi:Setiappostingmemeganginformasi mengenailokasidarisetiaptermdidalam dokumen. Penggunaan –Rancanganantarmukapengguna-highlightlokasidari termpencarianoperatoradjacencydannear(dalam pencarianboolean) •Frekuensi:Setiapinvertedlistmenyertakan jumlahpostingdarisetiapterm. Penggunaan –Pembobotanterm 38 –Optimisasipemrosesanquery
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PeningkatanInvertedFile 39
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan EvaluasiOperasiAdjacency •Contoh:abacusadjactor •Dokumen19,lokasi63dan64,lokasi munculnyaterm"abacus"dan"actor"adjacent. 40
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PencocokanQuery(Boolean) Query:(abacusorasp*)andactor 1.Darifileindex(daftarkata),temukanfileposting: "abacus" setiapkatayangdiawali"asp" "actor" 2.Gabungkanpostinglistini.Untuksetiap dokumenyangmunculdalampostingslist, evaluasiekspresiBooleanuntukmelihatapakah trueataufalse. Langkah2sebaiknyadiselesaikandalamsatulangkah 41
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan PostingFile&PencocokanQuery 42
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Kemiripan&Ranking •Metodeyangdidiskusikansejauhini hanyamenanganiqueryboolean •Dapatkahkitamengidentifikasidokumen berdasarkanpadakemiripan? •Bagaimanakitamerankinghasil pencarian? 43
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RevisiRuangVektor x=(x1,x2,...,xn)adalahvektordalamruang vektorn-dimensi •Panjangdarixdiberikanoleh: |x|2=x12+x22+x32+...+xn2 Jikax1danx2merupakanvektor: •Innerproduct(ataudotproduct): x1.x2=x11x21+x12x22+x13x23+...+x1nx2n •Cosinussudutantaravektorx1danx2: 44
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Kemiripan(TandaBobot) •Seberapamiripdokumen-dokumenberikut? 45
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan RuangVektorTerm •tij=1jikatermidalamdokumenjdannoljikatidak 46
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan Contoh:PerbandinganDokumen 47
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KemiripanQuery&Dokumen (Vektor3-Dimensi) 48
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan KemiripanQuery&Dokumen 49
ModelTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasiInformasiKeamanan MatriksMunculnyaTerm 50