620 likes | 833 Views
Pengantar Temu-Balik Informasi. Pertemuan ke-2. Sistem Temu-Balik Informasi. Pengantar Temu-Balik Informasi. ...akan dibahas. • • • • • • •. Information Retrieval (IR) Sistem IR Istilah dalam IR IR Berbasis Teks Arsitektur Sistem IR Sejarah IR Area Terkait. 2.
E N D
PengantarTemu-BalikInformasi Pertemuanke-2 SistemTemu-Balik Informasi
PengantarTemu-BalikInformasi ...akandibahas • • • • • • • InformationRetrieval(IR) SistemIR IstilahdalamIR IRBerbasisTeks ArsitekturSistemIR SejarahIR AreaTerkait 2
PengantarTemu-BalikInformasi DefinisiIR •Pencarianmateri(biasanyadokumen)darisesuatu yangsifatnyatak-terstruktur(unstructured,biasanya teks)untukmemenuhikebutuhaninformasidari dalamkoleksibesar(biasanyadisimpandalam komputer). •Representasi,penyimpanan,organisasi,pencarian danakseskeiteminformasiuntukmemenuhi kebutuhaninformasipengguna. •Penekananpadaprosesretrievalinformasi(bukan data). •Karakterisasikebutuhaninformasitidaklahmudah. Harusditranslasikedalamsuatuqueryterlebih dahulu. 3
PengantarTemu-BalikInformasi Motivasi •Dataretrieval –Dokumenmanayangmengandunghimpunan keyword? –Semantikdidefinisikandenganbaik –Errordarisuatuobyekmengakibatkankegagalan! •Informationretrieval –Informasimengenaisuatusubyekatautopik –Semantikdapatbersifatlepas(longgar) –Errorkecilditoleransi 4
PengantarTemu-BalikInformasi ...Motivasi •IRditengahpertunjukan –IRdalam20tahunterakhir: •Klasifikasidankategorisasi •Sistemdanbahasa •Antarmukapenggunadanvisualisasi –Masih,areadilihatsebagaibidangyangsempit –Webmengubahpersepsiini •Repositorypengetahuanuniversal •Aksesuniversalgratis(biayarendah) •Volumeraksasadariinformasitanpaeditorialboard terpusat •Meskipunbanyakmasalah:IRmerupakankunciuntuk menemukansolusi! 5
PengantarTemu-BalikInformasi SistemIR •Menerimaquerypenggunayangmewakili kebutuhaninformasi •Mencaridanmenginterpretasikancontent (isi)dariitem-iteminformasi •Membangkitkansuaturankingyang mencerminkanrelevansiterhadap kebutuhaninformasitersebut •Idemengenairelevansiadalahsangat penting 6
PengantarTemu-BalikInformasi KebutuhanIR •WWW:lebih25milyarhalamanweb,1.3milyar gambardanlebih1milyarpesanUsenetyang diindekspadaGoogle(2006) •Berbagaikebutuhaninformasi: – – – – – Mencaridokumenyangmasukdalamtopiktertentu Mencarisuatuinformasispesifik Mencarijawabandarisuatupertanyaan Mencariinformasidalambahasaberbeda ... 8
PengantarTemu-BalikInformasi PenjualanSoftwareTextRetrieval 9
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi InformationRetrieval(IR) •Secarateknis:indexing(pembuatan index)danretrieval(pencarian keterangan)dokumentextual. •PencarianhalamanpadaWWWadalah aplikasipaling“ngetop”saatini •Fokuspertama:meretrievedokumen- dokumenyangrelevandenganquery. •Fokuskedua:meretrievehimpunanbesar dokumensecaraefisien. 10
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi InformationvsDataRetrieval •Sistemdataretrieval(sepertidatabase)berurusandengan structureddatayangmempunyaisemantikterdefinisi denganbaikdankebutuhanmeretrievehasilyangpasti (exact) •SistemIRberurusandengandokumenbahasaalami (naturallanguage)danerrorkecildapatdiabaikan. •SistemIRharusmenginterpretasikancontentkemudian merankingdaftarcontentsesuaidengantingkat relevansinya. •Tujuan:Meretrievesemuadokumenyangrelevan sekaligusmeretrievesesedikitmungkindokumen yangtidakrelevan 11
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi TugasIRDasar •Diberikan: –Suatucorpusdokumenbahasaalami tekstual. –Suatuquerypenggunadalambentukstring tekstual. •Temukan: –Suatuhimpunandokumenterurutmenurun (ranking)yangrelevandenganquery tersebut. 12
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemIR 13
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ContohSistemIR •Conventional(katalogperpustakaan) Pencariandengankatakunci,judul,penulis,dll. •Text-based(Google,Yahoo,ASK). Pencariandengankatakunci(keyword).Pencarian terbatasmenggunakanquerydalambahasaalami. •Multimedia(QBIC,WebSeek,SaFe) Pencariandenganpenampilanvisual(bentuk,warna,…) •Sistemjawabanpertanyaan(AskJeeves,Answerbus) Pencariandalambahasaalami(terbatas) •Lainnya: IRlintas-bahasa,musicretrieval 14
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemIRdiWeb •Pencarianhalamanwebhttp://www.google.com •Pencariangambarhttp://images.google.com •Pencarianisi(content)gambar http://wang.ist.psu.edu/IMAGE/ •Pencarianjawabanpertanyaan http://www.askjeeves.com •Pencarianmusik?Hari-hati,janganmelanggar hukum. 15
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Relevansi •Relevansimerupakansuatujudgment (keputusan)subyektifdandapatdidasarkan pada: – – – – topikyangtepat. waktu(informasiterbaru). otoritatif(darisuatusumberterpercaya). kebutuhaninformasidaripengguna. •Kriteriarelevansiutama:suatusistemIR sebaiknya(harus)memenuhikebutuhan informasipengguna. 16
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi PencarianKeyword •Idepalingsederhanadarirelevansi: apakahstringqueryadadidalam dokumen(katademikata,verbatim)? •Ideyanglebihfleksibel:Berapasering kata-katadidalamquerymunculdidalam dokumen,tanpamelihaturutannya(bag ofwords)? 17
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi MasalahdenganKeyword •Mungkintidakmeretrievedokumenrelevanyang menyertakansynonymousterms. –“restaurant”vs.“café” –“NDHU”vs.“NationalDongHwaUniversity” •Mungkinmeretrievedokumentak-relevanyang menyertakanambiguousterms. –“bat”(baseballvs.mamalia) –“Apple”(perusahaanvs.buah-buahan) –“bit”(unitdatavs.perilakumenggigit) 18
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi BukanSekedarKeyword •Kitaakanmendiskusikandasar-dasarIR berbasiskeyword,tetapi… –Fokuspadaperluasandanpengembangan terakhiruntukmendapatkanhasilterbaik. •Kitaakanmembahasdasar-dasar pembangunansistemIRyangefisien, tetapi… –Fokuspadaalgoritmadankemampuandasar, bukanmasalahsistemyangmemungkinkan pengembangankedatabaseukuranindustri. 19
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRCerdas •Memanfaatkanpengertianataumaknadarikata yangdigunakan. •Melibatkanurutankatadidalamquery. •Beradaptasidenganpenggunaberdasarkan padafeedback,langsungatautidaklangsung. •Memperluaspencariandengantermterkait. •Mengerjakanpemeriksaanejaaan/perbaikan tandapengenalotomatis. •MemanfaatkanOtoritasdarisumberinformasi. 20
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Indeks •SistemIRjarangmencarikoleksidokumen secaralangsung.Berdasarkanpadakoleksi dokumen,dibangunsebuahindex.Pengguna mencariindextersebut. 21
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IndexingOtomatis •Tujuandariautomaticindexingadalah membangunindexdanmeretrieveinformasi tanpaintervensimanusia. •Ketikainformasiyangdicariadalahteks, metodeautomaticindexingakansangatefektif. •Penelitianautomaticindexingfundamental dimulaiolehGeraldSalton,Professorof ComputerSciencediCornell&mahasiswa Pasca-Sarjananya(SistemSMART). 22
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRdariKoleksiBesar •Informationretrievaldarikoleksisangatbesar bersandarpada: –Jumlahcomputerpoweryangbesaruntuk mengerjakanalgoritmasederhanaterhadapjumlah datayangsangatbanyak. komputasikinerja-tinggi –Pemahamanpenggunaterhadapinformasidan kemampuandarisistem. Interaksimanusia-komputer •Machine-learningbanyakdigunakanuntuk mendapatkankinerjaterbaik. 23
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Searching&Browsing •Orangdalamperulangan 24
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRdariKoleksiDokumenTeks •Kategoriutamadarimetode: –Rankingkemiripanterhadapquery(vectorspace model). –Pencocokanexact(Boolean). –Rankingberdasarkantingkatkepentingandokumen (PageRank) –Kombinasibeberapametode •Contoh:Websearchengine,sepertiGoogle& Yahoo,menggunakanmetodekombinasi, berdasarkanpadapendekatanpertamadan ketiga,dengankombinasiexactdipilih menggunakanmachinelearning. 25
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IstilahPenting •Informationretrieval:sub-bidangilmu komputeryangberurusandenganpenemuan kembalidokumen(khususnyateks)terotomasi berdasarkanpadacontentdancontextnya. •Searching:Pencarianinformasispesifikdi dalambadaninformasi.Hasilnyaadalah sehimpunanhit. •Browsing:Eksplorasitak-terstrukturdaribadan informasi. •Linking:Berpindahdarisatuitemkeitemlain mengikutilink(sambungan)sepertirujukan (referensi). 26
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...Istilah •Query:Suatustringteks,menggambarkan informasiyangsedangdicaripengguna.Setiap katadariquerydinamakansearchterm. •Querydapatberupasearchtermtunggal,stringdari term,fraseatauekspresitertentumenggunakan simbolkhusus,misalnyaregularexpression. •PencarianFulltext:Metodeyangmembandingkan querydengansetiapkatadidalamteks,tanpa membedakanfungsidariberbagaikata. •PencarianBidang:Metodepencarianpadabidang strukturalataubibliografisspesifik,sepertipenulis ataujudul. 27
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...Istilah •Corpus:Koleksidokumenyangdiindeksdan dijadikantargetpencarian. •Daftarkata:Himpunansemuatermyangdigunakan dalamindeksuntuksuatucorpus(dikenalsebagai vocabularyfile). •Padapencarianfulltext,wordlistadalahsemua termdidalamcorpus,stopwordsdihapus.Term- termterkaitdikombinasidenganstemming. •Controlledvocabulary:Metodeindexingdimana wordlistbersifattetap.Term-termdarivocabulary tersebutdipilihuntukmendeskripsikansetiap dokumen. •Keyword:Namauntukterm-termdalamwordlist, terutamadengancontrolledvocabulary. 28
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Mengurutan&RankingHit •Ketikapenggunamen-submitsuatuqueryke sistemIR,sistemmengembalikansehimpunanhit. Padakoleksidokumenbesar,himpunanhitakan sangatbesar. •Nilaiuntukpenggunaseringtergantungpada urutanhitditampilkan. •Tigametodeutama: –Mengurutkanhit,misalberdasarkantanggal –Merankinghitberdasarkankemiripanantaraquery dandokumen –Merankinghitberdasarkankepentingandaridokumen 29
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi IRBerbasisTeks •Sebagianbesarmetoderankingdidasarkanpadamodel ruangvektor(vectorspacemodel). •Sebagianbesarmetodepencocokan(matching) didasarkanadaoperatorBoolean. •MetodeWebsearchmengkombinasikanmodelruang vektordenganrankingberdasarkanpadatingkat kepentingandokumen. •Banyaksistem(dalampraktek)menggabungkanfitur- fiturdaribeberapapendekatan. •Padabentukdasar,semuapendekatanmenganggap katasebagaitokenterpisah,denganusahaminimal untukmemahamikata-katasecaralinguistik. 30
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi FrekuensiKata •Observasi:Beberapakatalebihumum daripadayanglain. •Statistika:Koleksisangatbesardari dokumentekstak-terstrukturmempunyai karakteristikstatistikserupa.Statistikini: –Mempengaruhiefektifitasdanefisiensidari strukturdatayangdigunakanuntuk mengindeksdokumen –Banyakmodelretrievalmemanfaatkannya. 31
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...FrekuensiKata •Contoh:Contohberikutinidiambildari: –JamieCallan,CharacteristicsofText,1997 –19Jutakatasampel –Slideberikutmemperlihatkan50katayang palingumum,diranking(r)berdasarkan frekuensinya(f). 32
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...FrekuensiKata 33
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi DistribusiRankingFrekuensi •Untuksemuakatadidalamsuatudokumen, untuksetiapkataw –fadalahfrekuensimunculnyaw –rrankingdariwdisusunmenurutfrekuensi.(kata yangpalingumummunculmempunyairank=1) 34
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ContohFrekuensiRank •Slideberikutmemperlihatkankata-katadi dalamdataCallanyangtelahdinormali- sasi.Dalamcontohini: –radalahrankingdarikatawdalamsampel. –fadalahfrekuensikatawdidalamsampel. –nadalahjumlahtotalkemunculankatadi dalamsampel. 35
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...ContohRankingFrekuensi 36
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi HukumZipf •Jikakata-katadidalamsuatukoleksi diranking,r,berdasarkanfrekuensinya,f, makamemenuhirelasi: r×(f/n)=c dimananadalahjumlahkemunculankata didalamkoleksi,19jutadalamcontoh. •Koleksiberbedamempunyaikonstantac berbeda. •DalamteksbahasaInggris,csekitar0.1. 37
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi MetodepadaHukumZipf •Stoplists:Abaikankata-katayangsangat sering(uppercut-off).Digunakanolehhampir semuasistem. •Significantwords:Abaikankatayangpaling seringdanpalingsedikit(upperandlowercut- off).Jarangdigunakan. •Termweighting:Berikanbobotberbedauntuk term-termberdasarkanpadafrekuensinya,kata- katayangpalingseringdibobotkurang. Digunakanolehhampirsemuametode perankingan. 38
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi PandanganLogikDokumen •Representasidokumendipandang sebagaisuatucontinuum(rangkaian kesatuan). 39
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ArsitekturSistemIR 40
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ArsitekturIR:Contoh 41
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi KomponenSistemIR •OperasiTeksmembentukkata-kataindeks (token) –Tokenization(pemisahankata) –PenghapusanStopword(seperti‘the’,‘of’,…) –Stemming(mengubahkata-kataberbedakebentuk akarnya) •Indexingmembangunsuatuinvertedindexdari katakepenunjukdokumen. –PemetaandarikatakuncikeIddokumen. 42
PengantarTemu-BalikInformasi ...KomponenSistemIR •Searchingmeretrievedokumen-dokumenyang mengandungtokenqueryyangdiberikandari invertedindex. •Rankingmemberikanscorekepadasemua dokumenyangdiretrievesesuaidengan relevancemetric. •UserInterfacemenanganiinteraksidengan pengguna: –Inputquerydanoutputdokumen. –Feedbackrelevansi –Visualisasihasil. 43
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...KomponenSistemIR •OperasiQuerymentransformasiqueryuntuk meningkatkanretrieval: –Queryexpansionmenggunakanthesaurus. –Querytransformationmenggunakanfeedback relevansi. –Optimisasiqueryuntukmeningkatkankinerja.(kurang pentingdaripadadalamsistemdataretrieval) •Pertanyaan:bagaimanamenambahkansuatu komponenpersonalisasikesistemIR? 44
PengantarTemu-BalikInformasi PencarianWeb •AplikasiIRterhadapdokumenpadaWWW •Perbedaan: –Ukuran–lebihdari25milyardokumendiindekspada Google,terusbertambah –Perubahandokumentidakdapatdikendalikan. –Harusmenghimpuncorpusdokumendengan menjaring(spidering)web. –Dapatmengeksploitasiinformasilayoutstruktural dalamHTML(XML). –Dapatmengeksploitasistrukturlinkdariweb. 45
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SistemPencarianWeb 46
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi TugaslainterkaitIR • • • • • • • • • Kategorisasidokumenotomatis Penyaringaninformasi(spamfiltering) Perutean(routing)informasi Clusteringdokumenotomatis Merekomendasikaninformasiatauproduk Ekstraksiinformasi Integrasiinformasi Jawabanpertanyaan ... 47
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi Timeline Sistem IR 48
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi SejarahIR •1960-70-an: –Eksplorasiawaldarisistemtextretrievaluntuk corporaabstrakilmiah“kecil”,dandokumen hukumdanbisnis. –Pengembanganmodelretrievaldasar Booleandanruangvektor. –Prof.SaltondanmahasiswanyadiCornell Universitymengawalipenelitiandibidangini. 49
PengantarTemu-BalikInformasi SistemTemu-BalikKomputer20102010 KeamananInformasi ...SejarahIR •1980-an: –Sistemdatabasedokumenbesar,banyak dijalankanolehperusahaan: •LexisNexis–arsipyangdapatdicari(searchable) daricontentsuratkabar,majalah,dokumenlegal (hukum)dansumbertercetaklain. •Dialog •MEDLINE 50