1 / 69

Pengenalan Enjin Gelintar

Pengenalan Enjin Gelintar. Pengenalan Maksud Enjin Gelintar Tiga Jenis Enjin Gelintar Senibina Enjin Gelintar Komponen Asas Enjin Gelintar. Pengenalan Enjin Gelintar. 2003 16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari

Albert_Lan
Download Presentation

Pengenalan Enjin Gelintar

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Pengenalan Enjin Gelintar Pengenalan Maksud Enjin Gelintar Tiga Jenis Enjin Gelintar Senibina Enjin Gelintar Komponen Asas Enjin Gelintar

  2. Pengenalan Enjin Gelintar • 2003 16.5 bil Laman web • 3 bil laman / 59GB teks dimuat setiap hari • Hayat  44 hari • 10MB/s teks : connection capable to downloading

  3. Pengenalan Enjin Gelintar • Nov 97 : AltaVista handle 20 bil queries per day

  4. Apa itu enjin gelintar ? • Enjin gelintar ialah suatu program yang digunakan untuk mencari dan mencapai maklumat berdasarkan kepada sebutan gelintaran (search terms) yang diberi oleh pengguna. Ia membenarkan pengguna menjelajah pangkalan data yang mengandungi teks terdiri daripada berjuta-juta di laman web. Apabila perisian enjin gelintar dapat padankan maklumat yang dicari (hits), ia akan menerangkan dimana pautan maklumat terdapat dan seterusnya pengguna akan terus menjelajah. • search engine -- (a computer program that retrieves documents or files or data from a database or from a computer network (especially from the internet))

  5. Web Spider Document corpus IR System Query String 1. Page1 2. Page2 3. Page3 . . Ranked Documents

  6. Pengenalan Enjin Gelintar

  7. Pengenalan Enjin Gelintar

  8. Pelayan UKM URL FTSM URL Pelayan Google

  9. How SE Works • Crawl entire Intranet • Compute the shortest hyperlink path from a certain root page to every web page • Index and compute metadata for the pages • Using Cheshire II • Run a user query. • Gather all the hits • Create a “directory” based on combining the shortest paths • Special graph algorithm removes redundant links and internal nodes

  10. SE System Architecture store the documents crawl the web

  11. SE System Architecture store the documents crawl the web create files of metadata Cheshire II

  12. SE Metadata • Information about web pages • Title • Length • Inlinks • Outlinks • Shortest Paths from a root home page • Used to provide innovative search interface

  13. SE System Architecture store the documents crawl the web create files of metadata Cheshire II

  14. SE System Architecture store the documents crawl the web create a keyword index create files of metadata Cheshire II

  15. Creating a Keyword Index • For each document • Tokenize the document • Break it up into tokens: words, stems, punctuation • There are many variations on this • Record which tokens occurred in this document • Called an Inverted Index • Dictionary: a record of all the tokens in the collection and their overall frequency • Postings File: a list recording for each token, which document it occurs in and how often it occurs

  16. SE System Architecture user query Cheshire II

  17. Responding to the User Query • User searches on “pam samuelson” • Search Engine looks up documents indexed with one or both terms in its inverted index • Search Engine looks up titles and shortest paths in the metadata index • User Interface combines the information and presents the results as HTML

  18. SE System Architecture user query Cheshire II

  19. SE System Architecture server accesses the databases Cheshire II

  20. SE System Architecture results shown to user Cheshire II

  21. SE System Architecture user query server accesses the databases results shown to user Cheshire II

  22. What hasn’t been explained here? • How documents are ranked • How queries are formed • How shortest paths are computed • How the system is built • … among other things! • This is just an introduction! Much more later.

  23. Pengenalan Enjin Gelintar Dua kaedah mendapatkan maklumat yang menarik • Kueri • Carian berasaskan keyword : EG jana kueri kepada indeks katakunci dan pulangkan dokumen terpangkat • Sesuai untuk pengguna yang mempunyai matlamat jelas • Gelintar • Navigasi melalui set jalinan (link) seperti hieraki bagi mendapatkan topik sasaran • Pengguna pilih link yang ia rasakan akan membawa kepada dokumen yang relevan. • Sesuai bagi pengguna yang tidak dapatkan menyatakan matlamat dengan jelas melalui kombinasi katakunci berasaskan boolean Kaedah padanan berdasarkan katakunci memulangkan banyak hasil yang kurang berkualiti  Bahasa Tabie (NL) lebih baik

  24. Masalah berkaitan katakunci • Kemungkinan tidak mencapai dokumen yang relevan bila mana terdapat term sinonim • “restaurant” vs. “café” • Aku, saya, patik, hamba • Kemungkinan capai dokumen yang tidak berkaitan bilamana terdapat term yang ada kesamaran (ambiguous) • “bat” (baseball vs. mammal) • “Apple” (company vs. fruit) • “bit” (unit of data vs. act of eating) • Perang (perbuatan vs warna)

  25. Pengenalan Enjin Gelintar • Web crawlers • Web portals • Meta-Search engines Terdapat 3 bentuk enjin gelintar

  26. Enjin Gelintar • Web Crawlers • Dikenali juga : robots, spiders, worms, walkers, wanderer • Jelajahi internet bagi mendapat laman kepada indeks • Mula dengan satu alamat web yang dikenalpasti dan muat turun laman tersebut. (berdasarkan URL  kaedah cth breath-first search) • Indeks semua perkataan dan frasa dan hubungan perkataan • Pengguna akan buat carian berdasarkan indeks tersebut • Contoh : AltaVista, Excite, Google, Hotbot, Lycos , Northen Light ……

  27. Alirankerja bagi web crawlers

  28. Web Crawlers : AltaVista • AltaVista mempunyai spider bernama Scooter yang mengedari (traverse) WWW dan Usenet mewsgroup. • Pengindeksan ialah berdasarkan teks penuh dokumen tersebut • Index di dalam pangkalan data AltaVista diupdatekan sekurang-kurangnya sekali sehari. • Scooter melawat laman web berdasarkan kekerapan laman web tersebut diupdatekan. Laman yang statik untuk beberapa bulan akan lebih kurang dilawati.

  29. Web Crawlers : AltaVista • AltaVista menyokong operasi penuh Boolean, phrase, dan case-sensistive searches. • AltaVista memangkat dokumen berdasarkan kerelevanan, memberikan pemberat yang lebih tinggi pada dokumen yang mengandungi sebutan query pada baris pertama dokumen. • Hasil query termasuklah tajuk, abstrak yang ringkas, saiz, dan tarikh terakhir dimodifikasi.

  30. Web Crawlers : Excite • Excite juga mempunyai spider dan pengindeks (indexer) untuk teks penuh sesuatu dokumen. • Spider hanya mencapai maklumat dalam bentuk dokumen web dan Usenet newsgroup. • Pengguna boleh hantar URL untuk pengindeksan. • Pengindeks menghasilkan sebutan indeks dan ringkasan dokumen. • Excite menyokong pengoperasi Boolean AND. OR, dan NOT, dan ekspresi query Boolean.

  31. Web Crawlers : HotBot • HotBot mencapai dan mengindeks dokumen dengan menggunakan robot bernama Slurp. • Slurp mengeluarkan semua URL daripada document yang dicapai dan meletakkannya di dalam struktur data berjadual, yang menunjukkan setiap URL kepada CPU yang berbeza berdasarkan kriteria seperti bilakah masa terkini hos diakses. • HotBot menyokong penggelintaran berasakan case-sensitive dan operasi Boolean. • HotBot memberikan tarikh terakhir sesuatu laman web diupdate dan abstrak ringkas mengandungi beberapa baris pertama sesuatu dokumen.

  32. Web Crawlers : InfoSeek • Enjin gelintar yang mencapai dokumen dalam bentuk HTML dan PDF, mengindeks teks penuh dan menghasilkan ringkasan pendek tentang sesuatu dokumen. • InfoSeek membenarkan penggelintaran dalam Web, Usenet groups, dan Web FAQs. • InfoSeek menyokong “case sensitivity” dan juga penggelintaran untuk simbol, rangkai-kata dan nama. • Ia juga membenarkan penggelintaran imej berdasarkan kata sebutan yang terdapat pada imej.

  33. Web Crawlers : InfoSeek • InfoSeek memangkat outputnya, mengira RSV dengan memberikan pemberat yang lebih untuk dokumen yang kata sebutan query terdapat pada awalan dokumen tersebut. • Ia memberi ringkasan pendek, markah kerelevanan, dan saiz dokumen.

  34. Web Crawlers : Lycos • Lycos mempunyai robot yang menggunakan heuristik untuk berjalan dalam web dan membina indeks yang boleh digelintari. • Untuk setiap dokumen yang diindeks, robot akan menyimpan maklumat tentang “outgoing links” (anchor text atau link tags) dalam susunan (queue) dan memilih URL daripa susunan. Satu contoh heuristik umpamanya mengarah robot untuk memilih URL yang menunjukkan laman web pelayan (server).

  35. Web Crawlers : Lycos • Lycos mengindeks tajuk, headings, dan subheadings untuk dokumen HTML, FTP dan Gopher. • Bila bilangan dokumen terindeks melebihi 100, hanya 100 sebutan yang berpemberat tinggi akan akan disimpan. • Pengindeks juga menyimpan 20 baris pertama dokumen, saiznya, dan bilangan perkataan.

  36. Web Crawlers : OpenText • OpenText mempunyai robot yang melayari laman web dengan memilih satu-satu URL daripada sekumpulan URL, mencapai dokumen dari URL tersebut, dan mengindeks dokumen tersebut. • Ia juga mengeluarkan semual URL daripada dokumen yang dicapai dan meletakkannya di kumpulan URL (URL pool). • Pengguna boleh menghantar URL untuk diindeks.

  37. Web Crawlers : OpenText • OpenText mengindeks teks penuh sesuatu dokumen HTML dan berterusan mengupadate indeksnya. • Pengindeks (indexer) akan menghasilkan 100 perkataan pertama sesuatu dokumen sebagai ringkasan pendek. • Ia menyokong sepenuhnya pengoperasi Boolean.

  38. Web Crawlers : Direktori/Katalog • Enjin gelintar daripada kumpulan ini menyusun katalog atau direktori subjek bagi laman web yang boleh di gunakan oleh pengguna.

  39. Web Crawlers : Yahoo • Yahoo secara semi-otomatik mengorganisasikan subjek laman web. • Link ke beberapa sumber dikumpul dalam 2 cara: (i) daripada pengguna yang menghantar laman web untuk diindeks; (ii) daripads robot yang mencapai link baru daripada laman web terkemuka seperti NCSA/GNN’s What’s New Page. • Yahoo mengindeks Web, Usenet news, dan alamat e-mel. • Output daripada query ialah senarai dokumen dan kategori yang diberikan oleh Yahoo, berserta beberapa baris pertama dokumen.

  40. Enjin Gelintar • Portals • Laman yabg diorganisasi maklumat mengikut topik bagi memudah pengguna menavigasi dan mendapatkan maklumat yang dicari • Juga dikenali web direktori • Kebanyakan portal merupakan “human maintained” • Carian kebanyakan berdasarkan ringkasan (summaries) atau tajuk bukan pada kandungan

  41. Alirankerja portal

  42. Enjin Gelintar • Meta-Search Engines • Merupakan site yang mengambil kueri (katakunci atau kueri NL) dan hantar ianya ke banyak enjin gelintar dan pulangkan hasil kepada pengguna. • Tiga kaedah gelintaran • Senarai penuh enjin gelintar • Penggelintaran secara jujukan (sequential) • Penggelintaran secara concurrent

  43. Aliran kerja meta-search engines

  44. Pembahagian Sistem Enjin Gelintar Enjin Gelintar Enjin Gelintar bagi tujuan Umum (General-purpose Search Engine) Enjin Gelintar bagi Domain Tertentu (Domain Specific Search Engine) Fokus pada jenis dokumen tertentu Fokus pada topik tertentu

  45. Crawling the web • Building an index • Ranking • Serving search result • User interface and design • Google infrastructure Pelayan Google akan dibincang semasa tutorial

  46. WWW Repositori laman klien kueri keputusan Modul Himpunan Analisis Modul Indeks pemangkatan Lelabah Enjin kueri Indeks: kemudahan struktur teks Modul Kawalan Lelabah Maklumbalas pengguna Senibina Enjin Carian (Arasu et.al 2001)

  47. WWW Repositori laman klien kueri keputusan Modul Himpunan Analisis Modul Indeks pemangkatan Lelabah Enjin kueri Indeks: kemudahan struktur teks Modul Kawalan Lelabah Maklumbalas pengguna Senibina Enjin Carian (Arasu et.al 2001)

  48. Sumber dari WWW dimuat turun oleh lelabah (agen) • Aktiviti penjelajahan dikawal oleh Modul Kawalan Lelabah (MKL) • MKL tentu URL akan dilawat dan beri URL kepada lelabah • Tugas lelabah sebenarnya ditentu oleh pembangun WWW Lelabah Modul Kawalan Lelabah

  49. WWW Repositori laman klien kueri keputusan Modul Himpunan Analisis Modul Indeks pemangkatan Lelabah Enjin kueri • Modul Indeks • Modul Indeks berperanan mendapatkan semua perkataan dalam laman web yang dimuat turun oleh lelabah • Merekod URL bagi perkataan berkaitan (URL  halaman berkaitan) Indeks: kemudahan struktur teks Modul Kawalan Lelabah Maklumbalas pengguna

  50. WWW Repositori laman klien kueri keputusan Modul Himpunan Analisis Modul Indeks pemangkatan Lelabah Enjin kueri Indeks: kemudahan struktur teks Modul Kawalan Lelabah Maklumbalas pengguna

More Related