1 / 26

TP 2433 Pembangunan Enjin Gelintar

TP 2433 Pembangunan Enjin Gelintar. Pengenalan. Enjin gelintar bagi tujuan umum ( General-purpose search engine ) semakin menghadapi cabaran pada era ini kerana perkembangan pesat yang berlaku pada World-Wide Web.

perdy
Download Presentation

TP 2433 Pembangunan Enjin Gelintar

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TP 2433PembangunanEnjinGelintar

  2. Pengenalan • Enjin gelintar bagi tujuan umum ( General-purpose search engine ) semakin menghadapi cabaran pada era ini kerana perkembangan pesat yang berlaku pada World-Wide Web. • Oleh itu Focused Crawler diperlukan untuk mencapai laman yang relevan dengan lebih berkesan.

  3. Matlamat Focused Crawler • Untuk mencapai laman yang relevan dengan pre-defined set topik. • Punca pencarian set topik tersebut tidak menggunakan keywords, tetapi menggunakan exemplary dokumen. • Ia menganalisis Web dokumen yang dicapai untuk mencari rangkaian yang paling relevan kepada kehendak pencarian. • Ia juga menapis Web dokumen yang tidak relevan.

  4. Bagaimana Focused Crawler mencapai matlamat ? • Focused Crawler mempunyai: • Classifier – yang menetukan sama ada hypertext dokumen adalah relevan dengan fokus topik atau tidak. • Distiller – yang menentukan hypertext nodes yang terdapat pada laman yang relevan dalam babarapa rangkaian.

  5. Bagaimana Focused Crawler mencapai matlamat ? • FocusedCrawler mampu mengatasi kekeliruan yang berlaku pada set URL semasa permulaan pencarian dengan mengesan set sumber yang overlapping. • Ia mampu mencapai laman yang berada pada rangkaian yang sangat jauh daripada set permulaan.

  6. Bagaimana Focused Crawler mencapai matlamat ? • Untuk mencari dan mencapai laman yang relevan, pengguna perlu memilih atau mengubahsuai topik nodes yang terkandung dalam taxonomy ( process of classifying ). • Pengguna juga perlu memberikan contoh URL tambahan sebagai starting points kepada pencarian laman.

  7. Sistem Operasi Focused Crawler 1. Rekabentuk taxonomy - Apabila sistem telah dibina, Classifier akan menguji taxonomy dan maklum balas taxonomy, iaitu URL terlebih dahulu. 2. Penyimpanan URL - Pengguna memilih semua URL yang relevan dan URL ini akan dihantar dan disimpan dalam sistem

  8. Sistem Operasi Focused Crawler 3. Pemilihan dan pengubahsuaian taxonomy - Sistem akan mencadangkan classes yang paling sesuai dan popular kepada pengguna untuk membuat pilihan URL mana yang hendak dicapai. - Kadang kala pengguna akan mendapati bahawa kategori taxonomy masih terlalu luas dan pengubahsuaian perlu dibuat.

  9. Sistem Operasi Focused Crawler 4.Semakaninteraktif - Sistem mencadangkan URL tambahan yang merupakan jiran yang hampir sama dengan punca pencarian untuk pengguna. - Pengguna boleh menyemak dan memasukkan URL tambahan ini sebagai sumber yang hendak dicapai.

  10. Sistem Operasi Focused Crawler 5. Latihan - Classifier menggabungkan pengubahsuaian yang telah dibuat oleh pengguna ke dalam model class yang statistik. 6. Pengumpulan sumber - Pada peringkat ini sistem bersiap sedia untuk menyenaraikan semua sumber pencarian yang telah dicari dan dikumpul.

  11. Sistem Operasi Focused Crawler 7. Penapisan laman - Sistem menjanakan algoritma penapisan topik untuk menentukan laman mana yang mengandungi bilangan sumber link yang paling banyak, yang dipanggil hubs.

  12. Sistem Operasi Focused Crawler 8. Maklum balas - Pengguna akan menyemak sistem yang melaporkan laman mana yang paling popular. - Pengguna boleh memberikan maklum balas dengan menentukan sama ada laman tersebut relevan atau tidak kepada Classifier dan Distiller.

  13. Aplet di atas menunjukkan semua laman yang dicapai lawan masa.Setiap titik merah merupakan satu laman Web di mana pengguna boleh click titik merah untuk capai laman tersebut.Paksi-x menunjukkan masa, manakala paksi-y menunjukkan nilai relevan di antara 0 hingga 1.Garisan biru menunjukkan average semua laman Web yang dicapai.

  14. Applet menunjukkan kategori pokok bagi topik “recreational bicycling”.Dengan menggunakan menu Classify, pengguna boleh menyuruh Classifier mencapai laman dan yang dikehendaki dan beberapa nodes yang berpadanan dalam kategori pokok. Setelah browsing, semua nodes yang dipilih boleh dicapai oleh pengguna sebagai sumber untuk Focused Crawler nanti.

  15. Daripada applet di atas, subpokok adalah /Recreation/Sport/Cycling.Di sebelah kanan atas adalah Examples yang merupakan contoh topik berkaitan dengan Cycling, dan di bawah adalah Neighborhood yang merupakan jiran yang hampir sama dengan laman yang ingin dicapai.

  16. Rekabentuk Sistem Focused Crawler Blok diagram memaparkan hubungan di antara Crawler, Classifier dan Distiller, yang merupakan komponen utama Focused Crawler.

  17. Rekabentuk Sistem Focused Crawler • Crawler mempunyai satu bebenang (thread) watchdog dan banyak bebenang worker. • Watchdog bertanggungjawab menyemak kerja baru daripada frontier pencarian dan menghantar kerja baru itu kepada worker dengan menggunakan memori buffer kongsian. • Worker akan menyimpannya dalam struktur disk worker persendirian. • Selepas itu pada masa yang sama kerja worker akan berhenti dan keputusan mereka akan dikumpul dan digabung bersama dalam suatu tempat terpusat. • Classifier akan digunakan oleh setiap bebenang setiap kali ia menemui laman baru.

  18. Nilai harvesting • Classifier perlu menentukan nilai harvesting laman yang relevan serta setakat mana laman Web yang tidak releven ditapis oleh Clawler. • Nilai harvesting ini perlu tinggi, jika tidak Focused Crawler akan menggunakan banyak masa untuk menapis laman Web yang tidak relevan.

  19. Nilai harvesting • Untuk setiap topik, 3 jenis kaedah pencarian akan dilaksanakan pada set URL yang sama,iaitu: • Unfocused Crawler • Soft Crawler • Hard Crawler

  20. Dalam graf menunjukkan keputusan Unfocused Crawler untuk topik Bicycling. • Untuk Unfocused Crawler,ia akan mencapai beberapa URL baru dalam random order.

  21. Paksi-x menunjukkan bilangan laman yang dicapai, dan paksi-y menunjukkan average laman relevan yang dicapai. • Kita mendapati pada permulaan nilai average adalah sederhana tinggi, tetapi turun sampai sifar dengan cepat, iaitu setelah beberapa ratus laman dicapai.

  22. - Graf kedua ini menunjukkan keputusan Hard Crawler untuk topik Bicycling. - Nilai average yang didapati lebih konsisten, walaupun terdapat sedikit turun naik yang dijangka.

  23. Graf ketiga menunjukkan keputusan Soft Crawler untuk topik Bicycling. • Nilai average adalah lebih konsisten dan stabil.

  24. Graf menunjukkan fraction lawan relevan bagi laman yang dicapai. • Fraction laman yang paling tinggi adalah pada nilai relevan yang paling tinggi, iaitu 1. • Didapati juga Unfocused Crawler mempunyai nilai relevan yang sangat rendah dan stabil.

  25. Kesimpulan • Focused Crawlerdapat mencapai maklumat dengan lebih khusus dan terperinci berbanding dengan Standard Crawlers yang lain walaupun kedua-dua bermula dengan set pencarian yang sama. • Focused Crawler dapat mencari laman yang berkaitan dengan sumber pencarian dengan mengabaikan laman yang tidak berkaitan. • Focused Crawler dapat menjimatkan sumber network dan hardware kerana tidak memerlukan keperluan perisian komputer yang canggih.

  26. Sekian, terima kasih… • Disediakan oleh: Kok Lee Hooi (A97193) Norazia binti Abu Bakar (A96987) Fakrulnisa binti Pormi (A97162) Abdul Ain bin Idris (A96848) Sufian bin Yusof (A97278)

More Related