260 likes | 429 Views
PEMBANGUNAN ENJIN GELINTAR (TP2433). Ahli Kumpulan: Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Norfaezah bt Ahmad Supian A96989 Wong Siew Peng A97330 Yasser Ali b. Zolkarnaini A97092.
E N D
PEMBANGUNAN ENJIN GELINTAR(TP2433) • Ahli Kumpulan: • Rozaida bt Md Bashah A96843 • Arofah bt Zakaria A96862 • Norfaezah bt Ahmad Supian A96989 • Wong Siew Peng A97330 • Yasser Ali b. Zolkarnaini A97092
The Anatomy Of A Large-scale Hypertextual WebSearch Engine PENGENALAN CIRI-CIRI SISTEM TUGAS YANG BERKAITAN SISTEM ANATOMI KEPUTUSAN & PENCAPAIAN KESIMPULAN
PENGENALAN • Bilangan maklumat dalam web bertambah dengan pesatnya seiring dengan bilangan pengguna baru yang kurang berpengalaman dalam kemahiran pencarian dalam web • Teknik enjin gelintar berkembang pesat sebagaimana pertambahan web • 1994 - satu daripada web enjin gelintar World Wide Web Worm (WWWW) mempunyai indeks 110,000 laman web dan capaian dokumen dalam web • Nov 1997 – top search engine mengindeks 2-100 million dokumen web • Thn 2000, indeks keseluruhan dari laman web mengandungi lebih drpd 1 billion dokumen • Altavista mendakwa mengendalikan secara kasar sebanyak 20 million kueri sehari • Matlamat sistem adalah utk selesaikan masalah sama ada dari segi kualiti dan perkembangan
GOOGLE : PERKEMBANGAN DENGAN WEB • Gogol atau 10 100 • Penerokaan teknologi yg pantas memerlukan pengumpulan dokumen web dan memastikan ia sentiasa dikemaskini • Ruang storan perlu diguna dengan cekap utk simpan indeks, pilihan dan dokumen • Sistem yang diindeks perlu memproses lebih drpd 100 GB data secara berkesan • Dalam merekabentuk Google, kita perlu mengambil kira perkembangan web dan perubahan teknologi • Google direka untuk mengembangkan dengan baik set data yang amat besar • Ini menjadikan penggunaan storan utk menyimpan indeks lebih efisien
STATISTIK – Google Press Center(Jun 2004) LANGUAGES USED TO ACCESS GOOGLE BROWERS USED TO ACCESS GOOGLE OS USED TO ACCESS GOOGLE MOST SEARCH FOR AUTOBIOGRAPHY
CIRI-CIRI SISTEM • 2 cara mendapatkan keputusan pencarian tepat iaitu = page rank = anchor text • Page rank = mengguna struktur link utk kira secara anggaran kualiti sesebuah laman = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = maka , 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium
PAGE RANK menggunakan struktur link ~utk mengira secara anggaran kualiti sesebuah laman web = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = maka , 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium di bawah adalah penghuraian mengenai pengiraan page rank; PR(A) = (1-d) + d(PR(T1) + … + PR(Tn)/C(Tn)) A=anggapan bahawa ada halaman T1,T2….Tn T=bilangan halaman dalam sesebuah laman web d=faktor dalam set nilai 0 hingga 1 (biasanya 0.85) C(A)= bilangan link yg keluar dari laman web A
Model kelakuan/sifat pengguna ~ Para pengguna lazimnya pengguna biasa yang melawat sebuah laman web sering klik pada link, tidak untuk klik back. Ini akan mendatang kebosanan dan akan melawat laman web yang lain. Kekerapan pengguna yang melawat sesuatu laman web mempengaruhi page rank. Page rank akan meningkat jikalau terdapat banyak laman web yang menunjuk padanya. Contohnya; laman web yang terkenal seperti www.yahoo.com Laman web tersebut mempunyai priority yang tinggi kerana banyak laman web lain menunjuk padanya. Laman yang ditunjuk oleh banyak laman semestinya berpatutan untuk diberi perhatian.
Kekerapan term~ adalah jumlah kekerapan perkataan yang wujud dalam sesuatu dokumen yang terdapat pada sesebuan laman web. Apabila term itu wujud acap kali pada dokumen tersebut, priority page rank akan meningkat. Keputusan yang jitu akan dapat dicapai. Font yang besar atau capital letter/bolt/italic~ Adalah salah satu faktor mendapatkan priority page rank yang tinggi.
ANCHOR TEXT Kebanyakan enjin gelintar menggabungkan text daripada link yang terdapat dalam page dimana page yang menggabungkan text tersebut mempunyai kebarangkalian link yang tinggi untuk menghasilkan kejituan keputusan. Bagi penambahan untuk keputusan yang jitu, penggabungan pagi dilakukan di mana page tersebut adalah point link. untuk halaman web yang wujud tetapi tidak diindeks oleh enjin gelintar teks(kerana mengandungi banyak imej atau software berbanding teks) laman yg belum di ‘crawl’ akan mendatangkan masalah kerana tidak disemak kesahihan sebelum memulangkan keputusan kepada pengguna. Ada juga enjin gelintar yang memulangkan laman web yang tidak wujud tetapi ada hyperlink yang menunjuk padanya. Ini jarang berlaku.
CAPAIAN MAKLUMAT • Kebanyakan carian dalam sistem capaian maklumat adalah kecil dan dikawal oleh koleksi homegenus spt koleksi saintifik • Peringkat pertama capaian maklumat , Text Retrieval Conference [TREC 96] menggunakan ruang kecil yg dikawal oleh koleksi • TREC selalu tidak menunjukkan pencarian yg baik di dalam web • Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. • Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.
Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. • Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.
SISTEM ANATOMI R1 : Gambaran Senibina Google Peringkat Tinggi
URLserver akan menghantar senarai URLs untuk diambil oleh crawler • Laman web yang diambil kemudiannya dihantar ke storeserver • Storeserver akan memadatkan dan simpan laman web ke dalam repository • Setiap laman web mempunyai ID no. yang dinamakan docID yang mana ia diberikan URL baru untuk menghuraikan satu laman web
Proses mengindeks menjalankan beberapa fungsi iaitu membaca repository, menghuraikan dan nyahpadatan dokumen • Setiap dokumen diubah kepada satu set perkataan yang dipanggil hits • Hits akan merekod perkataan , menentukan kedudukan dalam dokumen, anggaran saiz font dan penggunaannya • Pengindeks akan mengagihkan hits ke dalam satu set “barrels” • Ia juga menghuraikan semua link yang terdapat dalam laman web dan simpan maklumat penting dalam anchor file
Pengisih (sorter) mengambil “barrels” dan mengisih semula untuk menghasilkan indeks songsang • Ia juga menghasilkan satu senarai wordIDs dan mengimbanginya untuk dimasukkan ke dalam indeks songsang
Forward Index • Indeks yang dihantar semula sebenarnya sudah diisih • Ia disimpan dalam sejumlah “barrels” • Setiap “barrel” memegang pelbagai wordID’s • Ia memerlukan hanya 24 bits untuk meletakkan wordIDs dalam unsorted barrels
Document Index • Indeks dokumen menyimpan maklumat tentang setiap dokumen • Maklumat yang disimpan dalam setiap entri termasuk status semasa dokumen, penunjuk kepada repository dan pelbagai statistik • Jika dokumen sudah diteroka, ia juga mengandungi penunjuk kepada pelbagai fail yang dinamakan docinfo • Ia juga mengandungi fail yang mana ia digunakan untuk menukar URLs kepada docIDs
KEPUTUSAN DAN PENCAPAIAN • Tahap ukuran yg terpenting bagi sesebuah enjin gelintar adalah kualiti sesuatu keputusan pencarian • Google akan mempersembahkan suatu keputusan yang lebih baik berbanding enjin gelintar yang lain • Cth: penggunaan Page Rank, anchor text dan proximity
Google juga direkabentuk bg meluaskan kos scr efektif Antaranya menggunakan storan secara efisien (rujuk T1) Merujuk kpd pemampatan sbyk 53GB jum saiz repository adalah 1/3 drpd jum data tersimpan Dgn pengekodan yg lebih baik, suatu enjin gelintar berkualiti boleh memuatkan sbyk 7GB drive bg PC yg baru T1:Statistics KEPERLUAN STORAN
PENILAIAN SISTEM • Bagi Google, operasi terbesar adalah crawling, indexing dan sorting • Ini perlu bagi memastikan jangkamasa yg diambil semasa crawling krn disk yg penuh, nama server bertindan, dll. • Scr kasar, didapati masa 9 hari diambil utk download sbyk 26 million halaman (termasuk error)
PENILAIAN PENCARIAN • Langkah meningkatkan penilaian terhadap carian tidak hanya tertumpu pada penyelidikan • Versi semasa Google menyatakan bahawa kebanyakan kueri antara 1-10 saat • Google tidak ada sbrg optimization spt queri caching dan subindeks pada common terms • Target mereka ialah mampu utk menampung sejumlah ratusan kueri sesaat T2 : Search Timers
KESIMPULAN Ciri sebuah enjin gelintar yang baik adalah dapat mencari apa sahaja yang terdapat dalam internet dengan pantas dan jitu
TAMAT ACKNOWLEGDEMENT SEKIAN TERIMA KASIH KEPADA : PN SAIDAH SAAD RAKAN-RAKAN SEPERJUANGAN SEKALIAN