380 likes | 832 Views
GOOGLE ARAMA MOTORUNDA İNDEKSLENEN ÜNİVERSİTE WEB SAYFALARIN DURUMU. Akademik Bilişim 2007 (198) Kütahya. Ali ÇAYLI Adil AKYÜZ Ercan EFE Sait ÜSTÜN. İÇERİK. Bilgiye Erişim Arama Motorları Araştırma Yöntemi Üniversitelerimizin Durumu Dünya’daki Durum Google Webmaster Araçları Öneriler.
E N D
GOOGLE ARAMA MOTORUNDA İNDEKSLENEN ÜNİVERSİTE WEB SAYFALARIN DURUMU Akademik Bilişim 2007 (198) Kütahya Ali ÇAYLIAdil AKYÜZErcan EFESait ÜSTÜN
İÇERİK • Bilgiye Erişim • Arama Motorları • Araştırma Yöntemi • Üniversitelerimizin Durumu • Dünya’daki Durum • Google Webmaster Araçları • Öneriler
Bilgiye Erişim • Son yıllarda arama motorları kullanılarak bilgiye ulaşmak sıkça kullanılan bir yöntemdir • Artık aranan bir bilgiye arama motorlarında birkaç anahtar kelime ile ulaşmak mümkün hale gelmiştir.
Bilgiye Erişim DİĞER LİNKLER Kullanıcılar Web Sayfası
Bilgiye Erişim ARAMA MOTORLARI DİĞER LİNKLER Kullanıcılar Web Sayfası
Bilgiye Erişim • Web Sayfalarına gelen ziyaretçilerin yaklaşık %50’si arama motorlarını kullanarak bu sayfalara erişmektedir. • KSÜ web sayfasına ziyaretçilerin erişim yolları
Arama Motorları • Arama motoru kısaca bilgi elde etme sistemi olarak tanımlanabilir. Başlıca üç bileşenden oluşur; • Web Robotu • Arama İndeksi • Kullanıcı Arabirimi
Arama Motorları Arama Motoru Veritabanı
Tarihçe 1990 • FTP sitelerindeki Dosya Listeleri Download Edilerek bir veritabanında tutuluyordu. • Dosya içeriklerinde arama yapmak mümkün değildi. 1991 – Gopher • Minnesota Üniversitesi'nde geliştirilen ve adini Minnesota'da yaygın olan bir tür sincaptan alan bu program, arşivindeki dokümanlara bakmak, almak, çeşitli taramalar yapmak, FTP arşivlerine bağlanıp dosya almak, gibi yetenekleri olan menü temelli bir araçtır.
1993 yılında MIT’den Matthew Gray tarafından ilk web arama motoru olan Wandex geliştirilmiştir. • 1993 – Aliweb • 1994 – WebCrawler • Excite, InfoSeek, Inktomi, Altavista, Google, Yahoo ……
İndekslenen sayfa sayılarının belirlenmesi • Web adreslerinin belirlenmesi • Sorguların yapılacağı sunucuların belirlenmesi • Belirlenen bu adres ve sunuculara göre hazırlanan program aracılığı ile üniversitelerin İndekslenen web sayfa sayıları listesinin oluşturulması
İndekslenen sayfa sayılarının belirlenmesi • Bu amaçla Kahramanmaraş Sütçü İmam Üniversitesi Enformatik Bölümü’de php programı kullanılarak “Sayfa Sayar” adı verilen bir program geliştirilmiş ve http://sayfasayar.ksu.edu.tr adresinde çalışır hale getirilmiştir.
Google arama motorunda Üniversitelerin indekslenmiş sayfa sayıları tespit etmek için php tabanlı bir yazılım geliştirildi. SayfaSayar
SayfaSayar ile Üniversite Web adresleri (ksu.edu.tr gibi) için farklı konumlardaki Google data center’lardan sayfa sayıları alınarak veri tabanına kayıt edilmektedir.
Php tabanlı script programla bu üniversitelere ait web sayfası sayıları oy-oy.eu sitesinin XML formatlı sonuç çıktıları ayrıştırılarak yine Mysql veritabanına kaydedilmiştir.
Üniversitelerimizin Durumu • Üniversitelerimizin Google arama motorunda indekslenmiş toplam web sayfası sayısı : ~1.950.000
Bu sayı Amerika ve Çin üniversitelerinde aşağıdaki gibidir. Amerikan üniversiteleri (.edu) 1.490.000.000 Çin Üniversiteleri (.edu.cn) 18.100.000
Sonuç • Birçok üniversite web sayfası sadece resmi yazışmalar, duyurular, haberler ile buna benzer tanıtım faaliyetleri için aktif bir şekilde kullanılmaktadır. • Oysa üniversitelerin Web sayfalarında bu bilgilerin yanında topluma yararlı diğer bilgilerinde bulunması gerekir.
Internet ortamında elde edilen bilgiler her zaman güvenilebilen bilgi değildir. • Güvenilir ve doğru bilgiyi en iyi şekilde sunabilecek kurumlar üniversitelerdir. • Ziyaretçiler aradıkları bilginin bir akademik kuruluş tarafından sunulmuş olmasından da oldukça memnuniyet duyacaklardır. • Üniversitelerimiz de bunu en hızlı, kolay ve ucuz bir şekilde web ortamını kullanarak sağlayabilirler.
Ne Yapılmalı ? • İndeksli web sayfası sayısının artırılması için öncelikli yapılması gereken çok sayıda bilgi sayfaları üretmektir. • Bu amaçla üniversitelerde yayınlanan makaleler, kitaplar, ders notları, eğitim dokümanları gibi materyallerin web sayfalarına aktarılarak internet’e sunulabilir.
Sayfalar bir yerden bağlantılı olmalıdır. Arama motorları bağlantıları izleyerek indeks oluşturduğundan bağlantı verilmemiş sayfalarınız varsa bile onlar indekslenemeyecektir.
Yeni açılan alt alanlara ayrılmış web sitelerinin arama motorlarına eklenerek hızlı bir şekilde indekslenmesi sağlanabilir. • Bu amaç için arama motorlarında URL ekleme bölümleri vardır.
Web sitesindeki çalışmayan bağlantılar günlük dosyasından tespit edilip bunlar düzeltilmelidir. • Web sitesindeki sayfaların yeri sık sık değiştirilmemelidir. • Web sayfalarının Başlık bilgileri (META TAG) içerisinde sayfa ile ilgili açıklayıcı bilgiler ve anahtar kelimeler yazılmalıdır.
Ayrıca başlık etiketi (<title>) bilgisi o sayfaya özgü olmalıdır. • Tekrarlanan başlık etiketi bilgisinden kaçınılmalıdır.
SiteMap hizmeti kullanılarak web sunucu günlük dosyaları Google’a gönderilebilir. • Ayrıca bu hizmeti kullanarak sayfalarda var olan hatalı linkler ve diğer hatalar tespit edilebilir. • Bu sayede web sitenizdeki tüm sayfaların indekslenmesi sağlanabilir.
Sitemap Generator (http://goog-sitemapgen.sourceforge.net/) • sitemap_gen.py —the python script that generates your Sitemap • example_config.xml —the template configuration file you’ll use to specify the configuration for your site • example_urllist.txt —the template URL list you can use if you wish to create a Sitemap based on a set of URLs that you specify
https://www.google.com/webmasters/tools/docs/en/sitemap-generator.htmlhttps://www.google.com/webmasters/tools/docs/en/sitemap-generator.html
???_config.xml <?xml version="1.0" encoding="ISO-8859-9"?> <site base_url="http://ciftci.ksu.edu.tr/" store_into="/var/www/html/sites/ciftci/sitemap.xml.gz" verbose="1" default_encoding = "ISO-8859-9" > <urllist path="/usr/local/google/ciftci_url.txt" encoding="ISO-8859-9" /> <directory path="/var/www/html/sites/ciftci" url="http://ciftci.ksu.edu.tr/" /> <accesslog path="/var/log/httpd/ciftci.ksu.edu.tr.custom.log" encoding="ISO-8859-9" /> <accesslog path="/var/log/httpd/ciftci.ksu.edu.tr.custom.log.1" encoding="ISO-8859-9" /> <!-- <filter action="drop" type="wildcard" pattern="*admin*" /> <filter action="drop" type="wildcard" pattern="*_vti*" /> --> </site>
# To add a list of URLs, make a space-delimited text file. The first # column contains the URL; then you can specify various optional # attributes in the form key=value: # # lastmod = modification time in ISO8601 (YYYY-MM-DDThh:mm:ss+00:00) # changefreq = 'always' | 'hourly' | 'daily' | 'weekly' | 'monthly' | # 'yearly' | 'never' # priority = priority of the page relative to other pages on the same site; # a number between 0.0 and 1.0, where 0.0 is the lowest priority # and 1.0 is the highest priority # # Note that all URLs must be part of the site, and therefore must begin with # the base_url (e.g., 'http://www.example.com/') as specified in config.xml. # # Any line beginning with a # is a comment. # # Example contents of the file: # # http://www.example.com/foo/bar # http://www.example.com/foo/xxx.pdf lastmod=2003-12-31T14:05:06+00:00 # http://www.example.com/foo/yyy?x=12&y=23 changefreq=weekly priority=0.3 http://ciftci.ksu.edu.tr changefreq=weekly priority=0.3
cron • LANG="en_US" • export $LANG • /usr/bin/python \ /usr/local/google/sitemap_gen.py -- \ config=/usr/local/google/ciftci_config.xml
Google Sitemap Verification • Meta Tag İçerisine Verilen ID Yazılır Veya • Verilen İsimde bir dosya oluşturulur.