E N D
Web Crawler Ayşegül Leyla İlhan 08260048
Web crawler , otomatik biçimde yada düzenli tarzda,worldwide web sisteminden oluşturulmuş bir bilgisayar programıdır.Bir çok site,özel arama motorlarında,veri güncelliğini sağlamakta web crawlerı kullanırlar.web Crawlerlar çoğunlukla,ziyaret edilen sayfaların kopyasını oluşturarak sonraki adımlardabir arama motorundaki aramaların indekslerini indirerek daha hızlı arama sağlayabilmek için kullanılır.
Crawlerlar aynı zamanda web sitelerinin otomatik bakımı, link kontrolü yada html kodlarını onaylamak için kullanılabilir.Ayrıca,web sayfalarındaki bilgilerden bir türe özgü örneklerin toplanılmasında kullanılabilinir,örneğin emailadreslerinin toplanılması.
Web crawler e karıncalar,otomatik indeksciler,web örümcekleri,web robotları da denir • Bir web örümceği sadece doğrudan bağlantı verilen sayfaları görebilir • Daima anahtar kelimeleri gözetler ve web sitelerini, tarama ya da gezinme adı verilen bir süreçle dolaşır.
Aynı zamanda arama motorlarının bir web sitesini düzenli olarak gezen ve bilgi toplayan bilgisayar programıdır ve arama motoru örümceği de denilmektedir. • Herkes web gezginlerini dolaylı olarak da olsa kullanır. • Arama motorları da web de istediklerini bulmak için crawlerları kullanırlar
*özel amaçlı bir web sitesi oluşturmak istersek • *firmamızın telif hakkı için arama yapmak istersek • * sitelerin yapı ve içeriğinin değişimini görmek için siteleri izlemek istersek. • web sayfalarındaki bilgilerden bir türe özgü örneklerin toplanılmasını istersek,örneğin e mail adreslerinin toplanılması.
Web Crawler Nasıl Çalışır Bir spider ya da türkçesiyle örümceğin çalışma mantığını şu şekilde özetleyebiliriz: Programımız bir web sitesine girer. Web sitesinde, o an gezilen sayfadaki linkleri kontrol eder ve link bulursa bu linkleri daha sonra ziyaret etmek üzere hafızasına kaydeder. Sonra sırasıyla linkler taranarak, web sitesinde hiç link kalmayıncaya kadar bu işleme devam edilir. mesela bir web sayfasını gezerken sayfada link olup olmadığını anlamak için bir düzenli ifade (regularexpression)yada programlama dillerinin özel sınıflarını kullanabiliriz.
web tarayıcı yazılımları virüsler gibi internetteki farklı bilgisayarlar arasında hareket etmezler. • web crawlerlar tek bir makine üzerinde bulunurlar.web crawlerlar sadece linklere tıklandığında belgeler için internetteki değer bilgisayarlara http isteği gönderirler. • Tarayıcılar genellikle birden fazla aynı kaynak taramasını engellemek amacıyla URL normalleştirmeyi gerçekleştirirler. Ayrıca URL canonicalization denilen süreç , URL normalleştirme, değiştirme ve sürekli bir biçimde olacak şekilde URL’nin standartlaştırıldığı bir süreçtir.URLleriküçük harfe dönüştürme de dahil olmak üzere yapılabilen çeşitli normalleştirme türleri vardır. • Bir web crawlerin iyibirtaramastratejisiolmalıveaynızamandaiyiderecede optimize edilmişbirmimariye de sahipolmalıdır.