220 likes | 415 Views
A láthatatlan/mély web tartalmi és technikai jellemzői. Csikó Tímea és Soós Barbara 2009. 05. 13. A jéghegy csúcsa. Láthatatlan Invisible Dark Hidden Mély Deep. W E B. Mi a M ély Web?.
E N D
A láthatatlan/mély web tartalmi és technikai jellemzői Csikó Tímea és Soós Barbara 2009. 05. 13.
A jéghegy csúcsa • Láthatatlan • Invisible • Dark • Hidden • Mély • Deep W E B
Mi a Mély Web? • A Mély Web az az elnevezés amit a World Wide Web azon oldalai kapnak melyek nem részei a felszíni webnek, azaz nincsenek indexelve az általános keresők által. • Nem szabad összekeverni a deep (mély) webet a dark (sötét) webbel, ami olyan gépeknek vagy hálózati szegmenseket jelent, amelyek nincsenek az Internetre kapcsolva.
A láthatatlan web A láthatatlan web információi sokkal • nagyobb mennyiségűek • jobb minőségűek • pontosabbak • ellenőrzöttek • Rendezettebbek Általánosságban elmondható, hogy a láthatatlan web információforrásainak minősége háromszor jobb a felszíni, a látható web információinál
Keresünk, de mivel? Keresőgépek • Speciális programok által felépített adatbázisban tárolt, indexeken alapul a keresés kulcsszavak alapján • A web robotok a weboldalakat tartalmuk alapján indexelik Tematikus keresők • Weboldalak témakörönként csoportosított, általában hierarchikus gyűjteménye • Általában az adott témakör szakértői által válogatott oldalak kerülhetnek be
Keresőgépek • 3 funkcionális részből állnak • Web robot (spider, crawler) • Indexelő eljárás – adatbázis építés • Kereső rendszer – keresés az adatbázisban • Az egyszerű keresés mellett általában összetettebb lekérdezésekre is lehetőséget nyújtanak
Keresőgépek • A találatok között sorrendet állítanak fel • Különböznek az alábbiakban- indexelt oldalak nagysága- kulcsszavak- indexelő, kereső, sorrendet felállító algoritmusok
Több mint 20 milliárd weboldalt ismer a Google – úgy gondolnánk, nem maradhat rejtve információ az Interneten. A keresőóriás azonban vakká tesz. • Az első pár oldalnál többet nem nézünk meg, a releváns információk nem itt lesznek megtalálhatók. • Google keresés: „Arany János” kb. 681 000 találat • Mély weben: 70 találat (a legminőségibb, a legjobb)
A Láthatatlan web 100-500%-szor nagyobb mint a láthatóweb Láthatatlan web Tudományos kutatás Látható web Amit az általános keresők meg tudnak találni Library of Congress Eric A magán szféra anyagai Oktatásés kutatás Egyetemek és főiskolák
A keresést megnehezíti • A csak részben (egy webhelyen belül) strukturált tartalom • Az óriási információmennyiség • Képeken, mozgóképeken fellelhető információ felkutatása • A weboldalakról elérhető, hasznos információt hordozó, nem HTML formátumú források kezelése (pl: pdf, doc,…) • A web keresők számára láthatatlan tartalom
Hogyan lehet hatékonnyá tenni a keresést? • Felhasználói oldalon • Meg kell tanítani jól keresni • Népszerűsíteni kell a metakeresőket • Láthatóvá kell tenni a láthatatlan webet • Szerver oldali megoldások • Kereső oldali megoldások
Megoldások a rejtett web feltárására • Szerver oldalon • Web-site optimalizációs megoldások- TOC készítése, publikálása • Kereső oldalon • Rejtett webet is kereső robotok • Probléma: ?-t tartalmazó URL-k • Megoldás: • ? lecserélése /-re • Közvetlen hivatkozás nélküli oldalak még mindig nem láthatóak • Spider Linker • Tartalomfeltárás • Tartalomjegyzék (TOC) készítése: • HTML oldal • sitelist.txt • Publikálás: • Linkelés nyitólapról • TOC nyitólap
Metakeresők • Metakereső megoldásoka keresőkérdést egyszerre több kereső index adatbázisában keresik • Dogpile • Ithaki • Langenberg • Monster Crawler • Polymeta (új) • Supercrawl the webVivisimo
Speciális keresők • Clusty • Fazzle • Hippocrates • HIWE (Hidden Web Exposer) • Incywincy • Noodle • ToolsScience • Accelerator • ScirusTurbo10
Bibliográfia • http://melyweb.lap.hu/ • Órai jegyzetek • <http://techline.hu/it_vilag/20071002_google_rejtett/2.aspx>Amit elrejt az internet = Vakká tesz a Google (2009. 05. 10.) • <https://listserv.niif.hu/pipermail/katalist/2001-December/002847.html> Bakonyi Geza: láthatatlan web(2009. 05. 10.) • <http://index.hu/tech/net/2009/03/08/ahova_a_google_sem_jut_elahova_a_google_sem_jut_el > Kömlődi Ferenc : Ahova a Google sem jut el (2009. 05. 10.) • Rabb Ágnes szakdolgozata
Somogyi Tamás: A láthatatlan web tudományos részének feltárása. In: TMT, 2009. (56. évf.) 1. sz. p. 48-50. • Palkó Mária: Tudományos kutatás az Akadémiai Láthatatlan Weben. In: Korunk, 2009. (20. évf.) 1. sz. p. 79-86. • Kovács-Ördög Éva: Információs társadalom. Cikkek, tanulmányok az interneten <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) • Nagymélykúti Balázs: Tartalommegőrzés az interneten: webarchívumok <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) • Rabb Ágnes: Szöveggyűjtemény a mélyweb tanulmányozásáhozí<http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.)
Terfil Rita: A német nyelvű mélyweb forrásai az interneten <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) • Törökné Schedl Magdolna: Bepillantás a mélyweb adatbázisaiban a http://www.invisible-web.net alapján<http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.) • Ujfalusi Hajnalka: Az internet titkai.Barangolás a láthatatlan web világában Marcus P. Zillman szakértővel <http://www.szilleri.tvn.hu/http://www.szilleri.tvn.hu >(2009.05.12.)