410 likes | 522 Views
Digi talna knjižnica 1. Osnovni t ehnični pogoji za delovanje d-knjižnice , načini organizacije dokumentov na spletu. D-knjižnica. Zbirka ( lokalnih (?)) e-dokumentov, kazalcev na e -dokumente in institucija, ki jih ureja. Dokumenti so namenjeni rabi preko omrežja.
E N D
Digitalna knjižnica 1 Osnovni tehnični pogoji za delovanje d-knjižnice,načini organizacije dokumentov na spletu.
D-knjižnica • Zbirka (lokalnih (?)) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja. • Dokumenti so namenjeni rabi preko omrežja. • Deluje po načelu virtualnosti: dokumenti dostopni brez prostorskih in časovnih omejitev. • Internet ni d-knjižnica.
D-knjižnica Običajno • je vsebinsko omejena (podobne funkcije, kot specialna ali deloma visokošolska knjižnica), • ni omejena glede tipov dokumentov in tipov podatkov v dokumentih, • vključuje le zaupanja vredne in stabilne dokumente, • uporablja dobra iskalna in prikazovalna orodja.
D-knjižnica • Prednost organiziranja dokumentov v d-knjižnici je tudi možnost storitev z dodano vrednostjo: • lažje iskanje dokumentov in konkretnih mest v dokumentih, ki opisujejo želeno tematiko, • personalizacija – poznavanje uporabnikovih zahtev (t.i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici, • možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu...
Tehnični pogoji za gradnjo d-knjižnice • Internet logična infrastruktura za uporabo funkcij d-knjižnice. • Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW). • Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.
Tehnični pogoji za gradnjo d-knjižnice Zaradi odločitve za splet • Ni potreben razvoj specializirane programske opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici. • Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi. • Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.
Tehnični pogoji za gradnjo d-knjižnice • Vse te naloge so že razrešene v spletu. • Osnovna spletna programska oprema in aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti. • Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.
Tehnični pogoji za gradnjo d-knjižnice • Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov. • Naslavljanje dokumentov: • prevladujoč standard je URL (Uniform Resource Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta, • URL primeren le za osnovne funkcije rabe stabilnih dokumentov. • Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo. • Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).
Tehnični pogoji za gradnjo d-knjižnice Standardni transportni protokol HTTP • ustrezen za dostop do dokumentov in njihov transport na uporabnikov računalnik, • manj ustrezen za delovanje iskalnikov - otežkoča implementacijo iskalne seanse in iskalne strategije. • Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij d-knjižnice.
Organizacija dokumentov na Internetu • Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov. • Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.
Organizacija dokumentov na Internetu • Dokument je vsak samostojno dostopen informacijski objekt: • članek, • monografija, • domača stran osebe ali inštitucije, • seznam kazalcev na dokumente, • rezultati poizvedbe…
Organizacija dokumentov na Internetu • Dokument je najmanj ena samostojna datoteka. • Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka. • Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave. • Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.
Organizacija dokumentov na Internetu • Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov. • Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.
Organizacija dokumentov na Internetu • V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju. • V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.
Organizacija dokumentov na Internetu • Dva prevladujoča načina organizacije dokumentov na Internetu: • seznami kazalcev na dokumente, • zbirke kazalcev na dokumente. • Dva izpeljana načina organizacije: • spletni portali in • (kooperativni) spletni katalogi.
Seznami kazalcev na dokumente • Kriteriji urejanja kazalcev: • kronološki, • abecedni, • geografski, • glede na hierarhijo pojmov v stroki...
Seznami kazalcev na dokumente Prednosti seznamov kazalcev: • dokumenti urejeni po nekem kriteriju, npr. vsebinskih kategorijah, kar olajšuje iskanje, • večinoma vsebujejo netrivialne dokumente, • manjša možnost multiplikatov… Pomanjkljivosti seznamov kazalcev: • velik vložek intelektualnega dela, • neažurnost... • skratka, podobne pomanjkljivosti, kot jih ima intelektualno indeksiranje.
Seznami kazalcev na dokumente Nekateri seznami: • DMOZhttp://dmoz.org • Yahoo http://www.yahoo.com • Google Directoryhttp://directory.google.com/ • Best of the Webhttp://botw.org/
Struktura direktorijev je podobna pri vseh seznamih kazalcev. Večina seznamov je usmerjenih v zabavo.
Zanimiv primer je DMOZ, http://dmoz.org s kolektivnim in prostovoljnim urejanjem.
Zbirke kazalcev in iskalniki • Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem. • Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne. • Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.
Zbirke kazalcev in iskalniki • Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine. • Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.
Zbirke kazalcev in iskalniki • Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR. • Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene. • Dober povzetek lastnosti iskalnikov: http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki • Ocena velikosti spleta, februar 2000: 1 milijarda dokumentov • Izjava iskalnika Google, februar 2002: Searching 2,073,418,204 web pages • Izjava iskalnika Google, februar 2003: Searching 3,083,324,652 web pages • Izjava iskalnika Google, februar 2004:Searching 4,285,199,774 web pages • Izjava iskalnika Google, januar 2005Searching 8,058,044,651 web pages
Zbirke kazalcev in iskalniki: feb. 2000 Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.
Zbirke kazalcev in iskalniki: jun. 2001 Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.
Zbirke kazalcev in iskalniki: sep. 2003 Po:http://searchenginewatch.com/reports/sizes.html Legenda: GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista.
Zbirke kazalcev in iskalniki Po:http://searchenginewatch.com/reports/sizes.html Legenda: FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.
Zbirke kazalcev in iskalniki Milijarde indeksiranih dokumentov(december 1995 – september 2003) Po:http://searchenginewatch.com/reports/sizes.html Legenda: GG=Google, ATW=AllTheWeb, AV=AltaVista, INK=Inktomi, TMA=Teoma
Zbirke kazalcev in iskalniki Uspešna plat - gradnja zbirke: • zbiranje podatkov o obstoječih dokumentih z avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…), • avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).
Delovanje avtonomnih programskih agentov • Agent • pregleda dokument, • shrani vse kazalce na druge dokumente v seznam, • če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira, • prikliče naslednji dokument iz seznama in opravi korake 1 - 3. • Zbirko stalno polni več agentov. • Zaradi eksponentne rasti števila dokumentov, splet nikoli ne more biti indeksiran v celoti.
Gradnja zbirk z avtonomnimi prog. agenti • Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov. • Višje povedne moči dobijo • krni iz naslova, • krni iz hipertekstnih kazalcev, • krni z vrhnjih delov strani, • krni iz poudarjenih delov dokumenta (mastni, poševni tisk)...
Gradnja zbirk z avtonomnimi prog. agenti • Posebno učinkovit dodaten faktor računanja relevantnosti je PageRank (Google): • Če avtor v svojem spletnem dokumentu postavi kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober. • Dokumenti, na katere kaže mnogo kazalcev, dobijo visok PageRank (podobnost s citatnimi zbirkami – SCI). • PageRank dokumenta se še poveča, če nanj kažejo dokumenti z visokim PageRank-om.
Zbirke kazalcev in iskalniki Analiza prekrivanja rezultatov iskanja (l. 1998): • Analizirani iskalniki: AltaVista, Excite, Infoseek, Lycos. • Preverjeno po 20 najvišje uvrščenih kazalcev. • Prešteto število kazalcev, ki se pojavljajo pri več kot enem iskalniku.
Zbirke kazalcev in iskalniki • Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi. • Priporočilo: • poskusi oblikovati čim bolj specifično iskalno zahtevo, • uporabi čimvečje število ključnih besed pri slabše definiranih informacijskih potrebah.