530 likes | 689 Views
Barbora Poláková ; Martin Kozel. Vyhledávání v prostředí internetu. Osnova přednášky. Co se děje? změny v přístupu a práci s informacemi Co s tím ? Struktura informací na webu – teorie a praxe Jak na to ? Strategie vyhledávání a postupy. Informace.
E N D
Barbora Poláková ; Martin Kozel Vyhledávání v prostředí internetu
Osnova přednášky • Co se děje? • změny v přístupu a práci s informacemi • Co s tím ? • Struktura informací na webu – teorie a praxe • Jak na to ? • Strategie vyhledávání a postupy
Informace • Komunikovatelný popis jevu, jehož přijetím dochází ke změnám v informačním systému. • Odstraněná ENTROPIE Vyšší míra uspořádanosti • Čím více neurčitosti odstraní tím větší má informace hodnotu.(Shannon,1948) • popsatelná • kontextově nezávislá • organizovatelná • informační zdroj/pramen
Informační společnost • je taková společnost, ve které je věnována pozornost informační činnosti natolik, že dojde ke snížení zájmu o zemědělskou a průmyslovou výrobu (Vlasák, 2000) • Marc Uri Porat (1976). Information economy : definition and measurement • 70.léta – postindustriální společnost • průmysl ----- > služby
80.léta – informační společnost • propojení počítačového průmyslu s ostatními průmyslovými odvětvími • rozvoj informační a počítačové GRAMOTNOSTI • INFORMAČNÍ SEKTOR – profese tvorby, sběru, zpracovávání, uchovávání, zpětného vyhledávání a dalšího šíření informací (Vlasák, 2000)
Informačníexploze • Informace = Moc = Peníze !!! • Prudký rozvoj informačních technologií a jejich dostupnost • KVANTITATIVNÍ nárůst informací a informačních zdrojů • Redundance ; relevance ; pertinence • Mrtvá data – long tail effect
Informační smog (Shenk 1997) • lidstvo se nevyvíjí dost rychle aby zvládalo množství informací • Exformace - informace existující za hranicemi našeho vědomí (Gore, 1994) • Zahlcení • snížení citlivosti k obsahu - mozková kapacita je stále stejná (Černohlávková, 2006)
Znalostní společnost • nadstavba informační společnosti založená na kolaboraci a interakci mezi uživateli • Web 2.0 - Tim Bernards-Lee (2000) • Znalost • kontextově závislá ; pragmatický obraz informace reprezentovaný intelektuálním kapitálem jednotlivce (Bukh, 2001)
Terminologické vyjasnění • Základní abstraktní pojmy : • INFORMACE • ZNALOSTI • Základní konkrétní pojmy : • Informační / elektronický zdroj • digitální / informační objekt / entita
Publikační proces informačního zdroje - původní • Nakladatelství, časopisy, databáze, databázová centra
Publikační proces informačního zdroje – nyní Web 2.0 – sociální sítě, wiki, blog
Hodnocení • + • Aktuálnost • Rychlost • Kooperace • - • Kontrola kvality, relevance • Korektura • Odborný dohled • Distribuce a popis jsou na autorovi – NEDOHLEDATELNOST
World Wide Web • Viditelný / povrchový web • informační entity volně přístupné a snadno dostupné pomocí vyhledávacích strojů • Neviditelný / hluboký web • neviditelný pro běžné vyhledavače • databáze, adresáře, rejstříky, dokumenty v nepodporovaných formátech, licencované stránky • 500x větší než povrchový web
Digitální objekt (DO) • základní entita • Hledisko původu: • digitalizované informační zdroje • E-book ; postprinty • born digital • Webové stránky, fóra, komunity, blogy, wiki
Hledisko typů DO • MIME - Multipurpose Internet Mail Extension • Specifikuje charakter obsahu oficiálně komunikovaných DO na internetu • Typy: • Text • Obraz • Video • Zvuk • Software • Trojrozměrné digitální objekty
Digitální objekt Hlavička / Metadata Obsah Podpis
Metadata – Velká a mocná • „Data o datech“ • Strukturované informace, které popisují, osvětlují, lokalizují a usnadňují vyhledávání a využívání informačního zdroje. (Guidlines for Digitalization, 2007)
Popis DO • Předobraz metadatového popisu je v popisu tradičních zdrojů. • strojem čitelný X stroji srozumitelný • Dvě úrovně popisu: • věcná – obsah, anotace, abstrakt, klíčová slova, kódy systematického třídění … • popisná –popis dokumentu podle formálních znaků ; autor, název, vydavatel, rok vyd. …
Dublin Core Metadata Initiative -DCMI • Dublin Core • Soubor 15 metadatovýchkvalifikovatelných prvků • Původně popis zdrojů na WWW ; současně popis jakéhokoli objektu • Garant popisu - autor user-friendly • Dublin CoreCzech • DCMI homepage
Prvky DC • Název • Tvůrce • Předmět • Popis • Vydavatel • Přispěvatel • Datum • Typ zdroje • Formát • Identifikátor • Zdroj • Jazyk • Vztah • Pokrytí • Práva
Identifikátory • URL • Adresa DO; určuje pozici DO v prostředí webu • URN • Znakový řetězec nebo číslo, které jednoznačně identifikuje dokument • Trvalé, nepřenosné • Generátory metadat • XML soubory
Vyhledávací nástroje „HLAVORUČNÍ“ • Předmětové katalogy - directories- • Seznam katalog, Yahoo katalog • třídění a organizace DO podle předem dané taxonomie nebo předmětové klasifikace • Nejpodobnější tradičním knihovnám • Lidský faktor • Malé pokrytí, úplnost taxonomie
Vyhledávací nástroje AUTOMATICKÉ • Vyhledavače - searchengine • Altavista • Metavyhledavače • víc indexů najednou • Open Text • Sekvenční analýza • Automatická INDEXACE digitálních objektů za pomoci speciálního softwaru • Robot ; crawler ; spiders ; bot • Index – reprezentace fondu úplných textů - metadata
Vyhledavač – obecné schéma Vyhledavač Prostředíwebu (Poláková, 2009)
Uživatelské rozhraní–1/2 Textové • Textový vyhledávací dotaz • Textová reprezentace výsledku • Index – zkrácená informace o příslušném zdroji • odkaz na fulltext • Google
Uživatelské rozhraní – 1/3Clustry • Vektorová logika – • Vážení podobnosti dokumentů s dotazy – relevance • Informační prostor – soubor prvku a vztahů mezi nimi udržovaných informačním systémem (Ingwersen 1996)
Clustry 2/3v informačním prostoru (Traykovski &Sosisk, 2007)
CO, KDE, a JAK Strategie vyhledávání
Základní princip CO? KDE? JAK?
Co chci najít? • Informační potřeba • to co vím mi nestačí • Požadavek • konkretizovaná představa o informační potřebě • Dotaz • Kladu přímo zdroji, ve kterém hledám • Ve vyhledávačích obecně: navigační, informační, transakční (např. co, kdy, kde atd.)
Informační potřeba • V 80-90 letech se rozvíjí věda nazvaná „informační chování uživatele“ • Posun v přístupu computer-centred => user-centred • Tři základní přístupy • Kognitivní • Sociální • Sociokognitivní (nejvíc in, kombinace individualismu s kontextualitou prostředí)
KDE • Typ zdroje • Primární zdroje • Sekundární zdroje • Terciální zdroje • Vyhledavače, katalogy, databáze, encyklopedie • Globální / lokální charakter, Gatekeeping
JAK • Vychytávky • Boolean logika (AND, OR, NOT ) • Proximitní operátory (NEAR, WITHIN, SAME, „…“) • Lematizace (skloňování, ?, * atd.) • Typy vyhledávání • Fulltextové • Faktografické • Atd. • Rešeršní strategie
JAK • ANALYTICKÉ VYHLEDÁVÁNÍ • Systematická strategie • Příprava, promýšlení problému, předdotazy • PROHLÍŽENÍ (browsing) • Intuitivní vyhledávání