440 likes | 611 Views
Uvod v podatkovne zbirke 2. Tekstovne zbirke, s truktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji , zbirke polnih besedil. Tekstovne zbirke - uvod. Velik del informacij, ki jih produciramo, je tekstovne narave. tiskane publikacije, e-publikacije,
E N D
Uvod v podatkovne zbirke 2 Tekstovne zbirke, struktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji, zbirke polnih besedil.
Tekstovne zbirke - uvod • Velik del informacij, ki jih produciramo, je tekstovne narave. • tiskane publikacije, e-publikacije, • diagnoze, poročila o posegih v medicini, • razlage nebesedilnih informacij... • Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij.
Tekstovne zbirke - uvod • Najustreznejše informacijsko orodje je seveda podatkovna zbirka. • V podatkovni zbirki so besedila shranjena na urejen način. • Urejenost omogoča iskanje in druge postopke na besedilih. • Vključevanje v podatkovno zbirko lahko nestrukturiranemu besedilu vsili neke vrste strukturiranost, • naprimer polja bibliografskega zapisa • ali oznake HTML pri postavitvi na splet.
Zvrsti tekstovnih zbirk • Bibliografske zbirke. • Zbirke polnih besedil: • nestrukturirana besedila, • hipertekst, • multimedijski dokumenti. • Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk.
Razlike med relacijskimi in bibliografskimi zbirkami Relacijske zbirke: • podatki o pojavih smiselno razvrščeni v ločene tabele, • povezovanje tabel s pomočjo relacij, • načeloma • kratki numerični in tekstovni podatki, • stalne dolžine podatkov.
Razlike med relacijskimi in bibliografskimi zbirkami • Bibliografske zbirke: • podatki o pojavih grupirani v zapise • med zapisi ni relacij • tekstovni podatki o člankih, knjigah, referatih... • spremenljive dolžine podatkov
Bibliografske zbirke • Najstarejša in, v znanstveni in strokovni srenji, še vedno najpogostejša oblika tekstovne podatkovne zbirke. • Bibliografski zapis vsebuje osnovne podatke o dokumentu. • Načini uporabe: • informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, • iskanje po imenih avtorjev ali inštitucij - bibliografije, • vrednotenje raziskovalnega dela...
Bibliografske zbirke • Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe. • Povezava s knjižnico: • v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, • dokument dobimo v knjižnici, lahko z medknjižnično izposojo.
Bibliografske zbirke Bibliografska zbirka ni knjižnični katalog: • bistvo knjižničnega kataloga so t.i. lokacijski podatki - pozicija in zaloga enot gradiva v knjižnici, • knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih. • COBISS poskuša igrati obe funkciji – slabe in dobre posledice.
Kriteriji oblikovanja strukture bibliografske zbirke • Osnovni kriterij delitve bibliografskega zapisa na polja je • uporaba zbirke • ali nek dogovor (standard). • Podatki, ki jih uporabljamo za iskanje, morajo biti v samostojnih poljih. • Ponovljiva polja (npr. avtorji) so sestavljena iz manjših, smiselnih enot. • Delitev zapisa na polja je struktura bibliografske zbirke.
Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov. • Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki. • Opis vsebine - ključne besede ali deskriptorji. • Postopek imenujemo indeksiranje.
Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje in indeksiranje - zrcalna postopka. • Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument. • Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver.
Tezaver • Tezaver je seznam vsebinskih konceptov in navodil za njihovo uporabo. • Vsebinski koncepti v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije.
Tezaver • Kaj je vsebinski koncept? • najmanjša enota znanja, zapisana z besedami ali besednimi zvezami, • koncept ima samostojen pomen, • koncept opisuje nek konkreten objekt ali pojem.
Primer: tezaver MeSH • Deskriptorji tvorijo umeten informacijski jezik: • za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), • vsak deskriptor opisuje en sam pojem (kontrola homonimov). • Vsebinski koncept v MeSH: • vsebinski koncept vključuje vse sinonime in leksične variante (načine zapisovanja), • en sinonim je izbran kot “prednostno ime” koncepta in ga imenujemo deskriptor.
Primer: tezaver MeSH Vsebina je v bibliografskem zapisu opisana z • deskriptorji in kvalifikatorji, npr myocardial infarction / drug therapy • (kvalifikatorji podrobneje omejijo vsebinski obseg deskriptorja), • pomožnimi koncepti, pretežno kemijske in farmakološke narave. deskriptor kvalifikator
Primer: tezaver MeSH Hierarhije pogosto niso enostavne, ampak se približujejo mrežnim strukturam Face [A01] Cheek Chin Eye Forehead Mouth Nose Respiratory System [A04] Larynx Lung Nose Nasal Bone Nasal Cavity Nasal Mucosa Nasal Septum Sense Organs [A09] Ear Eye Nose Olfactory Mucosa Vomeronasal Organ Taste Buds Deskriptorji so zelo pogosto uvrščeni na različna mesta istega hierarhičnega drevesa – primer deskriptorja Nose v hierarhiji Anatomy.
Primer: tezaver MeSH Znanje na nekem strokovnem področju je težko urediti v eno samo hierarhično strukturo. • Deskriptorji (koncepti) v tezavru MeSH so urejeni v 15 hierarhičnih dreves. • En deskriptor je lahko uvrščen v več ločenih hierarhij, npr. • Creutzfeldt-Jakob syndromeje lahko C10 - Nervous System Diseasesali F3 - Mental Disorders
MeSH: primer hierarhične pozicije deskriptorja Norepinephrine
Merjenje kvalitete iskanja • Meri: • Priklic (odziv, recall) je delež poiskanih relevantnih zapisov med vsemi relevantnimi zapisi v zbirki. • Natančnost (precision) je delež relevantnih zapisov med vsemi poiskanimi zapisi.
Merjenje kvalitete iskanja a = nepoiskani, nerelevantni zapisi, b = nepoiskani, relevantni zapisi, c = poiskani, nerelevantni zapisi, d = poiskani, relevantni zapisi.
Logične trditve • Iskalna zahteva je logična trditev, ki je resnična samo za nekatere zapise v zbirki. • V klasičnem Boolovem modelu iskanja ima trditev lahko samo dve vrednosti: resnično in neresnično. • Iskalni programi zapise v zbirki preverjajo glede na logično trditev v iskalni zahtevi. Zapise, pri katerih se trditev izkaže za resnično, imenujemo zadetki (rezultati iskanja).
Logične trditve • Iskalne zahteve sestavljamo iz vsebinskih in povezovalnih elementov. • Povezovalne elemente imenujemo operatorji. • Poznamo relacijske in logične (Boolove) operatorje.
Logične trditve • Najenostavnejša iskalna zahteva je en sam vsebinski element, npr.bibliotekarstvo • Relacijske operatorje uporabljamo za določanje želenih vrednosti vsebinskih elementov, npr.Deskriptor = bibliotekarstvo • ‘=‘ je relacijski operator.
Logične trditve trditvi rezultat N in N N R in N N R in R R N ali N N N ali R R R ali R R ne N R ne R N
SQL • SQL (Structured Query Language) je najbolj razširjen poizvedovalni jezik za relacijske zbirke. • Neuradni standard relacijskega poizvedovalnega jezika. • Primer: Poišči vse študente, rojene po letu 1975. • selectime, priimek, d_rojstva • from studenti • where d_rojstva >= 01-JAN-1976 • order by priimek descending
SQL • SQL je zelo močan, vendar tudi zapleten iskalni jezik, še posebno za informacijsko neizobražene uporabnike. • Iskalne zahteve dodatno zaplete povezovanje več tabel. • Oblikovanje zapletenih iskalnih zahtev olajša t.i. iskanje s primerom (query by example - QBE).
Iskanje s primerom • Uporabnik v shematskem prikazu tabel v zbirki simbolično poveže atribute, ki bi jih sicer uporabil v SQL. • Nastane nova navidezna tabela in v ustrezne celice se vpišejo logični pogoji.
Iskanje s primerom • Spodnja tabela bi se, kot QBE, napolnila z entitetami, za katere velja, da so študenti, s priimkom abecedno večjim od N, rojeni po letu 1974 in s povprečno oceno, višjo od 7.
Uporaba logičnih (Boolovih) operatorjev Operator IN (AND) Zanimajo nas vsi dokumenti o filmski režiji. film IN režija
Uporaba logičnih (Boolovih) operatorjev Operator ALI (OR) Zanimajo nas vsi dokumenti o filmu ali o režiji. film ALI režija
Uporaba logičnih (Boolovih) operatorjev Operator NE (NOT) Zanimajo nas vsi dokumenti o filmu razen tistih o filmski režiji. film NE režija
Uporaba logičnih (Boolovih) operatorjev:vrstni red izvajanja členov poizvedbe. Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija
Uporaba logičnih (Boolovih) operatorjev:vrstni red izvajanja členov poizvedbe Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija
Zbirke polnih dokumentov • Bibliografski zapis je nadomestek pravega nosilca informacij. • Bibliografski zapis je kazalec na dokument. • Informacijski potrebi lahko zadosti le polni dokument. • V sodobnih tekstovnih zbirkah bibliografske nadomestke zamenjujejo polni dokumenti.
Strokovni dokument ima hipertekstne lastnosti! Zbirke polnih dokumentov
Strokovni dokument ima multimedijske lastnosti! Zbirke polnih dokumentov Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih geselv dveh odstavkih na strani 611.
Hipertekst, multimediji • Strokovni dokument ni linearno branje. • Nevidna struktura strokovnega dokumenta je semantična mreža. • Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo. • Strokovni dokument ni samo besedilo. • Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji.