1 / 43

Uvod v podatkovne zbirke 2

Uvod v podatkovne zbirke 2. Tekstovne zbirke, s truktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji , zbirke polnih besedil. Tekstovne zbirke - uvod. Velik del informacij, ki jih produciramo, je tekstovne narave. tiskane publikacije, e-publikacije,

ivan-dudley
Download Presentation

Uvod v podatkovne zbirke 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod v podatkovne zbirke 2 Tekstovne zbirke, struktura bibliografskih zbirk, tezavri, poizvedovalni jeziki in operatorji, zbirke polnih besedil.

  2. Tekstovne zbirke - uvod • Velik del informacij, ki jih produciramo, je tekstovne narave. • tiskane publikacije, e-publikacije, • diagnoze, poročila o posegih v medicini, • razlage nebesedilnih informacij... • Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij.

  3. Tekstovne zbirke - uvod • Najustreznejše informacijsko orodje je seveda podatkovna zbirka. • V podatkovni zbirki so besedila shranjena na urejen način. • Urejenost omogoča iskanje in druge postopke na besedilih. • Vključevanje v podatkovno zbirko lahko nestrukturiranemu besedilu vsili neke vrste strukturiranost, • naprimer polja bibliografskega zapisa • ali oznake HTML pri postavitvi na splet.

  4. Zvrsti tekstovnih zbirk • Bibliografske zbirke. • Zbirke polnih besedil: • nestrukturirana besedila, • hipertekst, • multimedijski dokumenti. • Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk.

  5. Razlike med relacijskimi in bibliografskimi zbirkami Relacijske zbirke: • podatki o pojavih smiselno razvrščeni v ločene tabele, • povezovanje tabel s pomočjo relacij, • načeloma • kratki numerični in tekstovni podatki, • stalne dolžine podatkov.

  6. Razlike med relacijskimi in bibliografskimi zbirkami • Bibliografske zbirke: • podatki o pojavih grupirani v zapise • med zapisi ni relacij • tekstovni podatki o člankih, knjigah, referatih... • spremenljive dolžine podatkov

  7. Poimenovanje gradnikov bibliografske zbirke

  8. Bibliografske zbirke • Najstarejša in, v znanstveni in strokovni srenji, še vedno najpogostejša oblika tekstovne podatkovne zbirke. • Bibliografski zapis vsebuje osnovne podatke o dokumentu. • Načini uporabe: • informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, • iskanje po imenih avtorjev ali inštitucij - bibliografije, • vrednotenje raziskovalnega dela...

  9. Bibliografske zbirke • Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe. • Povezava s knjižnico: • v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, • dokument dobimo v knjižnici, lahko z medknjižnično izposojo.

  10. Bibliografske zbirke Bibliografska zbirka ni knjižnični katalog: • bistvo knjižničnega kataloga so t.i. lokacijski podatki - pozicija in zaloga enot gradiva v knjižnici, • knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih. • COBISS poskuša igrati obe funkciji – slabe in dobre posledice.

  11. Shematski prikaz strukture bibliografske zbirke

  12. Shematski prikaz strukture bibliografske zbirke

  13. Kriteriji oblikovanja strukture bibliografske zbirke • Osnovni kriterij delitve bibliografskega zapisa na polja je • uporaba zbirke • ali nek dogovor (standard). • Podatki, ki jih uporabljamo za iskanje, morajo biti v samostojnih poljih. • Ponovljiva polja (npr. avtorji) so sestavljena iz manjših, smiselnih enot. • Delitev zapisa na polja je struktura bibliografske zbirke.

  14. Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov. • Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki. • Opis vsebine - ključne besede ali deskriptorji. • Postopek imenujemo indeksiranje.

  15. Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje in indeksiranje - zrcalna postopka. • Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument. • Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver.

  16. Tezaver • Tezaver je seznam vsebinskih konceptov in navodil za njihovo uporabo. • Vsebinski koncepti v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije.

  17. Tezaver • Kaj je vsebinski koncept? • najmanjša enota znanja, zapisana z besedami ali besednimi zvezami, • koncept ima samostojen pomen, • koncept opisuje nek konkreten objekt ali pojem.

  18. Primer: tezaver MeSH • Deskriptorji tvorijo umeten informacijski jezik: • za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), • vsak deskriptor opisuje en sam pojem (kontrola homonimov). • Vsebinski koncept v MeSH: • vsebinski koncept vključuje vse sinonime in leksične variante (načine zapisovanja), • en sinonim je izbran kot “prednostno ime” koncepta in ga imenujemo deskriptor.

  19. Primer: tezaver MeSH Vsebina je v bibliografskem zapisu opisana z • deskriptorji in kvalifikatorji, npr myocardial infarction / drug therapy • (kvalifikatorji podrobneje omejijo vsebinski obseg deskriptorja), • pomožnimi koncepti, pretežno kemijske in farmakološke narave. deskriptor kvalifikator

  20. Primer: tezaver MeSH Hierarhije pogosto niso enostavne, ampak se približujejo mrežnim strukturam Face [A01] Cheek Chin Eye Forehead Mouth Nose Respiratory System [A04] Larynx Lung Nose Nasal Bone Nasal Cavity Nasal Mucosa Nasal Septum Sense Organs [A09] Ear Eye Nose Olfactory Mucosa Vomeronasal Organ Taste Buds Deskriptorji so zelo pogosto uvrščeni na različna mesta istega hierarhičnega drevesa – primer deskriptorja Nose v hierarhiji Anatomy.

  21. Primer: tezaver MeSH Znanje na nekem strokovnem področju je težko urediti v eno samo hierarhično strukturo. • Deskriptorji (koncepti) v tezavru MeSH so urejeni v 15 hierarhičnih dreves. • En deskriptor je lahko uvrščen v več ločenih hierarhij, npr. • Creutzfeldt-Jakob syndromeje lahko C10 - Nervous System Diseasesali F3 - Mental Disorders

  22. MeSH: primer hierarhične pozicije deskriptorja Norepinephrine

  23. Shematski prikaz poteka poizvedbe

  24. Merjenje kvalitete iskanja • Meri: • Priklic (odziv, recall) je delež poiskanih relevantnih zapisov med vsemi relevantnimi zapisi v zbirki. • Natančnost (precision) je delež relevantnih zapisov med vsemi poiskanimi zapisi.

  25. Merjenje kvalitete iskanja a = nepoiskani, nerelevantni zapisi, b = nepoiskani, relevantni zapisi, c = poiskani, nerelevantni zapisi, d = poiskani, relevantni zapisi.

  26. Logične trditve • Iskalna zahteva je logična trditev, ki je resnična samo za nekatere zapise v zbirki. • V klasičnem Boolovem modelu iskanja ima trditev lahko samo dve vrednosti: resnično in neresnično. • Iskalni programi zapise v zbirki preverjajo glede na logično trditev v iskalni zahtevi. Zapise, pri katerih se trditev izkaže za resnično, imenujemo zadetki (rezultati iskanja).

  27. Logične trditve • Iskalne zahteve sestavljamo iz vsebinskih in povezovalnih elementov. • Povezovalne elemente imenujemo operatorji. • Poznamo relacijske in logične (Boolove) operatorje.

  28. Logične trditve • Najenostavnejša iskalna zahteva je en sam vsebinski element, npr.bibliotekarstvo • Relacijske operatorje uporabljamo za določanje želenih vrednosti vsebinskih elementov, npr.Deskriptor = bibliotekarstvo • ‘=‘ je relacijski operator.

  29. Logične trditve trditvi rezultat N in N N R in N N R in R R N ali N N N ali R R R ali R R ne N R ne R N

  30. Relacijski operatorji

  31. SQL • SQL (Structured Query Language) je najbolj razširjen poizvedovalni jezik za relacijske zbirke. • Neuradni standard relacijskega poizvedovalnega jezika. • Primer: Poišči vse študente, rojene po letu 1975. • selectime, priimek, d_rojstva • from studenti • where d_rojstva >= 01-JAN-1976 • order by priimek descending

  32. SQL • SQL je zelo močan, vendar tudi zapleten iskalni jezik, še posebno za informacijsko neizobražene uporabnike. • Iskalne zahteve dodatno zaplete povezovanje več tabel. • Oblikovanje zapletenih iskalnih zahtev olajša t.i. iskanje s primerom (query by example - QBE).

  33. Iskanje s primerom • Uporabnik v shematskem prikazu tabel v zbirki simbolično poveže atribute, ki bi jih sicer uporabil v SQL. • Nastane nova navidezna tabela in v ustrezne celice se vpišejo logični pogoji.

  34. Iskanje s primerom • Spodnja tabela bi se, kot QBE, napolnila z entitetami, za katere velja, da so študenti, s priimkom abecedno večjim od N, rojeni po letu 1974 in s povprečno oceno, višjo od 7.

  35. Uporaba logičnih (Boolovih) operatorjev Operator IN (AND) Zanimajo nas vsi dokumenti o filmski režiji. film IN režija

  36. Uporaba logičnih (Boolovih) operatorjev Operator ALI (OR) Zanimajo nas vsi dokumenti o filmu ali o režiji. film ALI režija

  37. Uporaba logičnih (Boolovih) operatorjev Operator NE (NOT) Zanimajo nas vsi dokumenti o filmu razen tistih o filmski režiji. film NE režija

  38. Uporaba logičnih (Boolovih) operatorjev:vrstni red izvajanja členov poizvedbe. Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija

  39. Uporaba logičnih (Boolovih) operatorjev:vrstni red izvajanja členov poizvedbe Iskalna zahteva: film ALI gledališče NE scenografija film gledališče scenografija

  40. Zbirke polnih dokumentov • Bibliografski zapis je nadomestek pravega nosilca informacij. • Bibliografski zapis je kazalec na dokument. • Informacijski potrebi lahko zadosti le polni dokument. • V sodobnih tekstovnih zbirkah bibliografske nadomestke zamenjujejo polni dokumenti.

  41. Strokovni dokument ima hipertekstne lastnosti! Zbirke polnih dokumentov

  42. Strokovni dokument ima multimedijske lastnosti! Zbirke polnih dokumentov Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih geselv dveh odstavkih na strani 611.

  43. Hipertekst, multimediji • Strokovni dokument ni linearno branje. • Nevidna struktura strokovnega dokumenta je semantična mreža. • Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo. • Strokovni dokument ni samo besedilo. • Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji.

More Related