280 likes | 462 Views
Tekstovne podatkovne zbirke. Zvrsti, opisovanje vsebine, iskalni modeli. Tekstovne zbirke - uvod. Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. tiskane publikacije, e-publikacije, diagnoze, poročila o posegih, razlage nebesedilnih informacij...
E N D
Tekstovne podatkovne zbirke Zvrsti,opisovanje vsebine,iskalni modeli.
Tekstovne zbirke - uvod • Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. • tiskane publikacije, e-publikacije, • diagnoze, • poročila o posegih, • razlage nebesedilnih informacij... • Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Zvrsti tekstovnih zbirk • Bibliografske zbirke. • Zbirke polnih “besedil”: • nestrukturirana besedila, • hipertekstni in • multimedijski dokumenti. • Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk, ki so vsebina enega naslednjih predavanj. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke • Najstarejša in, v znanstvenem informiranju, še vedno najpomembnejša oblika tekstovne podatkovne zbirke. • Bibliografski zapis vsebuje osnovne podatke o dokumentu. • Načini uporabe: • informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, • iskanje po imenih avtorjev ali inštitucij –bibliografije, • vrednotenje raziskovalnega dela... Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke • Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe. • Povezava s knjižnico: • v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, • dokument dobimo v knjižnici, lahko z medknjižnično izposojo. • Vedno pogosteje bibliografski zapis vsebuje spletni kazalec na polni dokument. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke, primer ... Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke Bibliografska zbirka ni knjižnični katalog: • bistvo knjižničnega kataloga so t.i. lokacijski podatki - pozicija in zaloga enot gradiva v knjižnici, • knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov. • Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki. • Elementi opisa vsebine - ključne besede ali deskriptorji. • Postopek imenujemoindeksiranje. • Iskalec uporablja elemente opisa vsebine za izražanje svoje informacijske potrebe. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje in indeksiranje - zrcalna postopka. • Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument. • Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Tezaver • Tezaver je seznam deskriptorjev in navodil za njihovo uporabo. • Deskriptorji v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije. • Deskriptorji tvorijo umeten informacijski jezik: • za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), • vsak deskriptor opisuje en sam pojem (kontrola homonimov). Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Zbirke polnih dokumentov • Bibliografski zapis je nadomestek pravega nosilca informacij. • Bibliografski zapis le opozarja na dokument. • Informacijski potrebi lahko zadosti le polni dokument. • V sodobnih tekstovnih zbirkah • bibliografske nadomestke zamenjujejo polni dokumenti, ali pa • bibliografski zapis postane kazalec, ki omogoča dostop do polnega dokumenta. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Strokovni dokument ima hipertekstne lastnosti! Zbirke polnih dokumentov Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Strokovni dokument ima multimedijske lastnosti! Zbirke polnih dokumentov Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih geselv dveh odstavkih enega stolpca na strani 611. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Hipertekst, multimediji • Strokovni dokument ni linearno branje. • Nevidna struktura strokovnega dokumenta je semantična mreža. • Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo. • Strokovni dokument ni samo besedilo. • Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Avtomatsko indeksiranje • Običajno, “intelektualno” indeksiranje je drago in zamudno, • Potrebujemo redko pasmo človeka z • vsaj površnim znanjem stroke, iz katere so dokumenti, • dobrim poznavanjem informacijskih orodij in postopkov. • Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Avtomatsko indeksiranje • Vsebino dokumenta predstavlja sam dokument. • Avtomatski postopki iz njega izberejo ključne besede. • Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja. • Del metod je jezikovno-odvisnih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Avtomatsko indeksiranje Običajni postopki avtomatskega indeksiranja: • blokiranje: izpuščanje besed brez vsebine (vezniki, predlogi, prislovi, zaimki…), • krnjenje: poenotenje različnih oblik neke besede na skupni krn, • vrednotenje besednih krnov: računanje količine informacije (povedne moči) v njih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Avtomatsko indeksiranje Krnjenje – uspešen in neuspešen primer: besedne oblike:zdravilo, zdravila, zdravilom krn: zdravil vendar besedne oblike: jetra, jeter, jetrom, jetrni krn:jet (prekratek) jetr (ne vključuje vseh oblik) Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Avtomatsko indeksiranje Vrednotenje količine informacije v krnih: • krn z večjo povedno močjo zastopa pomembnejšo vsebino dokumenta, • pomembne so frekvence krnov v dokumentu in zbirki dokumentov, • načeloma ima veliko povedno moč v nekem dokumentu krn, ki • je v tem dokumentu pogost in • se pojavlja v majhnem številu dokumentov v zbirki. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Iskalni modeli Boolov iskalni model: • prevladuje pri bibliografskih zbirkah, • pri iskanju razdeli zbirko na enostavni množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov. Ne-Boolovi iskalni modeli: • relevantnost je zvezna lastnost - dokumenti so lahko bolj ali manj relevantni. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Iskanje – Boolov model Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Boolov iskalni model • operatorji IN, ALI, NE (AND, OR, NOT), • iskalna zahtevadiabetes IN insulinpoišče vse zapise, ki vsebujejo oba deskriptorja; • iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Boolov iskalni model Boolov iskalni model: • iskalna zahtevadiabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Ne-Boolovi iskalni modeli • Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov. • Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom. • Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu. • Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov). Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
Ne-Boolovi iskalni modeli • Če je relevantnost zvezna lastnost, potem je mogoče: • iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti, • iskalec pregleduje rangirane dokumente dokler še najde zanimive. • Tako delujejo spletni iskalniki, npr. Google. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke
ne-Boolovi iskalni modeli: primer rangiranja Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu… skupni krni povedne moči relevantnost D1 anatom 2prsn 2koš 3 skupaj: 7 D2 anatom 5prsn 8koš 10splet 3slik 3 skupaj: 29 Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke