1 / 28

Tekstovne podatkovne zbirke

Tekstovne podatkovne zbirke. Zvrsti, opisovanje vsebine, iskalni modeli. Tekstovne zbirke - uvod. Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. tiskane publikacije, e-publikacije, diagnoze, poročila o posegih, razlage nebesedilnih informacij...

alijah
Download Presentation

Tekstovne podatkovne zbirke

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tekstovne podatkovne zbirke Zvrsti,opisovanje vsebine,iskalni modeli.

  2. Tekstovne zbirke - uvod • Velik del informacij v znanosti (tudi v medicini) je tekstovne narave. • tiskane publikacije, e-publikacije, • diagnoze, • poročila o posegih, • razlage nebesedilnih informacij... • Tudi za take informacije veljajo vse posledice informacijske eksplozije, zato postanejo obvladljive šele z uporabo informacijskih orodij. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  3. Zvrsti tekstovnih zbirk • Bibliografske zbirke. • Zbirke polnih “besedil”: • nestrukturirana besedila, • hipertekstni in • multimedijski dokumenti. • Kratki tekstovni podatki so vključeni tudi v tabele relacijskih zbirk, ki so vsebina enega naslednjih predavanj. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  4. Bibliografske zbirke • Najstarejša in, v znanstvenem informiranju, še vedno najpomembnejša oblika tekstovne podatkovne zbirke. • Bibliografski zapis vsebuje osnovne podatke o dokumentu. • Načini uporabe: • informacijska potreba vsebinske narave – t.i. retrospektivne poizvedbe, • iskanje po imenih avtorjev ali inštitucij –bibliografije, • vrednotenje raziskovalnega dela... Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  5. Bibliografske zbirke • Uporaba bibliografske zbirke je samo korak pri zadovoljitvi informacijske potrebe. • Povezava s knjižnico: • v bibliografski zbirki izvemo za obstoj dokumenta, ki ustreza informacijski potrebi, • dokument dobimo v knjižnici, lahko z medknjižnično izposojo. • Vedno pogosteje bibliografski zapis vsebuje spletni kazalec na polni dokument. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  6. Bibliografske zbirke, primer ... Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  7. Bibliografske zbirke Bibliografska zbirka ni knjižnični katalog: • bistvo knjižničnega kataloga so t.i. lokacijski podatki - pozicija in zaloga enot gradiva v knjižnici, • knjižnični katalogi vsebujejo podatke o knjigah, zbornikih, revijah, zelo redko podatke o člankih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  8. Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje po tekstovni zbirki je najpogosteje iskanje po vsebini dokumentov. • Vsebino dokumenta je treba opisati v njegovem zapisu v zbirki. • Elementi opisa vsebine - ključne besede ali deskriptorji. • Postopek imenujemoindeksiranje. • Iskalec uporablja elemente opisa vsebine za izražanje svoje informacijske potrebe. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  9. Bibliografske zbirke: opisovanje vsebine dokumentov • Iskanje in indeksiranje - zrcalna postopka. • Med indeksiranjem dokumenta indekser poskuša uganiti ključne besede ali deskriptorje, ki bi jih iskalec uporabil, če bi hotel poiskati dani dokument. • Indekser in iskalec pri klasičnem indeksiranju in iskanju uporabljata tezaver. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  10. Tezaver • Tezaver je seznam deskriptorjev in navodil za njihovo uporabo. • Deskriptorji v tezavru so povezani s semantičnimi relacijami, najpogosteje so to hierarhične relacije. • Deskriptorji tvorijo umeten informacijski jezik: • za vsak pojem obstaja en sam deskriptor (kontrola sinonimov), • vsak deskriptor opisuje en sam pojem (kontrola homonimov). Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  11. Zbirke polnih dokumentov • Bibliografski zapis je nadomestek pravega nosilca informacij. • Bibliografski zapis le opozarja na dokument. • Informacijski potrebi lahko zadosti le polni dokument. • V sodobnih tekstovnih zbirkah • bibliografske nadomestke zamenjujejo polni dokumenti, ali pa • bibliografski zapis postane kazalec, ki omogoča dostop do polnega dokumenta. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  12. Strokovni dokument ima hipertekstne lastnosti! Zbirke polnih dokumentov Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  13. Strokovni dokument ima multimedijske lastnosti! Zbirke polnih dokumentov Giese AC. Cell Phisiology. Približno 30% možnih hipertekstnih geselv dveh odstavkih enega stolpca na strani 611. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  14. Hipertekst, multimediji • Strokovni dokument ni linearno branje. • Nevidna struktura strokovnega dokumenta je semantična mreža. • Tudi dokumenti v zbirki so na nek način povezani s semantično mrežo. • Strokovni dokument ni samo besedilo. • Naravna načina zapisa strokovnih dokumentov sta hipertekst in multimediji. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  15. Avtomatsko indeksiranje • Običajno, “intelektualno” indeksiranje je drago in zamudno, • Potrebujemo redko pasmo človeka z • vsaj površnim znanjem stroke, iz katere so dokumenti, • dobrim poznavanjem informacijskih orodij in postopkov. • Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  16. Avtomatsko indeksiranje • Vsebino dokumenta predstavlja sam dokument. • Avtomatski postopki iz njega izberejo ključne besede. • Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja. • Del metod je jezikovno-odvisnih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  17. Avtomatsko indeksiranje Običajni postopki avtomatskega indeksiranja: • blokiranje: izpuščanje besed brez vsebine (vezniki, predlogi, prislovi, zaimki…), • krnjenje: poenotenje različnih oblik neke besede na skupni krn, • vrednotenje besednih krnov: računanje količine informacije (povedne moči) v njih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  18. Avtomatsko indeksiranje Krnjenje – uspešen in neuspešen primer: besedne oblike:zdravilo, zdravila, zdravilom krn: zdravil vendar besedne oblike: jetra, jeter, jetrom, jetrni krn:jet (prekratek) jetr (ne vključuje vseh oblik) Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  19. Avtomatsko indeksiranje Vrednotenje količine informacije v krnih: • krn z večjo povedno močjo zastopa pomembnejšo vsebino dokumenta, • pomembne so frekvence krnov v dokumentu in zbirki dokumentov, • načeloma ima veliko povedno moč v nekem dokumentu krn, ki • je v tem dokumentu pogost in • se pojavlja v majhnem številu dokumentov v zbirki. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  20. Iskalni modeli Boolov iskalni model: • prevladuje pri bibliografskih zbirkah, • pri iskanju razdeli zbirko na enostavni množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov. Ne-Boolovi iskalni modeli: • relevantnost je zvezna lastnost - dokumenti so lahko bolj ali manj relevantni. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  21. Iskanje – Boolov model Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  22. Boolov iskalni model • operatorji IN, ALI, NE (AND, OR, NOT), • iskalna zahtevadiabetes IN insulinpoišče vse zapise, ki vsebujejo oba deskriptorja; • iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  23. Boolov iskalni model Boolov iskalni model: • iskalna zahtevadiabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  24. Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  25. Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  26. Ne-Boolovi iskalni modeli • Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov. • Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom. • Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu. • Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov). Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  27. Ne-Boolovi iskalni modeli • Če je relevantnost zvezna lastnost, potem je mogoče: • iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti, • iskalec pregleduje rangirane dokumente dokler še najde zanimive. • Tako delujejo spletni iskalniki, npr. Google. Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

  28. ne-Boolovi iskalni modeli: primer rangiranja Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu… skupni krni povedne moči relevantnost D1 anatom 2prsn 2koš 3 skupaj: 7 D2 anatom 5prsn 8koš 10splet 3slik 3 skupaj: 29 Temelji znanstvenega informiranja in komuniciranja (2008 / 2009) - J. Dimec: Tekstovne podatkovne zbirke

More Related