420 likes | 573 Views
Spletne zbirke. Trendi v znanstvenem informiranju, gradnja spletnih zbirk, avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model, uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah. Kam gre znanstveno informiranje.
E N D
Spletne zbirke Trendi v znanstvenem informiranju, gradnja spletnih zbirk, avtomatsko indeksiranje, Boolov in ne-Boolov iskalni model, uporabnost spletnih zbirk za znanstveno informiranje, povezovanje podatkov v spletnih zbirkah.
Kam gre znanstveno informiranje... • Za današnjo pamet bi bil idealen informacijski sistem tak, ki bi zadostil večini današnjih informacijskih potreb. Edino takega si znamo danes predstavljati. • Morda nima veliko skupnega z informacijskimi sistemi, kakršne bomo uporabljali čez 10 let. • Predvidevamo pa lahko: • še vedno bo težišče na zbiranju in ponudbi dokumentov, • pestrejši bo nabor tipov dokumentov v sistemu, • informacijski sistem bo imel večje sposobnosti analize in združevanja podatkov – od uporabnikov bo prevzel del pretvarjanja podatkov v informacije, Dr. Jure Dimec. Podatkovne zbirke v medicini.
Kam gre znanstveno informiranje... • Predvidevamo lahko (nadaljevanje): • še bolj bo nepomembna lokacija in format dokumentov ali podatkov, • infrastruktura za organiziranje in dostop do informacij bo še vedno splet, ki svojo vlogo odlično opravlja, • splet se bo spreminjal iz mreže strežnikov, na katerih so nameščeni podatki in dokumenti v porazdeljeno zbirko podatkov in dokumentov (Semantični splet), • nadaljevala se bo rast količine prosto dostopnih podatkov in dokumentov. • Končni cilj – prost dostop do vseh objavljenih strokovnih informacij – ni nemogoč. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Splet kot infrastruktura • Obstajata vidni in globoki (nevidni) splet. • V vidni splet sodijo vse spletne strani, ki so vključene v spletno hipertekstno mrežo – vsak spletni dokument, na katerega kaže vsaj en spletni dokument, na katerega kaže vsaj en spletni dokument… • Svetovni splet, kot si ga je zamislil avtor Tim Berners-Lee, je vidni splet. • Veliki spletni iskalniki, kakršen je Google, do neke mere obvladujejo vidni splet in samo vidni splet. • Vidni splet so vse spletne strani, do katerih je mogoče priti s klikanjem, neglede na naravo klikajočega: lahko je človek ali program. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Splet kot infrastruktura • Globoki splet je vse ostalo – podatki, do katerih ne moremo priti na avtomatski (programski) način: • podatki so nameščeni na privatnih omrežjih, intranetih, ki so programsko ali strojno ločena od interneta, • podatki so dostopni s pomočjo obrazcev, ki jih avtomat ne zna izpolniti, • podatki so na spletiščih ali v zbirkah, zaščitenih z gesli, • dokumenti kot celota ne obstajajo, ampak se, na z geslom zaščiten ukaz, sestavijo iz sestavin v podatkovnih zbirkah – taka je večina člankov v e-revijah, • spletne strani, za katere obstaja standardna prepoved indeksiranja v zbirkah spletnih iskalnikov. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Splet kot infrastruktura • Niso vse informacije, nameščene v globokem spletu, vredne uporabe v znanosti, vendar • večina informacij, ki so vredne uporabe v znanosti, je nameščenih v globokem spletu. • V globokem spletu je večina bibliografskih zbirk in zbirk e-revij, velik del osebnih in institucijskih shramb dokumentov. • Nekateri avtorji ali zbirke, ki sodijo v gibanje za odprt dostop (Open Source), se trudijo svoje podatke ali dokumente prestaviti iz globokega v vidni splet. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Splet kot infrastruktura • Globoki splet je neprimerno večji od vidnega – ocene se gibljejo od 1 : 9 do 1 : n * 1000. • Bibliografska zbirka Medline (PubMed) je izjema: • po naravi sodi v globoki splet, vendar • ponuja lastna spletna orodja (e-Utils), ki omogočajo avtomatsko pretakanje zapisov v poljubno aplikacijo. • Bibliografski zapisi iz Medline so najdljivi celo z Googlom, seveda pa je z Googlom nemogoče izvajati res kvalitetna iskanja po bibliografskih zbirkah. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Spletni iskalniki: gradnja zbirk • Zbirke spletnih iskalnikov nastajajo z avtomatskim odkrivanjem in obdelovanjem (indeksiranjem) dokumentov. • Nekateri iskalniki shranjujejo le podatke o dokumentih, drugi (npr. Google) pa tudi same dokumente. shramba dokumentov pridobivanje dokumentov gradnja indeksov E-pošta, spletne strani, blogi, novice v forumih… preoblikovanje besedila v indeksne izraze Dr. Jure Dimec. Podatkovne zbirke v medicini.
Spletni iskalniki: gradnja zbirk Avtonomni programski agenti, znani tudi kot spletni roboti, zbirajo informacije o dokumentih v vidnem spletu. obzorje nabor semen Dr. Jure Dimec. Podatkovne zbirke v medicini.
Spletni iskalniki: gradnja zbirk • Spletni roboti • Spletni roboti avtomatsko odkrivajo dokumente tako, da sledijo spletnim kazalcem. • Vsak dokument avtomatsko indeksirajo. • Za uporabnost iskalnika je pomembna velikost prostora dokumentov, ki ga pokriva, ter frekvenca obnavljanja podatkov. • Splet je ogromen in stalno (skoraj) eksponentno raste. • Spletni roboti niti teoretično ne morejo obdelati vseh spletnih dokumentov. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Spletni iskalniki: gradnja zbirk • Robot začne delo s t. i. “naborom semen”, zbirko URL-jev, ki jih najprej uporabi za priklic novih dokumentov. • Novi kazalci, ki jih najde v teh dokumentih, se dodajo k njegovemu “obzorju”. • Spletni robot mora ponovno obiskovati strani, ki jih je že obiskal in njihove podatke vključil v zbirko. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Avtomatsko indeksiranje • Običajno, “intelektualno” indeksiranje je drago in zamudno, • Potrebujemo redko pasmo človeka z • vsaj površnim znanjem stroke, iz katere so dokumenti, • dobrim poznavanjem informacijskih orodij in postopkov. • Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Avtomatsko indeksiranje • Vsebino dokumenta predstavlja sam dokument. • Avtomatski postopki iz njega izberejo ključne besede. • Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja. • Del metod je odvisnih od jezika dokumenta. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Avtomatsko indeksiranje • Običajni postopki avtomatskega indeksiranja: • blokiranje: izpuščanje besed brez vsebine (vezniki, predlogi, prislovi, zaimki…), • krnjenje: poenotenje različnih oblik neke besede na skupni krn, • vrednotenje besednih krnov: računanje količine informacije (povedne moči) v njih. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Avtomatsko indeksiranje Krnjenje – uspešen in neuspešen primer: besedne oblike:zdravilo, zdravila, zdravilom krn: zdravil vendar besedne oblike: jetra, jeter, jetrom, jetrni krn: jet (prekratek) jetr(ne vključuje vseh oblik) Dr. Jure Dimec. Podatkovne zbirke v medicini.
Avtomatsko indeksiranje Vrednotenje količine informacije v besedah: • beseda, ki zastopa pomembno vsebino dokumenta, običajno nosi veliko količino informacije (veliko povedno moč), • za računanje količine informacije v besedi je pomembna frekvencabesede v dokumentu in v zbirki dokumentov, • načeloma ima veliko informacije v nekem dokumentu beseda, ki • je v tem dokumentu pogosta in • se pojavlja v majhnem številu dokumentov v zbirki. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Iskalni modeli Boolov iskalni model: • prevladuje pri bibliografskih zbirkah, • pri iskanju razdeli zbirko na enostavni množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov. Ne-Boolovi iskalni modeli: • razumejo relevantnost kot zvezno lastnost - dokumenti so lahko bolj ali manj relevantni. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Iskanje – Boolov model Iskanje – Boolov model Dr. Jure Dimec. Podatkovne zbirke v medicini.
Boolov iskalni model Operatorji IN, ALI, NE (AND, OR, NOT), • iskalna zahtevadiabetes IN insulinpoišče le zapise, ki vsebujejo oba deskriptorja; • iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Boolov iskalni model • iskalna zahtevadiabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Ne-Boolovi iskalni modeli • Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov. • Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom. • Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu. • Pri računanju podobnosti se upoštevajo tudi povedne moči skupnih besed (krnov). Dr. Jure Dimec. Podatkovne zbirke v medicini.
Ne-Boolovi iskalni modeli • Če je relevantnost zvezna lastnost, potem je mogoče: • iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti, • iskalec pregleduje rangirane dokumente dokler še najde zanimive. • Tako delujejo spletni iskalniki, npr. Google. Dr. Jure Dimec. Podatkovne zbirke v medicini.
ne-Boolovi iskalni modeli: izmišljen primer rangiranja Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu D1:Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2:Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu… skupni krni povedne moči relevantnost D1anatom 2prsn 2koš 3 skupaj: 7 D2anatom 5prsn 8koš 10splet 3slik 3 skupaj: 29 Dr. Jure Dimec. Podatkovne zbirke v medicini.
Uporabnost spletnih iskalnikov: Scirus • Scirus je eden redkih spletnih iskalnikov, namenjenih resni rabi. • Pri gradnji zbirk se poskuša omejevati na strokovne vire. • Do neke mere mu uspeva prebiti mejo globokega spleta. • Informacije o dokumentih zbira z roboti, na enak način, kot splošni spletni iskalniki. • Razlika je v „naboru semen”, začetnih strani s kazalci, ki izvirajo med drugim iz ScienceDirect, Medline, BioMed Central in US Patent Office. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Uporabnost spletnih iskalnikov: Scirus • Velikost zbirk: • Google neugotovljivo velik, najmanj desetine milijard dokumentov, • Medline ~20 milionov bibliografskih zapisov, • Scirus: 350 milijonov dokumentov. • Scirus omogoča sestavljanje iskalnih zahtev podobno, kot iskalniki pri biliografskih zbirkah: • raba logičnih operatorjev in oklepajev, • omejevanje glede starosti, tipov in formatov dokumentov, • omejevanje glede virov dokumentov in strokovnih področij, • iskanje po poljih: au:, ti:, ke: (keywords), url:, jo (journal)... Dr. Jure Dimec. Podatkovne zbirke v medicini.
Scirus: enostavno iskanje • Iskalna zahteva H1N1 AND vaccination AND ("side effects" OR "adverse effects") Dr. Jure Dimec. Podatkovne zbirke v medicini.
Scirus: omejevanje iskalne zahteve Dr. Jure Dimec. Podatkovne zbirke v medicini.
Scirus: rezultati iskanja Dr. Jure Dimec. Podatkovne zbirke v medicini.
Google Scholar • Google je razširil svojo ponudbo še na zbirko člankov iz znanstvenih revij. • Polno besedilo člankov je avtomatsko indeksirano, reference so razvrščene po relevantnosti in dodana mreža citiranosti. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Google Scholar Kazalcina doku-mente,ki citirajota doku-ment. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Kako sodobne zbirke povezujejo podatke... Primera: • Znanstvena revija Science, • Medline (PubMed). Dr. Jure Dimec. Podatkovne zbirke v medicini.
Polno besedilo Google Scholar Seznam kazalcev načlanke, ki citirajota članek. Dodatni načini iskanja sorodnevsebine. Zanimiva funkcija! Dr. Jure Dimec. Podatkovne zbirke v medicini.
Povezovanje podatkov: Medline • Medline avtomatsko odkriva in povezuje vsebinsko sorodne, vendar oblikovno in po izvoru zelo različne “koščke” informacij: • bibliografski opis iskanega dokumenta, • različne načine dostopa do polnega dokumenta, • kemijske in farmakološke informacije o substancah, omenjenih v iskanem dokumentu, • informacije, namenjene pacientom, o pojavih, opisanih v iskanem dokumentu, • dodatne informacije, namenjene zdravnikom, o pojavih, opisanih v iskanem dokumentu… Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.
Medline: dodatne informacije, povezane z iskanim dokumentom. Dr. Jure Dimec. Podatkovne zbirke v medicini.