170 likes | 304 Views
Osnove znanstvenega informiranja 2. del. Avtomatsko indeksiranje, iskalni modeli. Jure Dimec, Inštitut za biomedicinsko informatiko MF jure.dimec@mf.uni-lj.si april 2007. Avtomatsko indeksiranje. Običajno, “intelektualno” indeksiranje je drago in zamudno,
E N D
Osnove znanstvenega informiranja2. del Avtomatsko indeksiranje, iskalni modeli. Jure Dimec, Inštitut za biomedicinsko informatiko MF jure.dimec@mf.uni-lj.siapril 2007
Avtomatsko indeksiranje • Običajno, “intelektualno” indeksiranje je drago in zamudno, • Potrebujemo redko pasmo človeka z • vsaj površnim znanjem stroke, iz katere so dokumenti, • dobrim poznavanjem informacijskih orodij in postopkov. • Avtomatsko indeksiranje: opisovanje vsebine z avtomatskimi postopki, brez človeške intervencije.
Avtomatsko indeksiranje • Vsebino dokumenta predstavlja sam dokument, • Avtomatski postopki iz njega izberejo ključne besede ali besedne zveze. • Najuspešnejše so t.i. statistične metode avtomatskega indeksiranja. • Del metod je jezikovno-odvisnih.
Avtomatsko indeksiranje Običajni postopki avtomatskega indeksiranja: • blokiranje: izpuščanje besed brez vsebine (vezniki, predlogi, zaimki…), • krnjenje: poenotenje različnih oblik neke besede na skupni krn, • vrednotenje besednih krnov: računanje količine informacije (povedne moči) v njih.
Avtomatsko indeksiranje Krnjenje - primera: besedne oblike: zdravilo, zdravila, zdravilom krn: zdravil vendar besedne oblike: jetra, jeter, jetrom, jetrni krn: jet (prekratek) jetr (ne vključuje vseh oblik) ?
Avtomatsko indeksiranje Primer: krnjenje besed konec, končen, končnega • 1. korak (rezanje končnic): ec ‘c’; en ‘’; ega ‘’:konec konc; končen konč; končnega končn • 2. korak (obdelava soglasniških parov):čn č; nč nc:konč konc; končn konč konc konec konc končen konc končnega konc
Avtomatsko indeksiranje Vrednotenje količine informacije v krnih: • Količino informacije v besedi (krnu) imenujemo povedna moč besede. • Krn, ki zastopa pomembnejšo vsebino dokumenta, ima v splošnem večjo povedno moč. • Povedne moči besed v poiskanih dokumentih so pomembne za računanje relevantnosti teh dokumentov.
Avtomatsko indeksiranje • Pri računanju povednih moči so pomembne frekvence krnov v dokumentu in zbirki dokumentov. • Načeloma ima veliko povedno moč v nekem dokumentu krn, ki • je v tem dokumentu pogost in • se pojavlja v majhnem številu dokumentov. • Povedne moči besed se običajno računajo v fazi iskanja po zbirki.
Iskalni modeli • Od t.i. iskalnega modela, ki ga uporablja neka podatkovna zbirka, je odvisna splošna izvedba iskanja. • Iskalni modeli se predvsem razlikujejo po razumevanju relevantnosti dokumentov. • Najpomembnejši Boolov in ne-Boolovi iskalni modeli.
Iskalni modeli Boolov iskalni model: • klasični iskalni model, ki obstaja od začetkov razvoja podatkovnih zbirk (60-a leta), • prevladuje pri bibliografskih zbirkah, • pri iskanju razdeli zbirko na enostavni množici relevantnih (poiskanih) zapisov in nerelevantnih (nepoiskanih) zapisov. Ne-Boolovi iskalni modeli: • relevantnost je zvezna lastnost - dokumenti so lahko bolj ali manj relevantni.
Boolov iskalni model • operatorji IN, ALI, NE (AND, OR, NOT), • iskalna zahtevadiabetes IN insulinpoišče vse zapise, ki vsebujejo oba deskriptorja; • iskalna zahtevadiabetes tip 1 ALI diabetes tip 2poišče vse zapise, ki vsebujejo prvega, drugega ali oba deskriptorja.
Boolov iskalni model Boolov iskalni model: • iskalna zahtevadiabetes NE insulinpoišče vse zapise, ki vsebujejo deskriptor diabetes, ne pa deskriptorja insulin.
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 IN d2 IN d3 IN d4bo poiskan le zapis, ki vsebuje vse štiri deskriptorje. Verjetno bi bil zanimiv tudi zapis, ki vsebuje le dva ali tri od njih.
Boolov iskalni model Kritike Boolovega iskalnega modela: • z iskalno zahtevod1 ALI d2 ALI d3 ALI d4bo poiskan vsak zapis, ki vsebuje vsaj enega od deskriptorjev. Vsi poiskani zapisi bodo enakovredni, čeprav je verjetno zapis z vsemi štirimi deskriptorji bolj relevanten od tistega z enim.
Ne-Boolovi iskalni modeli • Primerni za zbirke polnih, avtomatsko indeksiranih dokumentov. • Računajo relevantnost kot podobnost med iskalno zahtevo in dokumentom. • Podobnost dokumenta izvira iz števila besed (krnov) skupnih iskalni zahtevi in dokumentu. • Pri računanju podobnosti se upoštevajo povedne moči skupnih besed (krnov).
Ne-Boolovi iskalni modeli • Če je relevantnost zvezna lastnost, potem je mogoče: • iskalcu ponuditi seznam rezultatov iskanja rangiran po relevantnosti, • iskalec pregleduje rangirane dokumente dokler še najde zanimive. • Tako delujejo iskalniki na WWW: Google, AltaVista, Teoma,...
ne-Boolovi iskalni modeli: primer rangiranja Iskalna zahteva: Slike prsnega koša v anatomskih atlasih na Svetovnem spletu D1: Oddelek za anatomijo prsnega koša je dobil novo predavalnico… D2: Učna zbirka slik anatomije prsnega koša zdaj tudi na Spletu… skupni krni povedne moči relevantnost D1 anatom 2prsn 2koš 3 skupaj: 7 D2 anatom 5prsn 5koš 10splet 3slik 3 skupaj: 26