1 / 32

Avtomatsko indeksiranje 1

Avtomatsko indeksiranje 1. Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod. Reference vs. dokumenti. V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.

sienna
Download Presentation

Avtomatsko indeksiranje 1

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Avtomatsko indeksiranje 1 Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod.

  2. Reference vs. dokumenti • V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije. • Za izpolnitev informacijske potrebe potrebujemo dokument in ne referenco nanj. • Bibliografska podatkovna zbirka je oddaljen približek informacijskega orodja, ki ga potrebujemo.

  3. Razlogi za prevlado referenčnih zbirk • Majhna zmogljivost računalnikov v času razvoja prvih bibliografskih zbirk. • Pobudniki razvoja zbirk sami raziskovalci in ne informatiki. • Raziskovalci poznali od informacijskih orodij le kartične kataloge. • Bibliografska zbirka je v osnovi kartični katalog na elektronskem mediju.

  4. Kritika deskriptorskih sistemov (1/4) • Bibliografska zbirka kot moderniziran kartični katalog je dokončno uveljavila deskriptorski način opisovanja vsebine. • Kritike so se osredotočale na: • ceno intelektualnega dela, • zamudnost indeksiranja. • Kritike deskriptorskih sistemov so redko podvomile v ustreznost pristopa nasploh. Izjema Cleverdon (1984).

  5. Kritika deskriptorskih sistemov (2/4) Cyril W. Cleverdon (1984): • Če dve skupini strokovnjakov gradita tezaver za neko strokovno področje, se ujema samo 60% deskriptorjev, • če dva izkušena indekserja indeksirata isti dokument in uporabljata isti tezaver, določita samo 30% istih deskriptorjev, • če naredita dva informacijska posrednika poizvedbo na isto temo v isti podatkovni zbirki, je med zadetki samo 40% istih bibliografskih zapisov in • če dva raziskovalca ocenjujeta rezultate iste poizvedbe z njunega strokovnega področja, se pri oceni relevantnosti zadetkov ujemata samo v 60%.

  6. Kritika deskriptorskih sistemov (3/4) • Ves postopek od priprave tezavra do iskanja po zbirki vsebuje vse omenjene faze. • Nenatančnosti v postopkih se deloma seštevajo, • tako da sta običajen 60% priklic in 50% natančnost najboljših bibliografskih zbirk zelo dober rezultat.

  7. Kritika deskriptorskih sistemov (4/4) Cleverdonova kritika je le delno utemeljena za dobro organizirana informacijska okolja s • strogo kontrolo gradnje in vzdrževanja tezavra, • standardizacijo vseh postopkov, • izobraževanjem informacijskih posrednikov in uporabnikov, • dodatnimi orodji za pomoč pri indeksiranju in iskanju.

  8. Pomanjkljivosti klasičnega indeksiranja • Toga pravila indeksiranja, • počasnost pri uvajanju novih deskriptorjev, • velik vložek intelektualnega dela ljudi, šolanih v stroki in s prakso v indeksiranju, • presenetljiva ohlapnost postopkov in rezultatov pri uporabi kontroliranih tezavrov(Cleverdon, 1984).

  9. Prednosti klasičnega indeksiranja • Predvidljivost, • neodvisnost od jezika dokumenta in posebnosti avtorjevega izrazja, • enostavno avtomatiziranje širjenja in oženja poizvedbe z hierarhičnimi tezavri.

  10. Prednosti avtomatskega indeksiranja • Manj intelektualnega dela, • (vsaj teoretično) reprezentirana natančno in samo vsebina dokumenta, • (vsaj teoretično) reprezentirani vsi eksplicitno opisani aspekti vsebine dokumenta.

  11. Pomanjkljivosti avtomatskega indeksiranja • Ni semantičnih povezav med elementi opisa, kot jih sicer uvaja tezaver, • velik obseg elementov vsebinskega opisa, • jezikovna in stilistična odvisnost postopkov indeksiranja in iskanja.

  12. Avtomatsko indeksiranje (uvod) Avtomatsko indeksiranje ima prednost pri zbirkah polnih dokumentov (full-text databases), med njimi še posebej pri • zelo velikih zbirkah, • zelo dinamičnih zbirkah. Teoretično bi lahko iskalni algoritmi iskali neposredno po besedilu dokumentov, iz praktičnih razlogov pa tudi avtomatsko indeksiranje zahteva predhodno procesiranje dokumenta.

  13. Avtomatsko indeksiranje (uvod) • Avtomatsko indeksiranje poskuša v dokumentu najti besede (ali besedne zveze), ki predstavljajo najpomembnejše vsebine. • Take besede nosijo največjo količino informacije (povedno moč). • Te besede (ali besedne zveze) postanejo indeksni termini. • Pri teh postopkih ni potrebno sodelovanje informacijskega strokovnjaka.

  14. Avtomatsko indeksiranje (uvod) Osnovna pristopa k procesiranju besedil pri avtomatskem indeksiranju sta • lingvistično procesiranje in • statistično procesiranje.

  15. Lingvistične metode avtom. indeksiranja Metode poskušajo razumeti vsebino in s pomočjo razumevanja izbrati najustreznejše vsebinske predstavnike. Pri tem • uporabljajo sintaktično in semantično znanje o jeziku, • prepoznavajo jezikovne strukture. Zaenkrat metode še niso zelo učinkovite, • ker so računalniško potratne, in • obstajajo le parcialne teorije jezika, ki se jih ne da formalizirati v učinkovite algoritme, ki bi veljali vsaj za večino jezikovnih struktur.

  16. Statistične metode avtom. indeksiranja - uvod Temeljijo na enostavnih metodah frekvenčne analize besedil. Osnovne predpostavke: • besede niso slučajno porazdeljene po besedilih, • frekvenca pojavljanja neke besede je pozitivno povezana s pomembnostjo vsebine, ki jo ta beseda zastopa, • besede, ki se v besedilu pojavljajo večkrat, v splošnem več prispevajo k njegovi vsebini.

  17. Statistične metode avtom. indeksiranja - uvod Besede iz dokumenta je treba preoblikovati tako, da so primerne za vlogo vsebinskih predstavnikov – indeksnih terminov. Običajno zaporedje postopkov je: • blokiranje, • krnjenje, • računanje povednih moči.

  18. Blokiranje • Izvor ideje v delu Luhna in Zipfa. • Besede iz korpusa angl. jezika sta preštela in razvrstila po rangih frekvenc. • Odvisnost med frekvenco besede in njeno pozicijo v rangu je hiperbolična funkcija.

  19. Blokiranje Besede v korpusu lahko navidezno razdelimo na tri skupine: • zelo pogoste, ki ne “nosijo” vsebine dokumenta, • zelo redke, ki niso primerne za vsebinske predstavnike, in • tiste “vmes”, ki “nosijo” vsebino.

  20. Blokiranje • V skupini zelo pogostih besed je malo različnih besed.Te besede se pojavljajo v vseh besedilih v nekem jeziku. • Ker nosijo malo informacije, jih lahko zavržemo. • Te besede sestavljajo t.i. seznam blokiranih besed (stop-words list). • Blokirane besede sodijo v nekatere besedne vrste: števniki, predlogi, prislovi, zaimki...

  21. Blokiranje • V angleških besedilih je število zelo pogostih različnih besed manjše kot pri slovenščini, ker za eno angleško besedo obstaja veliko besednih oblik slovenskega prevoda • Seznami blokiranih besed za slovenščino so zato precej večji od angleških.

  22. Blokiranje Različne velikosti seznamov blokiranih besed za slovenščino in angleščino

  23. Pogojno blokiranje • Zbirke dokumentov, ki jih avtomatsko indeksiramo, so običajno tematsko omejene. • Različna strokovna področja uporabljajo različne podjezike: “bibliotekarščina, medicinščina…”

  24. Pogojno blokiranje • V podjeziku nekatere besede nosijo veliko manj informacije, kot v splošnem jeziku. Primer: “knjižnica” v bibliotekarščini. • Pri pogojnem blokiranju besedil v podjeziku zavržemo take besede. • Seznam pogojno blokiranih besed ni sestavljen iz besed določenih besednih vrst, ampak iz besed, ki se pojavljajo v največjem številu dokumentov. • Pogojno blokiranje je danes redko.

  25. Krnjenje • Postopek, s katerim nevtraliziramo morfološko bogastvo jezika. • Besede v dokumentih nastopajo v različnih pojavnih oblikah (zaradi sklanjanja, spreganja, števila, spola…). • Pri krnjenju (stemming) iščemo zaporedje znakov, ki lahko zastopa vse oblike neke besede in samo oblike te besede.

  26. Krnjenje • Krnjenje ne določa pravega korena besede, zato raje govorimo o krnih. • Koren in krn sta pogosto enaka. • Krn ni nujno vsebovan v vseh oblikah neke besede • S krnjenjem dosežemo isto kot z “ročnim krajšanjem” pri oblikovanju iskalne zahteve, le da ga opravimo že pri vključevanju dokumenta v zbirko.

  27. Krnjenje Osnova so predpostavke: • besede z dovolj dolgim enakim zaporedjem začetnih znakov so tudi vsebinsko sorodne (dokaz: etimologija besed), • pojavljanje različnih končnih delov besed s skupnim začetnim zaporedjem se ravna po nekih pravilih (dokaz: morfološka pravila), • ta pravila so dovolj enostavna, da jih je mogoče formalizirati v ekonomičen algoritem.

  28. Krnjenje Obstajata dve široki skupini algoritmov: • algoritmi brez seznama kočniciščejo skupne krne z upoštevanjem nekaterih statističnih posebnosti besed, • algoritmi s seznamom končnicoblikujejo krne tako, da od besed režejo njihove končnice.

  29. Algoritmi brez seznama končnic Pestrost nadaljevanj (successor variety), Hafer, Weiss, 1974 • Črke v besedi niso naključno postavljene. • Verjetnost pojavljanja neke črke je odvisna od prejšnjih in ta odvisnost z dolžino besede narašča. • Odvisnost se poruši na meji med krnom in končnico.

  30. Pestrost nadaljevanj Primer: Besede v zbirki: CABLE, APE, BEATABLE, FIXABLE, READ, READABLE, READING, READS, RED, ROPE, RIPE. Krnjenje besede READABLE, krn READ

  31. Algoritmi brez seznama končnic Metoda skupnih digramov, Adamson, Boreham, 1974 Metoda odkriva gruče besed in besednih oblik. Predpostavke: • Besede in njihove oblike, ki so dovolj sorodne, da sodijo v isto gručo, predstavljajo isto vsebino. • Katerakoli beseda iz gruče lahko zastopa vse besede v gruči.

  32. Metoda skupnih digramov Računanje sorodnosti besed statistics in statistical. 2CSorodnost S = ------------ = (2*6) / (7 + 8) = 0,8 A + B

More Related