270 likes | 442 Views
ITKD50 Tekstitiedonhaku Luento III: T iedonhaku käsite-, ilmaisu- ja esiintymätasolla. 23.03.2005. Anne Honkaranta Jy/Digitaalinen media anne.honkaranta@it.jyu.fi tel. 3041, C514.3. Sisältö. Tiedon tallennuksen ja haun tasoperiaate. Tiedonhaku käsitetasolla. Tiedonhaku ilmaisutasolla.
E N D
ITKD50 TekstitiedonhakuLuento III: Tiedonhaku käsite-, ilmaisu- ja esiintymätasolla.23.03.2005 Anne Honkaranta Jy/Digitaalinen media anne.honkaranta@it.jyu.fi tel. 3041, C514.3
Sisältö • Tiedon tallennuksen ja haun tasoperiaate. • Tiedonhaku käsitetasolla. • Tiedonhaku ilmaisutasolla. • Tiedonhaku esiintymätasolla. • Tenttivinkkejä. JY /AHo, ITK D50
Tiedontallennuksen ja haun tasoperiaate Käsitetaso Dokumenttien ja hakutehtävien käsiterakenteet Ilmaisutaso Dokumenttien ja hakutehtävien kielelliset ilmaisurakenteet (asiasanastot, tesaurukset) Esiintymätaso Dokumenttien ja hakutehtävien data, merkkijonot Hakuaiheen käsiteanalyysi Hakustrategiasta päättäminen Luonnollisen kielen ongelmat Käsitteistä hakuavaimiksi Hakuavainten valinta Kyselykieli ja käyttöliittymä Hakutaktikka: haun kaventa- minen ja laajentaminen. Lähde: Järvelin, 1995 JY /AHo, ITK D50
Tiedonhaku käsitetasolla: käsiteanalyysi • Tavoitteena on tunnistaa hakuaiheen keskeiset käsitteet ja käsitteiden suhteet. • Rinnakkainet suhde => tai konnektiivi. • Rajaava suhde => ja tai ei konnektiivi. • Käsiteanalyysin tulos: käsitteellinen hakusuunnitelma. • Aspekti on hakuaiheeseen liittyvä näkökulma. • Hierarkiasuhde -> alakäsite, yläkäsite. • Esim. • IT ->digitaalinen media, elektroninen liiketoiminta. • Dokumenttien hallinta v digitaalisen sisällön hallinta JY /AHo, ITK D50
Käsitteellisen hakusuunnitelman tyhjentävyys, tarkkuus ja kattavuus • Hakusuunnitelman tyhjentävyys ->kuinka moni hakuaihetta jäsentävistä aspekteista on mukana hakusuunnitelmassa. • Liittyy aspektien välisiin rajaaviin suhteisiin. • Hakusuunnitelman tarkkuus -> kuinka täsmällisillä käsitteillä hakusuunnitelman eri aspekteja kuvataan. • Liittyy käsitteiden välisiin hierarkkisiin suhteisiin. • Hakusuunnitelman kattavuus -> kuinka monella tiedontarpeeseen sisältyvällä käsitteellä hakusuunnitelman eri aspekteja hakusuunnitelmassa kuvataan. • Liittyy hakuaiheen aspektien rinnakkaisiin suhteisiin. JY /AHo, ITK D50
Käsitteellisen hakusuunnitelman tyhjentävyys, tarkkuus ja kattavuus JY /AHo, ITK D50
Käsiteanalyysi • Mistä käsitteet? • Tunnistetaan haun /tietotarpeen kuvauksesta. • Erityissanaston termeistä (esim. Viira, lupus lupus). • Aiheen osittaminen (hierarkiasuhteet, käsitteiden osittaminen). • Assosiaatioiden ideointi. • Rajaavien käsitteiden lisääminen tai poistaminen: halutunkaltaisen hakutuloksen sääntely (halutaanko muutamia vai satoja tuloksia?) JY /AHo, ITK D50
Käsitteellisestä hakusuunnitelmasta hakustrategiaan • Hakustrategia: kokonaissuunnitelma tai lähestymistapa haun suorittamiseen. • Hakutaktiikka: askel/askeleet, jotka suoritetaan haun edistämiseksi (esiintymätasolla). • Hakustrategiatyypit: • Pikahaku. • Lohkohaku. • Helmenkasvatushaku. • Lohkojen peräkkäishaku. • Selailuhaku. JY /AHo, ITK D50
Hakustrategiat • Pikahaku: • Yksi hakukomento, muutama hakuavain. • Tavoite, esim: muutamien relevanttien dokumenttien läytäminen, aloitus helmenkasvatushaulle, tai bibliografisen tiedon tarkastus. • Lohkohaku. • Säädellään tarkkuutta ja tuloksen kokoa vuorovaikutteisesti. • Eteneminen: tunnista käsitteet, valitse kullekin käsitteelle hakuavaimet (käsite->lohko), hae erikseen kuhunkin käsitteeseen liittyvien tulosdokumenttien joukkoja, yhdistä joukot. JY /AHo, ITK D50
Hakustragegiat • Helmenkasvatushaku (analogiahaku). • Valitaan esimerkkidokumentti(-mentit), joista tutkitaan mahdolliset hakuavaimet. Haetaan uusia dokumentteja valittujen avainten yhdistelmillä. Voidaan jatkaa jollain muulla hakustrategialla (kuten lohkohaku). • Sopiva, jos on esimerkkidokumentteja jotka kuvaavat hakutarpeen riittävän laajasti. • Lohkojen peräkkäishaku. • Lohkohaun muunnelma: ei muodosteta lohkoa kaikille käsitteille. Voidaan valita esim. Spesifein lohko ensin tai pienimmän tuloksen lohko . Lohkoja lisätään tarpeen mukaan. • Selailuhaku. • Aihealueen tai käsitteiden valintaan, lähtökohdaksi muille hauille. JY /AHo, ITK D50
Tiedonhaku ilmaisutasolla • Dokumentti itse on ilmaisutason esitys. Sitä voidaan täydentää muilla dokumentin sisältöä kuvaavilla luonnollisen kielen sanoilla, esim. metatietoon liitettävät asiasanat. • Käsitteiden ilmaisutavat: luonnollisen kielen sanat tai esim. Dokumentaatiokielen termit. • Dokumentaatiokielen keskeinen tehtävä on standardoida käsitteiden ilmaisut mahdollisimman yhdenmukaisiksi. • Jos tiedon tallennus ja haku ei perustu ihmisen suorittamaan sisällönanalyysiin, voidaan dokumenttien ja hakutehtävien käsiterakenteet ilmaista luonnollisen kielen avulla. JY /AHo, ITK D50
Tiedonhaku ilmaisutasolla • Kommunikoitavat käsitteet ja niiden suhteet kuvataan: • luonnollisen kielen ilmauksilla • sanat • sanaliitot • fraasit • aihepiirin erikoiskielen ilmauksilla. • Esim. H2SO4 => H2SO4, Hg(OAc)2 => Hg(OAc)2 JY /AHo, ITK D50
Luonnollisen kielen ongelmia • Kieli ei ole yhteistä; alakulttuurit. • Kieli kehittyy; tarkoituksenmukaisuus. • Monitulkintaisuus; “oli vähän hyvää ruokaa”. • Homografia eli merkitys riippuu asiayhteydestä (esim. sanat ”kuusi”, ”voi”). • Synonymia (~sama käsite, eri termi tai sana) • Päämerkitys eli denotaatio • Sivumerkitys eli konnotaatio. • Kiertoilmaukset eli parafraasit. • Anaforiset ilmaisut (viittaus aiemmin esiteltyyn asiaan). JY /AHo, ITK D50
Luonnollisen kielen ongelmia • Samaan teemaan voidaan viitata monella eri tavalla, • esim. ydinvoima Greenpeacen ja Fortumin raporteissa. • Yhdyssanat ja sanaliitot (tiedontarve vs. tiedon tarve). • Yhdyssanan loppuosa ilmaisee pääluokan ja alkuosa alaluokan: • substantiivi-substantiivi (informaatioteknologia) • adjektiivi-substantiivi (kallisarvoinen) • erisnimi-substantiivi (Boolen algebra) • substantiivi-partisiippi (tietokonetuettu) • substantiivi-adjektiivi (ihmisläheinen) • adverbi-partisiippi (sisäänotettu) • adjektiivi-adjektiivi (kuuromykkä). JY /AHo, ITK D50
Luonnollisen kielen ongelmia • Etu- ja loppuliitteet (esi-, jälki-, -inen, -lainen). • Sanojen taipuminen – yksiköt ja monikot, sijamuodot. • Johdokset – uusia sanoja vanhoista; kirja ->kirjonta, kirjasto. • ”Kirotusvireet”. JY /AHo, ITK D50
Luonnollisen kielen ongelmia • Suomenkielen erityisongelmia: • Taivutusmuotohomografiat (kahdella perusmuotoisella sanalla on yhteisiä taivutusmuotoja, esim. Hauissa ->hauki tai haku, Minä en voi syödä voita). • Sanojen ja niiden vartaloiden taipuminen. • Yhdyssanat ja sanaliitot tavallisia. • Johdoksia käytetään paljon. JY /AHo, ITK D50
Haku ilmentymätasolla- hakuavainten löytäminen? Käsitetaso Käsitteellinen hakusuunnitelma (Haku) käsitteet Ilmaisutaso Ilmaisutason Hakuavaimet hakusuunnitelma (Erikoiskielten) (Yleiset) Luonnollisen Hakutermit Koodit ja lyhenteet kielen haku- ilmaisut Sanaperusteiset Koodiperusteiset Hakusanat hakutermit hakutermit Esiintymätaso Kysely Merkkijonot Merkkijono- Merkkijono- kaaviot vakiot JY /AHo, ITK D50
Haku ilmentymätasolla- hakuavaimet ja hakutermit • Hakuavain- yleissana tai tietyn dokumentaatiokielen termi (kun ei haluta tehdä eroa) • Hakutermi- dokumentaatiokielen termi. • Hakuavainten käytön etuja ja haittoja: • Joustavia ja tuttuja tiedonhakijoille, • usein tarkkoja erityissanastojen osalta. • Eivät aina täsmällisiä, erityistermejä ei huomioida useinkaan yleisluontoisissa tekstikannoissa. • Indeksitermien käytön etuja ja haittoja: • Käsitteiden haku yksinkertaista jos löytyy sopiva indeksitermi, • voidaan hyödyntää dokumentaatiokielen rakennetta tai tesaurusta. • Indeksitermit ovat indeksoijan käsitys asiasta, voivat olla joustamattomia, tai tuntua keinotekoisilta, eivät sisällä uusimpia termejä. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla • Konkreettinen tiedonhaku tapahtuu aina esiintymätasolla. • Esiintymätasolla rakennetaan kysely, joka määrittelee hakujärjestelmälle, miten sen tulee toimia. • Esiintymätasolla puhutaan vain merkkijonoista, koska hakujärjestelmät käsittelevät vain niitä. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla • Käyttöliittymä • Hakujärjestelmää käytetään kyselykielen (komentokieli, command language, query language) avulla • komennot (command) • komentosanat (command name) • parametrit eli määritteet (parameter) • Kohdennuskomennot: valitaan tietokannan sisällön osia tarkastelun kohteeksi: • joukko-opin perusoperaatiot • tekstihakuoperaatiot • termioperaatiot • dokumenttien selaus • tekstin selaus • Käsittelykomennot: • saanti ja esitys; tulostus ja tulostuksen muotoilu • päivitys; tietueiden lisäys, poisto ja muutos JY /AHo, ITK D50
Tiedonhaku esiintymätasolla • Kyselykielten eroja: • sallitaanko loogisia operaatioita perushakukomennossa esim. SELECT a AND b vai SELECT a ; SELECT b ; COMBINE s1 AND s2, • sallitaanko loogisia operaatioita hakusanojen ja -joukkojen yhdistelmille esim. COMBINE s1 AND KEUHKOSYÖPÄ, • mikä on loogisten operaatioiden suoritusjärjestys, ja • mitä tulostetaan ja missä muodossa. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla: Merkkijonokaaviot ja jokerimerkit • Merkkijonokaavio on malli, joka täsmää useisiin hakemiston merkkijonoihin, joilla on tietyt yhteiset osat ja vaihtelua tietyissä osissa. • Vastaa disjunktiolauseketta (“tai”); esim. autom* -> automatka automaatti automaatio automaattinen ... • Kaavio muodostetaan korvaamalla merkkijonovakion yksittäisiä merkkejä tai kokonaisia osajonoja jokerimerkeillä. • Merkkijonon katkaisu jokerimerkillä lopusta on merkkijonokaavion tavallisin käyttötapa. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla: Merkkijonokaaviot ja jokerimerkit • # - korvaa yhden aakkosnumeerisen merkin a-ö, 0-9, ei esim. välilyöntiä. Voidaan toistaa. • ? – korvaa aakkosnumeerisen merkkijonon, muttei välilylöntiä. • ?n (esim. ?5) - merkinnällä voi määritellä, montako merkkiä korvataan. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla: Läheisyysoperaatiot ja sanaliitot • Jos hakujärjestelmä sallii fraasi-indeksoinnin dokumenttien tallennuksessa, voidaan sanaliittoja (kuten “digitaalinen media”) käyttää hakulausekkeissa. • Sanaindeksoinnin takia pilkkoutuneet sanaliitot voidaan koota uudelleen hakuvaiheessa läheisyysoperaation (adjacency operation, proximity operation) avulla. • Pelkkiä indeksitermejä käytettäessä läeisyysoperaattoreilla ei ole merkitystä, ellei myös sanaliittoja ole indeksoitu. JY /AHo, ITK D50
Tiedonhaku esiintymätasolla: Läheisyysoperaatiot ja sanaliitot • Sanaliittojen täsmäytys: • 1. Hakuavaimet täsmäytetään esitysjärjestyksessään suoraan peräkkäin, esim. “FIND digital media”. • 2.T äsmäytys esitysjärjestyksessä, mutta hakuavainten keskinäinen etäisyys voi vaihdella; tällöin operaattorina !n , jossa n on välissä olevien sanojen sallittu määrä. Pelkkä ! edellyttää sanojen peräkkäisyyttä. • 3. Täsmäytys missä tahansa järjestyksessä, keskinäinen etäisyys voi vaihdella. Tällöin operaattorina %n, jossa n on hakuavainten välissä olevien sanojen sallittu määrä. Pelkkä % edellyttää peräkkäisyyttä. • Mitä ”FIND Digital ! Media” hakee? Entä ”FIND Digital %6 Media”? Entä ”FIND Dig? !2 Medi##”? JY /AHo, ITK D50
Tenttivinkkejä • Soveltava. Kaikki materiaali saa olla mukana. • Keskeiset käsitteet: • saanti, tarkkuus, relevanssi, hakuavain, hakutermi, dokumentaatiokieli, käänteistiedosto, sanakirjatiedosto, boolen logiikka.. • Tiedonhakujärjestelmän yleisrakenne. • Saannin ja tarkkuuden suhde, miten niitä voi säädellä hakutaktiikoilla? • Hakustrategia vs. hakutaktiikka? • Luonnollinen kieli tiedonhaussa? • Indeksointi, metatietomääritykset, ja hakuavaimet: yhtäläisyyksiä, eroja, etuja, haittoja? • Boolen logiikka, Vennin diagrammit, totuustaulut, ja käänteistiedoston käyttö tiedonhaussa. JY /AHo, ITK D50
Harjoitus • Määrittele esim. Gradu- tai kandityötäsi varten haku. • Tee hakusi aspekteihin liittyvä käsiteanalyysi. Kuvaile käsitteiden valintaa ja ideointia. • Kerro, mitä hakustrategiaa käyttäisit tai kuinka yhdistelisit hakustrategioita? • Mitä hakuavaimia käyttäisit? Kuinka hakuavaimet valitaan? Kuinka hakuavaimia voi yhdistellä, ja mitkä niistä olisivat eniten kokonaistulosta rajaavia? Miten hakutuloksen saantia, tarkkuutta ja määrää voisi säätää hakuavaimia ja haun konjuktiiveja muuttelemalla? JY /AHo, ITK D50