340 likes | 459 Views
Kieliteknologia. Helena Ahonen-Myka 26.9.2003. Sisällys. Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL:llä Kieliteknologian opiskelu. Mitä on kieliteknologia?.
E N D
Kieliteknologia Helena Ahonen-Myka 26.9.2003
Sisällys • Mitä on kieliteknologia? • Kielitieteen osa-alueita • Kieliteknologiaan liittyvää tutkimusta TKTL:llä • Kieliteknologian opiskelu
Mitä on kieliteknologia? • Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.
Kieliteknologian sovelluksia • luonnollisen kielen käyttö käyttöliittymissä • puheentunnistus ja puhesynteesi • tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen • kielenkääntämisen tuki • teknologia-avusteinen kielenoppiminen • kirjoittajan apuvälineet
Kielitieteen osa-alueita • fonetiikka • fonologia • morfologia • syntaksi • semantiikka • pragmatiikka
Fonetiikka • tutkitaan puheen tuottamista ja havaitsemista • perusyksikkö: äänne (fooni) • kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen • esim. käyttöliittymissä
Fonologia • äänneaineksen selvittäminen kielen rakenteen kannalta • perusyksikkö: foneemi • esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään • toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava,...
Morfologia • ”sanojen” sisäinen rakenne • sanan osalla jokin merkitys tai kieliopillinen tehtävä • perusyksikkö: morfeemi • vapaat morfeemit (kirja, punainen,…) • taivutusmorfeemit • sija-, luku-, persoona-, aikamuoto-,... päätteet • johdinmorfeemit • rakenteelliset (-minen: verbi->substantiivi) • merkitystä modifioivat (näyttä+mö, teurasta+ja)
Morfologia • automaattinen morfologinen analyysi • morfeemien tunnistaminen ja tulkinta • sanaluokkien määrittely • perusmuotoon palautus • taivutusmuotojen/sananvartaloiden generointi • analyysin tulos esim. rikoslain rikoslaki N Gen Sg • ongelma: moniselitteisyys • esim. ’alusta’ (alku, alustaa, alus, …)
Morfologia • Etsi kaikki dokumentit, joissa esiintyy sana • ’vesi’ • ”Monet kalat viihtyvät kylmässä vedessä.” • ’cat’ (tai ’cat*’) • ”Cats don’t like dogs.”
Syntaksi • ~lauseenjäsennys • lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti,...) • syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä • ”Alusta oli vakaa.”
Semantiikka • merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin • mm. miten lauseiden merkitys kootaan sanojen merkityksestä • automaattisessa kielen käsittelyssä käytettävissä mm. • tesaurukset: synonyymit, ala- ja yläkäsitteet, … • ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet
Pragmatiikka • kielen käytön säännöt • puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista • ”Violetit ideat nukkuvat rajusti.” • vertaa: • ”Onks sulla tulta?” • ”Onks sulla auto?” • ”Onks sulla oma asunto?”
Automatisoinnin taso tällä hetkellä • fonetiikka • puheentunnistus ja puheentuottaminen edelleen vaikeita • morfologia • varsin luotettavaa ja nopeaa • syntaksi • edelleen vaikeaa, myös hidasta • semantiikka, pragmatiikka • lähinnä vain rajatussa tehtävässä, johon on tehty käsin riittäviä kuvauksia
Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen Reeta Kuuskoski Antoine Doucet Kai Hendry TKTL:n tutkimusta: DOREMI-ryhmä
TKTL:n tutkimusta: APPA • Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten • rahoitus: • yritysrahoitus
Kysymyksiin vastaava järjestelmä • Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: • Paljonko kaasu maksaa ensi vuonna? • Mitä kaasuliesiä teillä on myynnissä? • Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? • Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?
Kysymyksiin vastaava järjestelmä • asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä • samanlaiset kysymykset toistuvat • kysymyksiin pitäisi vastata nopeasti • Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? • ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)
Tutkimusongelmia • Kysymysten analysointi • eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, ... • lauseita voidaan jäsentää merkityksen selvittämiseksi • ongelma: teksti usein puhekielistä ja ”virheellistä”
Tutkimusongelmia • Vastauksen löytäminen • kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) • valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys • samanlaisuus täytyy määritellä!
Tutkimusongelmia • Vastauksen koostaminen • vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten • lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) • vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan
Kieliteknologia-apuvälineitä • sanojen perusmuotoon palautus • sanaluokkien selvittäminen • esim. kysymystekstistä tarkastellaan vain substantiiveja ja verbejä • erisnimien ja termien eristäminen • lauseenjäsennys • missä roolissa sanat esiintyvät?
TKTL:n tutkimusta: 4M • 4M = Mobile and Multilingual Maintenance Man • huoltomiehen tukijärjestelmä • yhteistyöprojekti: • HY/TKTL, HY/kieliteknologia, HY/käännöstiede, TKK/käytettävyysryhmä, TKK/tietämystekniikka, TKK/TAI-tutkimuslaitos, VTT Tietotekniikka • rahoitus: • Teknologian kehittämiskeskus (TEKES), Nokia, Fujitsu Invia, Pasanet/Lingsoft
Huoltomiehen tukijärjestelmä • tilanne: huoltomies saapuu korjaamaan laitetta • huoltomiehellä on pieni päätelaite, jolta hän voi kysellä ohjeita • huoltomies korjaa laitteen ohjeiden perusteella ja raportoi laitteen avulla (esim. sanelemalla), missä vika oli ja miten se korjaantui
Huoltomiehen tukijärjestelmä • päätelaitteen ohjelma yrittää keskustella huoltomiehen kanssa mahdollisimman luontevasti ja ystävällisesti • vastaukset tuotetaan monentyyppisen tiedon perusteella • tietämys laitteen rakenteesta, tyypillisistä ongelmista ja siitä, miten eri tavoin laitetta voi korjata • huoltomiesten aikaisemmat kokemukset vastaavista korjaustilanteista • laitteistokäsikirjat
Kieliteknologia-apuvälineitä • tekstin analyysivälineet, kuten edellä • huoltomiehen kysymysten tulkitseminen • tietämyksen kerääminen huoltomiehen raportista • tietämyksen kerääminen mm. laitteistokäsikirjoista • keskustelunhallinta • puheentunnistus ja –tuottaminen • ontologiat • semantiikka ja pragmatiikka
Miten tutkimusta tehdään? • Tutkimusongelma löytyy usein jostakin käytännön ongelmasta • käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi • haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja • samalla löytyy myös uusia teoreettisia ongelmia • rakennetaan prototyyppejä • testataan todellisilla dokumenttikokoelmilla
Mihin tämä tutkimusalue sijoittuu? • Informaatiojärjestelmien erikoistumislinja • hyödynnetään tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä
Kieliteknologian opiskelu • HY: oppiaine kieliteknologia (yleisen kielitieteen laitos, humanistinen tdk) • TKTL:n opiskelijat voivat opiskella vapaasti • valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 • opetusta on lisätty myös TKTL:llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi (mm. verkkokurssit)
HY/Kieliteknologian kursseja • Perusopinnot, mm. • Yleisen kielitieteen peruskurssi (aloita tästä!) • Kieliteknologian johdantokurssi • Automaattinen fonologinen ja morfologinen analyysi • Automaattinen syntaktinen analyysi • Tekstikorpusten tietojenkäsittely • Tietokoneavusteinen kääntäminen
KIT-verkosto • Kieliteknologian opetuksen verkosto • mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta • mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia
TKT:n opiskelijoille... • TKTL kuuluu KIT-verkostoon • TKTL:n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja • kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa (-> sivuaine)
TKTL:n tarjonta • XML-metakieli • Laajojen dokumenttiaineistojen käsittely • Rakenteisten dokumenttien käsittely • Tiedonhakumenetelmät • Tiedon eristäminen tekstistä • Sanojen merkitykset • Tekstiaineistojen tilastosuureita
Lisätietoja • Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL:llä) • http://www.cs.helsinki.fi/u/hahonen/ktekno/ • http://www.ling.helsinki.fi/kit/ • opinto-opas