1 / 34

Kieliteknologia

Kieliteknologia. Helena Ahonen-Myka 26.9.2003. Sisällys. Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL:llä Kieliteknologian opiskelu. Mitä on kieliteknologia?.

ankti
Download Presentation

Kieliteknologia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kieliteknologia Helena Ahonen-Myka 26.9.2003

  2. Sisällys • Mitä on kieliteknologia? • Kielitieteen osa-alueita • Kieliteknologiaan liittyvää tutkimusta TKTL:llä • Kieliteknologian opiskelu

  3. Mitä on kieliteknologia? • Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.

  4. Kieliteknologian sovelluksia • luonnollisen kielen käyttö käyttöliittymissä • puheentunnistus ja puhesynteesi • tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen • kielenkääntämisen tuki • teknologia-avusteinen kielenoppiminen • kirjoittajan apuvälineet

  5. Kielitieteen osa-alueita • fonetiikka • fonologia • morfologia • syntaksi • semantiikka • pragmatiikka

  6. Fonetiikka • tutkitaan puheen tuottamista ja havaitsemista • perusyksikkö: äänne (fooni) • kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen • esim. käyttöliittymissä

  7. Fonologia • äänneaineksen selvittäminen kielen rakenteen kannalta • perusyksikkö: foneemi • esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään • toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava,...

  8. Morfologia • ”sanojen” sisäinen rakenne • sanan osalla jokin merkitys tai kieliopillinen tehtävä • perusyksikkö: morfeemi • vapaat morfeemit (kirja, punainen,…) • taivutusmorfeemit • sija-, luku-, persoona-, aikamuoto-,... päätteet • johdinmorfeemit • rakenteelliset (-minen: verbi->substantiivi) • merkitystä modifioivat (näyttä+mö, teurasta+ja)

  9. Morfologia • automaattinen morfologinen analyysi • morfeemien tunnistaminen ja tulkinta • sanaluokkien määrittely • perusmuotoon palautus • taivutusmuotojen/sananvartaloiden generointi • analyysin tulos esim. rikoslain rikoslaki N Gen Sg • ongelma: moniselitteisyys • esim. ’alusta’ (alku, alustaa, alus, …)

  10. Morfologia • Etsi kaikki dokumentit, joissa esiintyy sana • ’vesi’ • ”Monet kalat viihtyvät kylmässä vedessä.” • ’cat’ (tai ’cat*’) • ”Cats don’t like dogs.”

  11. Syntaksi • ~lauseenjäsennys • lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti,...) • syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä • ”Alusta oli vakaa.”

  12. Semantiikka • merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin • mm. miten lauseiden merkitys kootaan sanojen merkityksestä • automaattisessa kielen käsittelyssä käytettävissä mm. • tesaurukset: synonyymit, ala- ja yläkäsitteet, … • ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet

  13. Pragmatiikka • kielen käytön säännöt • puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista • ”Violetit ideat nukkuvat rajusti.” • vertaa: • ”Onks sulla tulta?” • ”Onks sulla auto?” • ”Onks sulla oma asunto?”

  14. Automatisoinnin taso tällä hetkellä • fonetiikka • puheentunnistus ja puheentuottaminen edelleen vaikeita • morfologia • varsin luotettavaa ja nopeaa • syntaksi • edelleen vaikeaa, myös hidasta • semantiikka, pragmatiikka • lähinnä vain rajatussa tehtävässä, johon on tehty käsin riittäviä kuvauksia

  15. Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen Reeta Kuuskoski Antoine Doucet Kai Hendry TKTL:n tutkimusta: DOREMI-ryhmä

  16. TKTL:n tutkimusta: APPA • Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten • rahoitus: • yritysrahoitus

  17. Kysymyksiin vastaava järjestelmä • Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: • Paljonko kaasu maksaa ensi vuonna? • Mitä kaasuliesiä teillä on myynnissä? • Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? • Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?

  18. Kysymyksiin vastaava järjestelmä • asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä • samanlaiset kysymykset toistuvat • kysymyksiin pitäisi vastata nopeasti • Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? • ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)

  19. Tutkimusongelmia • Kysymysten analysointi • eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, ... • lauseita voidaan jäsentää merkityksen selvittämiseksi • ongelma: teksti usein puhekielistä ja ”virheellistä”

  20. Tutkimusongelmia • Vastauksen löytäminen • kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) • valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys • samanlaisuus täytyy määritellä!

  21. Tutkimusongelmia • Vastauksen koostaminen • vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten • lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) • vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan

  22. Kieliteknologia-apuvälineitä • sanojen perusmuotoon palautus • sanaluokkien selvittäminen • esim. kysymystekstistä tarkastellaan vain substantiiveja ja verbejä • erisnimien ja termien eristäminen • lauseenjäsennys • missä roolissa sanat esiintyvät?

  23. TKTL:n tutkimusta: 4M • 4M = Mobile and Multilingual Maintenance Man • huoltomiehen tukijärjestelmä • yhteistyöprojekti: • HY/TKTL, HY/kieliteknologia, HY/käännöstiede, TKK/käytettävyysryhmä, TKK/tietämystekniikka, TKK/TAI-tutkimuslaitos, VTT Tietotekniikka • rahoitus: • Teknologian kehittämiskeskus (TEKES), Nokia, Fujitsu Invia, Pasanet/Lingsoft

  24. Huoltomiehen tukijärjestelmä • tilanne: huoltomies saapuu korjaamaan laitetta • huoltomiehellä on pieni päätelaite, jolta hän voi kysellä ohjeita • huoltomies korjaa laitteen ohjeiden perusteella ja raportoi laitteen avulla (esim. sanelemalla), missä vika oli ja miten se korjaantui

  25. Huoltomiehen tukijärjestelmä • päätelaitteen ohjelma yrittää keskustella huoltomiehen kanssa mahdollisimman luontevasti ja ystävällisesti • vastaukset tuotetaan monentyyppisen tiedon perusteella • tietämys laitteen rakenteesta, tyypillisistä ongelmista ja siitä, miten eri tavoin laitetta voi korjata • huoltomiesten aikaisemmat kokemukset vastaavista korjaustilanteista • laitteistokäsikirjat

  26. Kieliteknologia-apuvälineitä • tekstin analyysivälineet, kuten edellä • huoltomiehen kysymysten tulkitseminen • tietämyksen kerääminen huoltomiehen raportista • tietämyksen kerääminen mm. laitteistokäsikirjoista • keskustelunhallinta • puheentunnistus ja –tuottaminen • ontologiat • semantiikka ja pragmatiikka

  27. Miten tutkimusta tehdään? • Tutkimusongelma löytyy usein jostakin käytännön ongelmasta • käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi • haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja • samalla löytyy myös uusia teoreettisia ongelmia • rakennetaan prototyyppejä • testataan todellisilla dokumenttikokoelmilla

  28. Mihin tämä tutkimusalue sijoittuu? • Informaatiojärjestelmien erikoistumislinja • hyödynnetään tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä

  29. Kieliteknologian opiskelu • HY: oppiaine kieliteknologia (yleisen kielitieteen laitos, humanistinen tdk) • TKTL:n opiskelijat voivat opiskella vapaasti • valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 • opetusta on lisätty myös TKTL:llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi (mm. verkkokurssit)

  30. HY/Kieliteknologian kursseja • Perusopinnot, mm. • Yleisen kielitieteen peruskurssi (aloita tästä!) • Kieliteknologian johdantokurssi • Automaattinen fonologinen ja morfologinen analyysi • Automaattinen syntaktinen analyysi • Tekstikorpusten tietojenkäsittely • Tietokoneavusteinen kääntäminen

  31. KIT-verkosto • Kieliteknologian opetuksen verkosto • mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta • mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia

  32. TKT:n opiskelijoille... • TKTL kuuluu KIT-verkostoon • TKTL:n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja • kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa (-> sivuaine)

  33. TKTL:n tarjonta • XML-metakieli • Laajojen dokumenttiaineistojen käsittely • Rakenteisten dokumenttien käsittely • Tiedonhakumenetelmät • Tiedon eristäminen tekstistä • Sanojen merkitykset • Tekstiaineistojen tilastosuureita

  34. Lisätietoja • Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL:llä) • http://www.cs.helsinki.fi/u/hahonen/ktekno/ • http://www.ling.helsinki.fi/kit/ • opinto-opas

More Related