480 likes | 623 Views
Kieliteknologia. Helena Ahonen-Myka 21.10.2002. Sisällys. Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL:llä Kieliteknologian opiskelu. Mitä on kieliteknologia?.
E N D
Kieliteknologia Helena Ahonen-Myka 21.10.2002
Sisällys • Mitä on kieliteknologia? • Kielitieteen osa-alueita • Kieliteknologiaan liittyvää tutkimusta TKTL:llä • Kieliteknologian opiskelu
Mitä on kieliteknologia? • Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.
Kieliteknologian sovelluksia • luonnollisen kielen käyttö käyttöliittymissä • puheentunnistus ja puhesynteesi • tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen • kielenkääntämisen tuki • teknologia-avusteinen kielenoppiminen • kirjoittajan apuvälineet
Kielitieteen osa-alueita • fonetiikka • fonologia • morfologia • syntaksi • semantiikka • pragmatiikka
Fonetiikka • tutkitaan puheen tuottamista ja havaitsemista • perusyksikkö: äänne (fooni) • kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen • esim. käyttöliittymissä • HY: fonetiikan laitos
Fonologia • äänneaineksen selvittäminen kielen rakenteen kannalta • perusyksikkö: foneemi • esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään • toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava,...
Morfologia • ”sanojen” sisäinen rakenne • sanan osalla jokin merkitys tai kieliopillinen tehtävä • perusyksikkö: morfeemi • vapaat morfeemit (kirja, punainen,…) • taivutusmorfeemit • sija-, luku-, persoona-, aikamuoto-,... päätteet • johdinmorfeemit • rakenteelliset (-minen: verbi->substantiivi) • merkitystä modifioivat (näyttä+mö, teurasta+ja)
Morfologia • automaattinen morfologinen analyysi • morfeemien tunnistaminen ja tulkinta • sanaluokkien määrittely • perusmuotoon palautus • taivutusmuotojen/sananvartaloiden generointi • analyysin tulos esim. rikoslain rikoslaki N Gen Sg • ongelma: moniselitteisyys • esim. ’alusta’ (alku, alustaa, alus, …)
Morfologia • Etsi kaikki dokumentit, joissa esiintyy sana • ’vesi’ • ”Monet kalat viihtyvät kylmässä vedessä.” • ’cat’ (tai ’cat*’) • ”Cats don’t like dogs.”
Syntaksi • ~lauseenjäsennys • lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti,...) • syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä • ”Alusta oli vakaa.”
Semantiikka • merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin • mm. miten lauseiden merkitys kootaan sanojen merkityksestä • automaattisessa kielen käsittelyssä käytettävissä mm. • tesaurukset: synonyymit, ala- ja yläkäsitteet, … • ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet
Pragmatiikka • kielen käytön säännöt • puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista • ”Violetit ideat nukkuvat rajusti.” • vertaa: • ”Onks sulla tulta?” • ”Onks sulla auto?” • ”Onks sulla oma asunto?”
Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen Reeta Kuuskoski Antoine Doucet Martin Fluch Andrei Popescu Renaud Petit Otso Virtanen TKTL:n tutkimusta: DOREMI-ryhmä
TKTL:n tutkimusta: TYTTI • TYTTI - Tietotyöläisen työasema • tiedonhaun tuki, esim. uutistapahtuman seuraaminen • rahoitus: • TEKES, Alma Media, WSOY, Vaisala, Nokia Networks, Lingsoft
Tietovirtojen suodattaminen • Sama informaatio tulee monesta lähteestä (esim. sanomalehdelle 30 uutistoimistosta) • vanhaa informaatiota toistetaan useaan kertaan ajan kuluessa (esim. onnettomuuden perustiedot)
Tietovirtojen suodattaminen • Tavoite: ohjelmisto, jonka avulla käyttäjä voi helposti seurata haluamaansa aihetta • päällekkäisen informaation määrä minimoidaan: ensimmäinen uutinen näytetään kokonaan, seuraavista vain eroavat osat
Esimerkki • ”Käsiaseella myyjää uhannut pipomies ryösti Valintatalon sulkemisaikaan kello 21 Meripihkantiellä Helsingin Pihlajamäessä torstai-iltana.”
Tutkimusongelmia • dokumentin aihepiiri täytyy määritellä • täytyy määritellä, kuvaako dokumentti jotain uutta aihetta/tapahtumaa, vai täytyykö tutkia sen suhdetta aikaisempiin dokumentteihin • jos dokumentti ei kuvaa uutta tapahtumaa, on löydettävä aikaisemmat tapahtumaan liittyvät dokumentit
Tutkimusongelmia • eristetään nimiä, paikan ja ajan ilmauksia, teknisiä termejä yms. kuvaajiksi • kuvaaja: joukko nimiä + joukko paikan ilmauksia + joukko ajan ilmauksia + muita ”tärkeitä” sanoja • verrataan uuden dokumentin kuvaajaa vanhoihin • esim. paljonko kahdessa dokumentissa on yhteisiä paikannimiä/erisnimiä? Ovatko dokumenttien kuvaamat aikajaksot päällekkäisiä? • on keksittävä joku tapa mitata samanlaisuutta
Kieliteknologia-apuvälineitä • Apuvälineitä kieliteknologiasta: sanojen perusmuotoon palautus, sanaluokkatieto, erisnimien ja termien eristäminen • voidaan käyttää tekstin esikäsittelyssä, ennen kuin poimitaan sanoja dokumenttien kuvaajiin
TKTL:n tutkimusta: APPA • Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten • rahoitus: • Sonera
Kysymyksiin vastaava järjestelmä • Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: • Paljonko kaasu maksaa ensi vuonna? • Mitä kaasuliesiä teillä on myynnissä? • Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? • Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?
Kysymyksiin vastaava järjestelmä • Asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä • samanlaiset kysymykset toistuvat • kysymyksiin pitäisi vastata nopeasti • Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? • ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)
Tutkimusongelmia • Kysymysten analysointi • eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, ... • lauseita voidaan jäsentää merkityksen selvittämiseksi • ongelma: teksti usein puhekielistä ja ”virheellistä”
Tutkimusongelmia • Vastauksen löytäminen • kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) • valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys • samanlaisuus täytyy määritellä!
Tutkimusongelmia • Vastauksen koostaminen • vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten • lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) • vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan
TKTL:n tutkimusta: Tekstin louhinta • Yleisten fraasien etsiminen tekstistä • rahoitus: Suomen Akatemia • yhteistyötä Caenin yliopiston kanssa (Ranska)
Yleisten fraasien etsintä • Etsitään kaikki sellaiset sanajonot (eli fraasit), jotka esiintyvät vähintään k kertaa tekstissä (esim. vähintään 10 kertaa) • etsitään vain maksimaalisen pitkät • sanojen välissä tekstissä voi esiintyä muutama muu sana • fraasit voivat olla miten pitkiä tahansa
Esimerkki fraaseista • Dokumenteista löytyvät pätkät: • … Suomen pääministeri Paavo Lipponen tapasi Tukholmassa... • … pääministeri Lipponen keskusteli Tukholmassa … • näistä tekstipätkistä löydettäisiin fraasi ‘pääministeri Lipponen Tukholmassa’
Helsingin yliopiston rehtori Kari Raivio • Helsingin yliopiston • Helsingin rehtori • Helsingin Kari • yliopiston rehtori • yliopiston Kari • rehtori Raivio • yliopiston rehtori Raivio • Helsingin Kari Raivio...
Sovellusmahdollisuuksia • Fraasit dokumenttien kuvaajina • edellä: dokumentin kuvaajana on käytetty joukkoa dokumentin sanoja tms. • joukkoon voitaisiin lisätä fraaseja • Asteittain tarkentuva tiedonhaku • Kielen rakenteiden tutkimus
Asteittain tarkentuva tiedonhaku • Ongelma: ihmiset haluavat tehdä lyhyitä ja yksinkertaisia kyselyjä (1-2 sanaa) • tuloksena voi olla paljon merkityksettömiä dokumentteja • ongelma varsinkin pienillä näytöillä • ratkaisu: tarjotaan välitasoja
Välitasoja • fraaseja • lauseita • tekstikappaleita • tiivistelmiä
Agricultur* • agricultural exports • agricultural products • agricultural subsidies • u.s. agriculture • european community agriculture • ...
Lause/tekstikappale • Paye stressed the need for a progressive and joint reduction of agricultural subsidies as well as social measures to help farmers in unprofitable areas.
Kielen rakenteiden tutkimus: sanan ympäristö • … that things weren’t right between us • Is that the right time? • Stay right here. • They had the right to strike.
Kielen rakenteiden tutkimus: sanan ympäristö • They had the right to strike. • <they, Pronoun, plural, 3> • <had, Verb, imperfect, singular, 3> • <the, Determiner> • <right, Noun, singular> • <to, Preposition> • <strike, Verb, infinitive>
Kielen rakenteiden tutkimus: yleistys • be right between ’Pronoun’ • the right ’Noun’ • ’Verb’ right here • the right to ’Verb’ • hahmo yleistää tapauksia: the right to strike, the right to vote,… • Tätä ei vielä (oikein) osata tehdä!
Miten tutkimusta tehdään? • Tutkimusongelma löytyy usein jostakin käytännön ongelmasta • käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi • haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja • samalla löytyy myös uusia teoreettisia ongelmia • rakennetaan prototyyppejä • testataan todellisilla dokumenttikokoelmilla
Mihin tämä tutkimusalue sijoittuu? • Informaatiojärjestelmien erikoistumislinja • hyödynnetään tietokantateoriaa, tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä
Mitä tarvitaan? • algoritmeja • perustietorakenteet, esim. puut ja niiden läpikäyntialgoritmit • äärelliset automaatit, säännölliset lausekkeet, kieliopit • tilastotieteen/todennäköisyyslaskennan perusteet
Kieliteknologian opiskelu • HY: oppiaine kieliteknologia (yleisen kielitieteen laitos) • valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 • opetusta on lisätty myös TKTL:llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi
KIT-verkosto • Kieliteknologian opetuksen verkosto • mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta • mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia
Kieliteknologian kursseja • Perusopinnot, mm. • Yleisen kielitieteen peruskurssi (aloita tästä!) • Kieliteknologian johdantokurssi • Automaattinen fonologinen ja morfologinen analyysi • Automaattinen syntaktinen analyysi • Tekstikorpusten tietojenkäsittely • Tietokoneavusteinen kääntäminen
TKT:n opiskelijoille... • TKTL kuuluu KIT-verkostoon • TKTL:n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja • kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa (-> sivuaine)
TKTL:n tarjonta • XML-metakieli • Laajojen dokumenttiaineistojen käsittely • Rakenteisten dokumenttien käsittely • Tiedonhakumenetelmät • Tiedon eristäminen tekstistä • Tietämyksen muodostaminen • Sanojen distributionaalinen samanlaisuus • Tekstiaineistojen tilastosuureita
Lisätietoja • Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL:llä) • http://www.cs.helsinki.fi/u/hahonen/ktekno/ • http://www.ling.helsinki.fi/kieliteknologia/verkosto/ • opinto-opas