1 / 48

Kieliteknologia

Kieliteknologia. Helena Ahonen-Myka 21.10.2002. Sisällys. Mitä on kieliteknologia? Kielitieteen osa-alueita Kieliteknologiaan liittyvää tutkimusta TKTL:llä Kieliteknologian opiskelu. Mitä on kieliteknologia?.

yank
Download Presentation

Kieliteknologia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kieliteknologia Helena Ahonen-Myka 21.10.2002

  2. Sisällys • Mitä on kieliteknologia? • Kielitieteen osa-alueita • Kieliteknologiaan liittyvää tutkimusta TKTL:llä • Kieliteknologian opiskelu

  3. Mitä on kieliteknologia? • Kieliteknologia tutkii, kehittää ja soveltaa menetelmiä luonnollisen kielen käsittelyä varten.

  4. Kieliteknologian sovelluksia • luonnollisen kielen käyttö käyttöliittymissä • puheentunnistus ja puhesynteesi • tekstimuotoisen tiedon hallinta, tiedonhaku, tiivistelmien tuottaminen • kielenkääntämisen tuki • teknologia-avusteinen kielenoppiminen • kirjoittajan apuvälineet

  5. Kielitieteen osa-alueita • fonetiikka • fonologia • morfologia • syntaksi • semantiikka • pragmatiikka

  6. Fonetiikka • tutkitaan puheen tuottamista ja havaitsemista • perusyksikkö: äänne (fooni) • kieliteknologiasovellukset: automaattinen puheentunnistus ja tuottaminen • esim. käyttöliittymissä • HY: fonetiikan laitos

  7. Fonologia • äänneaineksen selvittäminen kielen rakenteen kannalta • perusyksikkö: foneemi • esim. [p l s m j] ovat eri foneemeja suomenkielessä, koska puu - luu - suu - muu - juu eroavat merkitykseltään • toisaalta erilaiset r-äänteet ovat saman foneemin muunnelmia: Ranska, harava,...

  8. Morfologia • ”sanojen” sisäinen rakenne • sanan osalla jokin merkitys tai kieliopillinen tehtävä • perusyksikkö: morfeemi • vapaat morfeemit (kirja, punainen,…) • taivutusmorfeemit • sija-, luku-, persoona-, aikamuoto-,... päätteet • johdinmorfeemit • rakenteelliset (-minen: verbi->substantiivi) • merkitystä modifioivat (näyttä+mö, teurasta+ja)

  9. Morfologia • automaattinen morfologinen analyysi • morfeemien tunnistaminen ja tulkinta • sanaluokkien määrittely • perusmuotoon palautus • taivutusmuotojen/sananvartaloiden generointi • analyysin tulos esim. rikoslain rikoslaki N Gen Sg • ongelma: moniselitteisyys • esim. ’alusta’ (alku, alustaa, alus, …)

  10. Morfologia • Etsi kaikki dokumentit, joissa esiintyy sana • ’vesi’ • ”Monet kalat viihtyvät kylmässä vedessä.” • ’cat’ (tai ’cat*’) • ”Cats don’t like dogs.”

  11. Syntaksi • ~lauseenjäsennys • lauseiden rakenneosat, niiden suhteet ja roolit (subjekti, objekti,...) • syntaksi voi ratkaista moniselitteisyyksiä morfologisessa analyysissä • ”Alusta oli vakaa.”

  12. Semantiikka • merkitysten ja niiden rakenteiden tutkimus kielellisistä lähtökohdista käsin • mm. miten lauseiden merkitys kootaan sanojen merkityksestä • automaattisessa kielen käsittelyssä käytettävissä mm. • tesaurukset: synonyymit, ala- ja yläkäsitteet, … • ontologiat: käsitehierarkiat/verkot, ”maailman mallit”, käsitteiden erilaiset suhteet

  13. Pragmatiikka • kielen käytön säännöt • puhujien käytännön tieto maailmasta ja siitä, mikä on mahdollista • ”Violetit ideat nukkuvat rajusti.” • vertaa: • ”Onks sulla tulta?” • ”Onks sulla auto?” • ”Onks sulla oma asunto?”

  14. Helena Ahonen-Myka Greger Lindén Marko Salmenkivi Oskari Heinonen Juha Makkonen Jussi Piitulainen Kaisa Kostiainen Lili Aunimo Miro Lehtonen Reeta Kuuskoski Antoine Doucet Martin Fluch Andrei Popescu Renaud Petit Otso Virtanen TKTL:n tutkimusta: DOREMI-ryhmä

  15. TKTL:n tutkimusta: TYTTI • TYTTI - Tietotyöläisen työasema • tiedonhaun tuki, esim. uutistapahtuman seuraaminen • rahoitus: • TEKES, Alma Media, WSOY, Vaisala, Nokia Networks, Lingsoft

  16. Tietovirtojen suodattaminen • Sama informaatio tulee monesta lähteestä (esim. sanomalehdelle 30 uutistoimistosta) • vanhaa informaatiota toistetaan useaan kertaan ajan kuluessa (esim. onnettomuuden perustiedot)

  17. Tietovirtojen suodattaminen • Tavoite: ohjelmisto, jonka avulla käyttäjä voi helposti seurata haluamaansa aihetta • päällekkäisen informaation määrä minimoidaan: ensimmäinen uutinen näytetään kokonaan, seuraavista vain eroavat osat

  18. Esimerkki • ”Käsiaseella myyjää uhannut pipomies ryösti Valintatalon sulkemisaikaan kello 21 Meripihkantiellä Helsingin Pihlajamäessä torstai-iltana.”

  19. Tutkimusongelmia • dokumentin aihepiiri täytyy määritellä • täytyy määritellä, kuvaako dokumentti jotain uutta aihetta/tapahtumaa, vai täytyykö tutkia sen suhdetta aikaisempiin dokumentteihin • jos dokumentti ei kuvaa uutta tapahtumaa, on löydettävä aikaisemmat tapahtumaan liittyvät dokumentit

  20. Tutkimusongelmia • eristetään nimiä, paikan ja ajan ilmauksia, teknisiä termejä yms. kuvaajiksi • kuvaaja: joukko nimiä + joukko paikan ilmauksia + joukko ajan ilmauksia + muita ”tärkeitä” sanoja • verrataan uuden dokumentin kuvaajaa vanhoihin • esim. paljonko kahdessa dokumentissa on yhteisiä paikannimiä/erisnimiä? Ovatko dokumenttien kuvaamat aikajaksot päällekkäisiä? • on keksittävä joku tapa mitata samanlaisuutta

  21. Kieliteknologia-apuvälineitä • Apuvälineitä kieliteknologiasta: sanojen perusmuotoon palautus, sanaluokkatieto, erisnimien ja termien eristäminen • voidaan käyttää tekstin esikäsittelyssä, ennen kuin poimitaan sanoja dokumenttien kuvaajiin

  22. TKTL:n tutkimusta: APPA • Kysymyksiin vastaava järjestelmä esim. asiakaspalvelua varten • rahoitus: • Sonera

  23. Kysymyksiin vastaava järjestelmä • Kaasulaitoksen asiakaspalveluun tulee kysymyksiä: • Paljonko kaasu maksaa ensi vuonna? • Mitä kaasuliesiä teillä on myynnissä? • Minulla on ABC Super –kaasuliesi, joka on alkanut pitää omituista ääntä. Pitääkö sitä huoltaa? • Olen lähdössä matkoille puoleksi vuodeksi. Miten voin keskeyttää sopimukseni siksi aikaa?

  24. Kysymyksiin vastaava järjestelmä • Asiakkailta tulee paljon kysymyksiä, sähköpostina ja tekstiviesteinä • samanlaiset kysymykset toistuvat • kysymyksiin pitäisi vastata nopeasti • Voisiko vanhoja kysymyksiä ja vastauksia hyödyntää? • ratkaisu: kysymyksiin vastaava järjestelmä (asiantuntijan tueksi)

  25. Tutkimusongelmia • Kysymysten analysointi • eristetään informaatiota kysymyksestä: kysymyssana, erisnimet (ihmisten, yritysten, tuotteiden), ajan ja paikan ilmauksia, muita tärkeitä termejä, ... • lauseita voidaan jäsentää merkityksen selvittämiseksi • ongelma: teksti usein puhekielistä ja ”virheellistä”

  26. Tutkimusongelmia • Vastauksen löytäminen • kysymykset luokitellaan aiheen mukaisiin kategorioihin (eristetyn informaation perusteella) • valitaan talletetuista kysymys-vastaus -pareista ne, jotka ovat annetussa kategoriassa kaikkein samanlaisimpia kuin ko. uusi kysymys • samanlaisuus täytyy määritellä!

  27. Tutkimusongelmia • Vastauksen koostaminen • vastausehdokkaat näytetään asiakaspalveluhenkilölle tarkastusta varten • lopullinen vastaus muodostetaan valitusta vastauksesta ja mahdollisista kiinteistä osista (esim. tervehdykset, yhteystiedot, päiväys) • vastaus lähetetään asiakkaalle; kysymys ja vastaus talletetaan

  28. TKTL:n tutkimusta: Tekstin louhinta • Yleisten fraasien etsiminen tekstistä • rahoitus: Suomen Akatemia • yhteistyötä Caenin yliopiston kanssa (Ranska)

  29. Yleisten fraasien etsintä • Etsitään kaikki sellaiset sanajonot (eli fraasit), jotka esiintyvät vähintään k kertaa tekstissä (esim. vähintään 10 kertaa) • etsitään vain maksimaalisen pitkät • sanojen välissä tekstissä voi esiintyä muutama muu sana • fraasit voivat olla miten pitkiä tahansa

  30. Esimerkki fraaseista • Dokumenteista löytyvät pätkät: • … Suomen pääministeri Paavo Lipponen tapasi Tukholmassa... • … pääministeri Lipponen keskusteli Tukholmassa … • näistä tekstipätkistä löydettäisiin fraasi ‘pääministeri Lipponen Tukholmassa’

  31. Helsingin yliopiston rehtori Kari Raivio • Helsingin yliopiston • Helsingin rehtori • Helsingin Kari • yliopiston rehtori • yliopiston Kari • rehtori Raivio • yliopiston rehtori Raivio • Helsingin Kari Raivio...

  32. Sovellusmahdollisuuksia • Fraasit dokumenttien kuvaajina • edellä: dokumentin kuvaajana on käytetty joukkoa dokumentin sanoja tms. • joukkoon voitaisiin lisätä fraaseja • Asteittain tarkentuva tiedonhaku • Kielen rakenteiden tutkimus

  33. Asteittain tarkentuva tiedonhaku • Ongelma: ihmiset haluavat tehdä lyhyitä ja yksinkertaisia kyselyjä (1-2 sanaa) • tuloksena voi olla paljon merkityksettömiä dokumentteja • ongelma varsinkin pienillä näytöillä • ratkaisu: tarjotaan välitasoja

  34. Välitasoja • fraaseja • lauseita • tekstikappaleita • tiivistelmiä

  35. Agricultur* • agricultural exports • agricultural products • agricultural subsidies • u.s. agriculture • european community agriculture • ...

  36. Lause/tekstikappale • Paye stressed the need for a progressive and joint reduction of agricultural subsidies as well as social measures to help farmers in unprofitable areas.

  37. Kielen rakenteiden tutkimus: sanan ympäristö • … that things weren’t right between us • Is that the right time? • Stay right here. • They had the right to strike.

  38. Kielen rakenteiden tutkimus: sanan ympäristö • They had the right to strike. • <they, Pronoun, plural, 3> • <had, Verb, imperfect, singular, 3> • <the, Determiner> • <right, Noun, singular> • <to, Preposition> • <strike, Verb, infinitive>

  39. Kielen rakenteiden tutkimus: yleistys • be right between ’Pronoun’ • the right ’Noun’ • ’Verb’ right here • the right to ’Verb’ • hahmo yleistää tapauksia: the right to strike, the right to vote,… • Tätä ei vielä (oikein) osata tehdä!

  40. Miten tutkimusta tehdään? • Tutkimusongelma löytyy usein jostakin käytännön ongelmasta • käytännön ongelma jaetaan useiksi teoreettisiksi ongelmiksi • haetaan perusmenetelmiä eri aloilta pohjaksi ja kehitetään ratkaisuja • samalla löytyy myös uusia teoreettisia ongelmia • rakennetaan prototyyppejä • testataan todellisilla dokumenttikokoelmilla

  41. Mihin tämä tutkimusalue sijoittuu? • Informaatiojärjestelmien erikoistumislinja • hyödynnetään tietokantateoriaa, tekoälymenetelmiä (mm. koneoppiminen), tiedon louhintaa ja analyysiä, tiedonhakumenetelmiä, merkkijonomenetelmiä, kielitiedettä, tilastotiedettä

  42. Mitä tarvitaan? • algoritmeja • perustietorakenteet, esim. puut ja niiden läpikäyntialgoritmit • äärelliset automaatit, säännölliset lausekkeet, kieliopit • tilastotieteen/todennäköisyyslaskennan perusteet

  43. Kieliteknologian opiskelu • HY: oppiaine kieliteknologia (yleisen kielitieteen laitos) • valtakunnallinen Kieliteknologian opetuksen verkosto (KIT-verkosto) alkanut v. 2001 • opetusta on lisätty myös TKTL:llä ja muuhun verkoston opetukseen osallistuminen yritetään tehdä helpoksi

  44. KIT-verkosto • Kieliteknologian opetuksen verkosto • mukana yli 20 laitosta 10 yliopistosta ja korkeakoulusta • mm. kielitiede, fonetiikka, tietojenkäsittelytiede (yliopistot ja teknillisen korkeakoulut), informaatiotutkimus, käännöstiede, kielenopetus/oppiminen, psykologia

  45. Kieliteknologian kursseja • Perusopinnot, mm. • Yleisen kielitieteen peruskurssi (aloita tästä!) • Kieliteknologian johdantokurssi • Automaattinen fonologinen ja morfologinen analyysi • Automaattinen syntaktinen analyysi • Tekstikorpusten tietojenkäsittely • Tietokoneavusteinen kääntäminen

  46. TKT:n opiskelijoille... • TKTL kuuluu KIT-verkostoon • TKTL:n opiskelijat voivat ”hakea” verkostoon ja suorittaa kaikkia verkoston kursseja • kokonaisia arvosanoja voi suorittaa kieliteknologia-oppiaineessa (-> sivuaine)

  47. TKTL:n tarjonta • XML-metakieli • Laajojen dokumenttiaineistojen käsittely • Rakenteisten dokumenttien käsittely • Tiedonhakumenetelmät • Tiedon eristäminen tekstistä • Tietämyksen muodostaminen • Sanojen distributionaalinen samanlaisuus • Tekstiaineistojen tilastosuureita

  48. Lisätietoja • Helena Ahonen-Myka (KIT-vastuuhenkilö TKTL:llä) • http://www.cs.helsinki.fi/u/hahonen/ktekno/ • http://www.ling.helsinki.fi/kieliteknologia/verkosto/ • opinto-opas

More Related