310 likes | 457 Views
Puheteknologian tutkimus Joensuussa. Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto. 8.1.2003. Joensuun yliopisto. Perustettu 1969 2 kampusta: Joensuu, Savonlinna 6 tiedekuntaa, 9 muuta yksikköä Yhteensä 7200 opiskelijaa. Tietojenkäsittelytiede.
E N D
Puheteknologian tutkimus Joensuussa Pasi Fränti Tietojenkäsittelytieteen laitos Joensuun yliopisto 8.1.2003
Joensuun yliopisto • Perustettu 1969 • 2 kampusta: Joensuu, Savonlinna • 6 tiedekuntaa, 9 muuta yksikköä • Yhteensä 7200 opiskelijaa
Tietojenkäsittelytiede • 5 professoria, kokonaishenkilöstö 90-100 • 29 FM-tutkintoa (v. 2002) • 3-5 Väitöskirjaa (2004--) • 80 uutta perusopiskelijaa ja 20 kansainvälistä maisteriopiskelijaa. • Ohjelmistosuunnittelijoiksi, erikoisalojen asiantuntijoiksi, tietotekniikan kouluttajiksi.
Päätutkimusalat • Ohjelmistotuotanto • Opetusteknologia • Signaalinkäsittely • Spektrikuvat (InFotonics Center) • Hahmontunnistus • Kuva-analyysi • Data Mining • Puheteknologia
Puheteknologian tutkimus • Joensuussa yleisen kielitieteen ja tietojenkäsittelytieteen yhteistyötä • Kielitiede: perustutkimusta, fonetiikka, prosodia, synteesi, puhujantunnistus • TKT: puhetekniikan menetelmät • Hahmontunnistusmenetelmät • Datafuusio • Automaattinen tunnistus, reaaliaikaisuus • TKT:lla osaamista myös suomenkielisessä puheentunnistuksessa
Historia • SUOPUHE-projekti • Kielitiede mukana • Tulos: laadukas suomen puhesynteesi • TKT:lla yllättäviä tuloksia: • puhujantunnistus onnistuu automaattisilla menetelmillä, ilman lingvistiikkaa • Useita graduja: Kinnunen (’99), Kilpeläinen (’02), Karpov (’03), Pulkrabek (’03). • Väitöskirjatason tutkimusta: Kinnunen ja Karpov sekä muita sivuavista aiheista.
Mistä puhe koostuu? • Sisältö: puhujan tarkoittama viesti • Puhujan ominaisuudet: ääntöväylä, puhetapa • Siirtoväylä: Puheympäristön akustiikka, sähköiset laitteet • Aikariippuvat puhujaparametrit: tunnetila, terveydentila • Kieli, murre
Mitä on puhetekniikka? • Puhesynteesi • Puheentunnistus • Puhujantunnistus • Puhujan tunnetilan tunnistus • Sovellukset • sähköpostinlukijat, puheohjaus, henkilövarmennus, rikostutkinta, näkö- ja kuulovammaisten palvelut
Puhesignaalin analyysi • Yleisesti käytetty menetelmä: • digitaalisesta puhesignaalivirrasta lasketaan jatkuvasti lokaaleja spektrejä • spektrien käyttö riippuu sovelluksesta • usein spektriä jalostetaan edelleen helpommin numeerisesti analysoitavaksi • Muitakin menetelmiä on: • suodatus ja analyysi aika-alueessa • perustaajuuden ja formanttien mallintaminen
Puhujantunnistus • Mallinnetaan puhujan ominaisuudet • signaalista etsitään ja mallinnetaan puhujia erottelevia ominaisuuksia • muut ominaisuudet sivuseikka • Mallin avulla päätellään kuka puhui • puhujantunnistus • puhujanvarmennus • Opetusaineisto: puhenäytteitä puhujilta joita halutaan tunnistaa
Piirreirrotus Mallin luonti Piirreirrotus Hahmontunnistus ? Päätöslogiikka Puhujantunnistus: pääpiirteet ... Puhuja N Puhujatietokanta Puhuja 1 Opetus Tunnistustulos / Varmennustulos Tunnistus
Esimerkki: Spektrit “Puhetietokanta” Tunnistus: kuka puhuu tässä?
Signaalivirran käsittely Kehys 2 Kehys 1 Kehys 3 Kehys i ... ... Päällekkäisyys Ikkunafunkio Spektrianalyysi Kehyksen pituus Piirrevektori xi Piirreirrotus
Esimerkki piirrejoukkoista Vektorikvantisointi (VQ) Gaussin mikstuura (GMM)
Puhujan no. 1 piirrevektorit tunnistettava puhuja Puhujan no. 3 piirrevektorit Puhujan no. 2 piirrevektorit Mallien vertailu • Kahden puhujan vertailu: piirrejakaumien vertailu • Lasketaan diskreettien jakaumien etäisyyksiä
”Huonoja” Painotettu luokittelu • Kullekin piirrevektorille annetaan painoarvo erottelukyvyn mukaan ”Hyviä” vektoreita puhujan #2 erotteluun ”Hyviä” vektoreita puhujan #1 erotteluun
Puhujien karsinta • Tehostaa tunnistusta reaaliaikasovelluksiin
Piirrefuusio • Parantaa tunnistustarkkuutta
Akustiikan vaikutus • Nykymenetelmillä esimerkiksi käyttöympäristön vaihtelu on ongelma • Joensuussa tutkitaan kuinka tästä voidaan päästään eroon Päätösraja Todellisen puhujan piirrejakauma Laboratorio-oloissa nauhoitettu opetusaineisto Petkuttajan piirrejakauma Frekvenssi Score Hylätty Hyväksytty Todellisen henkilön piirrejaauma Petkuttajan piirrejakauma Frekvenssi Meluisa käyttöympäristö Seuraus: kaikki puhujat hyväksytään! Score
Puheentunnistus • Mallinnetaan puheen sisältö • Samat spektripohjaiset signaalinkäsittelyn menetelmät kuin puhujantunnistuksessa. • Spektrien luokittelu Markov-ketjun tiloihin sanoina tai äänteinä (monofoni tai trifoni) • Tarvitaan kielimalli, joka rajoittaa tilasiirtymiä • Opetusaineisto: paljon puhetta • vähintään sana-annotointi • paljon puhujia => puhujariippumaton puheentunnistin • vähän puhujia => puhujariippuva tunnistin
PUMS-projektiPuhetekniikan Uudet Menetelmät ja Sovellukset (2003-2006) • Tekes-projekti, jossa useita yritys- ja yhteisöosapuolia, korkeakouluista TTY, TY, TKK, TaY, HY, JoY, sekä VTT. • 1. vuosi: Joensuussa kaksi henkilö-työvuotta puhujantunnistukseen. • On-line tunnistus (Nokia, Lingsoft) 1,5 v. • Off-line tunnistus (ProfMatch) 0,5 v. • http://cs.joensuu.fi/pages/pums/
Projektin tavoitteet • Totetuttaa tehokkaimmat puhujantunnistustekniikat • Puhujaprofiilien hallinta sekä puhujantunnistus • Signaali: kepstrit, Delta-kert, CMS, optimisuodinpankki • Profiilitietokanta ja luokittelumenetelmät: VQ, GMM • Toteutuksen siirto yhteistyötahojen sovellusalustoille • PC-ohjelmisto: puhujaprofiilien hallinta ja tunnistus • Matkapuhelimessa toimiva puhujantunnistus • Systemaattinen testaus eri käyttöoloissa ja laitteissa • Pitkällä aikavälillä uusia tehokkaampia menetelmiä • Eri piirteiden yhtaikainen käyttö (fuusio) • Segmentoinnin hyödyntäminen: erotteleva piirreirrotus • Optimaalisesti erottelevat opetus-ja tunnistusmenetelmät • Kunnollinen luotettavuusestimaatti puhujanvarmennukseen • Reaaliaikasovellukset
Tutkimusryhmä Pasi Fränti Juhani Saastamoinen Evgeny Karpov Ville Hautamäki Tomi Kinnunen Ismo Kärkkäinen
Kehitettävät ohjelmistot • Profmatch • PC-ohjelmisto (ANSI-C konsoli) • Perusalgoritmit off-line tunnistukseen ja kehittyneempiä menetelmiä kuten piirrefuusio • Sprofiler • PC-ohjelmisto (ANSI-C konsoli), mikrofonituki • profiilitietokannan hallinta, on-line tunnistus • sisältää kehittyneempiä menetelmiä kuten karsinta • Uudet ohjelmat reaaliaikatunnistukseen • Windows, ”Sprofiler-yhteensopiva”
Application Concepts Entry Level Top of the Line • Technology Components • ID = Identification technology, • consists of • CLASS.: Speaker Modeling • and Classification • F.E.: Feature Extractor • DB = Speaker Model Database • U.I. = User Interface • CLIENT • Media • UI • FE • Part of application • SERVER • Speaker Modeling • and Classification • Speaker Database • Part of application TCP/IP UI ID CLASS. FE DB small DB large Client Server
Mahdollisuudet ja haasteet • Puhujantunnistuksen teknologiasiirto PUMS-projektin puitteissa. • Periaatteessa muut tunnistustehtävät: puhujaryhmä, mielentila, kulttuuritausta, akustinen tausta • Puheentunnistus • Osaamispohja löytyy • Samat signaalinkäsittelymenetelmät • Rajoittuminen suomenkieleen helpottaa
Yhteystiedot Email: pasi.franti@joensuu.fi juhani.saastamoinen@joensuu.fiWeb: http://cs.joensuu.fi/pages/pums/