220 likes | 339 Views
SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012. TTY/Signaalinkäsittelyn laitos Katariina Mahkonen. Kurssin sisältö?. Miksi olet täällä? Mitä haluat oppia tällä kurssilla?. Kurssijärjestelyt (2). Materiaali: Pääasiallisena materiaalina luentomoniste
E N D
SGN-4010 PUHEENKÄSITTELYN MENETELMÄTLuento 118.1.2012 TTY/Signaalinkäsittelyn laitosKatariina Mahkonen
Kurssin sisältö? • Miksi olet täällä? • Mitä haluat oppia tällä kurssilla? Name/Title of the presentation to be changed on the master page
Kurssijärjestelyt (2) • Materiaali: • Pääasiallisena materiaalina luentomoniste • Osalla luentokerroista luentokalvot • (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002) • Harjoitustehtävät (5 tehtävää / harjoituskerta) • Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen asiat • Tähän toteutuskertaan liittyvät 3 tenttiä: 5.3.2012, 6.4.2012 ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.
Harjoitusryhmät • Ryhmät: • Pe 10-12, TC303 • Pe 12-14, TC303 • Harjoitusryhmiin ei tarvitse ilmoittautua
Harjoituskäytäntö • Harjoituksia 5 x 2h = 10h (alkavat viikolla 50) • Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p) • Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: • 10 harjoituspistettä tai enemmän (40 %) => 1 piste • 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä • 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan korotus • Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.
Kurssi on aiempina toteutuskertoina sisältänyt: • Jotakin ihmisen puheentuottoelimistöstä • Artikulatoristafonetiikkaa eli äänteiden luokittelua • Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa • Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä: • Lineaariprediktio, • Autokorrelaatiomenetelmä • Yleiskatsaus puhesynteesiin Name/Title of the presentation to be changed on the master page
Matemaattisia esitietoja • Osaatko vastata seuraaviin kysymyksiin? • Mikä on suodattimen impulssivaste/taajuusvaste? • Miten signaaleiden konvoluutio lasketaan? • Mitä eroa on FIR- ja IIR-suodattimilla? • Miten FFT lasketaan? Entä z-muunnos? • Mitä ovat suodattimen nollat ja navat? • Asioita voi kerrata esim. kurssin SGN-1200 prujusta
Mitä puheenkäsittely on? • Tarkoittaa (loogisesti) puhesignaalin käsittelyä • Sovelluksia: • Koodaus (esim. matkapuhelimet) • Tunnistus (puheesta tekstiksi) • Synteesi (tekstistä puheeksi) • Ehostus (laadun parannus) • Muokkaus (muokataan äänestä toisenlainen) • Puhujantunnistus (kuka puhuu) • Käytetään signaalinkäsittelyn menetelmiä • Fourier-muunnos, ikkunointi, autokorrelaatio,... • Myös erityisesti puheelle soveltuvia menetelmiä • LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...
Puhesignaalinkäsittely on esimerkiksi: Puhesignaalin … • koodausta (esim. matkapuhelimet) • laadun parantamista: ymmärrettävyys, häiriöiden poisto • muokkausta (tehdään äänestä toisenlainen) • syntetisointia (tekstistä puheeksi) • puhujan tunnistusta (kuka puhuu) • kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi) Name/Title of the presentation to be changed on the master page
Puheenkoodaus • Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus • Tavoitteet: • Hyvä subjektiivinen laatu • Pieni määrä bittejä • Pieni viive • Nopea laskenta • Virhesietoinen • Kestää useamman peräkkäisen koodauksen • GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki • Bittinopeudet 4.75...12.2 kbps • Käsitellään kurssilla SGN-4050 Puheenkoodaus
Laadun parannus • Mitä on puheen laatu? -subjektiivista • SNR (Signal to NoiseRatio) on melko huono mittari. • Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004) Name/Title of the presentation to be changed on the master page
Muokkaus • Imitointi • voiceconversion Name/Title of the presentation to be changed on the master page
Stephen Hawkinsusing TTS Puhesynteesi • Tekstistä puheeksi • Tarvitaan tietoa puheesta ja kielestä • Useita eri lohkoja • Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.), numeroiden ja lyhenteiden laajennus • Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen mukaiseen muotoon) • Prosodia: painot, äänteiden kesto, f0:n generointi • Synteesi: puhesignaalin generointi edellä olevan avulla • Eri synteesimenetelmiä: • Sääntöpohjainen synteesi (formanttisynteesi) • Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi) • ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen) • Artikulatorinen synteesi
Puhujantunnistus Name/Title of the presentation to be changed on the master page
Puheentunnistus • Puheesta tekstiksi • Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma • Perustuu todennäköisyyslaskentaan • Millä todennäköisyydella = “a”? • Myös kieli mallinnetaan tilastollisesti • P(”melko todennäköinen lause”)? • Nämä todennäköisyydet yhdistetään • Käsitellään kursseilla SGN-4106 Speech Recognition ja • SGN-4507 Speech Recognition Laboratory
Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice
Ikkunointi • Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain • Toimii seuraavasti:
Sovellus: puheen perustaajuuden muuttaminen • Idea: muutetaan puhujan perustaajuutta • Nk. PSOLA-algoritmi (pitch-synchronous overlap-add): • Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa) • Otetaan jaksoja hitaammin tai tiheämmin • Summataan jaksot
Praat: doing phonetics by computer • Praat: • Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/ • Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa) • Suomenkielinen Praat-opas: • Mietta Lennes, Praat-opas 2004 http://www.helsinki.fi/puhetieteet/atk/praat/
Linkkejä • MATLAB-oppaita: • http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen) • http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html • Praat: • http://www.praat.org/ (ohjelma) • http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas) • Fonetiikka: • Suomenkilinen fonetiikkasanasto: http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/ • IPA: http://www2.arts.gla.ac.uk/IPA/fullchart.html