1 / 22

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012. TTY/Signaalinkäsittelyn laitos Katariina Mahkonen. Kurssin sisältö?. Miksi olet täällä? Mitä haluat oppia tällä kurssilla?. Kurssijärjestelyt (2). Materiaali: Pääasiallisena materiaalina luentomoniste

malik-rojas
Download Presentation

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 18.1.2012

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SGN-4010 PUHEENKÄSITTELYN MENETELMÄTLuento 118.1.2012 TTY/Signaalinkäsittelyn laitosKatariina Mahkonen

  2. Kurssin sisältö? • Miksi olet täällä? • Mitä haluat oppia tällä kurssilla? Name/Title of the presentation to be changed on the master page

  3. Kurssijärjestelyt (2) • Materiaali: • Pääasiallisena materiaalina luentomoniste • Osalla luentokerroista luentokalvot • (Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002) • Harjoitustehtävät (5 tehtävää / harjoituskerta) • Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen asiat • Tähän toteutuskertaan liittyvät 3 tenttiä: 5.3.2012, 6.4.2012 ja viimeisen ajankohta on vielä avoin, mutta ilmestyy kyllä POP:iin aikanaan.

  4. Harjoitusryhmät • Ryhmät: • Pe 10-12, TC303 • Pe 12-14, TC303 • Harjoitusryhmiin ei tarvitse ilmoittautua

  5. Harjoituskäytäntö • Harjoituksia 5 x 2h = 10h (alkavat viikolla 50) • Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p) • Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: • 10 harjoituspistettä tai enemmän (40 %) => 1 piste • 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä • 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan korotus • Tehtäviä ei tarvitse ratkaista etukäteen, mutta on suositeltavaa tutustua tehtäviin ja käsiteltäviin aiheisiin ennen harjoituksiin tuloa.

  6. Kurssi on aiempina toteutuskertoina sisältänyt: • Jotakin ihmisen puheentuottoelimistöstä • Artikulatoristafonetiikkaa eli äänteiden luokittelua • Vähän fyysisestä puheentuoton mallintamisesta: suoran putken akustiikkaa • Akustisten piirteiden signaalinkäsittelyllisiä määritysmenetelmiä: • Lineaariprediktio, • Autokorrelaatiomenetelmä • Yleiskatsaus puhesynteesiin Name/Title of the presentation to be changed on the master page

  7. Matemaattisia esitietoja • Osaatko vastata seuraaviin kysymyksiin? • Mikä on suodattimen impulssivaste/taajuusvaste? • Miten signaaleiden konvoluutio lasketaan? • Mitä eroa on FIR- ja IIR-suodattimilla? • Miten FFT lasketaan? Entä z-muunnos? • Mitä ovat suodattimen nollat ja navat? • Asioita voi kerrata esim. kurssin SGN-1200 prujusta

  8. Mitä puheenkäsittely on? • Tarkoittaa (loogisesti) puhesignaalin käsittelyä • Sovelluksia: • Koodaus (esim. matkapuhelimet) • Tunnistus (puheesta tekstiksi) • Synteesi (tekstistä puheeksi) • Ehostus (laadun parannus) • Muokkaus (muokataan äänestä toisenlainen) • Puhujantunnistus (kuka puhuu) • Käytetään signaalinkäsittelyn menetelmiä • Fourier-muunnos, ikkunointi, autokorrelaatio,... • Myös erityisesti puheelle soveltuvia menetelmiä • LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...

  9. Puhesignaalinkäsittely on esimerkiksi: Puhesignaalin … • koodausta (esim. matkapuhelimet) • laadun parantamista: ymmärrettävyys, häiriöiden poisto • muokkausta (tehdään äänestä toisenlainen) • syntetisointia (tekstistä puheeksi) • puhujan tunnistusta (kuka puhuu) • kielellisen sisällön tunnistus eli puheentunnistus (puheesta tekstiksi) Name/Title of the presentation to be changed on the master page

  10. Puheenkoodaus • Digitaalisen puheen ‘pakkaaminen’ siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus • Tavoitteet: • Hyvä subjektiivinen laatu • Pieni määrä bittejä • Pieni viive • Nopea laskenta • Virhesietoinen • Kestää useamman peräkkäisen koodauksen • GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki • Bittinopeudet 4.75...12.2 kbps • Käsitellään kurssilla SGN-4050 Puheenkoodaus

  11. Laadun parannus • Mitä on puheen laatu? -subjektiivista • SNR (Signal to NoiseRatio) on melko huono mittari. • Esimerkki: ABE – (Lähde: Juho Kontio, diplomityö, TKK 2004) Name/Title of the presentation to be changed on the master page

  12. Muokkaus • Imitointi • voiceconversion Name/Title of the presentation to be changed on the master page

  13. Stephen Hawkinsusing TTS Puhesynteesi • Tekstistä puheeksi • Tarvitaan tietoa puheesta ja kielestä • Useita eri lohkoja • Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.), numeroiden ja lyhenteiden laajennus • Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen mukaiseen muotoon) • Prosodia: painot, äänteiden kesto, f0:n generointi • Synteesi: puhesignaalin generointi edellä olevan avulla • Eri synteesimenetelmiä: • Sääntöpohjainen synteesi (formanttisynteesi) • Konkatenatiivinen synteesi (difonisynteesi, unit selection –synteesi) • ’Tilastollinen parametrinen’ synteesi (HMM-pohjainen) • Artikulatorinen synteesi

  14. Puhujantunnistus Name/Title of the presentation to be changed on the master page

  15. Puheentunnistus • Puheesta tekstiksi • Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma • Perustuu todennäköisyyslaskentaan • Millä todennäköisyydella = “a”? • Myös kieli mallinnetaan tilastollisesti • P(”melko todennäköinen lause”)? • Nämä todennäköisyydet yhdistetään • Käsitellään kursseilla SGN-4106 Speech Recognition ja • SGN-4507 Speech Recognition Laboratory

  16. Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice

  17. Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete –Time Speech Signal Processing Principles and Practice

  18. Ikkunointi • Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain • Toimii seuraavasti:

  19. Sovellus: puheen perustaajuuden muuttaminen • Idea: muutetaan puhujan perustaajuutta • Nk. PSOLA-algoritmi (pitch-synchronous overlap-add): • Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa) • Otetaan jaksoja hitaammin tai tiheämmin • Summataan jaksot

  20. PSOLA

  21. Praat: doing phonetics by computer • Praat: • Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/ • Käytetään viikon 02/2009 harkoissa (siis 3. harkoissa) • Suomenkielinen Praat-opas: • Mietta Lennes, Praat-opas 2004 http://www.helsinki.fi/puhetieteet/atk/praat/

  22. Linkkejä • MATLAB-oppaita: • http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen) • http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html • Praat: • http://www.praat.org/ (ohjelma) • http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas) • Fonetiikka: • Suomenkilinen fonetiikkasanasto: http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/ • IPA: http://www2.arts.gla.ac.uk/IPA/fullchart.html

More Related