220 likes | 423 Views
Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta Automatsko nalaženje informacije u tekstu
E N D
Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signala
Jezičke tehnologije • Automatsko prevođenje teksta • Automatsko rezimiranje teksta • Automatsko nalaženje informacije u tekstu • Optičko prepoznavanje pisanog teksta • Automatsko vođenje dijaloga • Sinteza govora na osnovu teksta • Prepoznavanje govora
AlfaNum Rečnik • Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara LC Star
? Pored svoje izdavačke delatnosti,Narodna knjiga počinje sa distribucijom stručneliterature na engle-skom jeziku iz različitih oblasti. Korpus • Anotiran ili neanotiran • U tekstu se reči javljaju u svim svojim pojavnim oblicima • Kako razrešiti dvosmislenost? • Morfološka anotacija u velikoj meri rešava i problem akcentuacije
Korpus Korpus srpskog jezika (CSL)
AlfaNum MULTEXT East Korpus
Trenutno stanje na AlfaNum projektu • Realizovan akcenatski rečnik (100.000 odrednica / 3.700.000 izvedenih oblika reči) • Realizovan anotiran korpus rečenica (150.000 reči) • Realizovani sistemi za automatsku morfološku anotaciju • Zasnovan na automatskom učenju – 88% tačnosti • Zasnovan na ručno dobijenim gramatičkim pravilima koja utiču na vrednost metrike u algoritmu za pretragu – 92% tačnosti • Realizovani potpuno funkcionalni sistemi za prepoznavanje i sintezu govora: • na srpskom jeziku • na hrvatskom jeziku • na makedonskom jeziku
Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između fonema • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije
K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije
Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
_ Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N
_ K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije
_ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.
? _ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.
_ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.
\ \ \ \ \ \ \ \ \ \ Pretraga baze Baza:
\ \ \ \ \ \ \ \ \ \ Pretraga baze Baza:
Pretpostavke i ograničenja • Pretpostavljamo da f0 kriva zavisi isključivo od sledećih faktora: • Akcenatska konfiguracija • Položaj u rečenici (blizina i tip granice) a ne i od sledećih: • Fokus • Varijabilnost govornika • Ovde radimo samo sa f0, ne i sa trajanjima pojedinih fonema
21 Hvala na pažnji!