1 / 21

Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku

Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku. Milan Sečujski Fakultet tehničkih nauka, Novi Sad Katedra za telekomunikacije i obradu signala. Jezičke tehnologije. Automatsko prevođenje teksta Automatsko rezimiranje teksta Automatsko nalaženje informacije u tekstu

Download Presentation

Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ekstrakcija prozodijskih parametara iz govornog korpusa na srpskom jeziku Milan SečujskiFakultet tehničkih nauka, Novi SadKatedra za telekomunikacije i obradu signala

  2. Jezičke tehnologije • Automatsko prevođenje teksta • Automatsko rezimiranje teksta • Automatsko nalaženje informacije u tekstu • Optičko prepoznavanje pisanog teksta • Automatsko vođenje dijaloga • Sinteza govora na osnovu teksta • Prepoznavanje govora

  3. AlfaNum Rečnik • Spisak reči sa podacima o vrednostima morfoloških kategorija, čitljiv od straneračunara LC Star

  4. ? Pored svoje izdavačke delatnosti,Narodna knjiga počinje sa distribucijom stručneliterature na engle-skom jeziku iz različitih oblasti. Korpus • Anotiran ili neanotiran • U tekstu se reči javljaju u svim svojim pojavnim oblicima • Kako razrešiti dvosmislenost? • Morfološka anotacija u velikoj meri rešava i problem akcentuacije

  5. Korpus Korpus srpskog jezika (CSL)

  6. AlfaNum MULTEXT East Korpus

  7. Izgradnja korpusa

  8. Trenutno stanje na AlfaNum projektu • Realizovan akcenatski rečnik (100.000 odrednica / 3.700.000 izvedenih oblika reči) • Realizovan anotiran korpus rečenica (150.000 reči) • Realizovani sistemi za automatsku morfološku anotaciju • Zasnovan na automatskom učenju – 88% tačnosti • Zasnovan na ručno dobijenim gramatičkim pravilima koja utiču na vrednost metrike u algoritmu za pretragu – 92% tačnosti • Realizovani potpuno funkcionalni sistemi za prepoznavanje i sintezu govora: • na srpskom jeziku • na hrvatskom jeziku • na makedonskom jeziku

  9. Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između fonema • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije

  10. K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije

  11. Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije  K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N

  12. _ Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N

  13. Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N

  14. _ K A D S EVR A T I O I Z P A N A M E # O DM A H J E P RO D U ŽI O U J A P A N Istraživanja u toku • Deo korpusa je pročitan i u toku je labeliranje (delimično automatski): • U pogledu granica između glasova • U pogledu kvaliteta artikulacije • U pogledu akcenta • U pogledu rečenične prozodije 

  15. _ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.

  16. ? _ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.

  17. _ Određivanje istih parametara iz teksta Kad se vratio iz Paname, odmah je produžio u Japan.

  18. \ \ \ \ \ \ \ \ \ \ Pretraga baze Baza:

  19. \ \ \ \ \ \ \ \ \ \ Pretraga baze Baza:

  20. Pretpostavke i ograničenja • Pretpostavljamo da f0 kriva zavisi isključivo od sledećih faktora: • Akcenatska konfiguracija • Položaj u rečenici (blizina i tip granice) a ne i od sledećih: • Fokus • Varijabilnost govornika • Ovde radimo samo sa f0, ne i sa trajanjima pojedinih fonema

  21. 21 Hvala na pažnji!

More Related