A Tone Recognition Framework for Continuous Mandarin Speech

A Tone Recognition Framework for Continuous Mandarin Speech Lei He, JieHao Toshiba (China) Research and Development Center INTERSPEECH 2006 - ICSLP Hsiao-Tsung Hung

Introduction • LVCSR結合聲調辨識 • Embedded tone modeling: • [MFCC + F0] • Model the tone pattern separately

System Framework

F0 detection

F0 detection • Normalized short-time autocorrelation function K. Hirose, H. Fujisaki, S. Seto, “A scheme for pitch extraction for speech using autocorrelation function with frame length proportional to the time lag”, Proc. ICASSP, Vol. I, pp. 149-152, 1992.

Subsection outlined features

Subsection outlined features E(F0)：average F0 value ： movement of F0 value E(VL)：average voicing level “the correlation coefficient of each frame is used to represent the voicing level .” *4 + duration = 13 (dimension) Base line

Contextual Features Expansion Describe co-articulation effects *6 + duration = 13 (dimension)

Contextual Tone Information

Phonetic category information • All phonetic units are clustered into 7 classes according to corresponding phonetic attributes. • Using ID as features. • Add 5-dimension features: [pre-Final + Initial + Final + next-Initial + next-Final]

Experiment

A Tone Recognition Framework for Continuous Mandarin Speech

A Tone Recognition Framework for Continuous Mandarin Speech

Presentation Transcript

Large Vocabulary Continuous Speech Recognition (LVCSR)

Using Speech Recognition for Speech Therapy

A Recognition Model for Speech Coding

LINEAR DYNAMIC MODEL FOR CONTINUOUS SPEECH RECOGNITION

An Introduction to Mandarin Speech Recognition

Mandarin Tone Recognition using Affine-Invariant Prosodic Features and Tone Posteriorgram

NONLINEAR DYNAMIC INVARIANTS FOR CONTINUOUS SPEECH RECOGNITION

NONLINEAR DYNAMIC INVARIANTS FOR CONTINUOUS SPEECH RECOGNITION

Mandarin Chinese Speech Recognition

Hybrid Systems for Continuous Speech Recognition

Usability of Continuous Speech Recognition Programs

Automatic Continuous Speech Recognition

Discriminative Training Approaches for Continuous Speech Recognition

ADVANCES IN MANDARIN BROADCAST SPEECH RECOGNITION

LINEAR DYNAMIC MODEL FOR CONTINUOUS SPEECH RECOGNITION

Chapter 7 Speech Recognition Framework

LINEAR DYNAMIC MODEL FOR CONTINUOUS SPEECH RECOGNITION

Hybrid Systems for Continuous Speech Recognition

Network Training for Continuous Speech Recognition

Labeling Emphasis in Continuous Mandarin Speech: Preliminary Design and Results