450 likes | 659 Views
LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA. Oleh : Agus Buono . PERTEMUAN 1 PEMROSESAN BAHASA ALAMI. 1. PENDAHULUAN. 1.1. Latar Belakang :. 1. Aplikasi, [JM00] :.
E N D
LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh :Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI
1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, indexing and retrieval in textual databases, machine translation, automatic text production, automatic text checking, automatic content analysis, automatic tutoring, automatic dialog and information systems, serta interaksi menusia dg komputer lainnya melalui suara. Murah : investasi bersifat software Sounds of spoken language, the letters of handwritten or printed language, and the gesture of signed language
1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, serta interaksi menusia dengan komputer lainnya melalui suara. Murah : investasi bersifat software 2. Ciri Biometrik [Rey02] : alami, mudah diukur, tidak terlalu berubah dari waktu ke waktu atau kondisi phisik, tidak terlalu terganggu dengan adanya gangguan lingkungan, serta tidak mudah ditiru. Suara hampir memenuhi semua persyaratan biometrik tersebut 3. Permasalahan, [Cam97] : suara adalah multidimensi (linguistik, semantik, artikularis dan akustik, [Cam97]). Pemrosesan suara lebih berfokus pada analisis sinyal dengan dua subsistem yaitu ekstraksi ciri dan pengenalan pola
1.1. Latar Belakang 4. Permasalahan : sinyal suara dipengaruhi banyak hal, seperti dimensi artikularis pembicara, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemodelan sinyal suara merupakan hal yang menantang untuk diteliti lebih lanjut
1.1. Latar Belakang 1. Luasnya Bidang Terapan 2. Hampir semua syarat ciri Biometrik dipenuhi oleh Suara 3. Permasalahan : suara adalah besaran Multidimensi Linguistic dan semantik Artikulatoris Akustik dipengaruhi : artikularis, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemrosesan suara adalah hal yang menantang untuk diteliti lebih lanjut
1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding cirri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang robust terhadap noise dan Interspeakervariability
1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding ciri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang relatif lebih robust terhadap noise dan Intraspeakervariability
1.2. Motivasi Perbandingan bentuk sinyal asli dan yang diberi noise : Y=speech Y+noise 20dB Noise signal 20 dB Y+noise 10dB Noise signal 10 dB
Speech Signal *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory. RECOGNITION Goal : Automatically extract information transmitted in speech signal*)
Speech Recognition Ideal systems must be : Speaker Independence, Continuous speech, Domain independence, realistic vocabulary, robustnes Todays : continuous speech systems can achieve speaker indpendence only at the domain dependence
Multiple-class problems Two-class problems Speaker Identification Speaker Clustering Speaker Verification Speaker Tracking Speaker Segmentation/Diarization Tipe-tipe Sistem Pengenalan Suara [Fur97] : Pengenalan Pembicara (Speaker Recognition) merupakan suatu proses yang secara otomatis mengenali siapa pembicara (who is speaking) menggunakan informasi spesific yang ada dalam sinyal suara [Gan05] : Berdasar output sistem, menurut Gancev sistem pengenalan pembicara dikategorikan menjadi dua, yaitu Multiple-class problem dan Two-class problem Speaker Recognition
Clustering Tracking Cluster 1 Cluster K Segmentation/diaryzation SPEAKER RECOGNITION TASK, [Rey02] ? Which cluster the speaker from ?
Sip : menentukan secara otomatis siapa pemilik dari suara yang diberikan ke dalam sistem. Pengolahan koefisien cepstral berbasis power spektrum
Perkembangan Riset yang Sudah Ada Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) yang berbasis nilai power spektrum sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier [Rey02] : Secara umum ada 4 kelompok metode classifier : a.template matching :sistem mempunyai cetakan untuk setiap kata/pembicara, sehingga lebih sesuai untuk frase yang fixed dan kurang sesuai untuk engembangan lanjut model pengenalan suara. b.nearest neighboor : pengenalan didasarkan pada tetangga erdekat. Dalam hal ini sistem harus mempunyai memori yang besar untuk menyimpan data training. c. neural network : model yang dihasilkan seringkali tidak bersifat general, dan juga tidak dapat merepresentasikan sinyal suara secara alamiah. d. hidden markov model : sinyal suara dimodelkan secara statistik, dengan model stokastik, sehingga dapat merepresentasikan secara alamiah bagaimana suara dihasilkan. Oleh karena itu, model ini yang pertama kali dipergunakan pada sistem pengenalan pembicara yang modern,
Metode Pengenal Pola Studi Literatur Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier Metode classifier yang ada dikelompokkan seperti diagram berikut, [Gan05] :
t 3. Sinyal AnalogDigitalVektor Feature Speech : peubah acak yang terkait dengan waktu yang merupakan barisan energi yang dihasilkan dari dari aliran udara dari paru-paru melalui beberapa transisi satu konfigurasi artikularis ke konfigurasi artikularis lainnya. Frequency Frame Amplitudo Waktu
Proses Ekstraksi Ciri dengan MFCC *)Slaney, 1998
*) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory. Perkembangan Bidang Recognition*)
SO : model pertama pada sistem komersial Hidden Markov Model (HMM) a. HMM : proses markov stasioner orde 1 dengan nilai state tidak teramati, namun dapat diprediksi berdasar observable state yang muncul pada setiap periode waktu. Oleh karena itu mampu memodelkan perilaku temporal dari barisan outcome. b. HMM ini dapat dipakai sebagai representasi statistik bagaimana seorang pembicara menghasilkan suara Hidden state : merepresentasikan setiap konfigurasi vocal tract Transition matrix : merepresentasikan transisi dari satu konfigurasi vocal tract ke konfigurasi lainnya Nasal Cavity Velum Tongue Epiglottis Spinal cord Trachea O= O1 O2 O3 OT Lung sequence Observable/ observationstate
4.3. Hidden Markov Model (HMM) • Beberapa permasalahan dengan HMM adalah : • asumsi kebebasan antar observasi • asumsi kebebasan antar kemunculan state pada periode t dengan observasi sebelum periode t • asumsi BAHWA OBSERVASI BERDISTRIBUSI NORMAL • dari aspek teori : jika observasi berdimensi sangat besar dibanding dengan banyaknya pengamatan, maka penghitungan peluang observasi dengan menggunakan asumsi kenormalan akan terbentur pada masalah singularitas matriks covariance, sehingga kebalikan matriks tersebut tidak dapat diperoleh.
S3 S1 S2 S1 0.4 0.5 0.1 1.00 A= 1.00 0.2 S2 0.4 0.4 S3 0.1 1.00 0.3 0.6 S2 S1 8 ; 4 S2 10 ; 2 B= S3 S1 S3 12; 3 S1 0.3 S2 Π= 0.4 S3 0.3 Gaussian HMM µ=10, σ=2 a22=0.4 µ=8, σ=4 a21=0.4 a12=0.4 a23=0.2 a32=0.1 a31=0.6 µ=12, σ=3 a11=0.1 a13=0.5 a33=0.3
4. Studi kasus 1: MFCC power spektrum + HMM Block diagram Identifikasi Pembicara Menggunakan HMM :