760 likes | 998 Views
به نام خدا. بررسي روش انسان در تشخيص صحبت و شبيهسازي آن. سيد کمالالدين غياثي شيرازي. دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف. 28/10/1383. مطالب. شناخت انسان و سيگنال صحبت سيستم استخراج ويژگي سيستم بازشناسي آزمايشها. 1- بررسي روش انسان در تشخيص صحبت.
E N D
به نام خدا بررسي روش انسان در تشخيص صحبت و شبيهسازي آن سيد کمالالدين غياثي شيرازي دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف 28/10/1383
مطالب • شناخت انسان و سيگنال صحبت • سيستم استخراج ويژگي • سيستم بازشناسي • آزمايشها
محدوديتهايي که روشهاي موجود ايجاد ميکنند • غير قابل تفسير • مبتني بر مدل (معمولا HMM) • وابسته به اطلاعات زباني • بدون قابليت کشف صداهاي جديد • مبتني بر نظريه احتمال هستند که شواهد زيادي نشان ميدهند که انسان بر مبناي اين نظريه کار نميکند • پيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زباني • خلاصه: همه مشکلات از بالا به پايين حل ميشوند (ما راه حل را کشف ميکنيم و به کامپيوتر ميدهيم)
توليد ابزار • دستکاري سيگنال در فرکانس pitch • دستکاري سيگنال در فضاي طيفنگار • دستکاري سيگنال در فضاي بانک فيلتر
ويژگيهاي سيگنال صحبت؟ • فازي • غير دقيق • اهميت ويژگيها با انرژي آنها متناسب است • مبتني بر نظريه امكان
سيگنال صحبت فازي است • در مثال بعد ميبينيم که حرف «ي» ميتواند بهجاي حرف «ن» بهکار رود. • به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است. • نکته: ولي ميتوان (امکان دارد) «ي» را به عنوان «ن» پذيرفت. • س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟
سيگنال صحبت غير دقيق است. • يعني ما نسبت به مقدار ويژگيها خيلي حساس نيستيم.
ويژگيهاي پر انرژي مهمترند (مثال 1)
ويژگيهاي پر انرژي مهمترند (مثال 2)
تشخيص مبتني بر نظريه امكان است • يعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه ميخواهيم تفسير ميكنيم. • ما آنچه را که دوست داريم ميشنويم نه آنچه را که هست.
تفاسير متداول از فازي که مد نظر ما نيست • افزايش سرعت • سيستمهاي مبتني بر قانون • عملگرهاي قابل تنظيم • اينها درست هستند اما روح فازي نيستند.
مفاهيم اساسي فازي • تنظيم رابطه بين درستي گزاره و دقت گزاره • کدام جمله درستتر است؟ • کدام جمله دقيقتر است؟ • قد من 183.899898767 سانتيمتر است • قد من بين 1.70 تا 2 متر است • خلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت
مشکل مبهم بودن همه چيز • اگر همهچيز داراي ابهام است پس ما چگونه ميتوانيم صحبت بدون معني را 100٪ تشخيص دهيم؟ • تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟ • کداميک را انتخاب ميکنيد؟ • تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان. • اميد رياضي = 50 • قطعا 40 ميليون تومان • اميد رياضي = 40 • انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).
تفسير ما از فازي بودن سيگنال صحبت • واجها مجموعههايي فازي هستند. • اما در سيگنال صحبت بخشهايي هستند که آنها را شيء ميناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام) • همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نميشويم. (امکان) • «م» و «ن» مجموعههايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).
نظريه امکان • هدف: تشخيص صحبت ممکن. آنچه سيستمهاي کنوني (از جمله سيستم من) تشخيص ميدهند غير ممکن است چه برسد به محتمل. • احتمال: محتملترين مدلي که اين سيگنال را توليد کرده است. • امکان: اين مشاهده توسط کدام مدلها قابل توليد است. • خلاصه نظريه امکان: • امکان A= ميزان شدني بودن A • امکان Ac= ميزان شدني بودن Ac • Poss(A) و Poss(Ac) ميتوانند هر مقدار دلخواهي داشته باشند.
استفاده از نظريه امکان براي جهل وکشف • Poss(A)=1 Poss(Ac) =0 A • Poss(A)=0 Poss(Ac) =1 Ac • Poss(A)=1 Poss(Ac) =1 نميدانم • Poss(A)=0 Poss(Ac) =0 نويز=شيء جديد • در نظريه احتمال که P(A)+P(Ac)=1نميدانم و کشف را نداريم. • نکته: نميدانم و کشف نويز همان چيزهايي هستند که به ما اجازه ميدهند با قطعيت حرف بزنيم. • وقتي کسي فقط راجع به چيزهايي که ميداند حرف ميزند صحبتش قابل اعتمادتر است.
مطلوبات در مورد بخش استخراج ويژگي • استخراج ويژگيها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد. • مبتني بر ويژگيهاي شنيداري و بخشبندي بر اساس اشياء • يک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل ميگيرد اين است که کودکان به زبان خودشان حرف ميزنند ولي به زبان خودشان نميشنوند. • داراي دقتي مشابه انسان نسبت به مقدار ويژگيها • داراي استحکام بيشتر در مقابل نويز
مطلوبات در مورد سيستم بازشناسي • مبتني بر مدل نبودن • مبتني بر نظريه امکان • قابليت کشف اشياء جديد • چون صحبت را خوب ميشناسيم اشياء جديد را نيز تشخيص ميدهيم. • داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگرهاي Max و Min • هدف: قطعيت در تشخيص صحبت.
س: چگونه با مدلي ساده ميخواهيد تنوع صحبت را پوشش دهيد؟ • تطبيق در حين تشخيص. تغيير دادن پارامترها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال) • استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر ميگيريم. • خلاصه: نمونه را تغيير ميدهيم تا شبيه يکي از مدلها شود.
روش پيشنهادي براي سيستم تشخيص صحبت ايده اصلي: تغيير پارامترها در جهت شنيدن يک صداي ممکن
اهداف سيستم بخشبندي • مبتني بر مفهوم شيء که بدون اطلاعات زباني به دست ميآيد. در اين صورت ميتوان توقع داشت که اشياء بزرگتري مانند کلمه و جمله بر اساس اشياء کوچکتر شکل بگيرند. • رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته ميشوند. • استخراج ويژگيها در زمان و فرکانس (200ms) • قابل تفسير بودن. در اينصورت ميتوان از اطلاعات انسان در خواندن طيفنگار استفاده کرد.
روش بخشبندي و استخراج ويژگي OBSFE • محاسبه انرژي باندهاي فيلتر در قابها. • تقريب زدن خط سير انرژي در هر باند فيلتر با خط. • به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير. • بخشبندي سيگنال صحبت. • استخراج ويژگي در هر بخش. • ]در مرحله آموزش[ به دست آوردن صدكها براي هر ويژگي. • بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.
اطمينان از ظهور شيء عدم توليد انرژي توليد انرژي شيء • شيئ بزرگترين شکل محدب در خط سير است. • ايده اصلي: شکلهاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند.
ويژگيهاي بخشبندي • پس از بخشبندي يک مجموعه کاملا مرتب از بازههاي زماني داريم که داراي همپوشاني هستند. • اولين الگوريتم بخشبندي است که بخشها داراي همپوشاني هستند (تا آنجا که ما ديدهايم). • قابل تفسير است. • کاهش شديد تعداد بردارهاي ويژگي نسبت به سيستمهاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است. • داراي تفکيک مناسب در زمان و فرکانس
استخراج ويژگي • به هرحال يک بازه زماني به عنوان يک بخش داده ميشود. • خط سيرهاي انرژي را با اين بازه زماني قطع ميدهيم و حاصل را با يک يا دو خط تقريب ميزنيم. • ويژگي اول همان طول بخش است. • براي هر باند فيلتر ويژگيهاي زير را حساب ميکنيم: • بيشينه انرژي • ميزان تقعر يا تحدب • شيب خط • مرکز ثقل
استخراج ويژگي • بدين ترتيب 24×4+1=97 ويژگي استخراج ميشود. • اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش ميدهيم و به 49 ويژگي ميرسيم. • در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده ميکنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت. • اکنون ديگر ويژگيها صرفا فرکانسي نيستند. ويژگيها اکنون ماهيت زماني-فرکانسي دارند. • با توجه به کارهاي ديگران توقع داريم که ويژگيهاي زماني-فرکانسي مقاومتر باشند.
کوانته کردن ويژگيها بر حسب صدکها • با توجه به آماري که از روي داده آموزشي به دست ميآيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته ميشود. • مزايا: • سرعت بسيار بيشتر • حافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف ميشود. • عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم دادهمحور فراهم ميشود. • رهايي از مفهوم مخلوط که در روشهاي مبتني بر مدل بايد براي رفع ضعفهاي مدل فرض شده (مانند تابع نرمال) استفاده شود.
نويزهاي نوع 1 و 2 • نتايج تنها بر روي نويزهايي که شيء جديد اضافه نميکنند بالا رفت. • مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسي • نکته: به نظر ميرسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيشپردازش است.
مقايسه OBSFE با MFCC در تشخيص کلمه • مزاياي OBSFE • مقاومت بيشتر در مقابل نويز • قابل تفسير بودن ويژگيها • کاهش تعداد بردارهاي ويژگي به حداقل يک پنجم تعداد قابها در MFCC • سريعتر براي سيستم بازشناسي • مزاياي MFCC • پيادهسازي سادهتر (بويژه از نظر سختافزاري) • 4٪ نتيجه بالاتر در محيط کاملا تميز
مساله بازشناسي از ديدگاه عملگرهاي فازي
P(M) کجاست؟ • احتمال: • امکان: