بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

به نام خدا بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن سيد کمال‌الدين غياثي شيرازي دانشکده مهندسي کامپيوتر دانشگاه صنعتي شريف 28/10/1383

مطالب • شناخت انسان و سيگنال صحبت • سيستم استخراج ويژگي • سيستم بازشناسي • آزمايش‌ها

1- بررسي روش انسان در تشخيص صحبت

محدوديت‌هايي که روش‌هاي موجود ايجاد مي‌کنند • غير قابل تفسير • مبتني بر مدل (معمولا HMM) • وابسته به اطلاعات زباني • بدون قابليت کشف صدا‌هاي جديد • مبتني بر نظريه احتمال هستند که شواهد زيادي نشان مي‌دهند که انسان بر مبناي اين نظريه کار نمي‌کند • پيوند غير طبيعي با سطوح بالاتر زباني مانند کلمه و گرامر و نيز مبتني بودن بر مدل زباني • خلاصه: همه مشکلات از بالا به پايين حل مي‌شوند (ما راه حل را کشف مي‌کنيم و به کامپيوتر مي‌دهيم)

توليد ابزار • دستکاري سيگنال در فرکانس pitch • دستکاري سيگنال در فضاي طيف‌نگار • دستکاري سيگنال در فضاي بانک فيلتر

ويژگي‌هاي سيگنال صحبت؟ • فازي • غير دقيق • اهميت ويژگي‌ها با انرژي آنها متناسب است • مبتني بر نظريه امكان

سيگنال صحبت فازي است • در مثال بعد مي‌بينيم که حرف «ي» مي‌تواند به‌جاي حرف «ن» به‌کار رود. • به عبارت ديگر «ي» و «ن» بودن مفهومي فازي است که داراي اشتراک ذاتي است. • نکته: ولي مي‌توان (امکان دارد) «ي» را به عنوان «ن» پذيرفت. • س: احتمال اينکه کسي «ي» را مانند «ن» بگويد چقدر است؟

“i” + “N” + “A”

“i” + “A”

سيگنال صحبت غير دقيق است. • يعني ما نسبت به مقدار ويژگي‌ها خيلي حساس نيستيم.

كوانته شدن در فضاي بانك فيلتر

كوانته شدن در فضاي طيف‌نگار

ويژگي‌هاي پر انرژي مهم‌ترند (مثال 1)

“M” + “A” “N” + “A”

“N” + “A” “M” + “A”

ويژگي‌هاي پر انرژي مهم‌ترند (مثال 2)

Clean Speech

سيگنال نويزي

تشخيص مبتني بر نظريه امكان است • يعني در مواردي كه چيزي مبهم است (يعني چند تفسير ممكن وجود دارد) ، آن را آنطور كه مي‌خواهيم تفسير مي‌كنيم. • ما آنچه را که دوست داريم مي‌شنويم نه آنچه را که هست.

به‌جاي t از نويز سفيد استفاده شده است.

تفاسير متداول از فازي که مد نظر ما نيست • افزايش سرعت • سيستم‌هاي مبتني بر قانون • عملگر‌هاي قابل تنظيم • اينها درست هستند اما روح فازي نيستند.

مفاهيم اساسي فازي • تنظيم رابطه بين درستي گزاره و دقت گزاره • کدام جمله درست‌تر است؟ • کدام جمله دقيق‌تر است؟ • قد من 183.899898767 سانتيمتر است • قد من بين 1.70 تا 2 متر است • خلاصه: کاهش دقت و افزايش درستي، اطمينان، استحکام و قطعيت

مشکل مبهم بودن همه چيز • اگر همه‌چيز داراي ابهام است پس ما چگونه مي‌توانيم صحبت بدون معني را 100٪ تشخيص دهيم؟ • تشخيص صحبت بدون معني،با وجود نويز سفيد، به همراه صداهاي ناشناخته (مثل بوق ماشين)، با قطعيت؟ • کدام‌يک را انتخاب مي‌کنيد؟ • تاسي را بياندازيم و اگر 6 نيامد 60 ميليون تومان. • اميد رياضي = 50 • قطعا 40 ميليون تومان • اميد رياضي = 40 • انسان قطعيت را دوست دارد (+ مثالي از تفاوت احتمال با تفکر انسان).

تفسير ما از فازي بودن سيگنال صحبت • واج‌ها مجموعه‌هايي فازي هستند. • اما در سيگنال صحبت بخش‌هايي هستند که آنها را شيء مي‌ناميم و اين اشياء با قطعيت قابل تميز هستند. (الزام) • همچنين اشيائي هستند که تفاوت کمي با هم دارند مانند «م» و «ن» که در آنها دقيق نمي‌شويم. (امکان) • «م» و «ن» مجموعه‌هايي فازي هستند (امکان) ولي گذر آنها به واج «آ» کاملا متمايز است (الزام).

نظريه امکان • هدف: تشخيص صحبت ممکن. آنچه سيستم‌هاي کنوني (از جمله سيستم من) تشخيص مي‌دهند غير ممکن است چه برسد به محتمل. • احتمال: محتمل‌ترين مدلي که اين سيگنال را توليد کرده است. • امکان: اين مشاهده توسط کدام مدل‌ها قابل توليد است. • خلاصه نظريه امکان: • امکان A= ميزان شدني بودن A • امکان Ac= ميزان شدني بودن Ac • Poss(A) و Poss(Ac) مي‌توانند هر مقدار دلخواهي داشته باشند.

استفاده از نظريه امکان براي جهل وکشف • Poss(A)=1 Poss(Ac) =0 A • Poss(A)=0 Poss(Ac) =1 Ac • Poss(A)=1 Poss(Ac) =1 نمي‌دانم • Poss(A)=0 Poss(Ac) =0 نويز=شيء جديد • در نظريه احتمال که P(A)+P(Ac)=1نمي‌دانم و کشف را نداريم. • نکته: نمي‌دانم و کشف نويز همان چيز‌هايي هستند که به ما اجازه مي‌دهند با قطعيت حرف بزنيم. • وقتي کسي فقط راجع به چيز‌هايي که مي‌داند حرف مي‌زند صحبتش قابل اعتماد‌تر است.

مطلوبات در مورد بخش استخراج ويژگي • استخراج ويژگي‌ها در 200ms تا چيزي که بتوان با قطعيت راجع به آن حرف زد وجود داشته باشد. • مبتني بر ويژگي‌هاي شنيداري و بخش‌بندي بر اساس اشياء • يک دليل براي اينکه توانايي صحبت کردن پس از توانايي شنيدن شکل مي‌گيرد اين است که کودکان به زبان خودشان حرف مي‌زنند ولي به زبان خودشان نمي‌شنوند. • داراي دقتي مشابه انسان نسبت به مقدار ويژگي‌ها • داراي استحکام بيشتر در مقابل نويز

مطلوبات در مورد سيستم بازشناسي • مبتني بر مدل نبودن • مبتني بر نظريه امکان • قابليت کشف اشياء جديد • چون صحبت را خوب مي‌شناسيم اشياء جديد را نيز تشخيص مي‌دهيم. • داراي پيچيدگي محاسباتي کمتر به علت استفاده از عملگر‌هاي Max و Min • هدف: قطعيت در تشخيص صحبت.

س: چگونه با مدلي ساده مي‌خواهيد تنوع صحبت را پوشش دهيد؟ • تطبيق در حين تشخيص. تغيير دادن پارامتر‌ها در جهت رسيدن به يک حالت ممکن و سپس افزايش مقدار امکان. چون حالات ممکن کم هستند، رسيدن به يکي از حالات ممکن خود گواه درستي راه است. (مشابه روش ML در نظريه احتمال) • استفاده از چند مدل ساده. براي هر گونه از صحبت يک مدل ساده در نظر مي‌گيريم. • خلاصه: نمونه را تغيير مي‌دهيم تا شبيه يکي از مدل‌ها شود.

روش پيشنهادي براي سيستم تشخيص صحبت ايده اصلي: تغيير پارامتر‌ها در جهت شنيدن يک صداي ممکن

2- بخش‌بندي و استخراج ويژگي

اهداف سيستم بخش‌بندي • مبتني بر مفهوم شيء که بدون اطلاعات زباني به دست مي‌آيد. در اين صورت مي‌توان توقع داشت که اشياء بزرگ‌تري مانند کلمه و جمله بر اساس اشياء کوچک‌تر شکل بگيرند. • رابطه خوب با نوعي از نمايش دانش به نام گراف مفهومي که از انسان الهام گرفته است. در اين روش اشياء جديد با ارتباط برقرار کردن بين اشياء قبلي ساخته مي‌شوند. • استخراج ويژگي‌ها در زمان و فرکانس (200ms) • قابل تفسير بودن. در اينصورت مي‌توان از اطلاعات انسان در خواندن طيف‌نگار استفاده کرد.

روش بخش‌بندي و استخراج ويژگي OBSFE • محاسبه انرژي باند‌هاي فيلتر در قاب‌ها. • تقريب زدن خط سير انرژي در هر باند فيلتر با خط. • به دست آوردن اشياء. با استفاده از تقريب خطي سيگنال خط سير. • بخش‌بندي سيگنال صحبت. • استخراج ويژگي در هر بخش. • ]در مرحله آموزش[ به دست آوردن صدك‌ها براي هر ويژگي. • بيان مقدار هر ويژگي با عددي صحيح بين 0 تا 100.

خط سير انرژي در باند فيلتر 6‌ام

تقريب زدن خط سير با خط

پيدا کردن اشياء ممکن در هر بانک فيلتر

اطمينان از ظهور شيء عدم توليد انرژي توليد انرژي شيء • شيئ بزرگ‌ترين شکل محدب در خط سير است. • ايده اصلي: شکل‌هاي محدب در سيگنال انرژي بيانگر اراده گوينده در توليد انرژي در زمان مشخصي هستند.

بخش‌بندي بر اساس کوچکترين اشياء

ويژگي‌هاي بخش‌بندي • پس از بخش‌بندي يک مجموعه کاملا مرتب از بازه‌هاي زماني داريم که داراي همپوشاني هستند. • اولين الگوريتم بخش‌بندي است که بخش‌ها داراي همپوشاني هستند (تا آنجا که ما ديده‌ايم). • قابل تفسير است. • کاهش شديد تعداد بردار‌هاي ويژگي نسبت به سيستم‌هاي مبتني بر قاب. در مثال قبل 104 قاب به 9 بخش ساده شده است. • داراي تفکيک مناسب در زمان و فرکانس

استخراج ويژگي • به هرحال يک بازه زماني به عنوان يک بخش داده مي‌شود. • خط سير‌هاي انرژي را با اين بازه زماني قطع مي‌دهيم و حاصل را با يک يا دو خط تقريب مي‌زنيم. • ويژگي اول همان طول بخش است. • براي هر باند فيلتر ويژگي‌هاي زير را حساب مي‌کنيم: • بيشينه انرژي • ميزان تقعر يا تحدب • شيب خط • مرکز ثقل

استخراج ويژگي • بدين ترتيب 24×4+1=97 ويژگي استخراج مي‌شود. • اگر بخواهيم با HMM کار کنيم 24 ويژگي را با DCT به 12 عدد کاهش مي‌دهيم و به 49 ويژگي مي‌رسيم. • در هنگام کار با پايگاه داده Aurora2 از 18 باند فيلتر استفاده مي‌کنيم. در نتيجه 9×4+1 = 37 ويژگي خواهيم داشت. • اکنون ديگر ويژگي‌ها صرفا فرکانسي نيستند. ويژگي‌ها اکنون ماهيت زماني-فرکانسي دارند. • با توجه به کار‌هاي ديگران توقع داريم که ويژگي‌هاي زماني-فرکانسي مقاوم‌تر باشند.

کوانته کردن ويژگي‌ها بر حسب صدک‌ها • با توجه به آماري که از روي داده آموزشي به دست مي‌آيد، هر مقدار ويژگي به عددي صحيح بين 0 تا 100 نگاشته مي‌شود. • مزايا: • سرعت بسيار بيشتر • حافظه کمتر در ذخيره مقدار ويژگي. البته در مجموع حافظه بيشتري مصرف مي‌شود. • عدم نياز به مدلي براي نشان دادن فضاي پيوسته. بدين ترتيب امکان توليد سيستم داده‌محور فراهم مي‌شود. • رهايي از مفهوم مخلوط که در روش‌هاي مبتني بر مدل بايد براي رفع ضعف‌هاي مدل فرض شده (مانند تابع نرمال) استفاده شود.

مقايسه MFCC و OBSFE توسط سيستم HTK

نويز‌هاي نوع 1 و 2 • نتايج تنها بر روي نويز‌هايي که شيء جديد اضافه نمي‌کنند بالا رفت. • مقصر؟ سيستم استخراج ويژگي يا سيستم بازشناسي • نکته: به نظر مي‌رسد که بخش اعظم تفاوت 92٪ با 99٪ در بهينه نبودن سيستم در بخش پيش‌پردازش است.

مقايسه OBSFE با MFCC در تشخيص کلمه • مزاياي OBSFE • مقاومت بيشتر در مقابل نويز • قابل تفسير بودن ويژگي‌ها • کاهش تعداد بر‌دار‌هاي ويژگي به حداقل يک پنجم تعداد قاب‌ها در MFCC • سريع‌تر براي سيستم بازشناسي • مزاياي MFCC • پياده‌سازي ساده‌تر (بويژه از نظر سخت‌افزاري) • 4٪ نتيجه بالاتر در محيط کاملا تميز

فرآيند بازشناسي

مساله بازشناسي از ديدگاه عملگر‌هاي فازي

P(M) کجاست؟ • احتمال: • امکان:

بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

بررسي روش انسان در تشخيص صحبت و شبيه‌سازي آن

Presentation Transcript