740 likes | 1.07k Views
تکنولوژي بازشناسي گفتار فارسي با رويکردي به صنعت بانکداري. هادی ويسی خرداد 1388. فهرست. معرفی تکنولوژی بازشناسی گفتار مروري بر کاربردهاي بازشناسي گفتار نمايش عملي سامانه تايپ گفتاري فارسي نويسا نمايش عملي يک سيستم ديالوگ تلفني ويژه بانکداري پرسش و پاسخ.
E N D
تکنولوژي بازشناسي گفتار فارسيبا رويکردي به صنعت بانکداري هادی ويسی خرداد 1388
بازشناسی گفتار (فارسي) در صنعت بانکداري فهرست • معرفی تکنولوژی بازشناسی گفتار • مروري بر کاربردهاي بازشناسي گفتار • نمايش عملي سامانه تايپ گفتاري فارسي نويسا • نمايش عملي يک سيستم ديالوگ تلفني ويژه بانکداري • پرسش و پاسخ
مروري بر بازشناسي خودکار گفتار(Automatic Speech Recognition- A Review) عصر گويش پرداز (ASR Gooyesh Pardaz)
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-معرفي • گفتار سادهترين و کارآمدترين راه ارتباط انسان هاست • هدف بازشناسي خودکار گفتار Automatic Speech Recognition (ASR) • تبديل گفتار انسان به متن يا دستورالعمل معادل • گفتار ميتواند يک فايل صوتي، ورودي با ميکروفون، از طريق خط تلفن و يا فرمان از راه دور باشد.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-معرفي • يک سيستم بازشناسي کامل: • قادر به بازشناسي گفتار پيوسته و محاورهاي باشد. • گفتار افراد مختلف، حتي با لهجههاي متفاوت را بازشناسي نمايد. • در محيطهاي شلوغ و نويزي هم جوابگو باشد. • بصورت بلادرنگ عمل کند. • قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد. • سيستمهاي کاربردي امروزي: • گفتار بايستي به صورت کتابي باشد. • گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجهها منجر به کاهش کارايي ميشود. • استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها ميشود. • اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند. • سيستمهاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده ميکنند.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • بازشناسي گفتار کار پيچيده اي است • ارتباط انسان با ماشين امروزه بر پايه دکمه ها و کليدهاست، نه گفتار • اگر شما يک کلمه خاص مانند ”آسمان“ را 10 بار مختلف بيان نماييد، تقريبا در هيچ دو حالتي فايل هاي ضبط شده ديجيتالي آنها دقيقا يکسان نيست! • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار • ميزان وابستگي يا استقلال از گوينده پيوسته يا گسسته بودن گفتار اندازهي واژگان محدوديتهاي زباني کارايي در حضور نويز و در محيطهاي کاربردي مختلف ابهام آکوستيکي و ميزان اشتباه بين کلمات
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار • ميزان وابستگي يا استقلال از گوينده • گوينده هاي مختلف از نظر مشخصات صدا، سن، لهجه، جنس، نحوه صحبت کردن و ... با هم متفاوتند • وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده خاص پاسخ ميدهد • مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ ميدهند • بيشتر روشهاي بازشناسي گفتار امروزي قادرند به هر دو صورت عمل کنند. وابستگي يا استقلال از گوينده در مورد يک سيستم بازشناسي گفتار، در مرحلهي آموزش مشخص ميشود. • دقت بازشناسي در حالت وابسته به گوينده (بعلت محدوديت و تنوع کمتر) بالاتر از حالت مستقل از گوينده (بعلت پيچيدگي بيشتر) است ولي نياز به آموزش سيستم به صداي آن کاربر خاص را دارد. • در کاربردهاي واقعي که گوينده از ابتدا مشخص نيست سيستم را مستقل از گوينده آموزش داده ميشود و سپس هنگام استفاده به کمک برخي رويکردها مانند تطبيق (Adaptation)، سيستم براي يک گوينده خاص تطبيق ميشود. • در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته به گوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار پيوسته يا گسسته بودن گفتار • محدوديت بر نحوة اداي کلمات توسط گوينده ميزان پيوستگي يا گسستگي کلمات • بازشناسي کلمات مجزا (IWR: Isolated Word Recognition) • گفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه • بازشناسي گفتار متصل (Connected Word Recognition) • دنبالهاي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل چند کلمه با سکوت در بين کلمات • بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition) • گفتار به صورت ديکته کتابي و روان • بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech) • گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکثهاي طولاني و ... است. • پيچيدگي بازشناسي گفتار پيوسته و فيالبداهه بسيار زياد است (مشکلات ناشي از اثر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي) • سيستمهاي امروزي فقط براي خواندن کتابي کاربردي هستند و تشخيص گفتار فيالبداهه يکي از زمينههاي فعال تحقيقات ميباشد.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار اندازهي واژگان • اندازة واژگان يا تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوامل موثر در دقت و سرعت سيستم است. سيستمهاي IWR فقط براي تشخيص تعداد محدودي کلمه طراحي شدهاند درحاليکه بعضي ديگر از سيستمها قادرند مجموعة بزرگي از کلمات را تشخيص دهند. • معمولاً دقت يک سيستم بازشناسي با افزايش تعداد کلمات کم ميشود. چرا که در اين حالت کلمات شبيه به هم زياد شده و احتمال جايگزيني يک کلمه با ديگري بيشتر است. • واژگان کوچک(Small Vocabulary): 1 تا 99 کلمه • واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه • واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه • واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار • محدوديتهاي زباني • اطلاعات زباني شامل دستور زبان و معنا از مهمترين اطلاعات مورد استفاده در يک سيستم بازشناسي گفتار است • مدل زباني (Language Model) بيانگر اطلاعات زباني در سيستم بازشناسي گفتار هستند. • اطلاعات معنايي به ندرت در اين سيستمها استفاده ميشوند ولي محدوديت هاي دستوري تقريباً در تمامي سيستم هاي بازشناسي گفتار پيوسته مورد استفاده قرار ميگيرند. • ميزان محدوديتي که توسط مدل زباني درون يک سيستم بازشناسي ايجاد مي شود، پيچيدگي (Perplexity) آن مدل زباني ناميده ميشود که هرچه مقدار اين پيچيدگي کمتر باشد فضاي مورد جستجو کوچکتر ميشود. • تاثير اطلاعات زباني در تشخيص (و درک) گفتار در سيستمهاي تشخيص گفتار امروزي تا اندازهاي است که ميتوان ادعا کرد که تحقق يک سيستم تشخيص گفتار با واژگان بزرگ (يا خيلي بزرگ) با کاربرد واقعي بدون استفاده از اطلاعات زباني غير ممکن است.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار • کارايي در حضور نويز و در محيطهاي کاربردي مختلف • کارايي سيستم هاي بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوجاج که معمولاً از محيط، ميکروفن، کانال انتقال و يا صداي گوينده ناشي ميشوند به شدت کاهش مييابد. • روشهاي مختلفي جهت مقابله با نويز در سيستمهاي بازشناسي ارائه شده است که ميتوان آنها را در سه دستهي ويژگيهاي مقاوم به نويز، تخمين گفتار تميز و مبتني بر اصلاح مدل آکوستيکي تقسيم کرد. • عدم حفظ کارايي سيستم در شرايط واقعي و عملي (که با نويز همراه است) يکي از بزرگترين مشکلات سيستم هاي بازشناسي گفتار امروزي است.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار-پيچيدگيها • پيچيدگيهاي مطرح در سيستمهاي بازشناسي گفتار • ابهام آکوستيکي و ميزان اشتباه بين کلمات • کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند • مثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و ... • کلماتي که شکل نوشتاري آنها به يکديگر شباهت دارند [هم نگاره] در استخراج مدل زباني دچار اشکال مي کنند • مثال: «نُه» و «نه» - «کرد» و «کُرد» - «مهر» و «مُهر» - «گل» و «گِل» - ... • هر چه تعداد اينگونه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايينتر ميآيد. براي جبران اين مسأله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامر و معنا کمک گرفت.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- دياگرام کلي • سيستم بازشناسي گفتار با رويکرد تشخيص الگو • داراي دو فاز آموزش (Train) و آزمون (Test) • آموزش • الگوهاي مربوط به هرکلاس (واحدهاي آوايي مانند کلمه، واج و ...) با استفاده از روشهايي مدلسازي ميشوند. • آزمون (استفاده) • مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود د رگفتار ورودي
آزمون آموزش دنباله کلمات استخراج ويژگي جستجو سيگنال گفتار تخمين مدلها مدلهاي آوايي واژگان مدلهاي زباني تخمين مدلها دادگان متني دادگان گفتاري بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- دياگرام کلي • سيستم بازشناسي گفتار با رويکرد تشخيص الگو
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- تعريف اجزا • مدلسازي آوايي • مدل کردن واحدهاي آوايي گفتار (کلمه، هجا، سه واجي، واج) • روش ها: • مدل انطباق زماني پويا (DTW) • ساده و قديمي – مورد استفاده در Voicedialing گوشي هاي تلفن همراه • شبکه عصبي مصنوعي (ANN) • ساده و کارا، سرعت تشخيص بلادرنگ، نسبتا مقاوم به نويز، فرايند آموزش زمان بر • مدل مخفي مارکوف (HMM) • موفقترين رويکرد، مدل کردنآماري گفتار • مدلهاي ترکيبي (ترکيب شبکههاي عصبي و HMM )
بازشناسی گفتار (فارسي) در صنعت بانکداري اجزاي سيستمهاي بازشناسي خودکار گفتار- دادگان • دادگانهاي گفتاري • استفاده جهت تهيه مدلهاي آوايي • تنوع گويندگان و حجم دادگان مهمترين پارامترهاي طراحي دادگان هستند. • دادگانهاي کاربردي زبان انگليسي شامل حدود 200 تا 300 ساعت گفتار با حدود 300 گوينده هستند. • اين دادگان معمولا به صورت فايلهاي صوتي با برچسپ متني معادل در سطح واج يا کلمه هستند که گاهي داراي تقطيع در سطح واج، کلمه يا جمله نيز هستند
بازشناسی گفتار (فارسي) در صنعت بانکداري اجزاي سيستمهاي بازشناسي خودکار گفتار- دادگان • دادگان هاي متني • استخراج اطلاعات زباني (آماري، معنايي، گرامري) • حجم مناسب براي استخراج آمار معتبر = حدود 250 تا 300 ميليون کلمه • استخراج خودکار گرامر زبان با استفاده از دادگانهاي پارس شده (tree bank) • استخراج معنا از دادگان: دادگان هاي شبکه لغات يا word net • واژگان • واژگان يا Lexiconها نيز از شامل ليست کلماتي مورد استفاده در سيستم است • در واژگان علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان (احتمال N-gram)، نقش (هاي) گرامري در جمله و ... را نيز شامل ميشود. به اين گونه واژگانها، واژگان محاسباتي گفته ميشود.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- ارزيابي • پارامترهاي موثر • تعداد کلمات موجود در واژگان سيستم، • تعداد کلمات خارج از دادگان مجموعه آزمون (OOV)، • سازگاري/عدم سازگاري دادههاي آموزش و آزمون ، • محيط آکوستيکي آزمون و ميزان سيگنال به نويز سيگنال گفتار • وابسته/مستقل از گوينده • خطاهاي • خطاي حذف (Deletion)، خطاي درج (Insertion) و خطاي جايگزيني(Substitution)
تعداد کلمات حذف، درج و جايگزين شده بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- ارزيابي • معيارها • دقت(Accuracy) • صحت (Correctness ) • نرخ خطاي کلمات (WER) تعداد کل کلمات
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • بازشناسي گفتار از گذشته تاکنون در 5 دهه اخير
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • وضعيت کارايي سيستمهاي بازشناسي گفتار امروزي در کاربردهاي مختلف
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • مقايسه کارايي سيستمهاي بازشناسي خودکار گفتار با انسان خطاي کامپيوتر 10 تا 100 برابر بيشتر از انسان است!
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • آينده سيستمهاي بازشناسي گفتار
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • برخي از مراکز پژوهشي مطرح در سطح جهان در زمينه بازشناسي گفتار • واحد تحقيقات پردازش گفتار مايکروسافت • گروه گفتار دانشگاه CMU • گروه LTI دانشگاه CMU • گروه گفتار در آزمايشگاه هوش ماشين دانشگاه کمبريج • آزمايشگاه CSLU دانشگاه اورگون • آزمايشگاه CSLR دانشگاه کلرادو • گروه CSLP در دانشگاه جان هاپکينز • گروه گفتار ICSI دانشگاه برکلي • آزمايشگاه STAR در SRI • آزمايشگاه SAIL دانشگاه کاليفرنياي جنوبي (USC) • گروه HLT در IBM • گروه LDC و آزمايشگاهLINC از دانشگاه پنسيلوانيا • گروه SLS در آزمايشگاه CSAIL دانشگاه MIT
اهميت و کاربردهاي سيستم هاي بازشناسي خودکار گفتار عصر گويش پرداز (ASR Gooyesh Pardaz)
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- اهميت • زبان معمولترين رسانه ارتباطي و ابزار بازنمايي جهان در ذهن انسان است • گفتار ساده ترين و رايج ترين ابزار ارتباطي انسانها است • اولين دستاورد بازشناسي گفتار: راحتتر کردن ارتباطات بين انسان و ماشينها • دسترسي به تکنولوژي همواره منجر به برتري ميگردد، برتري براي تکنولوژي بازشناسي گفتار ميتواند از ابعاد مختلف فرهنگي، اجتماعي، اقتصادي، نظامي-سياسي و علمي باشد
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- اهميت • اهميت فرهنگي • کمک به زبان و صيانت از بزرگترين ميراث فرهنگي ملت بويژه در محيط رايانه و اينترنت • استفاده بيشتر از زبان و زنده نگه داشتن آن • فراهم کردن بستر ايجاد تعامل بيشتر با زبان و کمک به ابعاد توريستي، سياسي ، تجاري و ... • راحتتر کردن ارتباط افراد با زبانهاي مختلف با زبان مورد نظر (مترجم گفتار به گفتار)
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- اهميت • اهميت اجتماعي • ايجاد آسايش و سادگي بيشتر، • بالا بردن کيفيت ارائه خدمات • افزايش سرعت پاسخگويي • کسب رضايت مشتريان • کمک به معلولين • .... • مثال: سيستم گزارش راديولوژي شرکت Philips، زمان يک هفتهاي تهيه گزارش به 48 ساعت تقليل يافته و منجر به رضايت بيشتر مشتريان، افزايش سرعت پاسخگويي و صرفه جويي قابل توجه در هزينهشده است.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- اهميت • اهميت اقتصادي و تجاري: • قابل استفاده در همه کاربردهايي که نياز به ارتباط انسان و ماشين وجود دارد • راحتي و سادگي بيشتر، تسريع در انجام کار، • خستگيناپذير بودن و دسترسي 24 ساعته • عملي کردن برخي ارتباطات غير عملي • .... • مثال: 1. تسريع ارتباط در سيستم IVR از 2:55 دقيقه به 28 ثانيه، 2. سرعت ديکته گفتاري به طور متوسط حدود 105 کلمه در دقيقه، در حاليکه سرعت متوسط تايپ توسط يک فرد عادي حدود 33 کلمه در دقيقه است • بازدهي اقتصادي و کاهش هزينه • علاوه بر سازمانها و جاهاي دولتي، شرکتهاي بزرگي چون Nuance، IBM، فيليپس، مايکروسافت و ... نيز جزو سرمايهگزاران اين تکنولوژي هستند، چراکه به آينده اقتصادي آن مطمئن هستند.
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- اهميت • مثال: سيستم IVR مبتني بر گفتار و سيستم IVR کلاسيک
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • تايپ گفتاري و سيستم ديکته • تايپ متن (نامه، گزارش و ... )، • مکتوب کردن گفتار جلسات و سخنرانيها، • تبديل اخبار به متن معادل • و ... هر جايي که نياز به تايپ نوعي متون وجود داشته باشد. • قابل استفاده براي همه کاربران رايانه: مديران، پزشکان، وکلا، تايپيست ها، مسئولين دفتر و منشي ها و ...
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • کاربرد درسيستمهاي تلفني • منشيهاي تلفني (جهت متصل نمودن تماس گيرنده با يک فرد يا يک بخش با بيان گفتار نام فرد يا بخش)، • اپراتور خودکار تلفني، • سيستمهايIVR، • سيستمهاي ارتباط با مشتري و CRM، • سيستمهاي تلفن بانک، • سيستمهاي اطلاع رساني تلفني، • دايرکتوريهاي گوياي تلفني، • فرمهاي تلفني و نظر سنجيهاي تلفني، • رزرواسيون تلفني، • دايرکتوريهاي تلفني با بيان نام فرد يا موسسه، • . . . • تعيين هويت و شناسايي کاربران سيستم هاي ديالوگ
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • مزايا • کاهش زمان • صرفه جويي در هزينه • تسهيل و تسريع ارتباط مشتريان • امنيت بالاتر نسبت به کليد و دکمه هاي تلفن
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • تحقيق شرکت Fluency Voice بر سيستم هاي تلفني بانکها • 70% ترجيح مي دهند با اپراتور انساني کار کنند • 21% ترجيح مي دهند با اپراتور خودکار مبتني بر گفتار کار کنند • 9% ترجيح مي دهند با سيستم touch-tone کار کنند • تراکنش تلفني با گفتار 40 برابر سريع تر از touch-tone است • علت: حذف منوها و راهنمايي هاي مرتبط
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • سيستم هاي تلفني بانکي مبتني بر گفتار • Columbia Bank • سيستم Columbia OnCall • شماره تماس 253-305-0050, 1-800-304-0050 • Standard Life Bank (UK) • توسط Fluency Voice Technology • 56% تماس ها و 90% تعيين هويت ها با سيستم گفتاري • ABN Amro • يکي از 20 بانک بزرگ دنيا با 3500 شعبه در 60 کشور • در آمريکا با نام LaSalle Bank
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • تشخيص فرامين و دستورات صوتي • اجراي برنامه هاي رايانه با گفتن نام آنها، کنترل لوازم خانگي با دستورات صوتي • اتوماسيون اداري و خانگي مثلا در ساختمانهاي هوشمند • فرمان دادن به رباتها • فرمانهاي صوتي در خودرو • کنترل برنامههاي کامپيوتري مثل office • فرمهاي گويا براي ورود اطلاعات با فرامين صوتي • تشخيص اعداد (متصل، پيوسته) • ورود اطلاعات (data entry) • کيوسکهاي اطلاعات • دستگاههاي خود پرداز بانکها • و ...
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • کاربردهاي مربوط به معلولين، ناشنوايان و نابينايان • برقراريارتباطمعلولين حرکتي و نابينايان با ماشينها و رايانه ها • فراهم کردن امکان استفاده از سيستم هاي موجود توسط معلولين و نابينايان (مانند سيستم هاي تلفني خودکار) • استفاده در سيستمهاي تبديل گفتار به حرکات ايما و اشاره جهت ارتباط با ناشنوايان • معلولين، ناشنوايان و نابينايان معمولا توانايي گويايي دارند، از اين حس ميتوانند براي جبران فقدان حس هاي ديگر کمک بگيرند.
Praselator بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • کاربردهايي ترکيبي • ترجمه گفتار به گفتار • سيستمهاي اتوماسيون اداري و Paper less • سيستمهاي ديالوگ و رابطها گفتاري انسان و ماشين (HMI) • تشخيص درستي تلفظ براي سيستمهاي آموزش زبان • استفاده در بازيهاي کامپيوتري جهت افزايش قابليتهاي و جذابيتهاي آنها /p2.aspx
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستمهاي بازشناسي خودکار گفتار- کاربردها • ساير موارد • تشخيص گفتار بر روي کامپيوترهاي جيبي، تلفن همراه و ساير وسايل Hands-free به عنوان رابط کاربر و ورود اطلاعات • جستجوگر واژههاي كليدي در گفتار (Word Spotting) • کاربردهاي تحت وب مانند VoiceXML • تصديق و/يا تشخيص هويت گوينده براي کاربردهاي امنيتي • ...
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت کاربردي بازشناسي گفتار • مهمترين شرکت هاي مطرح جهاني در بازشناسي گفتار • Nuance (همان ScanSoft) • Philips • IBM • Microsoft • BBN • Loquendo • LumenVox
بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت کاربردي بازشناسي گفتار • مثال : سيستم ديکته مخصوص پزشکان (Nuance) • روش کلاسيک • هزينه تخميني زمان صرف شده توسط پزشک جهت تهيه اسناد و گزارش بيماران • براي هر پزشک به طور متوسط در هر سال 18.000 دلار • زمان آماده شدن گزارش (نوشتن گزارش توسط پزشک، تايپ آن توسط منشي، تصحيح توسط پزشک و تايپ اصلاحات) • حداقل 48 ساعت • روش جديد: استفاده از سيستم دراگون (نسخه 9) • هزينه فوق = بين 899 تا 1.039 دلار • زمان آماده شدن گزارش = تقريبا همزمان با بيان گفتار و در زمان گزارشگيري (حداکثر 12 ساعت) صرفهجويي در زمان و کاهش هزينه به ميزان 80%
بازشناسي خودکار گفتار زبان فارسي عصر گويش پرداز (ASR Gooyesh Pardaz)
معرفي شرکت ... شركت عصرگويش پرداز (سهامي خاص) شروع فعاليت: 1381، ثبت : مرداد 1384 اولين و تنها شركت ايراني فعال در زمينه پردازش و تشخيص گفتار هدف: طراحي و توسعه نرم افزارها و سختافزارهاي مبتني بر گفتار (به ويژه براي زبان فارسي) زمينههاي تخصصي: پردازش سيگنال تشخيص گفتار (تبديل گفتار به متن) سنتز گفتار (تبديل متن به گفتار) طراحي دادگانهاي گفتاري پردازش زبان طبيعي بهبود كيفيت گفتار بازشناسی گفتار (فارسي) در صنعت بانکداري
معرفي شرکت ... ارائه دهنده انحصاري سيستم هاي مبتني بر گفتار در فارسي برخي از محصولات نويسا؛ نرمافزار ديكتة گفتاري براي زبان فارسي نيوشا؛ تشخيص گفتار تلفني منـشي خودکار تلفنـي مبتني بر گفتار ، تشخيص اعداد و فرامين صوتي از پشت تلفن، سيستم هاي IVR تلفنـي مبتني بر گفتار جستجوگر واژههاي كليدي در گفتار پارسيا؛ متـرجم صـوتي گفتار به گفتار نويسيار؛ تايپ هوشمند فارسي تشخيص گفتار در كامپيوترهاي كوچك (تلفنهمراه، PDA و... ) پارسيا جيبي(مترجم صوتي-نسخه کامپيوتر هاي جيبي) و اجرا کننده صوتي برنامهها بازشناسی گفتار (فارسي) در صنعت بانکداري
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • نويسا • موتور تشخيص گفتار پيوسته مستقل از گوينده با واژگان بزرگ زبان فارسي • توسط شرکت عصر گويش پرداز • مشخصات: • مبتني بر HMM با مدلسازي واج و سه واجي، • استفاده از رايجترين ايدههاي مقاومسازي و تطبيق گوينده • استفاده روشهاي مدلهاي زباني آماري و گرامري • قابليت استخراج محصولات مختلف • نويسا: نرم افزار تايپ گفتاري • نيوشا: تشخيص گفتار تلفني • جستجوي کلمات کليدي در گفتار • تشخيص فرامين و دستورات صوتي
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • نويسا: نرم افزار تايپ گفتاري فارسي با خواندن متن آنرا تايپ نماييد
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • قابليت هاي نويسا (تايپ گفتاري فارسي) • دقت تشخيص بسيار بالا (حدود 95%) • تايپ سريع متون همزمان با صحبت گوينده • امكان نوشتن در همه محيط هاي تايپ • نرمافزارهاي اتوماسيون، Word، محيطهاي تهيه ايميل و ... • قابليت تايپ علائم نگارشي مانند نقطه، علامت سوال و ... با گفتار • قابليت تايپ اعداد بهصورت عددي يا حروفي • ايجاد پروفايل شخصي براي هر گوينده • قابليت آموزش به صداي کاربران و يادگيري لهجه و لحن بيان گوينده • شامل تمامي لغات پركاربرد زبان فارسي (حدود 21 هزار کلمه) • امكان افزودن كلمه جديد به واژگان كاربر در نرمافزار • قابليت تطبيق به انشاي کاربر توسط تيم پشتيباني شركت عصرگويشپرداز قابل نصب به صورت تک نسخه و تحت شبکه
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • مزاياي نويسا (تايپ گفتاري فارسي) • افزايش سرعت تايپ و ورود اطلاعات • ديکته گفتاري= به طور متوسط حدود 105 کلمه در دقيقه، • سرعت متوسط تايپ توسط يک فرد عادي= حدود 33 کلمه در دقيقه • صرفهجويي در زمان • کاهش هزينه ها • حفظ امنيت اطلاعات در هنگام ورود دادهها • جلوگيري از اشتباهات املايي
بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • کاربردهاي نويسا: • تايپ هرگونه متوني که مستلزم تايپ با صفحه کليد هستند: • نامه هاي اداري يا شخصي • پاراف نامه ها • تايپ گزارش • تايپ متون شخصي (يادداشت ها، وبلاگ ها، مقالات و ...) • و . . .
سيستم تشخيص گفتار فارسي نويسا برخي از مشتريان نويسا بانکها (تجارت, ملت, پارسيان, سامان, سرمايه) مجلس شوراي اسلامي ايران (بخش انفورماتيک) سازمان زندانهاي کل کشور سازمان توسعه تجارت ايران سازمان نظام پرستاري سازمان بازرسي کشور سازمان صنايع و معادن (ستاد تحول اقتصادي) سازمان جهاد کشاورزي سازمان صدا و سيماي جمهوري اسلامي ايران (مرکز تحقيقات, دانشکده) وزارت دفاع ستاد مشترک سپاه پاسداران انقلاب اسلامي نيروی زميني ارتش قرارگاه خاتم الانبياء بنياد تعاون ناجا نيروي مقاومت بسيج شرکت (ملي پالايش و پخش فرآوردههاي نفتي، فولاد مبارکه، بيمه البرز، نفت فلات قاره و ...) دانشگاه (صنعتي شريف، مالک اشتر، امام حسين(ع)، دانشگاه آزاد اسلامي (واحد يزد, قايم شهر)) پالايشگاه (آبادان، پالايشگاه تهران) و 000 بازشناسی گفتار (فارسي) در صنعت بانکداري