1 / 66

هادی ويسی خرداد 1388

تکنولوژي بازشناسي گفتار فارسي با رويکردي به صنعت بانکداري. هادی ويسی خرداد 1388. فهرست. معرفی تکنولوژی بازشناسی گفتار مروري بر کاربردهاي بازشناسي گفتار نمايش عملي سامانه تايپ گفتاري فارسي نويسا نمايش عملي يک سيستم ‌ ديالوگ تلفني ويژه بانکداري پرسش و پاسخ.

senona
Download Presentation

هادی ويسی خرداد 1388

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. تکنولوژي بازشناسي گفتار فارسيبا رويکردي به صنعت بانکداري هادی ويسی خرداد 1388

  2. بازشناسی گفتار (فارسي) در صنعت بانکداري فهرست • معرفی تکنولوژی بازشناسی گفتار • مروري بر کاربردهاي بازشناسي گفتار • نمايش عملي سامانه تايپ گفتاري فارسي نويسا • نمايش عملي يک سيستم‌ ديالوگ تلفني ويژه بانکداري • پرسش و پاسخ

  3. مروري بر بازشناسي خودکار گفتار(Automatic Speech Recognition- A Review) عصر گويش پرداز (ASR Gooyesh Pardaz)

  4. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-معرفي • گفتار ساده‌ترين و کارآمدترين راه ارتباط انسان هاست • هدف بازشناسي خودکار گفتار Automatic Speech Recognition (ASR) • تبديل گفتار انسان به متن يا دستورالعمل معادل • گفتار مي‌تواند يک فايل صوتي، ورودي با ميکروفون، از طريق خط تلفن و يا فرمان از راه دور باشد.

  5. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-معرفي • يک سيستم بازشناسي کامل: • قادر به بازشناسي گفتار پيوسته و محاوره‌اي باشد. • گفتار افراد مختلف، حتي با لهجه‌هاي متفاوت را بازشناسي نمايد. • در محيط‌هاي شلوغ و نويزي هم جوابگو باشد. • بصورت بلادرنگ عمل کند. • قادر به فراگيري اطلاعات جديد نظير کلمات، قوانين زباني و . . . باشد. • سيستم‌‌هاي کاربردي امروزي: • گفتار بايستي به صورت کتابي باشد. • گفتار بايستي بر اساس حالت استاندارد زبان باشد و تغييرات مربوط به لهجه‌ها منجر به کاهش کارايي مي‌شود. • استفاده از آنها در محيط و شرايط نويزي منجر به افت کارايي و دقت آنها مي‌شود. • اغلب سيستم هاي کاربردي امروزي تقريبا بلادرنگ هستند. • سيستم‌هاي موجود محدود به کلمات موجود در واژگان هستند و از اطلاعات زباني و معنايي به صورت محدود استفاده مي‌کنند.

  6. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • بازشناسي گفتار کار پيچيده اي است • ارتباط انسان با ماشين امروزه بر پايه دکمه ها و کليدهاست، نه گفتار • اگر شما يک کلمه خاص مانند ”آسمان“ را 10 بار مختلف بيان نماييد، تقريبا در هيچ دو حالتي فايل هاي ضبط شده ديجيتالي آنها دقيقا يکسان نيست! • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار • ميزان وابستگي يا استقلال از گوينده پيوسته يا گسسته بودن گفتار اندازه‌ي واژگان محدوديت‌هاي زباني کارايي در حضور نويز و در محيط‌هاي کاربردي مختلف ابهام آکوستيکي و ميزان اشتباه بين کلمات

  7. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار • ميزان وابستگي يا استقلال از گوينده • گوينده هاي مختلف از نظر مشخصات صدا، سن، لهجه، جنس، نحوه صحبت کردن و ... با هم متفاوتند • وابسته به گوينده (SD: Speaker Dependent): به يک و يا چند گوينده‌ خاص پاسخ مي‌دهد • مستقل از گوينده (SI: Speaker Independent) به تمام گويندگان يک زبان پاسخ مي‌دهند • بيشتر روش‌هاي بازشناسي گفتار امروزي قادرند به هر دو صورت عمل کنند. وابستگي يا استقلال از گوينده در مورد يک سيستم بازشناسي گفتار، در مرحله‌ي آموزش مشخص مي‌شود. • دقت بازشناسي در حالت وابسته به گوينده (بعلت محدوديت و تنوع کمتر) بالاتر از حالت مستقل از گوينده (بعلت پيچيدگي بيشتر) است ولي نياز به آموزش سيستم به صداي آن کاربر خاص را دارد. • در کاربردهاي واقعي که گوينده از ابتدا مشخص نيست سيستم را مستقل از گوينده آموزش داده مي‌شود و سپس هنگام استفاده به کمک برخي رويکردها مانند تطبيق (Adaptation)، سيستم براي يک گوينده خاص تطبيق مي‌شود. • در برخي کاربردهاي ديگر مانند بازشناسي از پشت خط تلفن وابسته به گوينده بودن چندان معني خاصي ندارد چون گوينده از ابتدا مشخص نيست.

  8. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار پيوسته يا گسسته بودن گفتار • محدوديت‌ بر نحوة اداي کلمات توسط گوينده ميزان پيوستگي يا گسستگي کلمات • بازشناسي کلمات مجزا (IWR: Isolated Word Recognition) • گفتار کلمه به کلمه و کاملاً مجزا – هر فايل صوتي يک کلمه • بازشناسي گفتار متصل (Connected Word Recognition) • دنباله‌اي از کلمات که به وسيلة سکوتي کوتاه از هم جدا شوند – هر فايل چند کلمه با سکوت در بين کلمات • بازشناسي گفتار پيوسته کتابي (CSR: Continuous Speech Recognition) • گفتار به صورت ديکته کتابي و روان • بازشناسي گفتار پيوسته محاوره اي (Spontaneous Speech) • گفتار به صورت کاملاً طبيعي بيان ميشود، شامل جملات ناقص، سرفه، تپق، مکث‌هاي طولاني و ... است. • پيچيدگي بازشناسي گفتار پيوسته و في‌البداهه بسيار زياد است (مشکلات ناشي از اثر بافت مانند مشخص نبودن مرز کلمات متوالي و ادغام شدن ابتداي يک کلمه با انتهاي کلمة قبلي) • سيستم‌هاي امروزي فقط براي خواندن کتابي کاربردي هستند و تشخيص گفتار في‌البداهه يکي از زمينه‌‌هاي فعال تحقيقات مي‌باشد.

  9. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار اندازه‌ي واژگان • اندازة واژگان يا تعداد کلمات مورد استفاده در يک سيستم بازشناسي از عوامل موثر در دقت و سرعت سيستم است. سيستم‌هاي IWR فقط براي تشخيص تعداد محدودي کلمه طراحي شده‌اند درحالي‌که بعضي ديگر از سيستم‌ها قادرند مجموعة بزرگي از کلمات را تشخيص دهند. • معمولاً دقت يک سيستم بازشناسي با افزايش تعداد کلمات کم مي‌شود. چرا که در اين حالت کلمات شبيه به هم زياد شده و احتمال جايگزيني يک کلمه با ديگري بيشتر است. • واژگان کوچک(Small Vocabulary): 1 تا 99 کلمه • واژگان متوسط (Medium Vocabulary): بين 100 تا 1000 کلمه • واژگان بزرگ (Large Vocabulary) : بين 1000 تا 60000 کلمه • واژگان خيلي بزرگ (Very Large Vocabulary): بيشتر از 60000 کلمه

  10. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار • محدوديت‌هاي زباني • اطلاعات زباني شامل دستور زبان و معنا از مهمترين اطلاعات مورد استفاده در يک سيستم بازشناسي گفتار است • مدل زباني (Language Model) بيانگر اطلاعات زباني در سيستم بازشناسي گفتار هستند. • اطلاعات معنايي به ندرت در اين سيستم‌ها استفاده مي‌شوند ولي محدوديت هاي دستوري تقريباً در تمامي سيستم هاي بازشناسي گفتار پيوسته مورد استفاده قرار مي‌گيرند. • ميزان محدوديتي که توسط مدل زباني درون يک سيستم بازشناسي ايجاد مي شود، پيچيدگي (Perplexity) آن مدل زباني ناميده مي‌شود که هرچه مقدار اين پيچيدگي کمتر باشد فضاي مورد جستجو کوچک‌تر مي‌شود. • تاثير اطلاعات زباني در تشخيص (و درک) گفتار در سيستم‌هاي تشخيص گفتار امروزي تا اندازه‌اي است که مي‌توان ادعا کرد که تحقق يک سيستم تشخيص گفتار با واژگان بزرگ (يا خيلي بزرگ) با کاربرد واقعي بدون استفاده از اطلاعات زباني غير ممکن است.

  11. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار • کارايي در حضور نويز و در محيط‌هاي کاربردي مختلف • کارايي سيستم هاي بازشناسي گفتار با وجود اثرات مخربي چون نويز، پژواک، تداخل و اعوجاج که معمولاً از محيط، ميکروفن، کانال انتقال و يا صداي گوينده ناشي مي‌شوند به شدت کاهش مي‌يابد. • روش‌هاي مختلفي جهت مقابله با نويز در سيستم‌هاي بازشناسي ارائه شده است که مي‌توان آنها را در سه دسته‌ي ويژگي‌هاي مقاوم به نويز، تخمين گفتار تميز و مبتني بر اصلاح مدل آکوستيکي تقسيم کرد. • عدم حفظ کارايي سيستم در شرايط واقعي و عملي (که با نويز همراه است) يکي از بزرگترين مشکلات سيستم هاي بازشناسي گفتار امروزي است.

  12. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار-پيچيدگي‌ها • پيچيدگي‌هاي مطرح در سيستم‌هاي بازشناسي گفتار • ابهام آکوستيکي و ميزان اشتباه بين کلمات • کلماتي که شکل نوشتاري متمايز ولي تلفظ يکسان يا شبيه به هم دارند [هم آوا] سبب ايجاد ابهام آکوستيکي شده و ممکن است بجاي يکديگر بازشناسي شوند • مثال: «سمر» و «ثمر» - «خواستن» و «خاستن» - «خويش» و «خيش» - «ارز» و «عرض» و «ارض» - و ... • کلماتي که شکل نوشتاري آنها به يکديگر شباهت دارند [هم نگاره] در استخراج مدل زباني دچار اشکال مي کنند • مثال: «نُه» و «نه» - «کرد» و «کُرد» - «مهر» و «مُهر» - «گل» و «گِل» - ... • هر چه تعداد اين‌گونه کلمات در بانک واژگان بيشتر شود، دقت سيستم بازشناسي پايين‌تر مي‌آيد. براي جبران اين مسأله، سيستم بازشناسي بايد از مدل زباني در سطوح گرامر و معنا کمک گرفت.

  13. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- دياگرام کلي • سيستم بازشناسي گفتار با رويکرد تشخيص الگو • داراي دو فاز آموزش (Train) و آزمون (Test) • آموزش • الگوهاي مربوط به هرکلاس (واحدهاي آوايي مانند کلمه، واج و ...) با استفاده از روش‌هايي مدل‌سازي مي‌شوند. • آزمون (استفاده) • مقايسه گفتار ورودي با الگوهاي آموزش داده شده جهت تشخيص واحدهاي آوايي موجود د رگفتار ورودي

  14. آزمون آموزش دنباله کلمات استخراج ويژگي‌ جستجو سيگنال گفتار تخمين مدلها مدلهاي آوايي واژگان مدلهاي زباني تخمين مدلها دادگان متني دادگان گفتاري بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- دياگرام کلي • سيستم بازشناسي گفتار با رويکرد تشخيص الگو

  15. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- تعريف اجزا • مدل‌سازي آوايي • مدل کردن واحدهاي آوايي گفتار (کلمه، هجا، سه واجي، واج) • روش ها: • مدل انطباق زماني پويا (DTW) • ساده و قديمي – مورد استفاده در Voicedialing گوشي هاي تلفن همراه • شبکه عصبي مصنوعي (ANN) • ساده و کارا، سرعت تشخيص بلادرنگ، نسبتا مقاوم به نويز، فرايند آموزش زمان بر • مدل مخفي مارکوف (HMM) • موفق‌ترين رويکرد، مدل کردنآماري گفتار • مدل‌هاي ترکيبي (ترکيب شبکه‌هاي عصبي و HMM )

  16. بازشناسی گفتار (فارسي) در صنعت بانکداري اجزاي سيستم‌هاي بازشناسي خودکار گفتار- دادگان • دادگان‌هاي گفتاري • استفاده جهت تهيه مدل‌هاي آوايي • تنوع گويندگان و حجم دادگان مهمترين پارامترهاي طراحي دادگان هستند. • دادگان‌هاي کاربردي زبان انگليسي شامل حدود 200 تا 300 ساعت گفتار با حدود 300 گوينده هستند. • اين دادگان معمولا به صورت فايل‌هاي صوتي با برچسپ متني معادل در سطح واج يا کلمه هستند که گاهي داراي تقطيع در سطح واج، کلمه يا جمله نيز هستند

  17. بازشناسی گفتار (فارسي) در صنعت بانکداري اجزاي سيستم‌هاي بازشناسي خودکار گفتار- دادگان • دادگان هاي متني • استخراج اطلاعات زباني (آماري، معنايي، گرامري) • حجم مناسب براي استخراج آمار معتبر = حدود 250 تا 300 ميليون کلمه • استخراج خودکار گرامر زبان با استفاده از دادگان‌هاي پارس شده (tree bank) • استخراج معنا از دادگان: دادگان هاي شبکه لغات يا word net • واژگان • واژگان يا Lexiconها نيز از شامل ليست کلماتي مورد استفاده در سيستم است • در واژگان‌ علاوه بر ليست خود کلمات، اطلاعات مختلفي در مورد هر کلمه مانند احتمال وقوع آن در زبان (احتمال N-gram)، نقش (هاي) گرامري در جمله و ... را نيز شامل مي‌شود. به اين گونه واژگان‌ها، واژگان محاسباتي گفته مي‌شود.

  18. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- ارزيابي • پارامترهاي موثر • تعداد کلمات موجود در واژگان سيستم، • تعداد کلمات خارج از دادگان مجموعه آزمون (OOV)، • سازگاري/عدم سازگاري داده‌هاي آموزش و آزمون ، • محيط آکوستيکي آزمون و ميزان سيگنال به نويز سيگنال گفتار • وابسته/مستقل از گوينده • خطاهاي • خطاي حذف (Deletion)، خطاي درج (Insertion) و خطاي جايگزيني(Substitution)

  19. تعداد کلمات حذف، درج و جايگزين شده بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- ارزيابي • معيارها • دقت(Accuracy) • صحت (Correctness ) • نرخ خطاي کلمات (WER) تعداد کل کلمات

  20. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • بازشناسي گفتار از گذشته تاکنون در 5 دهه اخير

  21. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • وضعيت کارايي سيستم‌هاي بازشناسي گفتار امروزي در کاربردهاي مختلف

  22. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • مقايسه کارايي سيستم‌هاي بازشناسي خودکار گفتار با انسان خطاي کامپيوتر 10 تا 100 برابر بيشتر از انسان است!

  23. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • آينده سيستم‌هاي بازشناسي گفتار

  24. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت تحقيقات بازشناسي گفتار • برخي از مراکز پژوهشي مطرح در سطح جهان در زمينه بازشناسي گفتار • واحد تحقيقات پردازش گفتار مايکروسافت • گروه گفتار دانشگاه CMU • گروه LTI دانشگاه CMU • گروه گفتار در آزمايشگاه هوش ماشين دانشگاه کمبريج • آزمايشگاه CSLU دانشگاه اورگون • آزمايشگاه CSLR دانشگاه کلرادو • گروه CSLP در دانشگاه جان هاپکينز • گروه گفتار ICSI دانشگاه برکلي • آزمايشگاه STAR در SRI • آزمايشگاه SAIL دانشگاه کاليفرنياي جنوبي (USC) • گروه HLT در IBM • گروه LDC و آزمايشگاهLINC از دانشگاه پنسيلوانيا • گروه SLS در آزمايشگاه CSAIL دانشگاه MIT

  25. اهميت و کاربردهاي سيستم هاي بازشناسي خودکار گفتار عصر گويش پرداز (ASR Gooyesh Pardaz)

  26. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- اهميت • زبان معمولترين رسانه ارتباطي و ابزار بازنمايي جهان در ذهن انسان است • گفتار ساده ترين و رايج ترين ابزار ارتباطي انسانها است • اولين دستاورد بازشناسي گفتار: راحت‌تر کردن ارتباطات بين انسان و ماشين‌ها • دسترسي به تکنولوژي همواره منجر به برتري مي‌گردد، برتري براي تکنولوژي بازشناسي گفتار مي‌تواند از ابعاد مختلف فرهنگي، اجتماعي، اقتصادي، نظامي-سياسي و علمي باشد

  27. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- اهميت • اهميت فرهنگي • کمک به زبان و صيانت از بزرگترين ميراث فرهنگي ملت بويژه در محيط رايانه و اينترنت • استفاده بيشتر از زبان و زنده نگه داشتن آن • فراهم کردن بستر ايجاد تعامل بيشتر با زبان و کمک به ابعاد توريستي، سياسي ، تجاري و ... • راحت‌تر کردن ارتباط افراد با زبانهاي مختلف با زبان مورد نظر (مترجم گفتار به گفتار)

  28. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- اهميت • اهميت اجتماعي • ايجاد آسايش و سادگي بيشتر، • بالا بردن کيفيت ارائه خدمات • افزايش سرعت پاسخگويي • کسب رضايت مشتريان • کمک به معلولين • .... • مثال: سيستم گزارش راديولوژي شرکت Philips، زمان يک هفته‌اي تهيه گزارش به 48 ساعت تقليل يافته و منجر به رضايت بيشتر مشتريان، افزايش سرعت پاسخگويي و صرفه جويي قابل توجه در هزينهشده است.

  29. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- اهميت • اهميت اقتصادي و تجاري: • قابل استفاده در همه کاربردهايي که نياز به ارتباط انسان و ماشين وجود دارد • راحتي و سادگي بيشتر، تسريع در انجام کار، • خستگي‌ناپذير بودن و دسترسي 24 ساعته • عملي کردن برخي ارتباطات غير عملي • .... • مثال: 1. تسريع ارتباط در سيستم IVR از 2:55 دقيقه به 28 ثانيه، 2. سرعت ديکته گفتاري به طور متوسط حدود 105 کلمه در دقيقه، در حاليکه سرعت متوسط تايپ توسط يک فرد عادي حدود 33 کلمه در دقيقه است • بازدهي اقتصادي و کاهش هزينه • علاوه بر سازمان‌ها و جاهاي دولتي، شرکت‌هاي بزرگي چون Nuance، IBM، فيليپس، مايکروسافت و ... نيز جزو سرمايه‌گزاران اين تکنولوژي هستند، چراکه به آينده اقتصادي آن مطمئن هستند.

  30. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- اهميت • مثال: سيستم IVR مبتني بر گفتار و سيستم IVR کلاسيک

  31. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • تايپ گفتاري و سيستم ديکته • تايپ متن (نامه، گزارش و ... )، • مکتوب کردن گفتار جلسات و سخنرانيها، • تبديل اخبار به متن معادل • و ... هر جايي که نياز به تايپ نوعي متون وجود داشته باشد. • قابل استفاده براي همه کاربران رايانه: مديران، پزشکان، وکلا، تايپيست ها، مسئولين دفتر و منشي ها و ...

  32. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • کاربرد درسيستم‌هاي تلفني • منشي‌هاي تلفني (جهت متصل نمودن تماس گيرنده با يک فرد يا يک بخش با بيان گفتار نام فرد يا بخش)، • اپراتور خودکار تلفني، • سيستم‌هايIVR، • سيستم‌هاي ارتباط با مشتري و CRM، • سيستم‌هاي تلفن بانک، • سيستم‌هاي اطلاع رساني تلفني، • دايرکتوريهاي گوياي تلفني، • فرمهاي تلفني و نظر سنجي‌هاي تلفني، • رزرواسيون تلفني، • دايرکتوريهاي تلفني با بيان نام فرد يا موسسه، • . . . • تعيين هويت و شناسايي کاربران سيستم هاي ديالوگ

  33. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • مزايا • کاهش زمان • صرفه جويي در هزينه • تسهيل و تسريع ارتباط مشتريان • امنيت بالاتر نسبت به کليد و دکمه هاي تلفن

  34. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • تحقيق شرکت Fluency Voice بر سيستم هاي تلفني بانکها • 70% ترجيح مي دهند با اپراتور انساني کار کنند • 21% ترجيح مي دهند با اپراتور خودکار مبتني بر گفتار کار کنند • 9% ترجيح مي دهند با سيستم touch-tone کار کنند • تراکنش تلفني با گفتار 40 برابر سريع تر از touch-tone است • علت: حذف منوها و راهنمايي هاي مرتبط

  35. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • سيستم هاي تلفني بانکي مبتني بر گفتار • Columbia Bank • سيستم Columbia OnCall • شماره تماس 253-305-0050, 1-800-304-0050 • Standard Life Bank (UK) • توسط Fluency Voice Technology • 56% تماس ها و 90% تعيين هويت ها با سيستم گفتاري • ABN Amro • يکي از 20 بانک بزرگ دنيا با 3500 شعبه در 60 کشور • در آمريکا با نام LaSalle Bank

  36. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • تشخيص فرامين و دستورات صوتي • اجراي برنامه هاي رايانه با گفتن نام آنها، کنترل لوازم خانگي با دستورات صوتي • اتوماسيون اداري و خانگي مثلا در ساختمانهاي هوشمند • فرمان دادن به ربات‌ها • فرمان‌هاي صوتي در خودرو • کنترل برنامه‌هاي کامپيوتري مثل office • فرمهاي گويا براي ورود اطلاعات با فرامين صوتي • تشخيص اعداد (متصل، پيوسته) • ورود اطلاعات (data entry) • کيوسک‌هاي اطلاعات • دستگاههاي خود پرداز بانک‌ها • و ...

  37. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • کاربردهاي مربوط به معلولين، ناشنوايان و نابينايان • برقراريارتباطمعلولين حرکتي و نابينايان با ماشينها و رايانه ها • فراهم کردن امکان استفاده از سيستم هاي موجود توسط معلولين و نابينايان (مانند سيستم هاي تلفني خودکار) • استفاده در سيستم‌هاي تبديل گفتار به حرکات ايما و اشاره جهت ارتباط با ناشنوايان • معلولين، ناشنوايان و نابينايان معمولا توانايي گويايي دارند، از اين حس ميتوانند براي جبران فقدان حس هاي ديگر کمک بگيرند.

  38. Praselator بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • کاربردهايي ترکيبي • ترجمه گفتار به گفتار • سيستم‌هاي اتوماسيون اداري و Paper less • سيستم‌هاي ديالوگ و رابط‌ها گفتاري انسان و ماشين (HMI) • تشخيص درستي تلفظ براي سيستم‌هاي آموزش زبان • استفاده در بازي‌هاي کامپيوتري جهت افزايش قابليت‌هاي و جذابيت‌هاي آنها /p2.aspx

  39. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم‌هاي بازشناسي خودکار گفتار- کاربردها • ساير موارد • تشخيص گفتار بر روي کامپيوترهاي جيبي، تلفن همراه و ساير وسايل Hands-free به عنوان رابط کاربر و ورود اطلاعات • جستجوگر واژه‌هاي كليدي در گفتار (Word Spotting) • کاربردهاي تحت وب مانند VoiceXML • تصديق و/يا تشخيص هويت گوينده براي کاربردهاي امنيتي • ...

  40. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت کاربردي بازشناسي گفتار • مهمترين شرکت هاي مطرح جهاني در بازشناسي گفتار • Nuance (همان ScanSoft) • Philips • IBM • Microsoft • BBN • Loquendo • LumenVox

  41. بازشناسی گفتار (فارسي) در صنعت بانکداري مروري بر وضعيت کاربردي بازشناسي گفتار • مثال : سيستم ديکته مخصوص پزشکان (Nuance) • روش کلاسيک • هزينه تخميني زمان صرف شده توسط پزشک جهت تهيه اسناد و گزارش بيماران • براي هر پزشک به طور متوسط در هر سال 18.000 دلار • زمان آماده شدن گزارش (نوشتن گزارش توسط پزشک، تايپ آن توسط منشي، تصحيح توسط پزشک و تايپ اصلاحات) • حداقل 48 ساعت • روش جديد: استفاده از سيستم دراگون (نسخه 9) • هزينه فوق = بين 899 تا 1.039 دلار • زمان آماده شدن گزارش = تقريبا همزمان با بيان گفتار و در زمان گزارش‌گيري (حداکثر 12 ساعت) صرفه‌جويي در زمان و کاهش هزينه به ميزان 80% 

  42. بازشناسي خودکار گفتار زبان فارسي عصر گويش پرداز (ASR Gooyesh Pardaz)

  43. معرفي شرکت ... شركت عصرگويش پرداز (سهامي خاص) شروع فعاليت: 1381، ثبت : مرداد 1384 اولين و تنها شركت ايراني فعال در زمينه پردازش و تشخيص گفتار هدف: طراحي و توسعه نرم افزارها و سخت‌افزارهاي مبتني بر گفتار (به ويژه براي زبان فارسي) زمينه‌هاي تخصصي: پردازش سيگنال تشخيص گفتار (تبديل گفتار به متن) سنتز گفتار (تبديل متن به گفتار) طراحي دادگان‌هاي گفتاري پردازش زبان طبيعي بهبود كيفيت گفتار بازشناسی گفتار (فارسي) در صنعت بانکداري

  44. معرفي شرکت ... ارائه دهنده انحصاري سيستم هاي مبتني بر گفتار در فارسي برخي از محصولات نويسا؛ نرم‌افزار ديكتة گفتاري براي زبان فارسي نيوشا؛ تشخيص گفتار تلفني منـشي خودکار تلفنـي مبتني بر گفتار ، تشخيص اعداد و فرامين صوتي از پشت تلفن، سيستم‌ هاي IVR تلفنـي مبتني بر گفتار جستجوگر واژه‌هاي كليدي در گفتار پارسيا؛ متـرجم صـوتي گفتار به گفتار نويسيار؛ تايپ هوشمند فارسي تشخيص گفتار در كامپيوترهاي كوچك (تلفن‌‌‌همراه، PDA و... ) پارسيا جيبي(مترجم صوتي-نسخه کامپيوتر هاي جيبي) و اجرا کننده صوتي برنامه‌ها بازشناسی گفتار (فارسي) در صنعت بانکداري

  45. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • نويسا • موتور تشخيص گفتار پيوسته مستقل از گوينده با واژگان بزرگ زبان فارسي • توسط شرکت عصر گويش پرداز • مشخصات: • مبتني بر HMM با مدل‌سازي واج و سه واجي، • استفاده از رايج‌ترين ايده‌هاي مقاوم‌سازي و تطبيق گوينده • استفاده روشهاي مدل‌هاي زباني آماري و گرامري • قابليت استخراج محصولات مختلف • نويسا: نرم افزار تايپ گفتاري • نيوشا: تشخيص گفتار تلفني • جستجوي کلمات کليدي در گفتار • تشخيص فرامين و دستورات صوتي

  46. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • نويسا: نرم افزار تايپ گفتاري فارسي با خواندن متن آنرا تايپ نماييد

  47. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • قابليت هاي نويسا (تايپ گفتاري فارسي) • دقت تشخيص بسيار بالا (حدود 95%) • تايپ سريع متون همزمان با صحبت گوينده • امكان نوشتن در همه محيط هاي تايپ • نر‌م‌افزارهاي اتوماسيون، Word، محيط‌هاي تهيه ايميل و ... • قابليت تايپ علائم نگارشي مانند نقطه، علامت سوال و ... با گفتار • قابليت تايپ اعداد به‌صورت عددي يا حروفي • ايجاد پروفايل شخصي براي هر گوينده • قابليت آموزش به صداي کاربران و يادگيري لهجه و لحن بيان گوينده • شامل تمامي لغات پركاربرد زبان فارسي (حدود 21 هزار کلمه) • امكان افزودن كلمه جديد به واژگان كاربر در نرم‌افزار • قابليت تطبيق به انشاي کاربر توسط تيم پشتيباني شركت عصرگويش‌پرداز قابل نصب به صورت تک نسخه و تحت شبکه

  48. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • مزاياي نويسا (تايپ گفتاري فارسي) • افزايش سرعت تايپ و ورود اطلاعات • ديکته گفتاري= به طور متوسط حدود 105 کلمه در دقيقه، • سرعت متوسط تايپ توسط يک فرد عادي= حدود 33 کلمه در دقيقه • صرفه‌جويي در زمان • کاهش هزينه ها • حفظ امنيت اطلاعات در هنگام ورود داده‌ها • جلوگيري از اشتباهات املايي

  49. بازشناسی گفتار (فارسي) در صنعت بانکداري سيستم تشخيص گفتار فارسي نويسا • کاربردهاي نويسا: • تايپ هرگونه متوني که مستلزم تايپ با صفحه کليد هستند: • نامه هاي اداري يا شخصي • پاراف نامه ها • تايپ گزارش • تايپ متون شخصي (يادداشت ها، وبلاگ ها، مقالات و ...) • و . . .

  50. سيستم تشخيص گفتار فارسي نويسا برخي از مشتريان نويسا بانک‌ها (تجارت, ملت, پارسيان, سامان, سرمايه) مجلس شوراي اسلامي ايران (بخش انفورماتيک) سازمان زندان‌هاي کل کشور سازمان توسعه تجارت ايران سازمان نظام پرستاري سازمان بازرسي کشور سازمان صنايع و معادن (ستاد تحول اقتصادي) سازمان جهاد کشاورزي سازمان صدا و سيماي جمهوري اسلامي ايران (مرکز تحقيقات, دانشکده) وزارت دفاع ستاد مشترک سپاه پاسداران انقلاب اسلامي نيروی زميني ارتش قرارگاه خاتم الانبياء بنياد تعاون ناجا نيروي مقاومت بسيج شرکت (ملي پالايش و پخش فرآورده‌هاي نفتي، فولاد مبارکه، بيمه البرز، نفت فلات قاره و ...) دانشگاه (صنعتي شريف، مالک اشتر، امام حسين(ع)، دانشگاه آزاد اسلامي (واحد يزد, قايم شهر)) پالايشگاه (آبادان، پالايشگاه تهران) و 000 بازشناسی گفتار (فارسي) در صنعت بانکداري

More Related