1 / 18

תמלול דיבור ספונטני

תמלול דיבור ספונטני. ד"ר עמי מויאל המרכז לעיבוד שפה אפקה - ACLP כנס AVIOS 14 לאוקטובר 2009 המכללה האקדמית להנדסה אפקה. סדר יום. מוטיבציה אפליקציות ושווקי יעד מנוע תמלול - מאפיינים עיקריים זיהוי דיבור - גישות עיקריות הבעייתיות העיקרית בתמלול הגישה המוצעת תיאור המחקר

guy-jenkins
Download Presentation

תמלול דיבור ספונטני

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. תמלול דיבור ספונטני ד"ר עמי מויאל המרכז לעיבוד שפה אפקה - ACLP כנס AVIOS 14 לאוקטובר 2009 המכללה האקדמית להנדסה אפקה

  2. סדר יום • מוטיבציה • אפליקציות ושווקי יעד • מנוע תמלול - מאפיינים עיקריים • זיהוי דיבור - גישות עיקריות • הבעייתיות העיקרית בתמלול • הגישה המוצעת • תיאור המחקר • המרכז לעיבוד שפה באפקה

  3. מוטיבציה • המרת מידע קולי למידע טקסטואלי • שימוש בזיהוי דיבור להמרת בסיסי נתונים קוליים • עיבוד התוצר הטקסטואלי בכלים טקסטואליים קיימים

  4. אפליקציות ושווקי יעד • המרת מידע קולי: • הודעות • חיפוש • תמלול שיחות: • מרכזי שירות לקוחות • רפואי / בנקים / ביטוח • מודיעין בטחוני • שיחות/ישיבות בכלל... למעשה כל שוק בו קיים מידע קולי

  5. מנוע תמלול - מאפיינים עיקריים • דיבור ספונטני – קצבי דיבור שונים, מילות היסוס, לא ניתן להניח מודלי שפה, מילים זרות • מילון מילים גדול מאוד - דינמי, שמות רבים • בלתי תלוי בדובר ולרוב ללא אדפטציה לדובר • ערוצים שונים • רעשי רקע • תמלול ניתן לביצוע לא בזמן אמת

  6. זיהוי דיבור – גישות עיקריות (1)מנועי זיהוי דיבור לתקשורת אדם מכונה • זיהוי מבוסס תחביר הכולל אוסף כללים המגדיר במדויק את המשפטים האפשריים בכניסה למנוע הזיהוי • מילון המילים האקטיבי כולל על פי רוב מאות עד אלפי מילים והתחביר מגדיר אוסף סופי של משפטים בעלי סדר מסוים • כל משפט שאינו כולל מילים ממילון המילים או שאינו בסדר המילים המיוצג בתחביר לא יזוהה על ידי המנוע

  7. זיהוי דיבור – גישות עיקריות (2)מנועי הכתבה • זיהוי דיבור רציף במילונים גדולים – LVCSR • דרגה אחת המכילה את כל המידע והאילוצים – מודלי פונמות, לקסיקון ומודלי שפה • שימוש במודלי שפה, המניחים דיבור בשפה תקנית כמו כתיבה בטקסט • אדפטציה לדובר • על פי רוב סביבה שקטה וכניסת מיקרופון

  8. מנוע LVCSR קלאסי

  9. חיפוש סדרת המילים

  10. הבעייתיות העיקרית בתמלול • דיבור ספונטני - מודלי שפה קלאסיים אינם תקפים • מילון מילים גדול מאוד • מרחב חיפוש עצום • הגישות הקלאסיות אינן מתאימות

  11. הגישה המוצעת • מערכת בעלת שלוש דרגות עוקבות • הקטנה משמעותית של תחום החיפוש תוך שיפור ביצועי הזיהוי • דרגה ראשונה – זיהוי פונמות – המרת דיבור לסדרת פונמות טקסטואלית • דרגה שניה – אלגוריתם לבניית תבנית היפוטזות למילים מתוך סדרת הפונמות • דרגה שלישית - אלגוריתם המייצר סדרת מילים מתבנית ההיפוטזות שיוצרה בדרגה השנייה

  12. תיאור המחקר • פרויקט במסגרת תוכנית מגנטון בתמ"ס • עידוד העברת ידע מהאקדמיה לתעשיה • מרכז לעיבוד שפה במכללה האקדמית אפקה וחברת ספיץ מודולס • פיתוח מנוע יעיל לתמלול דיבור ספונטני • משך הפרויקט שנתיים • צוות של 12 חוקרים • תוצאות ראשוניות מבטיחות

  13. עיקרי תוכנית המחקר • פיתוח אלגוריתם יחודי ליצור היפוטזות מילים מסדרת פונמות נתונה תוך הקטנה משמעותית של מילון המילים האפשרי • פיתוח אלגוריתם יחודי ליצור סדרת מילים מאוסף מילים נתון שהתקבל מהדרגה הקודמת • דגש על כלים וגישות לעיבוד טקסטואלי תוך שילוב מידע לשוני • פיתוח תשתיות משמעותיות בשפה האנגלית: • לקסיקון של מאה אלף מילים • איסוף בסיס נתונים אמיתי של דיבור ספונטני • פיתוח תשתיות תוכנה שיאפשרו בחינה, ניתוח וגיבוש מודל רגישות למנוע התמלול

  14. המוצר תוצרי המחקר ישולבו במוצר להמרת הודעות קוליות בעולם הטלפוניה להודעות טקסט שהינה בעלת מספר יתרונות עיקריים למשתמש: • קריאה הינה מהירה יותר משמיעה • ההמרה לכתב מאפשרת שמירה לאורך זמן של ההודעות • יכולת קבלת הודעות בכל מצב • שמירה וחיפוש בעתיד בשימוש בכלים חיפוש טקסטואליים

  15. ההזדמנות העסקית • שירותים של המרת הודעות קוליות לטקסט קיימים היום בעולם ויש להם קהל לקוחות משלם • השירותים מבוצעים על ידי כוח אדם אנושי • מחיר יקר ללקוח הסופי • ישנו מקום למוצר אוטומטי המתרגם הודעות קוליות לטקסט שיוזיל את העלות ויאפשר חדירה משמעותית יותר של שירות זה

  16. המרכז לעיבוד שפה באפקה • המרכז לעיבוד שפה באפקה אביב הוקם במטרה להוות מרכז ידע משמעותי וייחודי בתחום עיבוד שפה מדוברת וכתובה. • המרכז יעסוק בהוראה ובמחקר בתחום השפה המדוברת והכתובה מתוך כוונה לתרום להנחלת הידע בתחום עיבוד השפה, קידום המחקר הבסיסי בתחום ולתועלת צרכי הקהילה התעשייתית בארץ.

  17. המרכז לעיבוד שפה באפקהתחומי פעילות • מעבדת מחקר והוראה בתחום עיבוד שפה מדוברת וכתובה • פעילות מחקרית בסיסית בתחומי עיבוד דיבור וטקסט • קורסים ופרויקטים בתחום לסטודנטים של מכללת אפקה • פעילות מחקר ופיתוח בשיתוף עם התעשייה • מתן ייעוץ בתחום לתעשייה • קורסים מקצועיים לתעשייה • כנסים וימי עיון מקצועיים בתחום בארץ

  18. סיכום • קיימים שווקי יעד ואפליקציות רבות למנוע תמלול דיבור • הבעייתיות העיקרית הינה דיבור ספונטני הכולל מילון מילים גדול • הגישות הקלאסיות פחות מתאימות • פרויקט מחקרי עם אוריינטציה תעשייתית ששם לו כיעד הקטנה משמעותית של תחום החיפוש תוך שיפור ביצועי הזיהוי עבור תמלול דיבור ספונטני

More Related