תמלול דיבור ספונטני

תמלול דיבור ספונטני ד"ר עמי מויאל המרכז לעיבוד שפה אפקה - ACLP כנס AVIOS 14 לאוקטובר 2009 המכללה האקדמית להנדסה אפקה

סדר יום • מוטיבציה • אפליקציות ושווקי יעד • מנוע תמלול - מאפיינים עיקריים • זיהוי דיבור - גישות עיקריות • הבעייתיות העיקרית בתמלול • הגישה המוצעת • תיאור המחקר • המרכז לעיבוד שפה באפקה

מוטיבציה • המרת מידע קולי למידע טקסטואלי • שימוש בזיהוי דיבור להמרת בסיסי נתונים קוליים • עיבוד התוצר הטקסטואלי בכלים טקסטואליים קיימים

אפליקציות ושווקי יעד • המרת מידע קולי: • הודעות • חיפוש • תמלול שיחות: • מרכזי שירות לקוחות • רפואי / בנקים / ביטוח • מודיעין בטחוני • שיחות/ישיבות בכלל... למעשה כל שוק בו קיים מידע קולי

מנוע תמלול - מאפיינים עיקריים • דיבור ספונטני – קצבי דיבור שונים, מילות היסוס, לא ניתן להניח מודלי שפה, מילים זרות • מילון מילים גדול מאוד - דינמי, שמות רבים • בלתי תלוי בדובר ולרוב ללא אדפטציה לדובר • ערוצים שונים • רעשי רקע • תמלול ניתן לביצוע לא בזמן אמת

זיהוי דיבור – גישות עיקריות (1)מנועי זיהוי דיבור לתקשורת אדם מכונה • זיהוי מבוסס תחביר הכולל אוסף כללים המגדיר במדויק את המשפטים האפשריים בכניסה למנוע הזיהוי • מילון המילים האקטיבי כולל על פי רוב מאות עד אלפי מילים והתחביר מגדיר אוסף סופי של משפטים בעלי סדר מסוים • כל משפט שאינו כולל מילים ממילון המילים או שאינו בסדר המילים המיוצג בתחביר לא יזוהה על ידי המנוע

זיהוי דיבור – גישות עיקריות (2)מנועי הכתבה • זיהוי דיבור רציף במילונים גדולים – LVCSR • דרגה אחת המכילה את כל המידע והאילוצים – מודלי פונמות, לקסיקון ומודלי שפה • שימוש במודלי שפה, המניחים דיבור בשפה תקנית כמו כתיבה בטקסט • אדפטציה לדובר • על פי רוב סביבה שקטה וכניסת מיקרופון

מנוע LVCSR קלאסי

חיפוש סדרת המילים

הבעייתיות העיקרית בתמלול • דיבור ספונטני - מודלי שפה קלאסיים אינם תקפים • מילון מילים גדול מאוד • מרחב חיפוש עצום • הגישות הקלאסיות אינן מתאימות

הגישה המוצעת • מערכת בעלת שלוש דרגות עוקבות • הקטנה משמעותית של תחום החיפוש תוך שיפור ביצועי הזיהוי • דרגה ראשונה – זיהוי פונמות – המרת דיבור לסדרת פונמות טקסטואלית • דרגה שניה – אלגוריתם לבניית תבנית היפוטזות למילים מתוך סדרת הפונמות • דרגה שלישית - אלגוריתם המייצר סדרת מילים מתבנית ההיפוטזות שיוצרה בדרגה השנייה

תיאור המחקר • פרויקט במסגרת תוכנית מגנטון בתמ"ס • עידוד העברת ידע מהאקדמיה לתעשיה • מרכז לעיבוד שפה במכללה האקדמית אפקה וחברת ספיץ מודולס • פיתוח מנוע יעיל לתמלול דיבור ספונטני • משך הפרויקט שנתיים • צוות של 12 חוקרים • תוצאות ראשוניות מבטיחות

עיקרי תוכנית המחקר • פיתוח אלגוריתם יחודי ליצור היפוטזות מילים מסדרת פונמות נתונה תוך הקטנה משמעותית של מילון המילים האפשרי • פיתוח אלגוריתם יחודי ליצור סדרת מילים מאוסף מילים נתון שהתקבל מהדרגה הקודמת • דגש על כלים וגישות לעיבוד טקסטואלי תוך שילוב מידע לשוני • פיתוח תשתיות משמעותיות בשפה האנגלית: • לקסיקון של מאה אלף מילים • איסוף בסיס נתונים אמיתי של דיבור ספונטני • פיתוח תשתיות תוכנה שיאפשרו בחינה, ניתוח וגיבוש מודל רגישות למנוע התמלול

המוצר תוצרי המחקר ישולבו במוצר להמרת הודעות קוליות בעולם הטלפוניה להודעות טקסט שהינה בעלת מספר יתרונות עיקריים למשתמש: • קריאה הינה מהירה יותר משמיעה • ההמרה לכתב מאפשרת שמירה לאורך זמן של ההודעות • יכולת קבלת הודעות בכל מצב • שמירה וחיפוש בעתיד בשימוש בכלים חיפוש טקסטואליים

ההזדמנות העסקית • שירותים של המרת הודעות קוליות לטקסט קיימים היום בעולם ויש להם קהל לקוחות משלם • השירותים מבוצעים על ידי כוח אדם אנושי • מחיר יקר ללקוח הסופי • ישנו מקום למוצר אוטומטי המתרגם הודעות קוליות לטקסט שיוזיל את העלות ויאפשר חדירה משמעותית יותר של שירות זה

המרכז לעיבוד שפה באפקה • המרכז לעיבוד שפה באפקה אביב הוקם במטרה להוות מרכז ידע משמעותי וייחודי בתחום עיבוד שפה מדוברת וכתובה. • המרכז יעסוק בהוראה ובמחקר בתחום השפה המדוברת והכתובה מתוך כוונה לתרום להנחלת הידע בתחום עיבוד השפה, קידום המחקר הבסיסי בתחום ולתועלת צרכי הקהילה התעשייתית בארץ.

המרכז לעיבוד שפה באפקהתחומי פעילות • מעבדת מחקר והוראה בתחום עיבוד שפה מדוברת וכתובה • פעילות מחקרית בסיסית בתחומי עיבוד דיבור וטקסט • קורסים ופרויקטים בתחום לסטודנטים של מכללת אפקה • פעילות מחקר ופיתוח בשיתוף עם התעשייה • מתן ייעוץ בתחום לתעשייה • קורסים מקצועיים לתעשייה • כנסים וימי עיון מקצועיים בתחום בארץ

סיכום • קיימים שווקי יעד ואפליקציות רבות למנוע תמלול דיבור • הבעייתיות העיקרית הינה דיבור ספונטני הכולל מילון מילים גדול • הגישות הקלאסיות פחות מתאימות • פרויקט מחקרי עם אוריינטציה תעשייתית ששם לו כיעד הקטנה משמעותית של תחום החיפוש תוך שיפור ביצועי הזיהוי עבור תמלול דיבור ספונטני

תמלול דיבור ספונטני