290 likes | 556 Views
טכנולוגיית זיהוי דיבור – מציאות, מיתוסים וחזון. ד"ר עמי מויאל NSC. כנס יסוד AVIOS ישראל 19 לספטמבר 2005. מבנה המצגת. זיהוי דיבור מוטיבציה סקירת השווקים הרלוונטיים זיהוי דיבור כיום מציאות מיתוסים נפוצים מול המציאות הדרוש להאצת החדירה זיהוי דיבור בעתיד החזון הנדרש למימוש החזון.
E N D
טכנולוגיית זיהוי דיבור – מציאות, מיתוסים וחזון ד"ר עמי מויאל NSC כנס יסוד AVIOS ישראל 19 לספטמבר 2005
מבנה המצגת • זיהוי דיבור • מוטיבציה • סקירת השווקים הרלוונטיים • זיהוי דיבור כיום • מציאות • מיתוסים נפוצים מול המציאות • הדרוש להאצת החדירה • זיהוי דיבור בעתיד • החזון • הנדרש למימוש החזון
זיהוי דיבור – מה זה ? ולמה ? עיקרון מנחה : המכונות צריכות ללמוד את שפתינו במקום שאנו נלמד את שפתן. זיהוי דיבור... • מאפשר תקשורת אדם – מכונה מבוססת דיבור. • מקנה למכונה יכולת להבין דיבור אנושי ולהגיב בהתאם. • יתרונות עיקריים למשתמש : • ממשק טבעי, אינטואיטיבי - נוחות • עלייה באיכות השירות – קיצור זמני המתנה, זמינות 24/7 • יותר שירותים אוטומטיים • בטיחות - נהיגה ברכב • קלות שימוש לאוכלוסיות שונות • יתרונות עסקיים עיקריים: • חיסכון בעלויות ע"י אוטומציה - כוח אדם, עלויות תפעול, קיצור זמנים • שביעות רצון לקוחות - הפחתת נדידת לקוחות • יצירת הכנסות נוספות על ידי שירותי ערך מוסף • הפעלת שירותים האפשריים רק על ידי ממשק קולי • יתרון תחרותי - מיצוב שיווקי • מעודד שימוש
שווקי יעד לטכנולוגית זיהוי דיבור מספר שווקים עיקריים: • טלפוניה • מוצרי צריכה • תפעול מחשב אישי • מערכות הכתבה • רכב • בטחוני
שווקי יעדזיהוי דיבור בשוק הטלפוניה • שימוש – בעיקר שרותי טלפוניה מבוססי ממשק קולי • מפעילי טלפוניה – שירותי ערך מוסף ללקוחות וארגונים • מרכזי שירות לקוחות – ממשק קולי, speech analytics • ארגונים – ניתוב שיחות , דואר קולי, פורטל ארגוני • מאפיינים עיקריים: • בלתי תלוי בדובר • משאבים מרכזיים • זיהוי שפה טבעית • חסינות לרעש וערוץ • מוצר יציב – עמידה בעומסים
שווקי יעדזיהוי דיבור בשוק מוצרי הצריכה • שימוש – תפעול מכשירים • מאפיינים עיקריים: • לרובתלוי דובר • כניסת מיקרופון • פתרון Embedded – מותאם למשאבי זכרון וכושר עיבוד • ערוץ זיהוי דיבור לכל מכשיר צריכה • לרוב זיהוי מילונים קטנים ובינוניים • נפוץ בעיקר בתחום מכשירי הסלולאר • שווקים עתידיים: מכשירי חשמל ביתיים, הבית החכם, צעצועים ועוד..
שווקי יעדזיהוי דיבור בשוק ה- PC • שימוש עיקרי - הפעלת תוכנות • מאפיינים עיקריים: • ערוץ זיהוי דיבור למחשב • תלוי דובר / אדפטציה לדובר • כניסת מיקרופון • לרוב סביבה שקטה ללא עיוותי ערוץ • לרוב זיהוי מילונים קטנים ובינוניים
שווקי יעדזיהוי דיבור במערכות הכתבה • שימוש עיקרי – הכתבה של קטעי טקסט רצופים בשפה טבעית • מאפיינים: • מנועי Large Vocabulary (LVCSR) • דיבור רציף ומובנה וכולל חוקי שפה ותחביר • לרוב ערוץ לכל תוכנת הכתבה • נפוץ בעיקר בשוק הרפואי ובתחום המשפטי • יש ניסיון "להסב" מנועי LVCSR לשימושים נוספים דוגמת Word Spotting
שווקי יעדזיהוי דיבור בשוק הרכב • שימוש עיקרי – תפעול מערכות ברכב תוך כדי נהיגה • מאפיינים עיקריים: • במערכות מובנות ברכב: • לרוב תלוי דובר • פתרון Embedded • לרוב זיהוי מילונים קטנים ובינוניים • כניסת מיקרופון • רעש רכב, הדהודים • במערכות לא מובנות ברכב: • ייתכן גם פתרון מרכזי • בלתי תלוי בדובר • במערכות ניווט נדרשים מילונים גדולים • תמיכה בשפות רבות
שווקי יעדזיהוי דיבור בשוק הביטחוני • שימוש עיקרי – מודיעין, תפעול מערכות נשק, תקשורת • מאפיינים עיקריים: • מודיעין – משאבים מרכזיים, איתור מילות מפתח, חשיבות לשפות ספציפיות, מאות אלפי שעות אודיו לניתוח – דרישה לאלפי ערוצים. • תפעול מערכות נשק – פתרון EMBEDDED, יתכן תלוי דובר, ערוץ אחד לכל מערכת, תנאי קיצון (רעש, עיוותי קול) • תקשורת – בלתי תלוי בדובר, רעש ועיוותי ערוץ, רשימות מילים מוגבלות (בעיקר קודים)
מאפיינים עיקריים של מוצרי זיהוי דיבור סוג המוצר: • Server or Embedded • פלטפורמה – מעבד, כרטיס, מחשב טכנולוגיה: • תלוי בדובר / בלתי תלוי בדובר / אדפטציה לדובר • מידול בסיסי: מילים/פונמות/אחר • זיהוי מונחה תחבירים או LVCSR • יכולת תמיכה בדיבור טבעי (NLU): היכולת לאפשר ללקוח לדבר בצורה טבעית ולא "מתוכנתת". איכות הזיהוי: • נגזרת ממורכבות המשימה. • חסינות לרעש וערוץ. תמיכה בשפות:יכולת התמיכה הנוכחית בשפות, והיכולת (עלות וזמן) להוסיף שפות בעתיד. פשטות הפיתרון:קלות האינטגרציה, יכולת השליטה על המנוע ומשאביו. ממשקים:תמיכה בסטנדרטים בינלאומיים: VXML , MRCP , DSR מחיר:הקריטריון הנפוץ להשוואת עלויות הינו "מחיר לערוץ ASR" אולם יש לשקול גם עלויות נוספות (חומרה, שטח, צריכת הספק, תחזוקה) כמו גם גישות תמחיריות: פר מחשב, פר ביצועים.
היכן אנחנו היום חדירה לשווקי היעד • טלפוניה: • חדירה טובה למרכזי שירות • התקנות אצל ספקי שירותים – בעיקר מפעילים סלולאריים • שוק ארגוני – בעיקר מערכות לניתוב שיחות ודואר קולי מונחה קול • מוצרי צריכה : • חדירה בעיקר במכשירים סלולאריים • תחילת חדירה לצעצועים ומכשירים ביתיים • תפעול מחשב אישי – ישנם פתרונות, תחילת חדירה • הכתבה – ישנם פתרונות, תחילת חדירה • רכב – ישנם פתרונות, תחילת חדירה • בטחוני – ישנם פתרונות, קיימת דרישה משמעותית בעיקר בתחום המודיעין • החדירה מתקדמת היכן שקיימת מוטיבציה עסקית ברורה כמו ב: • טלפוניה – ניתן להראות ROI • מכשירים סלולאריים – בעיקר בטיחות • בטחוני – אין פתרון חליפי לעיבוד כמויות המידע העצומות
ROI נמדד כיום בחודשים והוא קל למדידה והוכחה. היכן אנחנו היוםשוק הטלפוניה – גודל שוק • יישומים בתחום החלו בשנות ה 80. • כיום הטכנולוגיה נחשבת בשלה ובעלת ביצועים גבוהים המאפשרים השקת שירותים רווחיים ובצורה מהירה. • בהתבסס על מחקר שוק של גרטנר: • בשנת 2004: • נמכרו כ-140,000 ערוצי זיהוי דיבור טלפוניה בעולם • כ- 135M$ לערוצי דיבור בלבד • כ- 270M$ מכירות לספקי זיהוי דיבור • כ- 140 מיליון משתמשים חדשים • בשנים 2005-2008: • כ- 750M$ לערוצי דיבור בלבד • כ- 1.5B$ מכירות לספקי זיהוי דיבור • השוק גדל בקצב גידול שנתי דו ספרתי
היכן אנחנו היוםשוק הטלפוניה - פילוח גיאוגרפי • ארצות הברית מהווה כ 61% מהשוק בתחום הטלפוניה. • בעיקר התקנות לזיהוי דיבור בתחום מרכזי שירות לקוחות. • 3-5 אחוז ממרכזי שירות בארה"ב מותקנים, כ- 20% התנסו. • EMEA - 26% מהשוק, נתח שוק צפוי לגדול. • ישראל : • מפעילי טלפוניה : שלושת המפעילים הסלולאריים השיקו שירותים במספר שפות. • חברות וארגונים: שירותי מענה קולי וניתוב שיחות הושקו בהצלחה בחברות שונות. • מרכזי שירות: תחילת חדירה, בעיקר מפעילים סלולאריים.
גרף הפריצה חדירה עקבית לאורך זמן לעומת "בום" ממוקד כמות ההתקנות 2000 2003 2006 2009 2012 זמן
אם כך, מדוע החדירה איטית ? • פוביה - טכנולוגיה "חדשנית" • מחיר • כיול רב בעת התקנת מערכות • מולטי דיסציפלינארי • היסטוריה לא טובה – מוניטין בעייתי
זיהוי דיבור – מיתוס לעומת מציאות מיתוס מס' 1 : זיהוי דיבור אינו פתרון אמין ובעל בשלות מסחרית לתחום ה self-service מקור המיתוס • בשלות נמוכה של הטכנולוגיה בעבר (שנות ה 80, 90) וידע נמוך בעבר בתכנון השירותים יצרו אי שביעות רצון אצל הלקוחות ותדמית שלילית לתחום המציאות • טכנולוגיה בשלה • התקנות רבות (בעיקר בארה"ב ואירופה) • לקוחות מרוצים • רווחיות, ROI מוכח ומהיר • ממשק אדם מכונה ידידותי
זיהוי דיבור – מיתוס לעומת מציאות מקור המיתוס • תכנונים גרועים של VUI ו- Call Flow • ממשקי DTMF לא ידידותיים המציאות • ממשק זיהוי דיבור ידידותי וטבעי יותר מממשקים אחרים • 80% מהלקוחות מעדיפים ממשק דיבור מממשקDTMF (DataMonitor) • מתן השירות המבוקש מבוצע בצורה מהירה יותר בעזרת דיבור מיתוס מס' 2 : לקוחות נרתעים מאינטראקציה עם מכונה
זיהוי דיבור – מיתוס לעומת מציאות מקור המיתוס • נדרשת התמחות בתחום • יכולת מוגבלת לשימוש חוזר • תחום מולטי דיסציפלינארי שמחייב מספר שותפים בהקמת פרויקט • עלויות רישיונות ותשתיות • נדרש כיול רב, והפתרונות ספציפיים המציאות • מחירי ערוצי זיהוי דיבור בירידה הודות ל: • תחרות • יתרון לגודל – עשרות אלפי ערוצים נמכרים כל שנה • הפתרונות פחות מסובכים ומחיריהם בירידה הודות ל: • התפתחות סטנדרטים פתוחים (VXML, SALT) • הוזלת עלויות פיתוח על ידי שימוש ב- packaged application • התמקצעות בשירותים מקצועיים מיתוס מס' 3 : פתרונות זיהוי דיבור יקרים ומסובכים
זיהוי דיבור – מיתוס לעומת מציאות מיתוס מס' 4 : הטכנולוגיה משרתת בעיקר צרכים של ארגונים גדולים וספקי שירות מקור המיתוס • ההתקנות שנחשפו לציבור היו בעיקר בארגונים גדולים וספקי שירות • דוגמאות ל ROI ברור פורסמו בעבר בעיקר על ידי גופים עם תעבורת שיחות גבוהה • סף הכניסה לטכנולוגיה גבוה המציאות • זיהוי דיבור חודר לתחומים נוספים בעסק מלבד שרות לקוחות (למשל מילוי טפסים) • אימוץ הטכנולוגיה על ידי שווקים אחרים (רכב, מוצרי צריכה, בריאות...) • זיהוי דיבור מתחיל להיכנס לשוק ה SME בעולם כולו דרך מערכות ניתוב שיחות ודואר קולי • ירידת מחירים עקבית של הטכנולוגיה
מה צריך לקרות כדי להגביר את האימוץ כיום • שוק: • סטנדרטים • תשתיות שפה • חינוך שוק • מודלים עסקיים • חדירת חברות גדולות • מוצרים: • מחיר • פשטות • כלים לכיול • אפליקציות: • VUI • Pre-packaged apps • יכולת שליטה משופרת ללקוח הסופי • טכנולוגיה: • המשך שיפור ומאפיינים חדשים
יום בחיינו • בוקר : • פקודות קוליות למחשב מרכזי שיפעיל את הקומקום החשמלי ויפתח חלונות. • רכב: • מזהה את בעליו על פי קול ונענה לפקודות קוליות • התעדכנות במיילים והודעות תוך כדי נסיעה • עסקים: • ביצוע פעולות פיננסיות על ידי קול - רכישת מניות, פעולות בחשבון, שירותי מידע פיננסי • תמלול ישיבות בזמן אמת לפרוטוקול • תרבות הפנאי : • הזמנת כרטיסים להצגה, שירותים מבוססי מיקום (מסעדות, מופעים, פארקים...) • שליטה בטלוויזיה באמצעות השלט : חיפוש תוכניות לפי פרמטרים, הפעלה, קלטה... • משק בית: • שימוש קולי ב"דפי זהב" לחיפוש בעלי מקצוע • השקיית גינה, הדלקת תאורת בית, מזגן • ילדים: • ספר טלפונים אישי לכל ילד כך שלא יצטרכו לזכור מספרים • הפעלה קולית של מחשב ומכשירי חשמל בצורה בטיחותית • צעצועים מונחי קול
דוגמא ליישום עתידי :תרגום סימולטאני Communication & Translation SR/ TTS SR/ TTS Place : Israel Language : Hebrew Place : Brazil Language : Portuguese
מה יאפשר את מימוש החזון ? • יכולות זיהוי שפה מלאה ולא תלוית הקשר • הוזלת מחיר • המשך התקדמות של שירותים המצריכים ממשקים מורכבים • המשך התפתחות יכולת עיבוד בכל הפלטפורמות • כניסה של חברות גדולות לתחום • סטנדרטיזציה (VoiceXML, MRCP, SALT, DSR) • חקיקה (שירותי מידע, hands-free) • היכולת להראות ROI ברור ומהירבתחומים שונים הפיכת זיהוי דיבור לקומודיטי !!!
קצת על NSC • ספק מנועי זיהוי דיבור עם מוצר וטכנולוגיה ייחודית – מנועי זיהוי דיבור מבוססי PCI לשוק הטלפוניה • ייחודיות: מוצר מבוסס חומרה בעל דחיסות גבוהה במיוחד, תמיכה בארבע שפות הנדרשות בישראל, מחיר נמוך, אינטגרציה ותפעול פשוטים • מרכז פיתוח והנהלת החברה בישראל. משרדי מכירות בארה"ב, אנגליה וגרמניה • בעלי מניות: AudioCodes, Corex, Koor, Polar • התקנות : שלושת ספקי הסלולארי המובילים בארץ, מרכזי שירות לקוחות גדולים, שירותי ניתוב שיחות בארגונים, שירותי ערך מוסף מונחי דיבור, פעילות בשוק הביטחוני
תודה NSC – Natural Speech Communication לזרוב 33 ראשל"צ טלפון: 03-9519779 www.nscspeech.com