1 / 96

זיהוי דיבור

זיהוי דיבור. רון משה הכט. מנגנון השמיעה. מבנה ההרצאה. משימות זיהוי דיבור שונות זיהוי מילים – בעיית למידה. משימות זיהוי דיבור. זיהוי מילים זיהוי דובר זיהוי שפה זיהוי מין מידע נוסף – מצב רוח. זיהוי שפה תלוי מבטא. זיהוי שפה עמיד למבטא. זיהוי דובר תלוי טקסט. זיהוי דובר לא תלוי טקסט.

Download Presentation

זיהוי דיבור

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. זיהוי דיבור רון משה הכט

  2. מנגנון השמיעה

  3. מבנה ההרצאה • משימות זיהוי דיבור שונות • זיהוי מילים – בעיית למידה

  4. משימות זיהוי דיבור • זיהוי מילים • זיהוי דובר • זיהוי שפה • זיהוי מין • מידע נוסף – מצב רוח זיהוי שפה תלוי מבטא זיהוי שפה עמיד למבטא זיהוי דובר תלוי טקסט זיהוי דובר לא תלוי טקסט שנות ה - 60 זיהוי פונמות שנות ה - 70 זיהוי מילים שנות ה - 80 HMM שנות ה - 90 LVCSR

  5. בריא חולה מידת רעש גודל הרגל זיהוי – בעיית למידה שלב הלימוד – מודל ביסיאני : • איסוף דוגמאות מתויגות • חילוץ פרמטרים • הכללה – יצירת מודלים

  6. גודל רגל 10 ס"מ מידת רעש 5 dB מידת רעש גודל הרגל זיהוי – בעיית למידה Moshe שלב המבחן – מודל ביסיאני : • קבלת דוגמא לא מתויגת • חילוץ פרמטרים • השוואה למודלים P( ill | Moshe) = 0.2 P( healthy | Moshe) = 0.8

  7. x,y,z x,y,z x,y,z מודל של המילה חתול זיהוי דיבור מערכת זיהוי בנויה מהשלבים הבאים: שלב הלימוד: • איסוף דוגמאות מתויגות • חילוץ פרמטרים • הכללה – יצירת מודלים שלב המבחן • קבלת דוגמא לא מתויגת • חילוץ פרמטרים • השוואה למודלים P( cat | x,y,z) = 0.2 P( dog | x,y,z) = 0.8 x,y,z

  8. הערה קטנה

  9. שלב חילוץ המאפיינים x,y,z

  10. רקע פיזיקאלי ופיזיולוגי • ניתוח הבעיה. • מה זה גל ? • מה זה קול ? • איך נוצר קול ? • איך נוצר דיבור ? • ניסיון ללמוד ולחקות את מנגנון השמיעה האנושי.

  11. גלים • איזה גלים אנחנו מכירים? • גלי ים • התפשטות גלים על חבל • כאשר גל עובר, החומר לא זז אלא משהו אחר קורה. • גל הוא הפרעה אשר מתקדמת במרחב ובזמן

  12. אורך גל amplitude מרחק גל מחזורי • קיימות הפרעות אשר קורות כל פרק זמן קבוע • דוגמא הפרעות אשר מתקדמות על חבל

  13. amplitude amplitude מרחק time גל מחזורי • נביט על נקודה מסויימת על החבל • בכל רגע נתון נרשום את האמפליטודה בה. x0

  14. amplitude t 1sec time גל מחזורי – במישור הזמן • גדלים אופיניים לגל מחזורי • t – פרק הזמן בין מחזורים • f – כמות המחזורים בשניה (תדירות)

  15. amplitude time ספקטרוגרמה • נחלק את ציר הזמן למקטעי זמן קטנים • בכל מקטע זמן נציין את התדירות בה

  16. amplitude t t’ time גל מחזורי – 2 תדירויות • 2 תדירויות בו זמנית

  17. amplitude time ספקטרוגרמה • במקרה של 2 התדירויות בו זמנית

  18. amplitude time מקרה יותר מורכב • מה הם התדירויות בכל המקטע הנ"ל?

  19. פירוק פוריה • כל אות רציף וחסום בקטע סגור אפשר להציג על ידי סכימה משוקללת של סינוסים וקוסינוסים.

  20. amplitude time amplitude amplitude amplitude time time time פירוק פוריה - דוגמא • פאזה . . . +

  21. פירוק פוריה - דוגמא

  22. amplitude מרחק גל חוזר • כאשר לגל שלנו קיים אילוץ (לדוגמא קיר) • במקרה זה קיימים גלים חוזרים אשר מבצעים סופרפוזציה עם הגלים המתקדמים. • תהליך כזה גורר איבוד אנרגיה רב בדרך כלל.

  23. amplitude מרחק גל עומד • כאשר לגל שלנו קיים אילוץ (לדוגמא קיר) • בתדירויות מיוחדות איבוד האנרגיה הוא הרבה יותר קטן • בתדירויות אילו המרחק של החבל מתחלק למחזורים שלמים

  24. יצירת מודים בחבל • בחבל באורך L יכולים להיווצר גלים באורכי הגל הבאים: 2L  L  2/3 L  ובאופן כללי המודים הם: Li = 2L/i i=1,2,3,...

  25. תדירות עצמית (תהודה) - רזוננס תכונה בתגובה של גופים שונים לגלים מחזוריים (גודל אופייני) כולל המודים היותר גבוהים. חבל (מיתר) חליל (גליל) כוס זכוכיתנדנדה (מטוטלת) כלי מיתר - תדרי תהודה: תדר בסיסי והרמוניות

  26. אקוסטיקה קול: תנודות פיזיות של מולקולות האוויר. היווצרות קול:ע"י שינויי לחצים. ביטוי פיזיקלי:לחץ כפונקציה של זמן. מושגים בסיסיים: מהירות הקול, אורך גל, v= *f

  27. amplitude time תדירות תהודה של גליל • בגליל תדירות התהודה מושפעת מאורך הגליל • בתוך הגליל יותר קל (אנרגטית) ליצור שינוי בלחץ (אין פיזור של הגל) גלים בתדירויות שונות נכנסים הגלים מאבדים את האנרגיה שלהם - דספרסיה

  28. יצירת קול • הקול נוצר ב – 3 שלבים עיקריים: • שלב מספר 1 : אויר יוצא מהריאות

  29. יצירת קול • הקול נוצר ב – 3 שלבים עיקריים: • שלב מספר 2 : האויר עובר דרך מיתרי הקול

  30. יצירת קול • הקול נוצר ב – 3 שלבים עיקריים: • שלב מספר 3 : האוויר עובר דרך חללי הדיבור – vocal tract בוקר טוב

  31. מודל פיסיקלי לחללי הדיבור • ניתן לדמות את חללי הדיבור לאוסף גלילים • כלומר נקבל מספר תדרי תהודה (פורמנטים) • שינוי המקום ההיגוי משנה את מספר הגלילים וצורתם כך אנו שולטים במה שאנו אומרים.

  32. התנועות • ניתן לראות חלוקה לאזורים • האם זה מפתיע?

  33. התנועות חיריק פשוקה חולם קמץ קטן מעוגלת שורוק קיבוץ מעוגלת שווא • אופן היגוי התנועות • גובה הלשון • מיקום הלשון • עיגול השפתיים צירה פשוקה סגול פשוקה פתח קמץ פשוקה מוזר odd מעוגלת

  34. העיצורים • בניגוד לתנועות קיימת עצירה של האוויר (לפעמים חלקית). • קיימות שלוש דרכים לסווג עיצורים: • דרך א – קוליות – ז,ס

  35. העיצורים דו – שפתי – ב (דגושה),מ,פ (דגושה) • דרך ב - מקום העצירה – התקרבות של 2 איברים , נייד ונייח. • בסיס החיתוך • החותך שפתי שיני – ב,ו,פ מכתשי – ד,ז,ט,ל,נ,ס,צ,צ',ר,ת חכי-מכתשי – ג',ד',ז',ש חכי י וילוני – ג,ח,כ (דגושה),כ,ק,ר לועי – ח,ע (גרוניות) סדקי – א,ע,ה

  36. העיצורים • דרך ג - אופן החיתוך • סותם או פוצץ – plosive – האוויר נעצר לגמרי – ג, ד • חוכך – fricative – האויר עובר עם חיכוך – פ, ב • אפי – nasal – סתימה מלאה במקום חיתוך ואויר יוצא דרך האף – מ,נ • צידי – lateral – האוויר זורם מצדי הלשון - ל • מחוכך – affricative – מתחיל חוכך ומסתיים פוצץ - צ

  37. איך נזהה דיבור – יצור המאפיינים • נחלק את הסיגנל הדיבור למקטעים קצרים • לכל מקטע נחשב את גדליו האופינים • נבדוק לאיזה קונפיגורציה הוא הכי דומה

  38. סיגנל הדיבור • אות ערעור מחזורי אשר עובר דרך פילטרים Pitch אות ערעור מחזורי מדויק. (הרבה הרמוניות) Vocal tract פילטר אשר משתנה בתכיפות Channel פילטר אשר כמעט ולא משתנה

  39. ייצוג אות הדיבור • דרך נפוצה לייצג דיבור היא להביט על ה – log של של ה – power spectrum • מדובר ב – 3 שלבים עיקריים • חישוב הספקטרום • הזנחת הפאזה • ביצוע - log

  40. איך נזהה דיבור – יצור המאפיינים • נחלק את הסיגנל הדיבור למקטעים קצרים • לכל מקטע נחשב את גדליו האופינים • נבדוק לאיזה קונפיגורציה הוא הכי דומה

  41. קוד matlab הרצה: Loadsinglefilemel(‘o1.wav’,19) קבצים ב – 8000 הרץ ו – 8 ביט לדגימה Imagesc(Loadsinglefilemel(‘o1.wav’,19))

  42. איך נזהה דיבור – קוונטיזציה 1 2 4 3

  43. 4 2 2 3 איך נזהה דיבור – יצור המאפיינים

  44. קוד matlab – אימון מרכזים הרצה: Train_cent(Loadsinglefilemel(‘o1.wav’,19)’,32,4) קבצים ב – 8000 הרץ ו – 8 ביט לדגימה

  45. קוד matlab – חילוץ מרכזים הרצה: Load cents calc_cent(W,loadsinglefilemel('o1.wav',19)') קבצים ב – 8000 הרץ ו – 8 ביט לדגימה 12 19 13 15........

  46. עוד נקודה קטנה - VOX • צריך לזהות איפה מתחיל ונגמר הדיבור • ווקס אנרגיה

  47. קוד matlab – VOX הרצה: y=wavread('o1.wav') [begloc, endloc,threshold] = simple_energy_vox(calc_energy(y, 128)) קבצים ב – 8000 הרץ ו – 8 ביט לדגימה 12 19 13 15........

  48. סיכום שלב הוצאת המאפיינים 24 22 22 22 20 20 22 20 20 20 20 22 20 20 22 26 22 22 22 22 22 22 22 22 22 22 26 26 22 26 24 26 26 24 24 24 24 24 24 29 29 29 29 29 29 29 29 29 24 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 24 29 24 24 24 24 24 24 24 24 24 24 29 29 24 29 29 29 29 29 29 29 29 29 relevant_centroids = get_relevant_cent('o1.wav',5)

  49. שלב חישוב ההסתברות x,y,z P(x,y,z | cat) = 0.1 P(x,y,z | dog) = 0.2

  50. נתחיל במודל פשוט • לכל פונמה יש התפלגות אחרת של המרכזים o i

More Related