410 likes | 582 Views
אודיו ו - wavelets. ע"י: אלכס בלן בעזרת התיזה של Corey Cheng. מטרת ההרצאה. להקנות ידע באודיו להקנות ידע בעיבוד צליל להראות את יתרונות ה – wavelet באודיו ויישומים ליהנות. נושאי ההרצאה. אודיו עיבוד צליל Wavelets לעומת פורייה נגיעה מתמטית יישומים. איך ומה האוזן שומעת?.
E N D
אודיו ו - wavelets ע"י: אלכס בלן בעזרת התיזה של Corey Cheng
מטרת ההרצאה • להקנות ידע באודיו • להקנות ידע בעיבוד צליל • להראות את יתרונות ה – wavelet באודיו ויישומים • ליהנות
נושאי ההרצאה • אודיו • עיבוד צליל • Wavelets לעומת פורייה • נגיעה מתמטית • יישומים
איך ומה האוזן שומעת? • שערות קטנות הרגישות לשינויים בלחץ, מעבירות פולסים חשמליים למוח. • כל שערה כזו רגישה לתדר ספציפי. • תינוק שומע בין 20hz – 20khz. • האוזן שומעת תדרים באופן אקספוננציאלי. • עוצמת השמע היא 0dbspl – 140dbspl. • האוזן שומעת עוצמות באופן אקספוננציאלי.
שמיעת תדרים ועוצמות 440hz 220hz 880hz 1760hz W - הספק P - לחץ db = 10log(W1/W2) db = 20log(P1/P2) 0db 1Watt 1Pascal 10db 10Watt 10 Pascal 20db 100Watt 10 Pascal
עוצמות של תדרים. ככל שהתדר נמוך יותר כך האמפליטודה גדולה יותר. כל התדרים Low Mid High
תדרים של עוצמות • התדר אותו האוזן שומעת הכי טוב הוא 3000hz. • ככל שהעוצמה הכללית יורדת, וככל שתדר מתרחק מ - 3000hz, עוצמתו יורדת. 0db -10db -20db -30db -40db עוצמה -50db -60db -70db -80db -90db 0hz 31hz 63hz 125hz 250hz 500hz 1Khz 2Khz 4Khz 8Khz 16Khz תדר
אודיו – אנלוגי מול דיגיטלי • אנלוגי: סרט מגנטי ותקליט פלסטיק. • יתרונות: תדר דגימה אינסופי, רזולוציה אינסופית. • חסרונות: בלאי, הענות תדר לא מושלמת, עריכה לא נוחה. • דיגיטלי: דיסקים, A-dat. • יתרונות: בלאי נמוך, הענות תדר מלאה, עריכה קלה. • חסרונות: רזולוציה 16 ביט בלבד לדגימה, סאונד לא חם.
פורמטים דיגיטליים נפוצים • Cda – פורמט של שיר רגיל, בעל header המכיל אינפורמציה כמו אורך השיר, נקודת התחלה וכולי. • ה – data הוא 44,100 דגימות לשניה, 16 ביט לדגימה. • WAV – מבנה סטנדרטי של RIFF, (windows). • המבנה מחלק את תכולת הקובץ לנתחים. • לכל נתח יש יש header משלו, המצביע על סוג המידע בנתח. • ה – data עצמו מקומפרס בפורמט שאינו מאבד מידע.
פורמטים דיגיטליים נפוצים - המשך • Mp3 – פורמט כיווץ דיגיטלי המתבסס בעיקרו על התופעות הפסיכו-אקוסטיות הבאות: • תדרים קרובים נשמעים כמעט אותו הדבר. • תדר הגדול ב – 3db מתדר אחר, נשמע על חשבון האחר. • אופן הכיווץ – שני כיווצים. • תחילה מחלקים את השיר לפריימים קטנים, ומנתחים כל frame מבחינת תדרים. • מכווצים אותו לפי טבלה מתמטית המייצגת את התופעות הפסיכו-אקוסטיות ( כיווץ עם איבוד מידע ). • משתמשים בכיווץ נוסף – הפמן ( כיווץ בלי איבוד מידע ).
ממירים מגברים ורמקולים • ממיר: A/D – ממיר אות חשמלי רציף לדגימות ברזולוציה סופית. • ממיר D/A – ממיר דגימות לאותות חשמליים. • מגבר – מגביר אותות חשמליים נמוכים. • רמקולים – מקבלים אותות חשמליים, והופכים אותם לתנועה מחזורית, המשנה את לחץ האוויר וגורמת לנו לשמוע.
נושאי ההרצאה • אודיו • עיבוד צליל • Wavelets לעומת פורייה • נגיעה מתמטית • יישומים
Equalizer (eq) • Equalizer – מאזן תדרים. • שימושים עיקריים: • מיקס של כלים: אם שני כלים או יותר משמיעים קול במקביל, נעלה בכ – 3db כל אחד מהם בתדר אחר, ואז כולם ישמעו בבירור במיקס הסופי של הכלים. • איזון סביבות אקוסטיות: עוצמות התדרים של שיר מושפעות מצורת החדר בו הן נמצאות והאקוסטיקה הפנימית שלו. ה – eq עוזר לאזן תדרים הקופצים החוצה, וליצור סביבה אקוסטית רצויה.
Equalizer המשך • הפרמטרים החשובים ב – eq הם בחירת התדר והגברת\הנמכת עוצמתו, רוחב הפס של התדר. • בעולם האנלוגי: קבלים ונגדים משמשים לבחירת התדר, מגברים ונגדים משמשים לשינוי העוצמה. • בעולם הדיגיטלי: בעזרת פורייה מקבלים את התדר הרצוי, ובעזרת מקדם התדר משנים את העוצמה. • ההבדלים בין עבודת eq טובה ולא טובה הם גדולים. שנות ה – 70: BoneyM שנות ה – 90: Jamiroquai
אנאליזה וייצור מחדש • ניתוח תדרים, שינויים ובניית הצליל מחדש. • טרנספורם פורייה היה כלי נפוץ וידוע. • פועל לפי עיקרון חוסר הוודאות של הייסנברג. • יש טרייד-אוף בין רזולוציית התדר לרזולוציית הזמן. • זה נובע מהמשוואה: kx*p בה x מציין מרחק ו – p מציין מומנט. באודיו הרזולוציה של הזמן מקבילה לרזולוציה של המרחק (x), והרזולוציה של התדר מקבילה לרזולוציה של המומנט.
פורייה- תדר על חשבון זמן • כל גרף מייצג מקדם (משרעת) אחד של טרנספורם פורייה. • צבע שחור יותר מראה מקדם גבוהה יותר של התדר במרובע. • ניתן לראות את השטח השווה של המרובעים בשני הגרפים כפירוש של עקרון חוסר הוודאות של הייסנברג. רזולוציה טובה יותר בתדר רזולוציה טובה יותר בזמן 800 800 750 700 700 650 600 600 550 500 500 450 freq (hz) freq (hz) 400 400 350 300 300 250 200 200 150 100 100 50 0 0 0 2 4 6 8 0 1 2 3 4 5 6 7 8 time (msec) time (msec)
הקשר בין נייקויסט פורייה והייסנברג • נייקויסט – תדר הדגימה כפול מהתדר המקסימלי: • ניקח 44000hz כתדר דגימה (כפול מתדר השמיעה). • אם ניקח רזולוצית זמן של 2msec כלומר 88 דגימות ונעשה להן טרנספורם פורייה נקבל 88 תדרים שונים. • התדרים שנקבל ב - hz הם: 50,100,150…,44000. • הרזולוציה בתדר היא 50hz(44000/88). • אם ניקח רזולוצית זמן של 1msecכלומר 44 דגימות ונעשה להן טרנספורם פורייה נקבל 44 תדרים שונים. • התדרים שנקבל ב - hz הם: 100,200,300…,44000. • הרזולוציה בתדר היא 100hz(44000/44).
נושאי ההרצאה • אודיו • עיבוד צליל • Wavelets לעומת פורייה • נגיעה מתמטית • יישומים
החסרונות של טרנספורם פורייה • ה – trade off בין הרזולוציות של הזמן והתדר לפי טרנספורם פורייה גורמות לכך ש: • אי אפשר תיאורטית לבנות eq שהפרמטרים שלו משתנים במהירות אינסופית, כי הזמן הדרוש לשינוי כזה הוא אינסופי. • קשה למקם בזמן צלילים קצרים כמו כלי הקשה ולכן קשה לשנותם באופן יעיל כי הם נמרחים על ציר הזמן. • המריחה משמעותית בתדרים הגבוהים, שם אורכי הגל הם קצרים אך הם מבוטאים בפרקי זמן ארוכים.
החסרונות של טרנספורם פורייה - המשך • החץ שיוצא מ – BD מסמן את זמן המכה של תוף ה – BD, אך האנאליזה עדיין מראה את המכה הרבה זמן אחרי שקרתה. • קיימים חלונות רבים עם ערך ממוצע גדול מ-0 לאורך תקופת זמן ארוכה יחסית. חלון עם ערך ממוצע גדול בקצת מ – 0 מורח את המכה 1600 1500 1400 1300 1200 1100 1000 900 freq (hz) 800 700 600 500 400 300 200 100 0 0 20 40 60 80 time (msec) BD
מכת BD מקור תדרים נמוכים תדרים גבוהים
טרנספורם ה - Wavelet • ניתוח ה – wavelet מחלק את מרחב התדר והזמן באופן לא אחיד, ככל שעולים בתדר: • הרזולוציה בתדר מוכפלת פי 2 (נהיית פחות טובה). • הרזולוציה בזמן מוכפלת פי ½ (נהיית יותר טובה). • יש שימוש בצורות שונות של wavelets לפי הצליל. • עיקרון חוסר הוודאות של הייסנברג נשמר – כל המרובעים הם בעלי אותו השטח.
יתרונות טרנספורם ה - Wavelet • ניתוח ה – wavelet אקספוננציאלי בתדר בדיוק כמו גובה הצליל, הניתוח הוא על בסיס אוקטבות. • ניתן לבודד צלילים קצרים בציר הזמן לפי התדרים הגבוהים. • הניתוח מזכיר את אופי הצליל כמו ב – BD. • תדרים נמוכים ארוכים, תדרים גבוהים קצרים. • ניתן להתאים צורות wavelet שונות לצלילים שונים וכך לייצג באופן קומפקטי יותר בלי איבוד מידע.
יתרונות טרנספורם ה – Wavelet המשך • כל מרובע מייצג מקדם אחד של wavelet. • ניתן לזהות בקלות את תזמון מכת ה – BD, לפי התדרים הגבוהים. • בניתוח התמונה 5 דרגות: • דרגה 0 הי ממוצע המקדמים הסופי. 1760 דרגות המקדמים freq (hz) 4 880 3 440 2 220 1 110 0 0 0 10 20 30 40 50 60 70 80 time (msec) BD
נושאי ההרצאה • אודיו • עיבוד צליל • Wavelets לעומת פורייה • נגיעה מתמטית • יישומים
פילטרים - Wavelet טרנספורם קדימה - אנאליזה Low pass1 ממוצע סופי 2 Low pass1 2 Highpass1 Low pass1 מקדמים רמה 1 2 2 Highpass1 מקדמים רמה 2 קלט 2 Highpass1 מקדמים רמה 3 2 טרנספורם אחורה - רסינטזה Low pass2 ממוצע סופי 2 Low pass2 2 Highpass2 Low pass2 מקדמים רמה 1 2 2 Highpass2 מקדמים רמה 2 פלט 2 Highpass2 מקדמים רמה 3 2
המשך פילטרים - wavelet • בכל רמה מפרקים לתדרים גבוהים ונמוכים, שומרים את הגבוהים ועוברים עם הנמוכים לרמה הבאה. • המעבר לרמה הבאה היא עם מחצית הדגימות. • ברמה התחתונה שומרים בנוסף את התדרים הנמוכים הנקראים ממוצע מקדמים סופי. • הדרך חזרה בונה מחדש את הדגימות לפי הפילטרים המתאימים בכל רמה, לפילטרים של הפירוק. • בכל רמה מוסיפים אפסים בין הדגימות. • את האפקטים של חלונות הדגימה מורידים ע"י השיטות הרגילות: zero padding, symmetric extension, ו – circular convolution.
Wavelet–ים מועדפים • משפחת הפילטרים: • Bi-orthogonal, symmetric, binary filters • Binary – מקדמים שלמים מחולקים לחזקות של 2: • פשוטים ויעילים בחלוקה ב-2. • Symmetric – סימטריות ביחס לציר מרכזי: • בעזרת הסימטריות אין Phase distortion. • Bi-orthogonal – הם כמעט אורטוגונלים, הם לא שומרים על האנרגיה ועל חוסר ההתאמה בקלט. • מלבד haar אין wavelets שהם גם סימטריים וגם אורטוגונלים ולכן משתמשים בבי-אורטוגונלים. • כל הפילטרים הבונים מחדש בצורה מושלמת הם ביאורטוגונלים.
נושאי ההרצאה • אודיו • עיבוד צליל • Wavelets לעומת פורייה • נגיעה מתמטית • יישומים
הנחתת רעשים • תחילה עושים פירוק. • קובעים סף, רך או קשה. • ניתן להשתמש באלגוריתמים לקביעת סף, או ע"י האוזן. • סף קשה – כל מה שמתחת לסף מתאפס. • סף רך – מכל המקדמים מורידים את ערך הסף. • עושים רסינטזה. • באותה שיטה משתמשים גם בטרנספורם פורייה: • יתרון ל – wavelet בצלילים קצרים.
מקורי 1760 ספים freq (hz) 4 880 3 • מניחים שהריבועים היותר שחורים נושאים מידע, ואלה שכמעט לבנים הם רעש. 440 2 220 1 0 0 10 20 30 40 50 60 70 80 time (msec) סף קשה סף רך 1760 1760 freq (hz) freq (hz) 4 4 880 880 3 3 440 440 2 2 220 220 1 1 0 0 0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80 time (msec) time (msec)
שיפור תדר דגימה נמוך באודיו • מוטיבציה: • התדרים הגבוהים נותנים חלק מתחושת החלל בו נמצאים. • עוצמתם חלשה ולכן הם הכי מושפעים משינויי טמפרטורה. • הם נעלמים ככל שהחדר גדול יותר. • הם נעלמים ככל שהחדר יבש יותר מבחינה אקוסטית. • בעיות אלה נפתרות בדרכים שונות כמו eq, הקלטה קרובה וכו'. • איכות cd יקרה מבחינת מקום אחסון וזמן העברה ברשת. • לכן מייצגים אודיו בפחות דגימות: 11000, 22000. • נרצה לנסות ולחזות את התדרים הגבוהים החסרים.
אלגוריתם החיזוי • פירוק למקדמי ה – wavelets. • לפי Strang באופן כללי, עוצמת המקדמים ברמה מסוימת קטנה אקספוננציאלית מעוצמת המקדמים ברמה שמתחתיה, כתלות במספר ה – Vanishing moments של הפילטר. • הוספת רמה נוספת, וחיזוי המקדמים. • הרמה הנוספת מכילה פי 2 תדרים מהרמה הקודמת. • חיזוי המקדמים תלוי בעיקר ברמה שמתחתיו. • בניה מחדש לפי 2 דגימות מהמקור.
אלגוריתם החיזוי- שלב ראשון • שלב ראשון פירוק למקדמי ה – wavelets • לפי Strang באופן כללי, עוצמת המקדמים ברמה מסוימת קטנה אקספוננציאלית מעוצמת המקדמים בקמה שמתחתיה, כתלות במספר ה – Vanishing moments של הפילטר. 1760 freq (hz) דוגמא שלא שמקיימת את הטענה של Strang דוגמא שמקיימת את הטענה של Strang 880 440 220 0 10 20 30 40 50 60 70 80 time (msec)
אלגוריתם החיזוי- שלב שני 11000 המקדמים הנחזים ברמה הזאת שווים ל: • הוספת רמה נוספת: • הרמה הנוספת מכילה פי 2 תדרים מהרמה הקודמת. • חיזוי המקדמים קטן אקספוננציאלית יחסית לרמות שמתחתיו. • החיזוי תלוי ב – p, כמות ה - vanishingmoments = 2-p הערך הזה + 5500 2-2p הערך הזה + 2-3p הערך הזה + 2750 2-4p הערך הזה + 1375 688 2-5p הערך הזה 344 0 10 20 30 40 50 60 70 80 time (msec)
אלגוריתם החיזוי- שלב שני המשך • כמות ה – vanishing moments קשורה לכמות הפעמים שה – wavelet חותך את ציר ה – 0. • p vanishing moments נותן פולינום ב – p-1. • ככל שמשתמשים ברמות יותר נמוכות לחיזוי יש סיכוי גבוהה יותר ל – aliasing. • בגלל שהחיזוי פחות טוב. • דוגמאות: • תדר דגימה 441000: • הורדה ל 11025 דגימות: • חיזוי ב – 44100 דגימות:
איזון תדרים – רוחב פס רחב • הצורה הלוגריתמית של פירוק ה – wavelets דומה לאופן שבה אנו שומעים תדרים ועוצמות. • מתאים מבחינת תדרים – פירוק לאוקטבות שלמות. • מתאים מבחינת עוצמה – לפי strang. • פירוק ע"י רוחב פס רחב יכול לתת: • איזון תדרים בסביבה אקוסטית • זיהוי מרכיבים בסיסיים בצליל • אינו טוב (עדיין) ל – eq במיקס.
איזון תדרים - אלגוריתם • מבצעים פירוק • מגבירים\מנחיתים את הרצועה הרצויה בעוצמה הרצויה • עושים רסינטזה 5500 5500 2750 2750 הגברת רצועת התדרים 1375 1375 688 688 344 344 0 10 20 30 40 50 60 70 80 0 10 20 30 40 50 60 70 80 time (msec) time (msec)
איזון תדרים - דוגמא • השיר המקורי: • מנחיתים את כל הרצועות מלבד: • 0 – 689: • 689 – 1378: • 1378 – 2756: • 2756 – 5512: • 5512 – 11025: • 11025 – 22050:
סיכום • שימוש ה – wavelets באודיו הוא עדיין בחיתוליו. • יש לו הרבה פוטנציאל בגלל התכונות הלוגריתמיות שלו שדומות לאופן שבה האוזן שומעת. • היום קיימים פתרונות רבים לבעיות אודיו שלא משתמשים ב- wavelets.