200 likes | 401 Views
פרויקט במעבדה לבקרה מערכת עזר לעיוור באמצעות שליטה ובקרה קולית. אביעד הבר ובועז הייליג נובמבר 2005 מנחה: ארי טוטפלד. מטרת הפרויקט:. פיתוח מערכת לעזרה בביצוע פעולות הקשורות באחזקת הבית לאנשים בעלי מוגבלויות. הכרה ועבודה עם אלמנט תוכנה לזיהוי ועיבוד קול הקיים בשוק.
E N D
פרויקט במעבדה לבקרה מערכת עזר לעיוור באמצעות שליטה ובקרה קולית אביעד הבר ובועז הייליג נובמבר 2005 מנחה: ארי טוטפלד
מטרת הפרויקט: • פיתוח מערכת לעזרה בביצוע פעולות הקשורות באחזקת הבית • לאנשים בעלי מוגבלויות. • הכרה ועבודה עם אלמנט תוכנה לזיהוי ועיבוד קול הקיים בשוק. • שימוש בממשק חומרה לייצוג קלט ופלט מן המערכת לסביבה החיצונית. • התנסות ביצירת תוכנה בעלת מגוון אלמנטים – סטאטיים, דינאמיים, • והתאמתה לדרישות המשתמש.
רקע היסטורי טכנולוגית הזיהוי הקולי האוטומטי (ASR) ופענוח מילים, התפתחה בצורה ניכרת בשנים האחרונות. מאז החל המחקר של הטכנולוגיה הזאת בשנת 1936, המחסום העיקרי למהירות ודיוק של הזיהוי הקולי היה מהירות וכוח מחשוב. אך כיום, באמצעות CPU ממוצע ומעלה ( Pentium III) ורמת זיכרון של 500 MB RAM ומעלה, רמות הדיוק הגיעו לכ- 95% ואף יותר, ולפענוח של יותר מ- 160 מילים בדקה.
מטרות ומאפייני המערכת • קבלת פקודות בצורת משפטים פשוטים בשפה יום יומית. • זיהוי המילים הנאמרות תוך התעלמות מרעשי רקע ומהברות לא ברורות. • פענוח הפקודות הקוליות והפיכתן למילים בשפת הממשק (אנגלית). • בדיקת קיום ביצוע הפקודה בהתאם למצב הנוכחי. • מתן משוב קולי (לעיוור) וויזואלי (לחירש) על ביצוע הפקודה. • הפעלת הייצוג המתאים בחומרה הנלוות.
Open lights ! The lights are now on
מבנה המערכת • המערכת מורכבת מתוכנה, אשר אחראית על זיהוי הדיבור ומחומרה המחוברת ליציאה המקבילית של המחשב ומאפשרת חיבור של מכשירי חשמל לבקרה באמצעות התוכנה. • המערכת כוללת עיבוד מידע סטאטי ודינאמי. • חלקי התוכנה: • מנוע זיהוי הדיבור – Speech recognition : זהו מנוע זיהוי הדיבור של • ™Microsoft. מספק API ליצירת תכני דיבור (contexts) וחוקי תחביר (grammar). • את המנוע ניתן לאמן לזיהוי מאפייני דיבור המתאימים לאדם מסוים באמצעות הממשק של מערכת ההפעלה. לאחר האימון ניתן לייצר פרופיל המתאים לאדם זה. ניתן לייצא ולייבא פרופיל זה וכך לאפשר זיהוי טוב יותר. • יצירת התחביר כוללת את המשפט המוכתב (dictation), ומאפשרת ליצור משפטים הכוללים אלמנטים מחייבים ואלמנטים אפשריים.כמו כן ניתן לאפשר זיהוי דינאמי של כל מילה מהמילון.
שלבי עבודת התוכנה: אתחול יציאת ה COM, יצירת אובייקט לפענוח מילים, קומפילציה של ה XML (חוקי דקדוק) לצורה בינארית. • אתחול: זיהוי event ע"י SAPI והפנייתו לפונקציה המתאימה. סינון של events שאינם מעניינים אותנו. • טיפול ב events: טיפול במשפטים שלמים כרשימה מקושרת של מילים, השוואתם לחוקי הדקדוק שהגדרנו, וביצוע הפעולות בהתאם לפקודה שזוהתה. • טיפול ב phrases:
החומרה: • מעגל מודפס המתחבר ליציאה המקבילית של המחשב. • כולל : • 11 ערוצי יציאה • 5 ערוצי כניסה • חציצה אופטית בין יציאות המחשב למעגל • הפיקוד למניעת פגיעה במעגלי המחשב. • מימוש באמצעות ממסרים זולים אשר מדמים את • ממסרי ה-220 וולט הנדרשים.
ממשקי המערכת – קלט ופלט • המערכת מקבלת כקלט פקודות קוליות. חלק מן הפקודות ידועות • מראש וחלקן פתוחות (מקבלות כל תוכן). • קלט נוסף הינו מצב המתגים על החומרה, המייצגים נתונים מסוימים • בסביבה. • המערכת מעבדת את הפקודה ובהתאם למצב הפנימי שלה מוציאה • פלט בצורות הבאות: • הדפסה גראפית על המסך. • הקראה קולית של התוצאה. • חיווי באמצעות החומרה על המצב הפנימי.
מצבי המערכת וסוגי הפקודות: פקודות נוקשות (תחביר ידוע מראש): פתיחת וסגירת האזעקה – פקודות אלו מדליקות ומכבות את האזעקה. החיווי הניתן הינו גרפי, קולי ובחומרה. פתיחת וסגירת האורות – פקודות אלו מדליקות ומכבות את האורות. החיווי הניתן הינו גרפי, קולי ובחומרה.
פתיחת וסגירת הרדיו – פקודות אלו מדליקות ומכבות את הרדיו, הפקודה דורשת בשלב השני את שם התחנה שם זה יכול להיות מן השמות הקבועים או תחנה משתנה. החיווי הניתן הינו גרפי, קולי ובחומרה. קריאת הטמפרטורה – פקודה זו דוגמת את מצב המפסקים על החומרה המייצגים את הטמפרטורה. החיווי הניתן הינו גרפי וקולי. קריאת מצב הדלת – פקודה זו דוגמת את מצב הדלת המיוצג במפסק הראשון בחומרה. החיווי הניתן הינו גרפי וקולי.
מצב לילה – זוהי פקודה המפעילה תוכנית ידועה מראש לכיבוי האורות, הדלקת האזעקה, כיבוי הרדיו ובדיקת הדלת. החיווי הניתן הינו גרפי, קולי ובחומרה. שמירת מצב – זוהי פקודה השומרת לשימוש עתידי את המצב הנוכחי של המערכת, על מנת לאפשר לחזור אליו בעתיד. החיווי הניתן הינו גרפי וקולי. הרצת מצב שמור – פקודה זו מחזירה את המערכת למצב שנשמר בפקודת השמירה. החיווי הניתן הינו גרפי, קולי ובחומרה .
פקודות גמישות (תחביר דינאמי): שינוי תחנת שם הרדיו – בנוסף לתחנות הקיימות, ישנה תחנה נוספת הניתנת לקביעה על ידי המשתמש. שם התחנה יכול להיות מילים מן המילון או תדר התחנה. אם נאמר התדר, המערכת תתרגם אותו למספר. החיווי הניתן הינו גרפי, קולי ובחומרה. קביעת טיימר לכיבוי הרדיו – במידה והרדיו פועל, ניתן לקבוע טיימר אשר יכבה אותו לאחר הזמן הנדרש. הטיימר יכול להיקבע למספר שניות, דקות או שעות. בפקיעתו, יכובה הרדיו ויינתן חיווי גרפי, קולי ובחומרה.
בעיות בהן נתקלנו ופתרונן: • זיהוי של מילים לא רלוונטיות כפקודה למערכת. צמצום אוצר המילים של המערכת באמצעות הגדרת חוקי דקדוק ברורים בקובץ XML היררכי. פתרון: • בעיית גישה לכתובות הזיכרון הקשורים לכתיבה וקריאה • ליציאה המקבילית עקב חסימה של מערכת ההפעלה. מתן פקודות קריאה וכתיבה דרך תוכנה חיצונית. פתרון: • בעיית זיהוי התחנה הדינאמית כתדר. בניית מנוע לזיהוי ועיבוד מספרים וספרות. פתרון:
יתרונות וחסרונות המערכת יתרונות: • אפשרות התקנה פשוטה יחסית על מחשב ביתי, ודרישות מערכת • נמוכות יחסית. • עיקר מנוע הזיהוי הקולי כבר קיים במערכת ההפעלה הפופולארית • ביותר. • מתח עבודת החומרה קיים במחשב אישי ( V5). • המערכת זולה יחסית לייצור. • המערכת ידידותית למשתמש ופונה לקהל רחב של משתמשים.
יתרונות וחסרונות המערכת חסרונות: • המערכת כרגע עובדת אך ורק על מערכת ההפעלה windows. • חיבור ה parallel הינו מיושן ומוגבל. ואף דורש הגדרות BIOS • ספציפיות על מנת שהמערכת תפעל כראוי.
כיווני פיתוח עתידיים • התאמת המערכת לכל מערכות ההפעלה הקיימות בשוק. • מעבר המערכת לעבודה עם יציאת USB ואף שילובה בטכנולוגיית • Bluetooth. • התאמת החומרה לעבודה עם מכשור חשמלי ביתי. • הוספת משוב אלקטרוני לווידוא ביצוע פקודות המערכת.
תודות • לארי, על התמיכה ואורך הרוח. • לצוות המעבדה, על העזרה ושיתוף הפעולה.
פרויקט במעבדה לבקרה מערכת עזר לעיוור באמצעות שליטה ובקרה קולית