200 likes | 305 Views
Brugergrænseflader til apparater BRGA. Presentation 9: Sound & Speech. Agenda. Audiotory Interfaces Speech recognition & artificial speech Types of SUI / VUI Design challenges Multimodal UI’s Technologies. Where might it be used?. TomTom GO 720. See and Hear Tom Tom. Others?.
E N D
Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech
Agenda • Audiotory Interfaces • Speech recognition & artificial speech • Types of SUI / VUI • Design challenges • Multimodal UI’s • Technologies
Where might it be used? TomTom GO 720 See and Hear Tom Tom Others?
Audiotory Interfaces • Use a different sense than visual • Most often used for feedback -> multimodal • Tactile feedback replacement • Familiar sounds: • Auditory icons • Abstract sounds: • Earcons • 3D Sound support drivers & pilots
n a t u r a l c o n v e r s a t i o n 2 - w a y d i a l o g u e t r a n s c r i p t i o n n e t w o r k w o r d a g e n t & s y s t e m d r i v e n s p o t t i n g i n t e l l i g e n d i a l o g u e d i g i t s t r i n g s n a m e d i a l i n g o f f i c e f o r m f i l l d i c t a t i o n b y v o i c e d i r e c t o r y a s s i s t a n c e v o i c e c o m m a n d s Speech Technologies S p o n t a n e o u s s p e e c h Stor PC i dag F l u e n t s p e e c h t e l m e s s a g i n g y t s g Requires more advancecd platforms n R e a d i k s p e e c h a e p S C o n n e c t e d s p e e c h I s o l a t e d w o r d s 2 2 0 2 0 0 2 0 0 0 2 0 0 0 0 U n r e s t r i c t e d V o c a b u l a r y s i z e ( n u m b e r o f w o r d s )
Ring til banken ! Enkelt bruger - lille ordforråd • Talestyret opkald. • Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse) • Skal trænes af den enkelte bruger med det aktuelle ordforråd. • Dynamic Time Warping - DTW (simpel mønstergenkendelse)
Kære Anton Det var vel nok dejligt ... Enkelt bruger - stort ordforråd Kære Anton Det var vel nok dejligt ... • Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)
Hvad koster det at ringe til Spanien Det koster 4 kr og 50 ører i minuttet at ringe til Spanien .. Mange brugere - stort ordforråd • Dialogsystemer med talegenkendelse. • Skal kunne betjenes af alle -> ingen træning • Kræver meget processorkraft • Kræver avanceret dialogdesign • Er meget svært at lave ordentligt Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav
Forbigående oplysninger: ”Hvad sagde du/den?” ”Recognition over Recall” – vi kan kun overskue 5-9 elementer Usynlighed: ”Hvad kan jeg sige nu?” (- mappings) Asymmetri Kvalitet Lange lister er kedelige tidsrøvere Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI Talegenkendelsens kvalitet Talesyntesens kvalitet Udfordringer i VUI design
Middag Lidt over ti Efter-middag Kvart over tre – godt og vel ...i over-morgen På onsdag 14 dage... Sidst på ugen... Midten af november... I uge 13... Fem minutter over halv seks Sytten tredive
Design af stemmestyring (1/3) • Feedback og ventetid • Pauser til processering forvirrer brugeren • Tale er en langsom måde at videregive informationer • Behov for feedback på handlinger • Bekræftelse af fremsøgte data ”Var det den?” • Bekræftelse af handlinger der ændrer data ”Vil du gemme denne?” ”Vil du slette denne?”
Design af stemmestyring (2/3) • At spørge om det rigtige… • Afvejning mellem fleksibilitet og præcision • Få svarmuligheder => bedre genkendelse • Eksplicitte spørgsmål begrænser brugeren • ”Sig ja, nej eller afbryd” • Implicitte spørgsmål tillader fleksibelt input • Bruger: ”Send mail til Kurt” • System: ”Mener du Kurt Thorsen eller Kurt Ravn? • Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen
Multimodal Interaction Devices • Ikke nødvendigvis GUI eller VUI • Brug af flere modaliteter: Multimodal • Eksempel: Jagerfly • Traditional ”joystick” + Panel keyboard • Magnetic Head Tracker • 360° HUD display (X-Ray Vision Helmet) • 3D audio kommunikations & advarsels lydsystem • Speech recognition software • Eksempel Sony Ericsson P800/P900 • Regular key pad • classic cell phone data entry • Touch Screen • write recognition & virtual QWERTY • Display for browsing, pictures, messages • Sound interface for notification • Simple voice command for placing calls
Hermes – multimodal robot • Voice Controlled • Multimodal • Almost doubling efficiency of surgeons • Trained for individual voices • Will only accept commands from selected individual Exercise: how does this relate to today’s lesson?
User Studies • Natural Dialog Studies • Wizard-of-Oz Studies • ”Normal” Usability Studies
Technologies Available • Custom-made recognizers ASR and TTS • VoiceXML / SALT • For use over the Internet • Microsoft Speech API 5.1 (COM component) • For use with Windows PC’s • Enables C++ and .NET programming • Windows Vista – System.Speech • VISTA / 7 / (XP?) • Loquendo : Danish and other languages ASR and TTS • VISTA / 7 / XP / Windows CE • Java / Win32 C++ / C#? • Nuance (Dragon Natural Speaking)
VoiceXML vs (X)HTML <?xml version=“1.0”?> <vxml version=“1.0” > </vxml> <html> <head><title>Vælg sektion</title></head> <body> </body> </html> <form id=”velkomst”> <field name=“selection”> <prompt> Vælg mellem Nyheder, Vejret eller Sport. </prompt> <grammar> [ nyheder vejret sport ] </grammar> </field> <block> <submit next=“valgt.jsp”/> </block> </form> <form id=”velkomst” action=“valgt.jsp”> <select name=“selection”> <option value=“nyheder”>Nyheder</option> <option value=”vejret”>Vejret</option> <option value=”sport”>Sport</option> </select> <input type=”submit” value=”Vælg” /> </form>
Læringsmåls alignment • Når kurset er færdigt forventes den studerende at kunne: • Definere og beskrive forskellige typer af brugergrænseflader til apparater og computere • Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske-maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat • Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader Udfordringer og Anbefalinger ved Kunstig tale og talegenkendelse er gennemgået