Exploring Auditory Interfaces for Enhanced User Interaction in Technology

Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech

Agenda • Audiotory Interfaces • Speech recognition & artificial speech • Types of SUI / VUI • Design challenges • Multimodal UI’s • Technologies

Where might it be used? TomTom GO 720 See and Hear Tom Tom Others?

Audiotory Interfaces • Use a different sense than visual • Most often used for feedback -> multimodal • Tactile feedback replacement • Familiar sounds: • Auditory icons • Abstract sounds: • Earcons • 3D Sound support drivers & pilots

When is speech input appropriate?

When is speech output appropriate

n a t u r a l c o n v e r s a t i o n 2 - w a y d i a l o g u e t r a n s c r i p t i o n n e t w o r k w o r d a g e n t & s y s t e m d r i v e n s p o t t i n g i n t e l l i g e n d i a l o g u e d i g i t s t r i n g s n a m e d i a l i n g o f f i c e f o r m f i l l d i c t a t i o n b y v o i c e d i r e c t o r y a s s i s t a n c e v o i c e c o m m a n d s Speech Technologies S p o n t a n e o u s s p e e c h Stor PC i dag F l u e n t s p e e c h t e l m e s s a g i n g y t s g Requires more advancecd platforms n R e a d i k s p e e c h a e p S C o n n e c t e d s p e e c h I s o l a t e d w o r d s 2 2 0 2 0 0 2 0 0 0 2 0 0 0 0 U n r e s t r i c t e d V o c a b u l a r y s i z e ( n u m b e r o f w o r d s )

Ring til banken ! Enkelt bruger - lille ordforråd • Talestyret opkald. • Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse) • Skal trænes af den enkelte bruger med det aktuelle ordforråd. • Dynamic Time Warping - DTW (simpel mønstergenkendelse)

Kære Anton Det var vel nok dejligt ... Enkelt bruger - stort ordforråd Kære Anton Det var vel nok dejligt ... • Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)

Hvad koster det at ringe til Spanien Det koster 4 kr og 50 ører i minuttet at ringe til Spanien .. Mange brugere - stort ordforråd • Dialogsystemer med talegenkendelse. • Skal kunne betjenes af alle -> ingen træning • Kræver meget processorkraft • Kræver avanceret dialogdesign • Er meget svært at lave ordentligt Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav

Forbigående oplysninger: ”Hvad sagde du/den?” ”Recognition over Recall” – vi kan kun overskue 5-9 elementer Usynlighed: ”Hvad kan jeg sige nu?” (- mappings) Asymmetri Kvalitet Lange lister er kedelige tidsrøvere Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI Talegenkendelsens kvalitet Talesyntesens kvalitet Udfordringer i VUI design

 Middag Lidt over ti Efter-middag Kvart over tre – godt og vel ...i over-morgen På onsdag 14 dage... Sidst på ugen... Midten af november... I uge 13... Fem minutter over halv seks Sytten tredive

Design af stemmestyring (1/3) • Feedback og ventetid • Pauser til processering forvirrer brugeren • Tale er en langsom måde at videregive informationer • Behov for feedback på handlinger • Bekræftelse af fremsøgte data ”Var det den?” • Bekræftelse af handlinger der ændrer data ”Vil du gemme denne?” ”Vil du slette denne?”

Design af stemmestyring (2/3) • At spørge om det rigtige… • Afvejning mellem fleksibilitet og præcision • Få svarmuligheder => bedre genkendelse • Eksplicitte spørgsmål begrænser brugeren • ”Sig ja, nej eller afbryd” • Implicitte spørgsmål tillader fleksibelt input • Bruger: ”Send mail til Kurt” • System: ”Mener du Kurt Thorsen eller Kurt Ravn? • Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen

Multimodal Interaction Devices • Ikke nødvendigvis GUI eller VUI • Brug af flere modaliteter: Multimodal • Eksempel: Jagerfly • Traditional ”joystick” + Panel keyboard • Magnetic Head Tracker • 360° HUD display (X-Ray Vision Helmet) • 3D audio kommunikations & advarsels lydsystem • Speech recognition software • Eksempel Sony Ericsson P800/P900 • Regular key pad • classic cell phone data entry • Touch Screen • write recognition & virtual QWERTY • Display for browsing, pictures, messages • Sound interface for notification • Simple voice command for placing calls

Hermes – multimodal robot • Voice Controlled • Multimodal • Almost doubling efficiency of surgeons • Trained for individual voices • Will only accept commands from selected individual Exercise: how does this relate to today’s lesson?

User Studies • Natural Dialog Studies • Wizard-of-Oz Studies • ”Normal” Usability Studies

Technologies Available • Custom-made recognizers ASR and TTS • VoiceXML / SALT • For use over the Internet • Microsoft Speech API 5.1 (COM component) • For use with Windows PC’s • Enables C++ and .NET programming • Windows Vista – System.Speech • VISTA / 7 / (XP?) • Loquendo : Danish and other languages ASR and TTS • VISTA / 7 / XP / Windows CE • Java / Win32 C++ / C#? • Nuance (Dragon Natural Speaking)

VoiceXML vs (X)HTML <?xml version=“1.0”?> <vxml version=“1.0” > </vxml> <html> <head><title>Vælg sektion</title></head> <body> </body> </html> <form id=”velkomst”> <field name=“selection”> <prompt> Vælg mellem Nyheder, Vejret eller Sport. </prompt> <grammar> [ nyheder vejret sport ] </grammar> </field> <block> <submit next=“valgt.jsp”/> </block> </form> <form id=”velkomst” action=“valgt.jsp”> <select name=“selection”> <option value=“nyheder”>Nyheder</option> <option value=”vejret”>Vejret</option> <option value=”sport”>Sport</option> </select> <input type=”submit” value=”Vælg” /> </form>

Læringsmåls alignment • Når kurset er færdigt forventes den studerende at kunne: • Definere og beskrive forskellige typer af brugergrænseflader til apparater og computere • Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske-maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat • Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader Udfordringer og Anbefalinger ved Kunstig tale og talegenkendelse er gennemgået

Exploring Auditory Interfaces for Enhanced User Interaction in Technology

Exploring Auditory Interfaces for Enhanced User Interaction in Technology

Presentation Transcript

Vill du bli ett energigeni ?

Mulig aktiviteter i Løkkehaven

Computermus Del 1

Hur definieras ordet kommunikation?

Timeshift

Energismart i vardagen

Brugergrænseflader til apparater BRGA

BRGA

Brugergrænseflader til apparater BRGA

MMS TV-tittarpanel

Brugergrænseflader

Lidt om plast

Perception og disposition af grænseflader