1 / 20

Brugergrænseflader til apparater BRGA

Brugergrænseflader til apparater BRGA. Presentation 9: Sound & Speech. Agenda. Audiotory Interfaces Speech recognition & artificial speech Types of SUI / VUI Design challenges Multimodal UI’s Technologies. Where might it be used?. TomTom GO 720. See and Hear Tom Tom. Others?.

Télécharger la présentation

Brugergrænseflader til apparater BRGA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Brugergrænseflader til apparater BRGA Presentation 9: Sound & Speech

  2. Agenda • Audiotory Interfaces • Speech recognition & artificial speech • Types of SUI / VUI • Design challenges • Multimodal UI’s • Technologies

  3. Where might it be used? TomTom GO 720 See and Hear Tom Tom Others?

  4. Audiotory Interfaces • Use a different sense than visual • Most often used for feedback -> multimodal • Tactile feedback replacement • Familiar sounds: • Auditory icons • Abstract sounds: • Earcons • 3D Sound support drivers & pilots

  5. When is speech input appropriate?

  6. When is speech output appropriate

  7. n a t u r a l c o n v e r s a t i o n 2 - w a y d i a l o g u e t r a n s c r i p t i o n n e t w o r k w o r d a g e n t & s y s t e m d r i v e n s p o t t i n g i n t e l l i g e n d i a l o g u e d i g i t s t r i n g s n a m e d i a l i n g o f f i c e f o r m f i l l d i c t a t i o n b y v o i c e d i r e c t o r y a s s i s t a n c e v o i c e c o m m a n d s Speech Technologies S p o n t a n e o u s s p e e c h Stor PC i dag F l u e n t s p e e c h t e l m e s s a g i n g y t s g Requires more advancecd platforms n R e a d i k s p e e c h a e p S C o n n e c t e d s p e e c h I s o l a t e d w o r d s 2 2 0 2 0 0 2 0 0 0 2 0 0 0 0 U n r e s t r i c t e d V o c a b u l a r y s i z e ( n u m b e r o f w o r d s )

  8. Ring til banken ! Enkelt bruger - lille ordforråd • Talestyret opkald. • Kendes fra fx mobiltelefoner med indbygget talegenkendelse (mønstergenkendelse) • Skal trænes af den enkelte bruger med det aktuelle ordforråd. • Dynamic Time Warping - DTW (simpel mønstergenkendelse)

  9. Kære Anton Det var vel nok dejligt ... Enkelt bruger - stort ordforråd Kære Anton Det var vel nok dejligt ... • Dikteringsprogrammer - foreløbigt kun til hovedsprogene i gratis udgaver. Systemet skal trænes med tale (typiske formuleringer)

  10. Hvad koster det at ringe til Spanien Det koster 4 kr og 50 ører i minuttet at ringe til Spanien .. Mange brugere - stort ordforråd • Dialogsystemer med talegenkendelse. • Skal kunne betjenes af alle -> ingen træning • Kræver meget processorkraft • Kræver avanceret dialogdesign • Er meget svært at lave ordentligt Øvelse: bemærk hvordan det håndteres her: - http://userportal.iha.dk/~sw/kurser/brga/ressourcer/opkaldTil1811.wav

  11. Forbigående oplysninger: ”Hvad sagde du/den?” ”Recognition over Recall” – vi kan kun overskue 5-9 elementer Usynlighed: ”Hvad kan jeg sige nu?” (- mappings) Asymmetri Kvalitet Lange lister er kedelige tidsrøvere Kalenderprogrammer bruger absolutte datoer – mennesker bruger tit relative Menuer gør funktionalitet synlig for brugeren i en GUI – ikke muligt i en VUI Talegenkendelsens kvalitet Talesyntesens kvalitet Udfordringer i VUI design

  12. Middag Lidt over ti Efter-middag Kvart over tre – godt og vel ...i over-morgen På onsdag 14 dage... Sidst på ugen... Midten af november... I uge 13... Fem minutter over halv seks Sytten tredive

  13. Design af stemmestyring (1/3) • Feedback og ventetid • Pauser til processering forvirrer brugeren • Tale er en langsom måde at videregive informationer • Behov for feedback på handlinger • Bekræftelse af fremsøgte data ”Var det den?” • Bekræftelse af handlinger der ændrer data ”Vil du gemme denne?” ”Vil du slette denne?”

  14. Design af stemmestyring (2/3) • At spørge om det rigtige… • Afvejning mellem fleksibilitet og præcision • Få svarmuligheder => bedre genkendelse • Eksplicitte spørgsmål begrænser brugeren • ”Sig ja, nej eller afbryd” • Implicitte spørgsmål tillader fleksibelt input • Bruger: ”Send mail til Kurt” • System: ”Mener du Kurt Thorsen eller Kurt Ravn? • Trinvise spørgsmål kan øge hastigheden for eksperter og hjælpe begynderen

  15. Multimodal Interaction Devices • Ikke nødvendigvis GUI eller VUI • Brug af flere modaliteter: Multimodal • Eksempel: Jagerfly • Traditional ”joystick” + Panel keyboard • Magnetic Head Tracker • 360° HUD display (X-Ray Vision Helmet) • 3D audio kommunikations & advarsels lydsystem • Speech recognition software • Eksempel Sony Ericsson P800/P900 • Regular key pad • classic cell phone data entry • Touch Screen • write recognition & virtual QWERTY • Display for browsing, pictures, messages • Sound interface for notification • Simple voice command for placing calls

  16. Hermes – multimodal robot • Voice Controlled • Multimodal • Almost doubling efficiency of surgeons • Trained for individual voices • Will only accept commands from selected individual Exercise: how does this relate to today’s lesson?

  17. User Studies • Natural Dialog Studies • Wizard-of-Oz Studies • ”Normal” Usability Studies

  18. Technologies Available • Custom-made recognizers ASR and TTS • VoiceXML / SALT • For use over the Internet • Microsoft Speech API 5.1 (COM component) • For use with Windows PC’s • Enables C++ and .NET programming • Windows Vista – System.Speech • VISTA / 7 / (XP?) • Loquendo : Danish and other languages ASR and TTS • VISTA / 7 / XP / Windows CE • Java / Win32 C++ / C#? • Nuance (Dragon Natural Speaking)

  19. VoiceXML vs (X)HTML <?xml version=“1.0”?> <vxml version=“1.0” > </vxml> <html> <head><title>Vælg sektion</title></head> <body> </body> </html> <form id=”velkomst”> <field name=“selection”> <prompt> Vælg mellem Nyheder, Vejret eller Sport. </prompt> <grammar> [ nyheder vejret sport ] </grammar> </field> <block> <submit next=“valgt.jsp”/> </block> </form> <form id=”velkomst” action=“valgt.jsp”> <select name=“selection”> <option value=“nyheder”>Nyheder</option> <option value=”vejret”>Vejret</option> <option value=”sport”>Sport</option> </select> <input type=”submit” value=”Vælg” /> </form>

  20. Læringsmåls alignment • Når kurset er færdigt forventes den studerende at kunne: • Definere og beskrive forskellige typer af brugergrænseflader til apparater og computere • Definere og beskrive gængse teorier, metoder og retningslinier indenfor menneske-maskin-interaktion og anvende disse til at lave en brugervenlig brugergrænseflade til et givet apparat • Designe og konstruere brugergrænsefladesoftware til udvalgte typer af brugergrænseflader Udfordringer og Anbefalinger ved Kunstig tale og talegenkendelse er gennemgået

More Related