Interazione Vocale

Interazione Vocale Alessandro Grossi grossial@cli.di.unipi.it

Interazione Vocale • Microsoft Agent (Browser/Applicazioni) • XHTML + VoiceXML (Multimodal Browser) • Microsoft Speech SDK 5.1 (Applicazioni)

Microsoft Agent • Tecnologia che, tramite l’utilizzo di assistenti 3D animati, permette di aiutare con semplicità e naturalezza (tramite procedure guidate e guide) gli utenti ad utilizzare il software. • Impiega: • Text-to-speech engines (TTS) - sintesi vocale • Speech Recognition (SR) - riconoscimento vocale • Microfono per l’interazione vocale

XHTML + VoiceXML • L’XHTML + VoiceXML (X+V) è un linguaggio di markup per lo sviluppo di pagine web multimodali. • X+V porta l’interazione vocale nel contesto web standard integrando l’XHTML con gli XML-Events. • (X+V) = (XHTML + VoiceXML + XML Events). • X+V include moduli vocali che supportano la sintesi vocale, dialogs vocali, comandi e controlli, e grammatica vocale. Possono essere inclusi negli elementi XHTML dei Voice handlers per rispondere a specifici eventi DOM in modo da poter usare il modello ad eventi familiare agli sviluppatori Web. Le funzionalità di interazione vocale sono integrate con XHTML e CSS e possono conseguentemente essere usate direttamente all’interno di contesti XHTML.

XHTML + VoiceXML (schema)

XHTML + VoiceXML (esempio1)

XHTML + VoiceXML (esempio2)  <vxml:field name="voice_password_field" xv:id="voice_password"> <vxml:grammar> <![CDATA[ #JSGF V1.0; grammar logP; public <logP> = <go> {$=document.getElementById('pw').value}; <go> = Okay | Yes; ]]> </vxml:grammar> <vxml:prompt timeout="6s"> Insert password. </vxml:prompt> <vxml:catch event="help noinput"> Please insert the password in the relative field for access the service. </vxml:catch> <vxml:catch event="nomatch"> Sorry but in this context voice input is disabled for privacy reason. </vxml:catch> </vxml:field>

Microsoft Speech SDK 5.1 • Aggiunge il supporto all’Automazione per le funzionalità della precedente versione dello Speech SDK. • Permette di utilizzare le Win32 Speech API (SAPI) per sviluppare applicazioni vocali in sistemi che usano l’Automazione (Visual Basic, C++, C#, …). • Include TTS (Text-to-speech) e SR(Speech Recognition)

Esempi • Richiesto: • Multimodal Browser Opera 8.50 Italian • Microsoft Speech SDK 5.1 • Test-To-Speech Engines (TTS) - Sintetisi Vocale • TTS Demo (italiano) • Speech Recognition (SR) - Riconoscimento vocale • Multimodal Chinese Food Demo • Multimodal Pizza Demo

Interazione Vocale

Interazione Vocale

Presentation Transcript