Reconocimiento Automático del Habla

Reconocimiento Automático del Habla Eduardo Lleida Solano Dpt. de Ingeniería Electrónica y Comunicaciones Universidad de Zaragoza

Reconocimiento Automático del Habla • Reconocimiento Automático del Habla: una historia reciente • Dificultades en el RAH • ¿Cómo funciona? , las bases • ¿Dónde estamos?, ¿a dónde vamos? • Consejos: ¿Dónde utilizar RAH?

Libros genéricos: • John R. Deller, John G. Proakis, John H.L. Hansen “Discrete-Time Processing of Speech Signals” Macmillan Publishing Company, 1993 • Douglas O’Shaughnessy “Speech Communications, Human and Machine” IEEE Press, 2000 Libros avanzados: • Frederick Jelinek “Statistical Methods for Speech Recognition” MIT Press, 1997 • Steve Young, Gerrit Bloothooft “Corpus-Based Methods in Language and Speech Processing” Kluwer Academic Publishers,1997 Internet: http://svr-www.eng.cam.ac.uk/comp.speech Socrates/Erasmus Thematic Network: Speech Communication Sciences http://tn-speech.essex.ac.uk/tn-speech Algunas Referencias Interesantes

Reconocimiento Automático del Habla: una historia reciente • Los inicios: años 50 • Bell Labs .... Reconocimiento de dígitos aislados monolocutor • RCA Labs .... Reconocimiento de 10 sílabas monolocutor • University College in England .... Reconocedor fonético • MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante • Los fundamentos: años 60 • Comienzo en Japón (NEC labs) • Dynamic time warping .... Vintsyuk (Soviet Union) • CMU ... Reconocimiento del Habla Continua .... HAL 9000 • Las primeras soluciones: años 70, el mundo probabilístico • Reconocimiento de palabras aisladas • LPC, programación dinámica • IBM: inicio proyecto reconocimiento de grandes vocabularios • Gran inversión en los USA: proyectos DARPA • Sistema HARPY (CMU) primer sistema con exito

una historia reciente • Reconocimiento del Habla Continua: años 80, expansión • Algoritmos para el habla continua y grandes vocabularios • Explosión de los métodos estadísticos: Modelos Ocultos de Markov • utilizados inicialmente por IBM y Dragon Systems • popularizados por Bell Labs • Introducción de las Redes Neuronales en el reconocimiento de voz • Sistema SPHINX • Empieza el negocio: años 90, primeras aplicaciones • Ordenadores y procesadores baratos y rápidos • Sistemas de dictado • Integración entre reconocimiento de voz y procesado del lenguaje natural. • ¿Una realidad?: años 00, integración en el S.O. • Integración teléfono y Voice Web browsers VoiceXML estandard

Algunas impresiones recientes:

Dificultades: 1. ¿El sistema de RAH tiene que reconocer la voz de una persona o varias personas (incluyendo, quizas, cualquier persona)? 2. ¿Cual es el tamaño del vocabulario a reconocer? 3. Sobre el modo de dirigirse al sistema de RAH, ¿nos dirigiremos con palabras incluyendo pausas entre ellas o hablaremos de forma continua? 4. Variabilidad acústica y confusión acústica del vocabulario 5. Entorno acústico en el que se utilizará el sistema de RAH 6.¿Cómo activar o se activa el sistema de RAH? 7. ¿Qué conocimientos lingüísticos son necesarios incorporar en el sistema de RAH?

¿Cómo funciona?, Las bases Formulación matemática simple: teoría probabilística Sea O una secuencia de T medidas acústicas de la voz Sea W una secuencia of N palabras pertenecientes a un vocabulario fijo y conocido. P(W|O) es la probabilidad de que la secuencia de palabras W haya sido pronunciada, dado que la secuencia O de medidas acústicas ha sido observada El reconocedor decidirá a favor de la secuencia de palabras W que satisfaga W = arg maxW P(W|O) Es decir, el reconocedor dará como resultado la secuencia mas probable de palabras dadas la medidas acústicas obtenidas.

Modelo Acústico Modelo de Lenguaje Las Bases Utilizando la fórmula de Bayes P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O Fórmula del Reconocedor

Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Modelado Acústico Modelado Lenguaje Procesado Acústico Voz P(O|W) P(W) Hz Algoritmo de Reconocimiento Secuencia de Palabras Componentes de un sistema de Reconocimiento voz texto Entrenamiento Reconocimiento

Componentes de un sistema de Reconocimiento Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Procesado Acústico voz voz texto Entrenamiento P(O|W) P(W) Modelado Acústico Modelado Lenguaje Reconocimiento Algoritmo de Reconocimiento Secuencia de Palabras

¿Dónde estamos? • Sistemas de Dictado Adaptado al locutor Gran vocabulario y ampliable Habla continua • Servicios Telefónicos Acceso a información Encuestas Transacciones comerciales Centralitas manos libres

¿A dónde vamos?

Y para ir terminando .... Consejos: ¿Dónde y cuando utilizar RAH? Premisa: Las aplicaciones con RAH tienen éxito cuando el usuario está motivado en su uso Limitaciones: 1. Los sistemas de RAH no transcriben voz sin restricciones 2. Los sistema de RAH comenten muchos errores Necesidad: Verificar el resultado del reconocedor: confianza acústica

¿Dónde y cuando utilizar la voz? Utilizar cuando ... Evitar cuando ... La tarea requiera que el usuario hable con otras personas mientras utiliza la aplicación No se dispone de un teclado,p.e, sobre la red telefónica Tareas que requieran la utilización de las manos del usuario, p.e. editores gráficos El usuario trabaja en condiciones malas de ruido ambiental Las tareas se pueden realizar de una forma mas sencilla y eficiente con un ratón y teclado Usuarios que no pueden teclear o no están acostrumbrados al uso de un teclado Usuarios con discapacidades físicas que limitan el uso de las manos

tipos de errores Rechazos: el usuario habla pero el RAH no entiende lo que dice Sustituciones: el RAH reconoce palabras que son distintas a las que el usuario pronuncia Falsas Alarmas: el usuario no dice nada y el RAH devuelve una palabra reconocida

Causas problema causa El usuario pronuncia una o mas palabras no contenidas en el vocabulario La frase pronunciada no se adapta a ninguna gramática activa El usuario habla antes de que el sistema esté listo para reconocer Palabras muy parecidas que producen confusión Pausas muy largas en el medio de frases El usuario habla con disfluencias (falsos comienzos,”umm”,”ehh”) El usuario tiene un acento muy marcado o está resfriado La voz del usuario difiere considerablemente del aprendizaje El micrófono no está bien ajustado Rechazo o Sustituciones Sonidos como risas, toses, etc. Voces lejanas El usuario está hablando con otra persona Falsas Alarmas

Reconocimiento Automático del Habla

Reconocimiento Automático del Habla

Presentation Transcript

SAN PABLO NOS HABLA DEL AMOR. PRIMERA CARTA A LOS CORINTIOS ...

METABOLISMO ENERGÉTICO BACTERIANO

Espectro Electromagnético, Telescopios, y Detectores

TALLER DE LANZAMIENTO DE LA SEGUNDA COMUNICACIÓN NACIONAL SOBRE CAMBIO CLIMÁTICO

DIÁLOGO INTERMINISTERIAL SOBRE EL CAMBIO CLIMÁTICO

FS -102 ENERGÍA Y CAMBIO CLIMÁTICO

Sistema linfático

TRAUMA HEPÁTICO Y ESPLÉNICO

PLANES DE ACCIÓN: Mandato Político y Presupuesto

DISLEXIA

EL FUTURO ENERGÉTICO DE CANARIAS

Las TIC en la Comunicación Institucional y el Marketing Político.

Musculoesquelético en TC y RM

Matriz de Acceso Temático PLADES 2010-2021

NOÇÕES DE ARQUIVOLOGIA

Tejido hematopoyético Hemopoyesis

GÓTICO Escultura y pintura

Pensamento crítico 2008/9

CAPÍTULO 8 HISTOLOGIA DO SISTEMA LINFÁTICO

US musculoesquelético

PLANES DE ACCIÓN: Mandato Político y Presupuesto

LENGUAJE – LENGUA - HABLA