1 / 17

Reconocimiento Automático del Habla

Reconocimiento Automático del Habla. Eduardo Lleida Solano Dpt. de Ingeniería Electrónica y Comunicaciones Universidad de Zaragoza. Reconocimiento Automático del Habla. Reconocimiento Automático del Habla: una historia reciente. Dificultades en el RAH. ¿Cómo funciona? , las bases.

maja
Télécharger la présentation

Reconocimiento Automático del Habla

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Reconocimiento Automático del Habla Eduardo Lleida Solano Dpt. de Ingeniería Electrónica y Comunicaciones Universidad de Zaragoza

  2. Reconocimiento Automático del Habla • Reconocimiento Automático del Habla: una historia reciente • Dificultades en el RAH • ¿Cómo funciona? , las bases • ¿Dónde estamos?, ¿a dónde vamos? • Consejos: ¿Dónde utilizar RAH?

  3. Libros genéricos: • John R. Deller, John G. Proakis, John H.L. Hansen “Discrete-Time Processing of Speech Signals” Macmillan Publishing Company, 1993 • Douglas O’Shaughnessy “Speech Communications, Human and Machine” IEEE Press, 2000 Libros avanzados: • Frederick Jelinek “Statistical Methods for Speech Recognition” MIT Press, 1997 • Steve Young, Gerrit Bloothooft “Corpus-Based Methods in Language and Speech Processing” Kluwer Academic Publishers,1997 Internet: http://svr-www.eng.cam.ac.uk/comp.speech Socrates/Erasmus Thematic Network: Speech Communication Sciences http://tn-speech.essex.ac.uk/tn-speech Algunas Referencias Interesantes

  4. Reconocimiento Automático del Habla: una historia reciente • Los inicios: años 50 • Bell Labs .... Reconocimiento de dígitos aislados monolocutor • RCA Labs .... Reconocimiento de 10 sílabas monolocutor • University College in England .... Reconocedor fonético • MIT Lincoln Lab .... Reconocedor de vocales independiente del hablante • Los fundamentos: años 60 • Comienzo en Japón (NEC labs) • Dynamic time warping .... Vintsyuk (Soviet Union) • CMU ... Reconocimiento del Habla Continua .... HAL 9000 • Las primeras soluciones: años 70, el mundo probabilístico • Reconocimiento de palabras aisladas • LPC, programación dinámica • IBM: inicio proyecto reconocimiento de grandes vocabularios • Gran inversión en los USA: proyectos DARPA • Sistema HARPY (CMU) primer sistema con exito

  5. una historia reciente • Reconocimiento del Habla Continua: años 80, expansión • Algoritmos para el habla continua y grandes vocabularios • Explosión de los métodos estadísticos: Modelos Ocultos de Markov • utilizados inicialmente por IBM y Dragon Systems • popularizados por Bell Labs • Introducción de las Redes Neuronales en el reconocimiento de voz • Sistema SPHINX • Empieza el negocio: años 90, primeras aplicaciones • Ordenadores y procesadores baratos y rápidos • Sistemas de dictado • Integración entre reconocimiento de voz y procesado del lenguaje natural. • ¿Una realidad?: años 00, integración en el S.O. • Integración teléfono y Voice Web browsers VoiceXML estandard

  6. Algunas impresiones recientes:

  7. Dificultades: 1. ¿El sistema de RAH tiene que reconocer la voz de una persona o varias personas (incluyendo, quizas, cualquier persona)? 2. ¿Cual es el tamaño del vocabulario a reconocer? 3. Sobre el modo de dirigirse al sistema de RAH, ¿nos dirigiremos con palabras incluyendo pausas entre ellas o hablaremos de forma continua? 4. Variabilidad acústica y confusión acústica del vocabulario 5. Entorno acústico en el que se utilizará el sistema de RAH 6.¿Cómo activar o se activa el sistema de RAH? 7. ¿Qué conocimientos lingüísticos son necesarios incorporar en el sistema de RAH?

  8. ¿Cómo funciona?, Las bases Formulación matemática simple: teoría probabilística Sea O una secuencia de T medidas acústicas de la voz Sea W una secuencia of N palabras pertenecientes a un vocabulario fijo y conocido. P(W|O) es la probabilidad de que la secuencia de palabras W haya sido pronunciada, dado que la secuencia O de medidas acústicas ha sido observada El reconocedor decidirá a favor de la secuencia de palabras W que satisfaga W = arg maxW P(W|O) Es decir, el reconocedor dará como resultado la secuencia mas probable de palabras dadas la medidas acústicas obtenidas.

  9. Modelo Acústico Modelo de Lenguaje Las Bases Utilizando la fórmula de Bayes P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O Fórmula del Reconocedor

  10. Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Modelado Acústico Modelado Lenguaje Procesado Acústico Voz P(O|W) P(W) Hz Algoritmo de Reconocimiento Secuencia de Palabras Componentes de un sistema de Reconocimiento voz texto Entrenamiento Reconocimiento

  11. Componentes de un sistema de Reconocimiento Procesado Acústico transcripción Análisis Gramatical Análisis Léxico Aprendizaje modelos acústicos Procesado Acústico voz voz texto Entrenamiento P(O|W) P(W) Modelado Acústico Modelado Lenguaje Reconocimiento Algoritmo de Reconocimiento Secuencia de Palabras

  12. ¿Dónde estamos? • Sistemas de Dictado Adaptado al locutor Gran vocabulario y ampliable Habla continua • Servicios Telefónicos Acceso a información Encuestas Transacciones comerciales Centralitas manos libres

  13. ¿A dónde vamos?

  14. Y para ir terminando .... Consejos: ¿Dónde y cuando utilizar RAH? Premisa: Las aplicaciones con RAH tienen éxito cuando el usuario está motivado en su uso Limitaciones: 1. Los sistemas de RAH no transcriben voz sin restricciones 2. Los sistema de RAH comenten muchos errores Necesidad: Verificar el resultado del reconocedor: confianza acústica

  15. ¿Dónde y cuando utilizar la voz? Utilizar cuando ... Evitar cuando ... La tarea requiera que el usuario hable con otras personas mientras utiliza la aplicación No se dispone de un teclado,p.e, sobre la red telefónica Tareas que requieran la utilización de las manos del usuario, p.e. editores gráficos El usuario trabaja en condiciones malas de ruido ambiental Las tareas se pueden realizar de una forma mas sencilla y eficiente con un ratón y teclado Usuarios que no pueden teclear o no están acostrumbrados al uso de un teclado Usuarios con discapacidades físicas que limitan el uso de las manos

  16. tipos de errores Rechazos: el usuario habla pero el RAH no entiende lo que dice Sustituciones: el RAH reconoce palabras que son distintas a las que el usuario pronuncia Falsas Alarmas: el usuario no dice nada y el RAH devuelve una palabra reconocida

  17. Causas problema causa El usuario pronuncia una o mas palabras no contenidas en el vocabulario La frase pronunciada no se adapta a ninguna gramática activa El usuario habla antes de que el sistema esté listo para reconocer Palabras muy parecidas que producen confusión Pausas muy largas en el medio de frases El usuario habla con disfluencias (falsos comienzos,”umm”,”ehh”) El usuario tiene un acento muy marcado o está resfriado La voz del usuario difiere considerablemente del aprendizaje El micrófono no está bien ajustado Rechazo o Sustituciones Sonidos como risas, toses, etc. Voces lejanas El usuario está hablando con otra persona Falsas Alarmas

More Related