1 / 33

Procesamiento y Compresión de Señales de Audio

Procesamiento y Compresión de Señales de Audio. PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre. Organización:. Audición. Implantes cocleares. Reconocimiento robusto de voz. Presentación de trabajos. ( 1/2 hora y/o memoria) Transparencias en: http://www.ugr.es/~atv

alize
Télécharger la présentation

Procesamiento y Compresión de Señales de Audio

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procesamiento y Compresión de Señales de Audio PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  2. Organización: • Audición. • Implantes cocleares. • Reconocimiento robusto de voz. • Presentación de trabajos. • ( 1/2 hora y/o memoria) Transparencias en: http://www.ugr.es/~atv E-mail: atv@ugr.es ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  3. Reconocimiento robusto de voz ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  4. Sistemas de reconocimiento automático de voz (ASR) en ruido • El ruido contamina la señal de voz en todas las aplicaciones reales: • Entorno de oficina (ventiladores, HDs, teclados, gente, música….) • Línea de teléfono (entorno y línea) • Telefonía móvil (además canal de radio y codec) • ASR de voz adquirida en automóvil • El ruido degrada ASR ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  5. Consideraciones sobre el ruido en ASR • ¿En qué condiciones se va a adquirir la señal de voz? • Métodos para robustecer el sistema frente al ruido • ASR en ruido es una línea de investigación importante ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  6. Métodos de robustecimiento Principal problema: mismatch train-reco • Representaciones robustas • Compensación de la voz ruidosa • Adaptación de los modelos limpios ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  7. Representación de la voz • Voz cuasi-estacionaria en segmentos de 30-50 ms (duración de los fonemas) • Información relevante para ASR: características espectrales de tiempo corto • Representaciones típicas para ASR: cepstrum-FFT; cepstrum-LPC; MFCC ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  8. Representación de la voz: MFCC • Pre-énfasis • Segmentación en frames (20 – 40 ms) • Ventana de Hamming • Banco de filtros en escala MEL (FBO) • Escalado logarítmico (log-FBO) • Transformada discreta del coseno (MFCC) • Energía; derivadas (Delta); segundas derivadas (Delta-Delta) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  9. Efecto del ruido aditivo • El ruido distorsiona el dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  10. Distorsión del dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  11. Distorsión del dominio log-FBO ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  12. Distorsión PDF’s ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  13. Aleatoriedad del ruido ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  14. Ruido y ASR • Experimentos con voz contaminada artificialmente • Ruido: AWGN • Tarea de dígitos conectados • Retrain (adaptación ideal) • Baseline (sin robustecimiento) • Degradación debida a mismatch • Degradación debida a pérdida de información ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  15. Métodos para ASR robusto • Representaciones robustas: • Ventanas de liftering (cepstrum-LPC) • Proyección ceptral (cepstrum-LPC) • Modelos auditivos • Cepstrum en escala MEL (MFCC) • Parametrizaciones discriminativas (LDA, DFE) • Eliminación de variaciones lentas: RASTA; CMN; coeficientes Delta y Delta-Delta… ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  16. Métodos para ASR robusto (II) • Compensación de la voz: • Mapeo lineal de parámetros: • Sustracción espectral / filtrado de Wiener • Realce estadístico: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  17. Métodos para ASR robusto (III) • Compensación de los modelos: • Descomposición de HMM: PMC • Filtrado de Wiener dependiente del estado • Adaptación estadística de los modelos • Contaminación del corpus de entrenamiento ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  18. Compensación del efecto del ruido basada en el método de Monte Carlo ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  19. Compensación del efecto del ruido • Compensación en el dominio log-FBO: • Estimación del ruido en log-FBO usando un VAD: • Compensación canal por canal: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  20. Compensación del efecto del ruido • Estimación basada en método de Monte Carlo: • Generamos voz y ruido de acuerdo con las probabilidades: • Calculamos parejas voz-limpia voz-ruidosa: • Calculamos valor esperado de voz limpia dada la voz ruidosa observada: ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  21. ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  22. Compensación del efecto del ruido • Compensación definida como una función: • Implementación práctica: interpolación lineal con algunos puntos (k) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  23. ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  24. ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  25. Experimentos de reconocimiento • Base de datos VODIS en francés • Voz grabada en entorno de automóvil • Condiciones reales de ruido • Grabaciones con dos micrófonos: • Far-talk • Close-talk • Test siempre con Far-talk • Diferentes condiciones de conducción ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  26. Experimentos de reconocimiento • Tarea de reconocimiento: números de teléfono (en francés) • Sistema de reconocimiento: • CHMM • Cada palabra representada como un HMM de 10 estados • Cada estado es una pdf mezcla de Gaussianas (entre 1 y 8 Gauss/estado) • Front-end MFCC ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  27. Experimentos de reconocimiento • Métodos comparados: • CMN • Compensación en dominio log-FBO basada en método de Monte Carlo • Adaptación de los modelos a las condiciones de reconocimiento: • Reentrenamiento en condiciones Far-Talk ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  28. ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  29. Experimentos de reconocimiento (ruido añadido artificialmente) • Ruido AWGN • Añadido artificialmente • Dígitos conectados • Baseline (CMN) y retrain como referencias • Compensación: Monte Carlo, VTS, UTS ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  30. ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  31. Comentarios • Con AWGN los resultados re-train y compensación coinciden: • Re-entrenamiento es óptimo • Compensación es (casi) óptimo • Con ruido real: • Re-entrenamiento es sub-óptimo • Compensación es sub-óptimo • Mejor solución: compensación de ambos ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  32. Resumen • Importancia del ruido en aplicaciones del Reconocimiento Automático de Voz • Importancia de los métodos de robustecimiento • Mecanismos de degradación: • Mismatch (distorsión del espacio de repr.) • Pérdida de información (aleatoriedad) ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  33. Resumen (2) • Métodos de robustecimiento: • Orientados a eliminar el mismatch: • Métricas robustas • Compensación de representación • Adaptación de modelos • Experimentos: ruido real / controlado • Resultados: • Combinación de adaptación de modelos y compensación de la representación ATV 2007 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

More Related