1 / 56

Procesamiento y Compresión de Señales de Audio

Procesamiento y Compresión de Señales de Audio. PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre. transmisor RF. receptor RF y emisor de estímulos. electrodo de referencia. micrófono y procesador. electrodos. guía de electrodos. Imagen Rx de un implante.

parson
Télécharger la présentation

Procesamiento y Compresión de Señales de Audio

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procesamiento y Compresión de Señales de Audio PROGRAMA DE POSGRADO EN SISTEMAS MULTIMEDIA Ángel de la Torre ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  2. transmisor RF receptor RF y emisor de estímulos electrodo de referencia micrófono y procesador electrodos guía de electrodos ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  3. Imagen Rx de un implante ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  4. ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  5. Sistemas de petaca y retroauricular ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  6. Interpretación del mensaje Modelo acústico (fonemas) Modelo lenguaje (voc+gram) Información contextual Percepción de la voz Representación de la voz en el nervio auditivo Adquisición de la voz respuesta Aparato auditivo Producción de voz Aparato fonador ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  7. Interpretación del mensaje Modelo acústico (fonemas) Modelo lenguaje (voc+gram) Información contextual Percepción de la voz con I.C. Representación de la voz en el nervio auditivo Adquisición de la voz respuesta Implante Coclear Producción de voz Aparato fonador ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  8. Cuándo es necesario el I.C.(criterios de selección de candidatos) • Sordera neurosensorial • No en sordera retrococlear: Implante de tronco cerebral • No en sordera de transmisión: (Pérdidas moderadas) Prótesis auditivas, reconstrucción cadena huesecillos • Sordera bilateral profunda • Incapacitante para comprensión de voz ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  9. Aportaciones del I.C. • Percepción de la voz • Percepción de otros sonidos • Limitaciones • Objetivo: comunicación oral • Desarrollo lingüístico en niños • Comunicación en adultos • Funcionamiento del I.C. ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  10. Espectrograma(representación tiempo - frecuencia) m b o i a kom p r a R p a n ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  11. Información relevante de la señal de voz: • Para reconocimiento de voz: • Envolvente espectral (formantes) • Evolución temporal de los formantes Información espectral de tiempo corto • Información complementaria: • Tono fundamental • Estructura fina del espectro ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  12. Características del oído humano • Aspectos anatómicos y fisiológicos: 6.000 células ciliadas internas 40.000 terminaciones nerviosas Repolarización: 2 ms (400 - 500 disparos/seg) Conexión sináptica: sin interacción entre canales Mecanismos de adaptación • Capacidad de un oído entrenado: • Resolución espectral: 1/9 tono (entre 20 Hz y 20 kHz) • Resolución temporal: 400 - 500 Hz • Resolución de intensidad: 1 dB ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  13. Limitaciones del implante coclear • No hay conexión sináptica: • Un electrodo estimula muchas fibras • Si se estimulan simultáneamente varios electrodos hay interferencia entre canales • Consecuencias: • Pocos electrodos (se representa sólo la envolvente espectral) • Alta tasa de estimulación • En cada instante sólo se estimula un canal ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  14. Percepción con Implante Coclear • Implante: varios electrodos (muchos menos de 4000) • ¿Por qué no más electrodos? • Intervalo de frecuencia 200 Hz - 8500 Hz • Respuesta en el tiempo: 1500 ... 3000 disparos/seg. • Respuesta a los distintos niveles de intensidad ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  15. Diseño de los Implantes Cocleares • Limitaciones acoplamiento entre electrodos y terminaciones nerviosas • Limitaciones: • procesamiento de señal • comsumo • tamaño • Posibilidades y límites: sonidos / voz ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  16. ¿Cómo oye un implantado? • No se puede saber • Sólo unos pocos pacientes están en condiciones de hacer comparaciones • Observación indirecta (qué son capaces de hacer) • Teniendo en cuenta todo el proceso de estimulación se puede sintetizar la señal “tal y como la oiría un implantado” ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  17. Aportaciones del Implante Coclear • Percepción auditiva con calidad suficiente para comprensión del habla (sin ruido) • Para ello, antes hay que desarrollar.... • habilidades perceptuales • habilidades lingüísticas • Comprensión de la voz en ruido: difícil • Percepción de los distintos sonidos, música • proporciona toda la información temporal que un oído normal puede percibir (poca resolución espectral) ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  18. Estrategias de codificación • Analógicas: • Compressed Analog (Clarion) • Pulsátiles: • Extracción de características • F0/F1/F2 (Cochlear) • MPEAK (Cochlear) • Híbridas: • SMSP / SPEAK (Cochlear) • N-of-M (Medel) • Forma de onda: • ACE / CIS / CIS+ (Cochlear Clarion Medel) ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  19. compresion Estim. elec 1 compresion Estim. elec 2 compresion Estim. elec 3 compresion Estim. elec 4 compresion Estim. elec 5 Compressed Analog Banco de filtros Adquisición de la señal Ajuste de niveles Estimulación ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  20. Compressed analog • Estimulación analógica (no pulsátil) • Estimulación simultánea de todos los electrodos (interacción entre canales) • Estimulación bipolar • Campo eléctrico de cercanía ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  21. F0 / F1 / F2 • Estima parámetros: • F0: tono fundamental (frecuencia) • F1: primer formante (frecuencia y amplitud) • F2: segundo formante (frecuencia y amplitud) • Estimula dos electrodos en cada ciclo: • los correspondientes a las frecuencias F1 y F2 • con las amplitudes estimadas para F1 y F2 • con la tasa de estimulación asociada a F0 ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  22. Generador de estímulos Ajuste de niveles F2 F2 1 k - 3 k A2 F1 F1 300 - 1 k Generador de estímulos A1 F0 0 - 270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación F0 / F1 / F2 ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  23. Generador de estímulos Ajuste de niveles F2 F2 1 k - 3 k A2 F1 F1 300 - 1 k Generador de estímulos A1 F0 0 - 270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación F0 / F1 / F2 Selecciona uno entre canales 6-20 Selecciona uno entre canales 1-5 ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  24. MPEAK (Multi Peak) Electrodo 20 4 k - 6 k Ajuste de niveles Electrodo 17 2.8 k - 4 k Electrodo 14 2 k - 2.8 k Generador de estímulos F2 F2 800 - 4 k A2 F1 F1 300 - 1 k Generador de estímulos A1 F0 0 - 270 Generador de pulsos Adquisición de la señal Extracción de características Selección de electrodos Estimulación ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  25. Extracción de características • Presentan la información esencial para percibir la voz: • Tono fundamental (F0) • Primer y segundo formante • Representación pobre de la voz • Sensibilidad a estimación de F0, F1 y F2: • Respuesta pobre en condiciones de ruido ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  26. Selección de los N canales con mayor intensidad Ajuste de niveles Adquisición de la señal Banco de filtros y detecc. envolvente Selección de electrodos Estimulación SMSP, SPEAK y N-of-M ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  27. Implementaciones (alta tasa de estimulación): • SMSP; SPEAK; N-of-M • Ventajas: • Mejor representación que extracción de carac. • Menos sensible a ruido de fondo • Inconvenientes: • Se pierde información (canales con menos energía) • Compromiso: • Número de canales - tasa de estimulación ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  28. Adquisición de la señal Banco de filtros y detecc. envolvente Ajuste niveles Generación estímulos CIS: Continuous Interleaved Sampling ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  29. Implementaciones (alta tasa de estimulación): • ACE (Nucleus) • CIS (Clarion) • CIS+ (Medel) • Ventajas: • Todos los electrodos estimulados en cada ciclo con alta tasa de estimulación • Mejor representación de la señal de audio • Mejor resolución en intensidad • Mayor sensibilidad ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  30. Tendencias en estrategias de codificación: • Reducir extracción de características • Alta tasa de estimulación • Todas las estrategias actuales (CA, SPEAK, CIS) proporcionan resultados satisfactorios: • Envolvente espectral • Resolución temporal • Resolución en intensidad • Prestaciones: • Representación audio suficiente para comprender voz • Limitaciones: música y ruido ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  31. ¿Qué es programar el I.C.? • Ajustar los parámetros del sistema de implante coclear para que el paciente obtenga un aprovechamiento óptimo: • Parámetros de estimulación • Parámetros de representación del sonido ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  32. Montaje para programar I.C. Transmisor Interface Procesador Ordenador para acceder al procesador ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  33. Programación del procesador • Parámetros ajustables: • conexión de electrodos • niveles de estimulación en cada electrodo • Umbrales de percepción: THR • Máximos niveles de confort: MCL • parámetros especiales • Objetivos: • adaptar la estimulación a los valores particulares de cada paciente • proporcionar la máxima calidad de audición ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  34. Importancia del ajuste • Electrodos activados: • La banda útil se reparte entre los electrodos activos. Si un electrodo no es funcional debe desconectarse • Umbrales de percepción: • Para tener sensibilidad (20 - 30 dB) y para poder discriminar niveles de volumen • Máximos niveles de confort: • Para escuchar los sonidos fuertes (80 - 110 dB) fuertes pero sin llegar a sensación de dolor ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  35. Dificultades del ajuste • Colaboración paciente - programador • Capacidad / tiempo de atención del paciente • Capacidad de expresión del paciente • Descripción del paciente subjetiva • Tolerancia del paciente a imprecisión • Evolución fisiológica del paciente • Objetivos mínimos cubiertos ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  36. Influencia de la programación en la capacidad de percepción • El número de electrodos • rango de frecuencia • Electrodos no funcionales conectados • excepciones transitorias • Electrodos con estimulaciones colaterales • Sobre-estimación de umbrales • Infra-estimación de umbrales • Desajustes de MCL ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  37. Parámetros ajustables: • Parámetros de estimulación: • Determinación de electrodos funcionales • Rango dinámico de cada electrodo: umbral y máximo nivel de confort • Parámetros de representación del sonido: • Modo de estimulación • Estrategia de codificación • Bandas de frecuencia asignadas a electrodos • Tasa de estimulación • Mapeo de intensidad, volumen, sensibilidad ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  38. Determinación de electrodos funcionales • Electrodos dentro de la cóclea • Electrodos dentro de la cóclea en zona poco inervada • Electrodos fuera de la cóclea • Estimulación colateral ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  39. Rango dinámico de cada electrodo • Rango dinámico eléctrico: es el intervalo comprendido entre • Umbral (THR): mínima estimulación eléctrica que detecta el paciente • Máximo nivel de confort (MCL): máxima estimulación eléctrica que tolera el paciente • El rango dinámico debe establecerse para cada electrodo independientemente ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  40. Mapeo del rango dinámico acústico al eléctrico 100 dB MCL THR 20 dB Rango dinámico acústico Rango dinámico eléctrico ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  41. 1 2 3 4 5 6 7 8 9 10 11 12 zona apical zona basal Ejemplo de rango dinámico Ecualización de canales ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  42. Parámetros relacionados con la representación del sonido: • Modo de estimulación • Estrategia de codificación • Bandas de frecuencia asignadas a electrodos • Tasa de estimulación • Mapeo de intensidad • Volumen • Sensibilidad • Programas para situaciones especiales ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  43. electrodo extracoclear alejado monopolar tierra comun bipolar Inactivo Activo Referencia bipolar + 1 bipolar +2 Modo de estimulación Configuración eléctrica de los electrodos ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  44. bipolar tierra comun monopolar Inactivo Activo Referencia bipolar + 1 bipolar +2 Modo de estimulación Distribución de la corriente eléctrica ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  45. I. C. máx (200 Hz - 10 kHz) I.C. típ. (300 Hz - 5 kHz) Tel. (350 Hz - 3.5 kHz) Voz (200 Hz - 6 kHz) Rango espectral audición (20 Hz - 20 kHz) 20 Hz 200 Hz 2 kHz 20 kHz Bandas de frecuencia asignadas a electrodos • Rango espectral • Distribución de los filtros en frecuencia: (Ancho de banda y frecuencia central de cada canal) • Lineal, logarítmica, lin-log.... • Elegida libremente por el programador ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  46. Tasa de estimulación • Es el número de estímulos por segundo en cada electrodo • Mejor cuanto más alta • Tiempo de repolarización: 2ms • Conviene que sea superior a 800 o 1000 disparos por segundo • Limitada por: • Tecnología del procesador • Número de electrodos activos en cada ciclo de estimulación • Duración de los pulsos eléctricos ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  47. MCL Nivel estim. eléctrico THR 100 dB 20 dB Rango dinámico acústico Mapeo de intensidad (maplaw) ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  48. MCL Nivel estim. eléctrico THR 100 dB 20 dB Rango dinámico acústico Mapeo de intensidad (maplaw) ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  49. Control de volumen MCL MCL utilizado Niveles estimados THR utilizado THR 0 0% 100% Nivel de volumen ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

  50. Control de volumen MCL Niveles estimados THR 0 0% 75% 100% Nivel de volumen ATV 2011 – Dpto. Teoría de la Señal, Telemática y Comunicaciones - UGR

More Related