1 / 1

OBJETIVOS

PARAMETRIZADOR. FRONT-END. COMPRENSION. DETECTOR. RECO CASTELLANO. RECO INGLES. DETECTOR IDIOMA. FRECUENCIA. FICHEROS. SP. EN. TOTAL. ARRIBADAS. 213. 63. 276. AUTORIZACIONES. 5091. 3256. 8347. DESPEGUES. 234. 75. 309. RODADURA NORTE. 352. 72. 424. RODADURA SUR. 235.

Télécharger la présentation

OBJETIVOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PARAMETRIZADOR FRONT-END COMPRENSION DETECTOR RECO CASTELLANO RECO INGLES DETECTOR IDIOMA FRECUENCIA FICHEROS SP EN TOTAL ARRIBADAS 213 63 276 AUTORIZACIONES 5091 3256 8347 DESPEGUES 234 75 309 RODADURA NORTE 352 72 424 RODADURA SUR 235 127 362 TOTAL 9718 SISTEMA DE COMPRENSIÓN DE COMUNICACIONES HABLADAS PARA EL CONTROL DE TRÁFICO AÉREO DEL PROYECTO INVOCA V. Sama Rojo, F. Fernández Martínez, J. Ferreiros López, J. Macias-Guarasa, R. De Córdoba, J. M. Montero Martínez, J. Colas Pasamontes*, E. Campos Palarea*, J. M. Pardo Muñoz Grupo de Tecnología del Habla, UPM, Ciudad Universitaria s/n *Laboratorio de Tecnología Hombre-Computador, Escuela Politécnica Superior, UAM {vsama, efhes, jfl, macias, cordoba, juancho, pardo}@die.upm.es; jose.colas@ii.uam.es CONCLUSIONES OBJETIVOS FUNCIONALIDAD • Tras evaluar el comportamiento del sistema en condiciones reales: • La integración del sistema en tareas de control de tráfico aéreo todavía parece lejana. - Posible mejorar notablemente los resultados. • Buen reflejo del estado del arte de la tecnología de reconocimiento de habla. • Se han identificado otras áreas potenciales de interés para estas aplicaciones y para las cuales los niveles de calidad alcanzados hasta la fecha sí serían aceptables. • E.g. entornos de entrenamiento ‘Pseudopiloto automático’ o ‘Entrenador de fraseología’. Proyecto de exploración y evaluación tecnológica. Analizar las posibilidades que ofrece el estado del arte en las tecnologías del habla para su aplicación a los sistemas de control de tráfico aéreo en torre, especialmente en reconocimiento y comprensión. Análisis de viabilidad de su incorporación en SACTA (Sistema Automatizado de Control de Tránsito Aéreo). • Detección de datos clave en canales tierra-aire en las comunicaciones controlador-piloto. • Lenguaje natural, habla espontánea. • Fraseología oficial. • Sistema multi-idioma: castellano e inglés. • Todas las posiciones de control del Aeropuerto Internacional de Madrid-Barajas. • Mayor esfuerzo en ‘Autorizaciones’. - Más datos relevantes (e.g. altura de vuelo, tipo de salida…) DESCRIPCIÓN DEL SISTEMA • Módulo de preproceso: convierte la señal acústica en un conjunto de vectores de parámetros apropiado. - Detector: detección de voz / no voz. - Parametrizador: parametrización de la información acústica segmentada. • Módulo de reconocimiento: compuesto por dos reconocedores (castellano e inglés) que reciben la salida del módulo de preproceso, obtiene las frases reconocidas para ambos idiomas. • Módulo de detección de idioma: recibe las frases reconocidas y decide el idioma al que pertenece. La decisión se toma: • En base a medidas de verosimilitud aplicando los modelos de lenguaje (bigramas) a los resultados de ambos reconocedores. • Debido al gran peso dado al modelado de lenguaje: • 9.5 para castellano. • 11 para inglés. La decisión está directamente basada en la diferencia de puntuación entre ambos reconocedores. • Módulo de comprensión: extrae los conceptos claves de la tarea. • Basado en reglas dependientes de contexto. • Diccionarios etiquetados semánticamente en función de la tarea. MODELOS DE LENGUAJE BASE DE DATOS • Modelos estocásticos basados en bigramas • Corpus de entrenamiento: • 3256 frases de inglés, 793 palabras con 36 palabras sin modelo gramatical • 5091 frases de castellano, 1104 palabras con 86 palabras sin modelo gramatical • Perplejidad: Archivos wav muestreados a 8 KHZ Y 16 bits por muestra de cada frase o intervención del controlador y transcripción en formato SAM RESULTADOS DE EVALUACIÓN DE USUARIO EVALUACIÓN EN TORRE • Obtenidos con usuarios reales. • 2 tipos de evaluaciones: • Libre : se procesa todo tipo de frases. • Guiada : sólo se procesan frases que se ajustan a la fraseología entrenada. Resultados en condiciones reales. - Torre de control Aeropuerto Internacional Madrid-Barajas. Los resultados ‘MIXTO’ corresponden al funcionamiento real del sistema de forma conjunta para ambos idiomas e incluyen los errores en la detección de idioma (5’9%). %Tasa = % palabras/conceptos correctos %perf = % de frases perfectas (sin errores) W.A. = Precisión de palabra C.A. = Precisión de concepto %Tasa = % palabras/conceptos correctos %perf = % de frases perfectas (sin errores) W.A. = Precisión de palabra C.A. = Precisión de concepto

More Related