Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZPROYECTO IDAS (Interactive telephone-based Directory Assistance Service) R. San-Segundo, J. Colás, J.M. Montero, R. Córdoba, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J. Pastor, J.M. Pardo Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

PROYECTO IDAS(Interactive telephone-based Directory Assistance Service) • Proyecto europeo a dos años (1998-2000) (LE4-8315) • OBJETIVO Demostrador capaz de dar un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas. • SUBOBJETIVOS • Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras). • Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs).

ANTECEDENTES (I) TADE (Telephone Application Development Environment) • Entorno para el desarrollo de aplicaciones telefónicas, fundamentalmente SVIs. • Lenguaje propio con primitivas de alto nivel. • Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... • Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. • Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. • E-mail: envío de correo electrónico. • Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas. • SVIs desarrollados. • Sistema de atención al cliente en Hewlett Packard con desvío de llamada. • Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. • Buzón vocal con grabación de mensajes y envío de e-mail de aviso.

ANTECEDENTES (II) TIDAISL (Telefónica I+D Aislada) • Proyecto realizado en colaboración con Telefónica I+D. • OBJETIVO: desarrollo de un módulo de preselección para sistemas de reconocimiento de habla aislada de gran vocabulario. • Partes del módulo de preselección: • Extracción de cadena fonética: obtención de la secuencia de alófonos más probable (algoritmo de un paso con SCHMM). • Acceso Léxico: comparación de la secuencia de alófonos con cada palabra del diccionario mediante un algoritmo de programación dinámica y ordenación de menor a mayor distancia. • RESULTADO: reducción de un vocabulario de 10000 palabras a uno de 1000 con el 98% de certeza.

Bienvenida Reconocimiento Ciudad ¿Particular/Empresa? ¿Operador? ACCESO A LA BASE DATOS APLICACIÓN DE PÁGINAS BLANCAS Reconocimiento 1 Apellido 2 Apellido Nombre Reconocimiento Empresa

NUEVAS PRIMITIVAS DEL LENGUAJE (I) RECONOCIMIENTO • RECONOCIMIENTO_DICC_ESTATICO: reconocimiento de habla aislada de gran vocabulario. Partes: • Hipótesis: módulo de preselección de TIDAISL con una mejor parametrización RASTA-LPC y un nuevo alfabeto con 45 alófonos. • Verificación: algoritmo de Viterbi con modelos CHMM sobre una lista de candidatos preseleccionada en la etapa anterior. • Técnicas de reducción de tiempo: agrupación de cálculos, Beam Search y restricciones sobre el camino óptimo. • Detección de homófonos. • RECONOCIMIENTO_DICC_DINÁMICO: misma tarea pero sobre diccionarios dinámicos. • CARGAR y DESCARGAR_DICCIONARIO: permite cargar y descargar diccionarios en memoria de forma dinámica.

NUEVAS PRIMITIVAS DEL LENGUAJE (II) INTERVENCIÓN DE UN OPERADOR • OPERADOR_DATO: presenta en pantalla un cuadro de diálogo en el que se permite al operador escuchar lo dicho por el usuario y seleccionar la palabra correcta. • ESPERAR_OPERADOR_DATO: suspende el curso normal de la aplicación hasta que el operador cierra el cuadro de diálogo. De esta forma garantizamos que la intervención del operador se lleva a cabo y disponemos de una dato correcto. La intervención del operador es transparente para el usuario. Un mismo operador puede atender a varias líneas a la vez.

ADAPTACIÓN A UN HARDWARE COMERCIAL • Situación inicial: • VISHA: tarjeta de sonido con un DSP32C capaz de realizar parte de las tareas de reconocimiento. • IFTEL: tarjeta de interfaz de línea telefónica. Ambas tarjetas desarrolladas en el Dept. de Ingeniería Electrónica. • Cambios realizados: • Sustitución de VISHA por un dispositivo WAVE (Sound Blaster 16): las tareas de análisis de la señal de voz que realizaba la VISHA, ahora las debe realizar el procesador del ordenador. • Introducción de un segundo dispositivo WAVE (Sound Blaster 16): para permitir al operador escuchar lo dicho por el usuario al mismo tiempo que se ejecuta la aplicación.

EXPERIMENTOS 33 personas (21 hombres y 12 mujeres) accedieron a 10 teléfonos de empresas y a 10 teléfonos particulares Las tasas de llamadas completadas sin intervención del operador: 75% para teléfonos de empresas. 35% para teléfonos particulares.

CONCLUSIÓN Servicio de páginas blancas funcionando en tiempo real en un ordenador Pentium II–350Mhz con una tasa mínima de 55% de llamadas procesadas automáticamente. LÍNEAS FUTURAS • Aumento de la tasa de reconocimiento y del tamaño de los diccionarios • Optimización de los algoritmos de reconocimiento para permitir tiempo real con diccionarios de 10000 palabras. • Nueva primitiva: reconocimiento de nombres deletreados. • Utilizar una sólo tarjeta comercial para la captura de muestras y la gestión de la línea telefónica. • Dotar al sistema de módulos de comprensión y diálogo para dotar de mayor flexibilidad a la comunicación hombre-máquina.

Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.