430 likes | 606 Vues
PROYECTO FIN DE CARRERA. Query-by-Humming Basado en Modelos Ocultos de Márkov. I v á n L ó p e z E s p e j o. SUMARIO. Introducción y Motivación Fundamentos del Sistema QbH Diseño e Implementación Test y Resultados Conclusiones Trabajo Futuro.
E N D
PROYECTO FIN DE CARRERA Query-by-Humming Basado en Modelos Ocultos de Márkov I v á n L ó p e z E s p e j o
SUMARIO • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • ¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? • Query-by-Humming: Consulta mediante tarareo • HMMs: Técnica de reconocimiento • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • ¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? • Query-by-Humming: Consulta mediante tarareo • HMMs: Técnica de reconocimiento • Necesitamos métodos más naturales de acceso a la información • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • ¿Por qué Query-by-Humming Basado en Modelos Ocultos de Márkov? • Query-by-Humming: Consulta mediante tarareo • HMMs: Técnica de reconocimiento • Necesitamos métodos más naturales de acceso a la información • Aplicaciones • Búsqueda de piezas musicales • Encontrar melodías similares • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • Comienzan a aparecer los primeros productos comerciales • Queryhammer • Sloud • Midomi • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • Comienzan a aparecer los primeros productos comerciales • Queryhammer • Sloud • Midomi • Numerosos frentes de investigación basados en la observación del contorno melódico (pitch) • Stephen Andel del MIT dice: El contorno melódico es una de las características más relevantes de la que hace uso el ser humano para la identificación de una pieza musical • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
1. INTRODUCCIÓN Y MOTIVACIÓN • Motivación para la realización del proyecto • Inexistencia de un sistema robusto y versátil de reconocimiento de melodías • Investigación sobre HMM-based QbH en 2010 (DICC de la Universidad de Ohio): Máxima precisión del 61.6% • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • Diagrama de bloques de alto nivel del reconocedor • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • Front-End: Extrae de un tarareo de entrada un conjunto reducido de vectores de características representantes del mismo • Pitch: Caracterización del contorno melódico • Energía: Caracterización de la dinámica y modelado implícito del ritmo • Coeficientes delta y aceleración • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • Modelado Estadístico: Los patrones son estimados a partir de una fase previa de entrenamiento y aparecen representados por un modelo estadístico de producción • Supongamos K piezas musicales de una base de datos • Cada una de ellas entrena los parámetros de un HMM mediante la aplicación del algoritmo de Baum-Welch sobre un conjunto de repeticiones de entrenamiento de la melodía que nos disponemos a modelar • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • Clasificación de un tarareo de entrada al sistema representado mediante un conjunto de vectores de características • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
2. FUNDAMENTOS DEL SISTEMA QbH • División del desarrollo del sistema en dos etapas • Reconocimiento de secuencias melódicas fijas: Topología de izquierda a derecha • Reconocimiento de secuencias melódicas aleatorias: Topología dependiente de la pieza musical • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Finalidad de este punto: Desarrollo en JAVA de un prototipo para el reconocimiento del tarareo • Programación de las herramientas que componen el front-end • Uso del conjunto de herramientas de HTK para la manipulación de los HMMs (entrenamiento y reconocimiento) • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Detector de pitch basado en el algoritmo SIFT • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Suavizado del contorno de pitch • Posibles hechos pueden provocar picos espurios • Afección de los formantes • Tramas de ruido de fondo • Pseudo-estacionariedad de las tramas • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • VAD: Basado en hangover con un umbral de varianza • Cuantizador Musical: Discretiza el pitch a la escala temperada • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Cálculo de la energía • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Solución al problema de la transposición en el entorno del reconocimiento de secuencias fijas: sustracción de media a la secuencia de pitch • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • ¿Qué ocurre con la energía? • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Reconocimiento de fragmentos aleatorios • Posibles soluciones al problema de la transposición • Sustracción de la media • Pitch diferencial • Detector probabilístico de la tonalidad • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Reconocimiento de fragmentos aleatorios • Detector de la tonalidad • Mapeo sobre la octava 2 de la melodía transportada a DoM • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Reconocimiento de fragmentos aleatorios • Modelado de la matriz de transiciones • Acceso al resultado de aplicar, durante la etapa de alineamiento del entrenamiento, el algoritmo de Viterbi. Así conocemos la distribución de la agrupación de las características por estado • Modificación manual del fichero de definiciones • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Construcción del prototipo • Selección de un conjunto de piezas musicales que entrenan un entorno estadístico haciendo uso de HMMs continuos con una gaussiana por estado para el modelado de la distribución de probabilidad de emisión de símbolo (HTK) • Integración en JAVA de las anteriores herramientas a excepción del reconocimiento, que se implementa como una llamada al módulo de HTK HVite (Algoritmo de Viterbi) • Dos versiones: Con sustracción de media en secuencias fijas y con detección de la tonalidad • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
3. DISEÑO E IMPLEMENTACIÓN • Construcción del prototipo • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Marco general de la evaluación • 20 piezas musicales • Entonanción con la sílaba na por defecto • 10 repeticiones de cada melodía para entrenamiento • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Reconocimiento de secuencias fijas (con sustracción de media) • 1) Igual al entrenamiento, 2) Combinación aleatoria de sílabas, 3) Haciendo uso de la letra original (salvo el fragmento de Wagner), 4) Tarareados más rápido de lo normal y 5) Tarareados más lento de lo normal • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Reconocimiento de secuencias aleatorias (sin transposición ver el rendimiento del modelado de la matriz de transiciones) • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Reconocimiento de secuencias aleatorias (con transposición sustracción de media) • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Reconocimiento de secuencias aleatorias (con transposición pitch diferencial) • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
4. TEST Y RESULTADOS • Reconocimiento de secuencias aleatorias (con transposición detección de tonalidad) • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES • El reconocimiento de secuencias melódicas fijas con sustracción de media parece ser una base sólida • El modelado de la matriz de transiciones para el reconocimiento de fragmentos aleatorios es esperanzador • Principal problema: Inmunidad a la transposición tonal para esta última variante • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
5. CONCLUSIONES • Variante con detección de tonalidad: opción más prometedora • Parte del éxito del sistema Modelado mediante tarareos ya que el usuario busca con tarareos • Modelado de la matriz de transiciones de forma subjetiva Puede ser interesante tener realimentación de parte de los usuarios del sistema • Vía abierta de trabajo • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
6. TRABAJO FUTURO • Introducción y Motivación • Fundamentos del Sistema QbH • Diseño e Implementación • Test y Resultados • Conclusiones • Trabajo Futuro • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
6. TRABAJO FUTURO • Existe mucho trabajo a partir del ya desarrollado • Optimización del reconocimiento de secuencias aleatorias • Inmunidad a la transposición en el ambiente del reconocimiento de secuencias aleatorias • Revisión del entorno de reconocimiento estadístico • Inclusión de nuevas características • Ampliación multimodal • Entrenamiento colectivo • Reconocimiento N-Best • PFC | Query-by-Humming Basado en Modelos Ocultos de Márkov | Iván López Espejo
Query-by-Humming Basado en Modelos Ocultos de Márkov • GRACIAS