1 / 49

Recuperación de imágenes basada en texto y contenido visual mediante redes neuronales

Recuperación de imágenes basada en texto y contenido visual mediante redes neuronales. Diego Adrián Castro. Directora: Leticia Seijas. Departamento de Computación Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires. Plan. Contexto Objetivos Descriptor CBIR Índice CBIR

Télécharger la présentation

Recuperación de imágenes basada en texto y contenido visual mediante redes neuronales

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Recuperación de imágenesbasada en texto y contenido visualmediante redes neuronales Diego Adrián Castro Directora: Leticia Seijas Departamento de Computación Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires

  2. Plan • Contexto • Objetivos • Descriptor CBIR • Índice CBIR • Recuperación Híbrida • Conclusiones y Trabajos Futuros

  3. Contexto

  4. Contexto • En los últimos años, la cantidad de imágenes disponibles viene experimentando un fuerte crecimiento • Satélites, cámaras de vigilancia y hasta cámaras digitales contribuyen a este fenómeno Se precisa recuperar imágenes en grandes bases de datos en forma eficiente

  5. Enfoques • Recuperación basada en texto (TBIR) • Recuperación basada en contenido (CBIR) • Recuperación basada en texto y en contenido (enfoque híbrido)

  6. TBIR • Primeros trabajos a fines de los 70’ • Describe a las imágenes a través de un conjunto de palabras • Ampliamente usado en la actualidad(ej: ) • Gran parte de su teoría proviene del área de Information Retrieval (IR)

  7. TBIR • Las descripciones se suelen preprocesar usando: • Normalización de caracteres • Stopwords • Stemming • La estructura más popular para indexarlos: • Índices invertidos

  8. TBIR • A pesar de su extenso uso, presenta algunos problemas: • Debe definirse el lenguaje con el que se va a trabajar (inglés es el más común) • Las descripciones de las imágenes pueden ser: • Subjetivas • Imprecisas • Ambiguas

  9. TBIR (Ejemplo: Imprecisión)

  10. TBIR (Ejemplo: Ambigüedad)

  11. Enfoques • Recuperación basada en texto (TBIR) • Recuperación basada en contenido (CBIR) • Recuperación basada en texto y en contenido (enfoque híbrido)

  12. CBIR • Aparece a principios de los 90’ • Describe a las imágenes a partir de sus características visuales (color, textura y/o forma) • A diferencia de TBIR, CBIR es un área mucho menos madura y aún presenta numerosos desafíos • Hoy existen muchos descriptores visuales • No hay consenso acerca de la estructura de índice • Una posibilidad es usar Self-Organizing Maps (SOM)

  13. CBIR • Al igual que TBIR, también tiene sus problemas • Usar características de bajo nivel como el color o la forma puede hacer que imágenes conceptualmente diferentes sean consideradas similares • Problema conocido como semantic gap • Influyen: • Contexto • Ambigüedad • Conocimientos previos / factores culturales

  14. CBIR (Ejemplo: Contexto) A pesar de que la sombra engañe, los cuadrados A y B tienen el mismo color

  15. CBIR (Ejemplo: Ambigüedad) ¿Una mujer joven o una anciana?

  16. CBIR(Ejemplo: Conocimientos previos / Factores culturales) Parece un hombre dado vuelta, pero vemos que no es así…

  17. Existe la necesidad de recuperar imágenes en grandes bases de datos, pero… TBIR tiene sus problemas CBIR también ¿Entonces?

  18. Enfoques • Recuperación basada en texto (TBIR) • Recuperación basada en contenido (CBIR) • Recuperación basada en texto y en contenido (enfoque híbrido)

  19. Enfoque Híbrido • En los últimos años, se comenzó a investigar esta variante • Combina la descripción basada en texto y en contenido visual Idea: Reducir las desventajas de cada enfoque por separado Potenciar las virtudes de cada variante

  20. Objetivos

  21. Objetivos • Describir el estado del arte y los fundamentos teóricos de CBIR y TBIR • Evaluar el uso del SOM como índice en CBIR • Presentar una estrategia híbrida para la recuperación de imágenes basada en contenido visual y textual • Proponer una variante para los SOM (ParBSOM) que reduzca los tiempos de entrenamiento y recuperación • Introducir una función de scoring en CBIR para eliminar imágenes irrelevantes • Para los experimentos usamos: • BDs de imágenes de acceso libre y populares en el área • ZuBuD • UCID • UK Bench • ImageCLEFphoto 2007 • Métricas clásicas como MAP, Precisión, Recall y F-Measure

  22. DescriptorCBIR

  23. Definición del descriptor • Una de las características más simples e intuitivas de una imagen es el color • Los histogramas de colorrepresentan la frecuencia de cada color en la imagen • Buen desempeño en cuanto a complejidad temporal y espacial • Invariantes a escala y rotación

  24. Histograma de color • Debe decidirse qué espacio de color usar • RGB es el más popular • HSV es una variante interesante (experimentalmente conseguimos mejoras sobre RGB en todas las BDs, de entre 15% y 40%) • Para determinar la distancia entre histogramas, con la norma L1 se obtuvieron buenos resultados en trabajos del área

  25. Función de scoring • En CBIR se suelen calcular las distancia de las imágenes a la consulta y se ordena de menor a mayor distancia Pero, ¿a partir de qué distancia los resultados dejan de ser relevantes? Idea: Definir una función de scoring que asigne un puntaje a cada resultado y permita fijar un umbral, descartando a las que no lo superen

  26. Demostramos que con histogramas de color y norma L1 es posible usar esta idea • Empíricamente se obtienen mejores valores de F-Measure (balancea Precisión y Recall)

  27. ÍndiceCBIR

  28. Definición del índice • Los descriptores suelen tener alta dimensionalidad (mayor a 100) • El índice más sencillo consiste en almacenar los descriptores sin ningún orden y hacer una búsqueda lineal (Fuerza Bruta) • Los SOM (Self-Organizing Maps) aparecen como una variante y soportan grandes bases de datos, descriptores de alta dimensionalidad y diferentes métricas de distancia

  29. Self-Organizing Maps • Son redes neuronales que se encuadran dentro del paradigma de aprendizaje no supervisado y competitivo • Su principal objetivo es agrupar patrones de entrada • Forman un mapa que preserva el orden topológico de los datos de entrada • Respetan la densidad de los datos de entrada

  30. Self-Organizing Maps • Entrenar grandes redes con grandes conjuntos de datos puede resultar muy costoso para el SOM tradicional • Existen variantes que intentan atacar este aspecto como BSOM, ParSOM, TS-SOM, GH-SOM, entre otras • BSOM • Modifica el algoritmo de entrenamiento • Reduce considerablemente tiempo de entrenamiento • ParSOM • Divide la red entre varios nodos de procesamiento

  31. Paralelismo Versión Secuencial Versión Paralela

  32. Propuesta: ParBSOM (ParSOM + BSOM) • Ejecución en paralelo del ParSOM • Algoritmo de entrenamiento del BSOM

  33. ParBSOM: Tiempos • Tiempo de entrenamiento (en 10 épocas) • BSOM vs. SOM tradicional: mejora mayor al 50% • ParSOM vs. SOM: mejora cercana a 30% (dos nodos de procesamiento) • ParBSOM vs. BSOM: mejoran hasta 40% (dos nodos de procesamiento) • ParBSOM vs. ParSOM: mejora mayor al 50%

  34. ParBSOM: Calidad • ParSOM vs. ParBSOM: similar calidad • Algoritmo exacto vs. ParBSOM: pérdidas menores al 10%

  35. ParBSOM: Tiempo para recuperar una imagen • La mejora de tiempos es superior al 90% • A medida que aumenta el tamaño de la base, la mejora aumenta (en esos casos Fuerza Bruta puede ser impracticable)

  36. RecuperaciónHíbrida

  37. Recuperación Híbrida • Combina la descripción basada en texto y en contenido visual Esquema General:

  38. Combinación de resultados • Existen variantes a la hora de combinar los resultados de TBIR y CBIR • Una de ellas se conoce como refinamiento • Consiste en ordenar los resultados de TBIR a partir de CBIR • Le da más importancia a TBIR, ya que es el área más madura en la actualidad

  39. Sistema Híbrido propuesto • CBIR • Descriptor • Histograma de color HSV • Uso de umbral para filtrar imágenes irrelevantes • Índice • ParBSOM • TBIR • Normalización de caracteres, stopwords y stemming • Índices invertidos • Combinación de resultados CBIR + TBIR • Técnica de refinamiento

  40. Recuperación Híbrida: Calidad ImageCLEFphoto 2007 • Precisión, Recall y F-Measure se mantienen iguales (no son sensibles a cambios en los rankings) • MAP mejora un 10%y la Precisión en los primeros 10 y 20 resultados mejora un 20%

  41. Con el objetivo de facilitar las tareas de experimentación de variantes para recuperar imágenes, desarrollamos… • Desarrollado en • Altamente modular (fácil incorporar nuevos descriptores, índices, etc.)

  42. Conclusiones & Trabajos Futuros

  43. Conclusiones • Se partió de un descriptor CBIR simple y ampliamente usado (histograma de color) • Se estudiaron variantes sobre el espacio de color • HSV mejoró entre 15 y 40% en todas las BDs • Se propuso el uso de una función de scoring • Se estudió el uso de los SOM como índice en CBIR • Se propuso el modelo ParBSOM • Tiempo de entrenamiento: • Mejora hasta 40% el BSOM y más de 50% el ParSOM • Calidad: • Contra algoritmo exacto, pérdida menor a 10% • Recuperación de imágenes: • Contra algoritmo exacto, mejoras superiores al 90% • Se aplicó lo estudiado a la Recuperación Híbrida • Mejoras de calidad entre 10 y 20% • Se usaron métricas y BDs conocidas • Se introdujo un sistema denominado Envision enfocado a facilitar tareas de investigación

  44. Trabajos Futuros • Estudiar descriptores que combinen forma o textura con color, dando lugar a un descriptor más completo • Realizar experimentos con otrasBDs híbridas • Actualmente existen muy pocas de este tipo • Se considera como posibilidad desarrollar una propia • Estudiar nuevas estrategias para combinar resultados de CBIR y TBIR

  45. Bibliografía • M. Grubinger, “Analysis and Evaluation of Visual Information Systems Performance”. PhD thesis, School of Computer Science and Mathematics, Faculty of Health, Engineering and Science, Victoria University, Melbourne, Australia, 2007. • T. Kohonen, “Self-organized formation of topologically correct feature maps,” Biological Cybernetics, vol. 43, pp. 59–69, 1982. • P. Tomsich, A. Rauber, and D. Merkl, “parSOM: Using parallelism to overcome memory latency in self-organizing neural networks,” in High Performance Computing and Networking, pp. 61–5, Society Press, 2000. • M. J. Swain and D. H. Ballard, “Color indexing,” International Journal of Computer Vision, vol. 7, pp. 11–32, 1991. • M. Bressan, “Categorization of Generic Images,” inWorkshop de Imágenes, (Buenos Aires, Argentina), 2008. • O. Jonsgård, “Improvements on colour histogram-based CBIR,” Master’s thesis, Gjøvik University College, Stockholm, Norway, 2005. • C. D. Manning, P. Raghavan, and H. Schütze, An Introduction to Information Retrieval. Cambridge University Press, 2009. • H. Shao, T. Svoboda, and L. van Gool, “ZuBuD — Zurich Buildings Database for Image Based Recognition,” tech. rep., Swiss Federal Institute of Technology, Switzerland, 2003. • G. Schaefer and M. Stich, “UCID - An Uncompressed Colour Image Database,” in Storage and Retrieval Methods and Applications for Multimedia 2004, vol. 5307 of Proceedings of SPIE, pp. 472–480, 2004. • D. Nistér and H. Stewénius, “Scalable Recognition with a Vocabulary Tree,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 2161–2168, 2006. • M. Grubinger, P. Clough, A. Hanbury, and H. Müller, “Overview of the ImageCLEFphoto 2007 Photographic Retrieval Task,” Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Revised Selected Papers, pp. 433–444, 2008.

  46. Fin

More Related