LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Structures linguistiques pour la recherche d’images sur Internet Adrian Popescu CEA LIST / Télécom Bretagne Directeur de thèse Ioannis Kanellos Encadrants CEA Pierre-Alain Moëllic Gregory Grefenstette Rapporteurs Florence Sèdes Bruno Bachimont Examinateur Pierre-François Marteau LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles 18/09/2008

Plan de la présentation • Introduction • Approche conceptuelle de la recherche d’images • Adaptation et structuration de connaissances • Applications • Conclusions et perspectives 14/10/2008

Introduction 14/10/2008

Recherche d’images sur Internet • Pratique courante associée aux moteurs de recherche d’information • Fonctionnalités de recherche d’images • Grands acteurs de la recherche d’informations (Google Images, Yahoo! Images, Microsoft Live) • Applications dédiées (Picsearch, Flickr) • Recherches effectuées par un très grand nombre d’utilisateurs • Requêtes visant une grande diversité de sujets • Corpus photographiques très vastes et en rapide croissance 14/10/2008

Systèmes actuels • Indexation des images • En exploitant le texte environnant dans les pages Web (Google Images) • Effectuée par les utilisateurs (Flickr) • Indexation peu coûteuse de grands volumes de données • Mais… trois grandes critiques sur les moteurs actuels • Exclusivement textuelle et de bas niveau • Pas ou peu de traitements d’images • Moyens d’interaction avec les applications souvent inadaptés

Structures linguistiques exploitables • Solution pour palier ces problèmes • Faire évoluer les moteurs pour permettre un traitement non plus au niveau des chaînes de caractères, mais a un niveau symbolique • Exploitation de structures sémantiques • Conditions d’exploitabilité • (Nécessairement) à large échelle • Couvrir le plus possible les requêtes des utilisateurs • Bonne qualité des connaissances incluses • Attente de plus en plus importante de la part des utilisateurs en terme de précision des réponses

Structures linguistiques exploitables • Ressources généralistes constituées manuellement • WordNet (Fellbaum98) – base de données lexicale • Structurée hiérarchiquement • 82115 synsets nominaux • Cyc (Guha91) – réseau sémantique recueillant des connaissances du sens commun • Hiérarchie moins adéquate que celle de WordNet • 300000 nœuds • Ressources relatives à des domaines • Geonames – base de données géographiques • Structure hiérarchique et spatiale • Six millions d’entités géographiques • UMLS – base de connaissances complexe relative au domaine médical

Construction automatique de structures linguistiques • Constitution manuelle de ressources coûteuse • Cognition (cognition.com) – 24 ans de travail pour constituer une carte sémantique de l’anglais • Nombreux travaux visant l’automatisation du processus (Sanderson99), (Grefenstette07) • Mais • La plupart des travaux visent des domaines précis • Difficultés àassurer simultanément une bonne qualité des connaissances extraites et une bonne couverture du domaine ciblé • Construction automatique de structures à large échelle • (Grefenstette07) – fouille de données sur le Web afin de construire une carte sémantique de la langue • (Ponzetto07) – nettoyage de l’arbre catégoriel de Wikipédia • (Rattenbury07) – structuration de connaissances géographique à partir de Flickr

Traitement d’images • Recherche par le contenu visuel (CBIR) • Méthode alternative ou complémentaire à la recherche par mots clef • Description de bas niveau des images • Descripteurs globaux (texture, couleur, forme) • Descripteurs locaux (points d’intérêt) • Plus complexe du point de vue algorithmique (temps de calcul, passage à l’échelle) • Pour les moteurs CBIR classiques : manque de cohérence conceptuelle des résultats Source http://alipr.com

Approche conceptuelle de la recherche d’images • Etude des usages en recherche d’images • Les structures linguistiques • Architecture de recherche sémantique d’images 14/10/2008

Accès sémantique aux images • Moteurs actuels ne sont pas sensibles au sens des requêtes • L’accès sémantique est conditionné par l’existence de structures linguistiques à large échelle • Illusoire de tenter la construction de ressources exhaustives • Nécessité d’études des usages afin de découvrir les domaines conceptuels intéressants • Ajout d’une fonctionnalité CBIR dans des espaces conceptuellement cohérents • Proposition d’une architecture de recherche intégrant des structures linguistiques et des techniques de traitement d’images

Étude des usages en recherche d’images Quelles images cherchons nous sur Internet ? • Analyse d’un fichier de log contenant plus de 20 millions de requêtes • Deux étapes • Analyse statistique • Analyse conceptuelle • Nombre de requêtes par session • Position des pages regardées dans l’ensemble des résultats

Étude des usages – complexité des requêtes • Classiquement, complexité dépend du nombre de termes composant une requête • Proposition d’une analyse basée sur le nombre de concepts dans une requête • Analyse manuelle d’un échantillon de 1000 requêtes choisies aléatoirement • 64% des requêtes incluent un seul concept • 30% des requêtes incluent deux concepts • Les requêtes simples se prêtent bien à un traitement en exploitant des ressources linguistiques

Étude des usages – domaines conceptuels Quels concepts cherchons nous sur Internet? • Analyse en utilisant des ressources externes • Limitée à l’anglais • Portant sur trois millions de requêtes uniques • WordNet pour les noms communs • 358000 de requêtes • Geonames pour les termes géographiques • 392000 de requêtes (79000 communes avec WordNet; 151028 communes avec un dictionnaire français) • Liste de noms de personnalités pour les noms propres (Wikipédia + NNDB – http://nndb.com) • 108062 requêtes

Domaines conceptuels - distribution des requêtes • WordNet – analyse automatique • Entités vivantes – 26,5% • Caractéristiques psychologiques – 13,4% • Artéfacts – 12,6% • Geonames – analyse des requêtes fréquentes au moins 20 apparitions dans le fichier de log • Noms de villes – 56,4% • Noms de pays – 20,1% • Objets naturels – 8,5% • Noms de personnalités – analyse automatique • Acteurs – 54,9% • Chanteurs – 13% • Modèles/mannequins – 11,9%

Étude des usages - conclusion • Importance d’une bonne précision sur la première page de résultats • Nombre important de recherches allant au-delà : intéressant de proposer une navigation rapide parmi les images résultats • Une majorité des requêtes sont mono-conceptuelles • Facilement traités en utilisant des structures linguistiques • Découverte de trois domaines conceptuels intéressants pour la recherche d’images • Noms communs • Toponymes • Noms de personnalités

Structures linguistiques • Espace de requêtes très diversifié • Besoin de structures linguistiques à (très) large échelle • Existence de ressources préconstituées • Utiles mais devant être adaptées pour la recherche d’images • Nécessité de construire automatiquement des nouvelles ressources • Relations quelques fois incorrectes et risques d’incohérence • Sélection de relations utiles en recherche d’images

Relations entre les concepts • Définitoires pour les opérations possibles sur le contenu des structures linguistiques • Relations génériques • Hyperonymie/hyponymie – représentation d’un concept par ses héritiers • Homonymie – séparation des différents sens d’un terme • Synonymie – regroupement des termes représentant la même entité • Relations spécifiques à des domaines • Géographie : positionnement, inclusion spatiale • Personnes : données biographiques

Structures linguistiques en recherche d’images Skyscraper • Cette slide vient trop abruptement par rapport à la précédente ! • Reformulation automatique des requêtes • Représentation conceptuellement structurée des résultat • Adaptation de la présentation des résultats en fonction du concept demandé Robert De Niro

Structures linguistiques en recherche d’images • Recherche par le contenu dans des espaces conceptuellement et visuellement cohérents

Architecture de recherche sémantique d’images

Adaptation et structuration de connaissance pour la recherche d’images 14/10/2008

Domaines conceptuels • Constitution de structures sémantiques pour trois domaines • Noms communs • Toponymes • Noms de personnalités • Choix dirigé par • Leur intérêt pour la recherche d’image – grand nombre de requêtes de trois types • La possibilité d’adapter ou de construire des structures linguistiques à large échelle

Adaptation et structuration de connaissance pour la recherche d’images 14/10/2008

Adaptation de WordNet • Synsets de la base lexicale existante • Ajout d’une mesure de proximité conceptuelle • Format de sortie des résultats

Évaluation de WordNet adapté • 20 concepts du niveau de base (Rosch76) : animaux, plantes, concepts naturels, artéfacts • 7 participants au test • Comparaison avec la ressource linguistique de Ask (http://ask.com) • Pertinence des termes proches • Couverture des ressources • Ask – moins de 10 requêtes proches pour 13 requêtes • WordNet – au minimum 10 requêtes proches pour toutes les 20requêtes

Construction d’un thésaurus géographique • Définition d’un thésaurus géographique (Hill99) Élément = (nom, coordonnées, type) • Structure d’un thésaurus géographique • Organisation hiérarchique • Notre Dame de Paris est une cathédrale • Inclusion spatiale • Notre Dame de ParisParisÎle de FranceFrance • Pas considérée dans la définition de Hill • Réutilisation d’une ressource existante et enrichissement automatique

Sources d’information • Geonames (http://geonames.org) – base de données géographiques constituée manuellement • Wikipédia – encyclopédie collaborative en ligne • Nombre important d’articles décrivant des toponymes • Alltheweb – moteur de recherche d’informations • Panoramio – partage d’images géo-référencées • >6 millions d’images + descriptions • Validation du contenu • Flickr • > 50 millions d’images géo-référencées + descriptions • Pas de validation

Extraction Golden Gate Bridge Gazetiki Sources de données Localisation 37,819 -122, 479 Catégorisation Bridge Classement 253300 85000 Construction d’un thésaurus géographique

Extraction de toponymes et localisation • Extraction de toponymes • Wikipédia – titres des articles • Panoramio – dictionnaire de concepts géographiques + règles d’extraction • Localisation • Wikipédia – coordonnées de l’article • Panoramio – statistiques sur les images décrites par un toponyme Longitude : 21,2478 Latitude : 45,757

Catégorisation et classement • Catégorisation • Wikipédia – dictionnaire du domaine + utilisation de la première phrase, des catégories et de l’Infobox • Panoramio – dictionnaire du domaine + statistiques sur le texte des résultats de AlltheWeb • Classement – deux composantes • Panoramio nombre d’images x nombre d’utilisateurs • AlltheWeb nombre de résultats +

Évaluation de Gazetiki • 15 villes; comparaison avec TagMaps (Rattenbury07) ou Geonames • Extraction de toponymes de Panoramio • 90% de précision sur 424 termes testés • Comparée à 85% dans TagMaps • Localisation avec Panoramio • Majorité des coordonnées <200 m • Grandes différences pour des entités étendues • Catégorisation • Bons résultats • Meilleure catégorisation dans Wikipédia

CelebWiki- structure pour les noms de personnalités • Analyse des articles Wikipédia décrivant des acteurs, musiciens, footballeurs et modèles • Infobox, catégories, tableaux, texte de l’article • Extraction de • Données biographiques • Données relatives à leur activité • Ajout d’une mesure de pertinence • Ajout d’une mesure de proximité conceptuelle

Évaluation de CelebWiki • 20 noms d’acteurs, musiciens et footballeurs • 8 participants au test • Comparaison avec la ressource linguistique de Ask • Pertinence des termes proches • Couverture (370 de requêtes)

Applications 14/10/2008

Olive – recherche d’images de noms communs • Exploitation de la version adaptée de WordNet et de PIRIA (moteur CBIR du CEA LIST) (Joint04) • Caractéristiques • Représentation conceptuellement structurée des requêtes • Utilisation sous-types feuilles de WordNet • Proposition de requêtes proches • Plus génériques • Plus spécifiques • Du même niveau • CBIR parmi les images du même terme feuille de la hiérarchie • Olive - démo vidéo (lien à mettre)

Évaluation d’Olive • Précision de la recherche • Comparaison avec Google Images, sur un panel de 20 concepts, avec 8 participants • Meilleurs résultats pour 15 concepts testés • Précision du CBIR • Comparaison avec Cortina (Quack04) • Test utilisateurs – 10 participants • Comparaison avec Google Images • Structuration sémantique des résultats appréciée • Amélioration de l’interactivité perçue comme utile

ThemExplorer – recherche d’images de toponymes • Exploitation de Gazetiki et de PIRIA • Présentation de noms d’entités précis • Pas de divisions administratives • Caractéristiques • Navigation basé sur une carte interactive fournie par Yahoo! • Navigation selon des catégories • CBIR parmi les images du même toponyme • ThemExplorer - démo vidéo (lien à mettre)

Évaluation de ThemExplorer • Restriction de l’espace de recherche pour le CBIR sur 20 images, avec 6 participants • Fusion de descripteurs pour le CBIR sur 20 images, avec 6 participants • Test utilisateurs – 8 participants • Comparaison avec World Explorer (Ahern07) • Navigation selon des catégories et CBIR bien appréciées • Couverture de Gazetiki sensiblement meilleure que celle de TagMaps • Problème avec les tags apparaissant en double

Safir – recherche de noms de personnalités • Exploitation de CelebWiki et de PIRIA • Caractéristiques • Représentation conceptuellement structurée des noms de célébrités • Utilisation des informations dans CelebWiki • Proposition de requêtes proches • Noms de personnalités associées • Requêtes plus génériques • CBIR parmi les images de la même personne • Safir - démo vidéo (lien à mettre)

Évaluation de Safir • Précision de la recherche • Comparaison avec Google Image sur 20 noms de personnalités, avec 5 participants • La reformulation des requêtes n’améliore pas la précision des résultats • Meilleure précision pour Safir dans le cas des footballeurs

Conclusions et perspectives 14/10/2008

Conclusions • Structuration automatique de connaissances à grande échelle à partir du Web • Méthode de recherche d’images par le contenu dans des espaces conceptuellement cohérents • Proposition d’une méthode de recherche sémantique d’images sur Internet • Intégration des structures linguistique et du CBIR • Application à trois domaines conceptuels • Noms communs • Toponymes • Noms de personnalités • Résultats très encourageants dans les premiers deux cas

Perspectives • Traitement des requêtes complexes • Résultats positifs dans la campagne d’évaluation ImageCLEF • Focalisation du travail sur le domaine géographique – projet ANR Georama • Amélioration de la structuration des connaissances • Catégorisation multilingue • Ajout de nouvelles relations : inclusion spatiale, synonymie intra- et inter-langues • Annotation automatique d’images géo-référencées • Algorithme basé sur un k-PP en deux étapes • Évaluation préliminaire montrant un taux de succès de 85% si on annote 50% des images

Références • (Ahern07) • (Fellbaum98) • (Grefenstette07) • (Guha91) • (Hill99) • (Joint04) • (Quack04) • (Ponzetto07) • (Rattenbury07) • (Rosch76) • (Sanderson99)

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

LIST – DTSI – Service Réalité virtuelle, Cognitique et Interfaces sensorielles

Presentation Transcript

8. I/O Buses and Interfaces

Virtual Observatories and Data Interfaces for Atmospheric Science

Chapter 11 Abstract Classes and Interfaces (continued)

User Interfaces: Evolution and Revolution Part One

1052 Series for Graphics Graphics, Applets Graphical User Interfaces

Interfaces for Learning Data Visualizations

Objects, Classes, and Interfaces

Double Linked List

List (Fylom)

Multimodal Input Analysis

Introducción a las Interfaces de entrada / salida

GTI 350 – Conception et évaluation des interfaces utilisateurs

Automatically Generating High-Quality User Interfaces for Appliances

Chapter 17

Introduction à la réalité virtuelle

Unit 3:Exploring interfaces and filesystems

CHAPTER 18 Battery Testing and Service

Physical User Interfaces What they are and how to build them Saul Greenberg University of Calgary

Faceted Metadata in Search Interfaces

Effiziente Virtuelle Maschinen für funktionale Programmiersprachen

Ch. 14 – ISDN and DDR

Claude Monet