1 / 57

Soutenance de thèse de Doctorat Dimitre Kostadinov

ACCES PERSONNALISE A DES MASSES DE DONNEES. UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES. Personnalisation de l ’ information : une approche de gestion de profils et de reformulation de requêtes. Soutenance de thèse de Doctorat Dimitre Kostadinov. Versailles, le 19 Décembre 2007.

zoe-shaw
Télécharger la présentation

Soutenance de thèse de Doctorat Dimitre Kostadinov

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ACCES PERSONNALISE A DES MASSES DE DONNEES UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES Personnalisation de l’information : une approche de gestion de profils et de reformulation de requêtes Soutenance de thèse de Doctorat Dimitre Kostadinov Versailles, le 19 Décembre 2007

  2. Accès classique à un système d’information multi sources • Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes • Comment résoudre le problème de la surcharge d’information ? • Est-ce que les données sont récentes ? • Est- ce je peux lire les fichiers avec mon ordinateur ? SELECT * FROM Publication WHERE sujet = ‘JAVA’ Système d’Accès aux Données

  3. Accès personnalisé à un système d’information multi sources • Accès à un ensemble de sources de données distribuées, hétérogènes et autonomes JAVA: langage de programmation Fraîcheur < 1 mois Formats fichiers  {PDF, PS} SELECT * FROM Publication WHERE sujet = ‘JAVA’ Système d’Accès aux Données

  4. Cadre du travail: Projet APMD • Objectifs du projet APMD (2004-2007) • modélisation et évolution des profils, • exécution adaptative de requêtes, • influence de la qualité sur la personnalisation, • évaluation et la validation des approches proposées dans le projet. • Partenaires • PRiSM (Versailles) • CLIPS-IMAG (Grenoble) • IRISA (Lannion) • IRIT (Toulouse) • LINA (Nantes) • LIRIS (Lyon) • Prolongé par une collaboration avec Alcatel-Lucent …

  5. Plan • Contexte • Contributions • Modélisation de l’utilisateur (définition de la notion de profil) • Exploitation du profil dans la reformulation de requêtes • Evaluations • Conclusions et perspectives

  6. Partie 1Modélisation de l’utilisateur

  7. Modèle utilisateur ? • Centré sur plusieurs notions dont les définitions sont floues • Profil • Contexte • Préférences • Chaque application possède • Son propre modèle utilisateur • Sa propre approche d’accès personnalisé

  8. Notion de préférence • Préférence • expressions permettant de hiérarchiser les concepts auxquels on s’intéresse • Typologie des préférences Préférence compose 0..n 1..n PréférenceSimple PréférenceComposée Unitaire Binaire Ensembliste Indépendante Prioritaire

  9. Préférences simples Unitaire : poids Film.genre=‘action’ 0.8 binaire : >> action >> drame Ensembliste : LOWEST LOWEST(prix) Préférences Composées indépendante  (action >> drame)  (anglais >> français) prioritaire & (action >> drame) & (anglais >> français) Exemples

  10. Dichotomie profil/contexte • Profil • ensemble d’informations décrivant les centres d’intérêt de l’utilisateur, plus un ensemble de préférences • Contexte • description de l’environnement d’interaction entre l’utilisateur et le système Profil Contextualisation Contexte

  11. Meta modèle du profil utilisateur Profil IDprofil propriétaire 1..n Dimension IDdimension nom 0..n < TypeDe 0..n < TypeDe SousDimension Attribut DonnéesLivraison < TypeDe IDsousDimension nom IDattribut nom typeValeur structureValeur < TypeDe Qualité < TypeDe 1..n Sécurité 1..n ValeurAttribut DonnéesPersonnelles IDvaleur valeur DomaineIntérêt

  12. Domaine d’intérêt Contenu 1..1 concerne DomaineIntérêt 1..n VecteurMotsCles Ontologie FormulesDisj Historique 1..n 1..n 1..n 1..n ConjPrédicats GrapheConceptuel ListeExemples 1..n 0..n 1..n 1..n 1..n 1..n Prédicat Concept Action LienSém Axiome Exemple 0..n 1..1 1..n 2..2 entre 0..n 1..1 opérateur Attribut Valeur

  13. Exemples Exemple 1 : mots clés Profil de Paul Dim: Domaine d’Intérêt (film, action, drame, Bruce Willis, anglais) Exemple 2 : ontologie Profil de Paul Dim: Domaine d’Intérêt Film Genre Casting Langue Bruce Willis action drame anglais Exemple 3 : prédicats Profil de Paul Dim: Domaine d’Intérêt Film.genre=‘action’ Film.genre=‘drame’ Acteur.nom=‘Bruce Willis’ Film.langue=‘anglais’ Exemple 4 : historique Profil de Paul Dim: Domaine d’Intérêt

  14. Méta modèle de contexte Contexte 1..n DimensionContexte TypeDe > < TypeDe TypeDe > Temporelle Spatiale Equipement 0..1 0..1 Moment Date Mobile Fixe Matériel Logiciel Coordonné Localité Rapport technique [Abbar et al. 07]

  15. Exemples Contexte Maison Temporelle moment Equipement taille écran système bande passante Contexte Bureau Temporelle date Spatiale coordonnée GPS Equipement taille écran bande passante

  16. Liens entre les méta modèles Préférence TypeDe > < TypeDe ContextualiséSelon > Profil Contexte 0..n 1..n 1..n 0..n < DéfiniSur DéfiniSur > Préférence de Profil Elément Profil Elément Contexte Préférence de Contexte ContextualiséSelon > DéfiniSur > DéfiniSur >

  17. Exemple Profil de Paul Données personnelles téléphone = 01 11 11 11 11si contexte Maison 01 22 22 22 22 si contexte Bureau Contexte Maison Temporelle moment Equipement taille écran système bande passante Domaine d’Intérêt {Film.genre=‘action’ Film.genre=‘drame’ Acteur.nom=‘Bruce Willis’ Film.langue=‘anglais’ } 0.9 0.7 Contexte Bureau Temporelle date Spatiale coordonnée GPS Equipement taille écran bande passante 0.7 0.2 si contexte Maison {Film.genre=‘dessin animé’ Film.genre=‘comédie’ Film.langue=‘français’ } si contexte Bureau 0.9 0.3 0.8

  18. Plateforme de gestion des méta données • Implémente • Les méta modèles • Les opérations sur les méta modèles • Composants • Gestionnaire de profils • Gestionnaire de contextes • Gestionnaire de préférences

  19. Bilan • Clarification des notions de profil et de contexte • approche multidimensionnelle • Support à la définition des notions de profil et contexte • manuel ou automatique • Ensemble d’opérations de manipulation • instanciation • appariement • Importation • Validation • Intégration • Adaptation

  20. Partie 2Exploitation du profil utilisateur pour la reformulation de requêtes

  21. Reformulation Reformulation Objectif • Proposer une méthode de reformulation de requêtes qui tient compte de • la distribution de l’information • profil utilisateur Pu Q Réécritures enrichies {Q’1, Q’2, …, Q’m} SCHEMA VIRTUEL LIENS SEMANTIQUES SOURCE 1 SOURCE 2 SOURCE 3 SOURCE n

  22. Hypothèses de base • Profil • ensemble de prédicats pondérés • Requêtes • conjonctives du type SPJ • Définition des sources • vues sur le schéma virtuel (LAV) • Problèmes terminologiques résolus

  23. Problématique • Reformulation des requêtes utilisant le profil • quelle partie du profil est pertinente à ajouter à une requête ? • métrique de couverture • quelle partie du schéma virtuel est nécessaire pour couvrir le profil sélectionné ? • recherche d’un sous-ensemble de relations virtuelles et des chemins de jointures les reliant • quelles sources de données sont les plus appropriées pour la réécriture des requêtes ? • matching des attributs, identification de prédicats conflictuels, redondants • Définition de benchmarks d’évaluation • à la compilation • à l’exécution

  24. Insuffisance des techniques de base • Réécriture (Halevy et al. 96), (Duschka et al. 97), (Halevy et al. 01), … • prend en compte l’aspect multi source (réécriture à travers des vues) • mais ne tient pas compte du profil utilisateur • Enrichissement (Koutrika et al. 04, 05) • prend en compte le profil utilisateur (ajout de prédicats dans la requête) • mais ne tient pas compte des mappings multi sources (pas de réécriture) Les 2 techniques sont complémentaires

  25. Qu Pu {Schémas Sources} Réécriture Enrichissement {Q’u} {Q’’u} Première approche : composition des techniques de base • Enrichissement-réécriture R(E) • Réécriture-enrichissement E(R) Schéma Virtuel Pu Qu {Schémas Sources} Enrichissement Réécriture Q’u {Q’’u}

  26. Limites des approches séquentielles

  27. Deuxième approche : réécriture de requêtes guidée par le profil • Idées directrices • confronter le profil utilisateur et le schéma virtuel • sous ensemble de prédicats • sous-schéma virtuel • sélectionner les relations virtuelles sur la base de préférence (taux de prédicats pertinents) • étendre la requête avec les relations choisies • faire une réécriture personnalisée • ne produire que les réécritures enrichissables

  28. Identification des sources pertinentes Combinaison des sources pertinentes Schémas des sources de données Principe général Schéma Virtuel requête étendue requête utilisateur Expansion de la requête sources pertinentes profil utilisateur réécritures Enrichissement final requête utilisateur reformulée

  29. Etape 1: Expansion de la requête Qu • Principe général Match Schéma virtuel Profil R2 R5 R1 R4 R3 R6 R4 R2 Ajout à Q Ordonnancement Q’u R1 R4 R3 R3 R2

  30. Problématique de l’expansion de la requête • Identification des relations sémantiquement liées à la requête • Recherche des chemins de jointure entre la requête et les relations virtuelles • Choix des chemins de jointure • Minimisation du nombre de nouvelles relations

  31. Principe d’expansion • Actualisation des poids des prédicats • Choix des relations virtuelles • Ajout des relations virtuelles à la requête

  32. R4 R5 R8 R3 R7 R6 R1 R2 Qu Principe d’expansion • Actualisation des poids des prédicats • Prise en compte de la distance entre les relations de la requête et les autres relations virtuelles • Fonction de la distance entre la requête et la relation sur laquelle est exprimé le prédicat • Choix des relations virtuelles • Ajout des relations virtuelles à la requête 0.32 R3.a=‘x’ 0.5 Hypothèse :  = 0.8 nw = 0.820.5 = 0.32

  33. R1 R4 R3 R6 R5 32% 20% 5% 3% 40% Principe d’expansion • Actualisation des poids des prédicats • Choix des relations virtuelles • somme des pertinences des relations choisies >  (seuil de la portée pertinente) • pertinence d’une relation = couverture pondérée du profil utilisateur par les prédicats exprimés sur la relation • Ajout des relations virtuelles à la requête R4 32% 0% R5 3% R8 R3 Objectif : Satisfaire au moins 90% du profil utilisateur ( = 0.9) 20% 0% R7 R6 5% R1 R2 0% 92% 40% Il faut étendre Qu avec {R3, R4 } R3, R4 Qu

  34. Principe d’expansion • Actualisation des poids des prédicats • Choix des relations virtuelles • Ajout des relations virtuelles à la requête • Minimiser le nombre de nouvelles relations (Steiner Tree Problem (Hwang et al. 1992)) • Utiliser une heuristique (Minimum Cost Paths Heuristic (Takahashi et al. 1980)) R4 32% Il faut étendre Qu avec {R3, R4 } R3, R4 R5 3% R8 R3 20% 1ere itération : Plus courts chemins : R1-R6-R3 R2-R7-R3 R2-R8-R4 2e itération: Plus courts chemins : R3-R4 R7 R6 5% 5% 0% 0% Ajout de R4 R1 R2 40% Ajout de R3 Qu

  35. Identification des sources pertinentes Combination des sources pertinentes Schémas des sources de données Etape 2: identification des sources pertinentes Schéma Virtuel requête étendue requête utilisateur Expansion de la requête sources pertinentes profil utilisateur réécritures Enrichissement final requête utilisateur reformulée

  36. Objectif • Trouver les sources permettant de calculer les résultats de la requête • sources contributives pour la réécriture de la requête • Choisir les sources les plus pertinentes • enrichissables par les prédicats du profil utilisateur

  37. Problèmes à résoudre • Trouver les sources contributives • contenant des données de même nature que celles recherchées par la requête • satisfaisant les prédicats de la requête • Sélections • Jointures • Elagage des sources non pertinentes • introduction d’une métrique de pénalité

  38. Principe de l’identification des sources pertinentes • Recherche des sources contributives pour la réécriture de la requête • construction d’un ensemble de descripteurs de sources (MCDs) (type MiniCon Halevy et al. 2001) • Filtrage des sources • pénalité d’une source (MCD) > seuil de pénalité • Couverture pondérée du profil par les prédicats exclus par la source • Conflictuels avec la définition de la sources • Inexprimables sur la source

  39. Exemple d’identification des sources pertinentes Q’u(idV, prix, lieu_depart, moyen, comfort) :- voyage(idV, prix, lieu_depart, lieu_arrivee, nbre_jours, idT, idH), transport(idT, moyen, type_trajet, comfort), hotel(idH, nbre_etoiles, nom, region, lieu_depart, idR) lieu_arrivee='Madrid. (1) (2) (3) Profil utilisateur Pu { VOYAGE.nbre_jours>7 1.0 (a) VOYAGE.lieu_depart=’Toulouse’ 0.8 (b) TRANSPORT.moyen='avion’ 0.5 (c) HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) VOYAGE.lieu_depart = ‘Paris’ 0.2 (f) HOTEL.region=‘centre ville’ 0.2 (g) RESTO.catégorie=‘gastronomique’ 0.1 (h) } ? Source contributive pour la relation VOYAGE ParisVacances(idV, prix, lieu_depart, lieu_arrivee, idT):- VOYAGE(idV, prix, nbre_jours, lieu_depart, lieu_arrivée, idT, idH), lieu_depart = ‘Paris’. Pénalité(ParisVacances) = CP(Pu, {a, b}) = 0.43

  40. Identification des sources pertinentes Combination des sources pertinentes Schémas des sources de données Etape 3: Combinaison des descripteurs Schéma Virtuel requête étendue requête utilisateur Expansion de la requête sources pertinentes profil utilisateur réécritures Enrichissement final requête utilisateur reformulée

  41. Problématique de la combinaison de sources • Problème combinatoire • Compatibilité des sources (MCDs) • Pertinence des réécritures par rapport au contenu du profil utilisateur

  42. Relations de la requête étendue : { VOYAGE, TRANSPORT, HOTEL } Seuil de pénalité = 0.5 0 a 0.45 b 0.45 c 0.08 d e 0.0 f g 0.0 0.1 Solution proposée • Utiliser un algorithme par niveaux (Apriori (Agrawal et al. 94)) • Élaguer les combinaisons de MCDs ayant une grande pénalité • La pénalité est monotone Redondantes : ab, ad, bc, bd, ef, eg, fg Pénalité > seuil : be, cd, ce Réécritures : bf, bg , acf, acg 0.45 0.45 acf acg 0.45 0.1 0.0 0.0 0.55 0.45 0.45 0.54 0.55 0.45 0.45 0.18 0.08 0.08 ad ae af ag be bf bg ef eg fg ab ac bc bd ce cf cg de df dg cd

  43. Identification des sources pertinentes Combination des sources pertinentes Schémas des sources de données Etapes de l’algorithme Schéma Virtuel requête étendue requête utilisateur Expansion de la requête sources pertinentes profil utilisateur réécritures Enrichissement final requête utilisateur reformulée

  44. Enrichissement final • Objectif • Ajouter les prédicats du profil aux réécritures candidates • Etape préparé par les étapes précédentes • Connaissance des prédicats exclus • déduction des prédicats à utiliser • Connaissance des définitions des sources • Identification des prédicats déjà satisfaits par les sources • Principe • Ajout de la conjonction des prédicats du profil à la requête

  45. Exemple d’enrichissement final Profil utilisateur { VOYAGE.nbre_jours>7 1.0 (a) VOYAGE.lieu_depart=’Toulouse’ 0.8 (b) TRANSPORT.moyen='avion’ 0.5 (c) HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) VOYAGE.lieu_depart = ‘Paris’ 0.2 (f) HOTEL.region=‘centre ville’ 0.2 (g) RESTO.catégorie=‘gastronomique’ 0.1 (h) } Conflictuels avec Qu Exclus par les sources (pénalité) HOTEL.nbre_etoiles>3 0.4 (d) TRANSPORT.comfort>2 0.4 (e) A ajouter Déjà satisfaits par les sources Pas considérés lors de l’expansion RW(idV, prix, lieu_depart, moyen, comfort):- ParisVacances(idV, prix, lieu_depart, lieu_arrivee, nbre_jours, moyen, nom, nbre_etoiles, idT), lieu_depart = ‘Paris’ TransportAerien(idT, comfort), moyen = ‘avion’ lieu_arrivee='Madrid‘, nbre_jours=4 , nbre_etoiles>3, comfort>2

  46. Plan • Contexte • Contributions • Modélisation de l’utilisateur (définition de la notion de profil) • Exploitation du profil dans la reformulation de requêtes • Evaluations • Conclusions et perspectives

  47. Evaluation des approches de reformulation de requêtes • Proposition d’un benchmark • Construction d’une plateforme de données (Peralta 2007) • Dérivation d’un benchmark à partir de la plateforme • Définition de métriques d’évaluation • Niveau compilation des requêtes • Niveau exécution des requêtes

  48. Plateforme des tests • Principe de construction • Caractéristiques Extraction Schéma cible Nettoyage et réconciliation des données Données IMDb BD intégrée Profils Requêtes Bons résultats Génération de requêtes et de profils Extraction Données MovieLens + référentiel de résultats pertinents pour chaque couple (profil, requête)

  49. Benchmark des tests • Etapes de construction du benchmark • Caractéristiques Schéma cible Schéma virtuel BD intégrée Simulation du système distribué Requêtes de médiation Sources Choix des paramètres Profils et Requêtes retenus Profils Requêtes Bons résultats Choix des requêtes et des profils Système distribué

  50. Métriques d’évaluation • Niveau compilation • Couverture des prédicats du profil • Couverture pondérée • Temps de réponse de la reformulation • Niveau exécution • Rappel • nombre de résultats pertinents obtenus / nombre total de résultats pertinents • Précision • nombre de résultats pertinents obtenus / nombre total de résultats obtenus

More Related