1 / 16

La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques

Ladjel Bellatreche LISI/ENSMA - Université de Poitiers bellatre@ensma.fr. La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques. EDA ’05. Kamel Boukhalfa LGP U. Laghouat - ALGERIE k.boukhalfa@mail.lagh-univ.dz.

selima
Télécharger la présentation

La fragmentation dans les entrepôts de données : une approche basée sur les algorithmes génétiques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ladjel Bellatreche LISI/ENSMA - Université de Poitiers bellatre@ensma.fr La fragmentation dans les entrepôts de données :une approche basée sur les algorithmes génétiques EDA’05 Kamel Boukhalfa LGP U. Laghouat - ALGERIE k.boukhalfa@mail.lagh-univ.dz

  2. Optimiser les requêtes de jointure en étoile (star join query): Plusieurs opérations de jointure suivies par des opérations de sélection Techniques d’optimisation : Vues matérialisées Index Fragmentation (Oracle) Exemple de création d’une table fragmentéehorizontalement (tuples): CREATE TABLE sales (acct_no NUMBER(5), acct_name CHAR(30), amount_of_sale NUMBER(6), week_no INTEGER) PARTITION BY RANGE (week_no) (PARTITION sales1 VALUES LESS THAN (4) TABLESPACE ts0, PARTITION sales2 VALUES LESS THAN (8) TABLESPACE ts1, . . . PARTITION sales13 VALUES LESS THAN (52) TABLESPACE ts12) Traitement parallèle Contexte INTRODUCTION

  3. Techniques d’optimisation Structures non redondantes Structures redondantes Traitement parallèle Fragmentation Index Vues matérialisées Multi-index Mono-index Arbre B Index binaire Index de jointure Une classification de techniques d’optimisation - Espace de stockage - Coût de maintenance Verticale Horizontale

  4. Problème de sélection de schéma de fragmentation Un algorithme génétique de sélection Expérimentations Conclusion et perspectives Plan PLAN

  5. Fragmentation horizontale est bien adaptée aux entrepôts de données relationnels Méthode : Décomposer une (des) table(s) de dimensions en utilisant les prédicats de sélection définis dans les requêtes fréquentes Fragmentation virtuelle ou physique Décomposer la table des faits en fonction des schémas de fragmentation des tables de dimensions Fragmentation horizontale dérivée Comment fragmenter un entrepôt ?

  6. k N =  Mi - Mi : le nombre de fragments de la table de dimension Di - k : nombre de tables de dimensions fragmentées I =1 Exemple VENTE1 CLIENT1 PRODUIT Age  18 VENTE2 CLIENT2 18 < Age  30 TEMPS CLIENT3 VENTE3 30 < Age  40 CLIENT4 VENTE4 Age > 40 • Optimisation des requêtes de jointure • Parallélisme • Utilisation des structures redondantes sur un schéma fragmenté • CLIENT : 50 fragments sur l’attribut “Etat” • TEMPS : 48 fragments sur l’attribut “Mois” • PRODUIT : 100 fragments sur l’attribut "type de produit". • N=: 50 × 48 × 100 = 240 000 fragments de la table des faits Impossibilité de gérer et maintenir ce grand nombre de fragments

  7. Entrées : Schéma en étoile S (F, D1, D2, …, Dk) Ensemble de requêtes fréquentes Q Contrainte de maintenance : nombre maximal de fragments de la table des faits Sortie : Ensemble de sous-schémas en étoile minimisant le coût d’exécution de requêtes et satisfaisant la contrainte de maintenance Problème de sélection de schéma de fragmentation

  8. Extraction de prédicats de fragmentation Génération des sous domaines Codage des individus Sélection Croisement Mutation Algorithme génétique Requêtes fréquentes - Fréquence d’accès - Facteurs de sélectivité Fonction d’évaluation Modèle de coût

  9. Codage Sexe Gamme Saison F M T A P E A H 1 2 1 2 1 2 2 1 Trois attributs de fragmentation : Client.Sexe, Produit.Gamme, Temps.Saison Domaines des attributs de fragmentation : Codage d’un individu : Client : 2 fragments Produit : 2 fragments Saison : 2 fragments Clauses définissant les fragments de la table des faits : • F1: Sexe =‘F’ & Gamme = ‘T’ & Saison = ‘P’ or ‘H’ F2: Sexe =‘F’ & Gamme = ‘T’ & Saison = ‘E’ or ‘A’ F3: Sexe = ‘F’ & Gamme = ‘A’ & Saison = ‘P’ or ‘H’ F4: Sexe = ‘F’ & Gamme = ‘A’ & Saison = ‘E’ or ‘A’ F5: Sexe = ‘M’ & Gamme = ‘T’ & Saison = ‘P’ or ‘H’ F6: Sexe = ‘M’ & Gamme = ‘T’ & Saison = ‘E’ or ‘A’ F7: Sexe = ‘M’ & Gamme = ‘A’ & Saison = ‘P’ or ‘H’ F8: Sexe = ‘M’ & Gamme = ‘A’ & Saison = ‘E’ or ‘A’

  10. Sélection & croisement 2 1 1 1 2 3 4 1 1 2 1 1 1 1 Sexe Gamme Saison Evaluation Sélection Croisement 1 0.6 1 5 2 1 2 1 1 1 2 3 4 2 0.52 1 1 5 1 1 1 2 1 2 2 3 3 0.33 0 1 2 1 1 1 1 2 2 4 0.45 0 1 2 1 2 1 2 3 3 5 0.65 1 1 2 1 1 1 2 1 1 1 1 Croisement de l'individu 1 avec le 5 1 1 1 2 1 1 3 4 1 2 1 1 1 2 1 1

  11. Schéma final de fragmentation Evaluation 0.72 1 1 1 2 1 1 3 4 1 2 1 1 1 2 1 1 0.45 Gamme = ‘T’ & Saison = ‘P’ or ‘E’ Gamme = ‘T’ & Saison = ‘A’ Gamme = ‘T’ & Saison = ‘H’ Gamme = ‘A’ & Saison = ‘P’ or ‘E’ Gamme= ‘A’ & Saison = ‘A’ Gamme = ‘A’ & Saison = ‘H’ • Attribut Sexe n’est pas pris en considération dans le processus de fragmentation

  12. 900 9000 24786000 24 9 Tid Year_level Quarter_level Month_level Store_level Retailer_level Timelevel Chanlevel Prodlevel Custlevel Actvars Customer_levelProduct_level Channel_level Time_level UnitsSold DollarSales DollarCost Code_level Class_level Group_level Family_level Line_level Division_level Base_level all_level Expérimentation (I) EXPERIMENTATION Taux de croisement : 70% Taux de mutation : 30% ----->6% Nombre total de générations : 1500 Nombre d’individus par génération : 40 • Modèle de coût calculant le nombre d’E/S • Tables de dimensions stockées en mémoire

  13. Expérimentation (II) Effet du nombre d’attributs de fragmentation sur la performance EXPERIMENTATION Effet du type de la répartition sur la performance

  14. Expérimentation (III) EXPERIMENTATION Effet du seuil sur la performance

  15. Expérimentation (V) Seuil: 50 - Résultat : 48 fragments EXPERIMENTATION Seuil: 2000 - Résultat : 2016 fragments

  16. Problème de sélection d’un schéma de fragmentation Algorithme génétique de sélection Évaluation de notre approche Paramétrage de l’algorithme génétique (auto-administration d’un entrepôt) Application du même algorithme pour la sélection des index de jointure binaire Conclusion & perspective CONCLUSION

More Related