1 / 15

Apprentissage et Fouilles de données

Apprentissage et Fouilles de données. FilterBoost : Regression et Classification On Large Datasets. Joseph K. Bradley et Robert E.Schapire. Salma Najar 20 Mars 2008 . Plan. Introduction Filterboost

roger
Télécharger la présentation

Apprentissage et Fouilles de données

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Apprentissage et Fouilles de données FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire Salma Najar 20 Mars 2008

  2. Plan • Introduction • Filterboost • Analyse • Expérimentations • Conclusion

  3. Introduction Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Boosting • WeakLearner • S: Ensemble fixe d’exemple d’entrainement • Après T ronds Booster ht + Hypothèse Finale H - - - + • αt εt Dt Dt

  4. Problématique Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Booster accède à l’ensemble entier des exemples d’entrainement • Traitement très cher pour les larges bases de données. • Limite son application: Problème de classification des sites en ligne par exemple • Limite son efficacité: A chaque rond  Un traitement dans la base de données entière.

  5. Motivation Introduction • Analyse Expérimentations Conclusion FilterBoost IntroductionProblématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu d’utiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. FilterBoost

  6. Présentation du FilterBoost Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Oracle  Nouveaux exemples IID de D dans chaque rond. • Algorithme : • Adaptif • Basé sur une logique de régression logistique. • Moins d’assomptions exigées que les travaux antérieurs. • Applicable: • Estimation de la probabilité conditionnelle •  plus robuste au bruit et au sur apprentissage. • Classification •  prouve compétitivité.

  7. Batch Algorithme Introduction • Analyse Expérimentations Conclusion FilterBoost PrésentationBatch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Un ensemble fixe d’entrainement S • Pour t = 1,…,T • Construire la distribution Dt de S • Faire fonctionner le Weak Learner • Choix hypothèse ht • Estimer Erreur εt de ht • Donner un poidsαtà ht • Sortie : Hypothèse Finale • H(x) = Σt αt ht(x) Dans le Filtrage : Il n’ya pas d’ensemble fixe d’entrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt

  8. Introduction FilterBoost Algorithme • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Oracle • Pour t = 1,…,T • Filtre donneacces à Dt • Tirermtexemple du filtre • Choisirl’hypothèse ht • Tirer de nouveaxexemples du filtre • Estimerl’erreur εt de ht • Donner un poidsαt à ht • Output: Hypothèse Finale Le nombre mt d’exemple doit être suffisamment large pour assurer que l’erreur εt < ½ avec une forte probabilité. • Tirermtexemple du filtre L’erreur de l’hypothèse finale < ε Output: Hypothèse Finale

  9. Filtre Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Accepter Oracle - + Refuser • Label = -1 • Booster prédit -1 • Bien classé • Poidsfaible • Probabilité faible d’être accepté • Label = + 1 • Booster prédit -1 •  Mal classé • Poidsélevé • Probabilité élevé d’être accepté Le filtre accepte l’exemple (x,y) avec une probabilité proportionnelle à l’erreur de la prédiction du booster H(x)

  10. Analyse Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Condition d’arrêt du boosting? •  Si le filtre rejète suffisament d’exemples dans un seulappel,  pt est petite •  Ht est suffisamment correcte. • Nombre de rondsque le boosting a besoin? •  Si l’erreur de ht : εt < ½  progrés significatif dans ce rond. • Estimation des limites de l’Hypothèsefaible? •  Utilisation du NonmonotonicAdativeSampling

  11. Expérimentation (1/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • La pondération au lieu du filtrage des exemples. •  Augmente l’exactitude. •  Augmente la taille de l’ensemble d’entrainement. • Simulation Oracle •  Permutation par hasard des données et utilisation des • exemples dans le nouvel ordre. Filtrer lors de l’entrainement du WeakLearner. Pondérer  lors de l’estimation des limites.

  12. Expérimentation (2/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Tester FilterBoost avec et sans Confidence-Ratedpredictions. • Tester FilterBoost contre d’autres Batch et FilteringBoostings: MadaBoost, AdaBoost, Logistic AdaBoost • Tester: classification et conditional probability estimation FilteringBosterest plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données.

  13. Expérimentation: CPE Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Décision Expert Arbre de Décision

  14. Expérimentation: Classification Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion

  15. Conclusion Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • FilterBooster utilise des techniques de régression logistique, pour l’Estimation des probabilités conditionnelles et la classification. • Boosting-by-Filtering •  Utilisation d’un oracle et non pas d’un ensemble fixe d’entraînement. • Résultats: •  Plus efficace et plus robuste pour apprendre avec de large bases de données.  Plus rapide et plus robuste que le batch booster sans sacrifié l’exactitude.

More Related