Apprentissage et Fouilles de données

Apprentissage et Fouilles de données FilterBoost: Regression et Classification On Large Datasets Joseph K. Bradley et Robert E.Schapire Salma Najar 20 Mars 2008

Plan • Introduction • Filterboost • Analyse • Expérimentations • Conclusion

Introduction Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Boosting • WeakLearner • S: Ensemble fixe d’exemple d’entrainement • Après T ronds Booster ht + Hypothèse Finale H - - - + • αt εt Dt Dt

Problématique Introduction • Analyse Expérimentations Conclusion FilterBoost Introduction Problématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Batch Booster accède à l’ensemble entier des exemples d’entrainement • Traitement très cher pour les larges bases de données. • Limite son application: Problème de classification des sites en ligne par exemple • Limite son efficacité: A chaque rond  Un traitement dans la base de données entière.

Motivation Introduction • Analyse Expérimentations Conclusion FilterBoost IntroductionProblématique Motivation • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Le but principal : Rendre le boosting faisable dans de large base de données Idée principle: Utiliser un flux de données au lieu d’utiliser la base de données en entier. Entrainer un nouveau sous ensemble de données à chaque rond. FilterBoost

Présentation du FilterBoost Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Oracle  Nouveaux exemples IID de D dans chaque rond. • Algorithme : • Adaptif • Basé sur une logique de régression logistique. • Moins d’assomptions exigées que les travaux antérieurs. • Applicable: • Estimation de la probabilité conditionnelle •  plus robuste au bruit et au sur apprentissage. • Classification •  prouve compétitivité.

Batch Algorithme Introduction • Analyse Expérimentations Conclusion FilterBoost PrésentationBatch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Un ensemble fixe d’entrainement S • Pour t = 1,…,T • Construire la distribution Dt de S • Faire fonctionner le Weak Learner • Choix hypothèse ht • Estimer Erreur εt de ht • Donner un poidsαtà ht • Sortie : Hypothèse Finale • H(x) = Σt αt ht(x) Dans le Filtrage : Il n’ya pas d’ensemble fixe d’entrainement. Mécanisme du Filtre: Simuler Dt Accepter ou rejeter les exemples selon une probabilité qt

Introduction FilterBoost Algorithme • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Etant donné: Oracle • Pour t = 1,…,T • Filtre donneacces à Dt • Tirermtexemple du filtre • Choisirl’hypothèse ht • Tirer de nouveaxexemples du filtre • Estimerl’erreur εt de ht • Donner un poidsαt à ht • Output: Hypothèse Finale Le nombre mt d’exemple doit être suffisamment large pour assurer que l’erreur εt < ½ avec une forte probabilité. • Tirermtexemple du filtre L’erreur de l’hypothèse finale < ε Output: Hypothèse Finale

Filtre Introduction • Analyse Expérimentations Conclusion FilterBoost Présentation Batch Algorithme FilterBoost Algorithme Filtre • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Accepter Oracle - + Refuser • Label = -1 • Booster prédit -1 • Bien classé • Poidsfaible • Probabilité faible d’être accepté • Label = + 1 • Booster prédit -1 •  Mal classé • Poidsélevé • Probabilité élevé d’être accepté Le filtre accepte l’exemple (x,y) avec une probabilité proportionnelle à l’erreur de la prédiction du booster H(x)

Analyse Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Condition d’arrêt du boosting? •  Si le filtre rejète suffisament d’exemples dans un seulappel,  pt est petite •  Ht est suffisamment correcte. • Nombre de rondsque le boosting a besoin? •  Si l’erreur de ht : εt < ½  progrés significatif dans ce rond. • Estimation des limites de l’Hypothèsefaible? •  Utilisation du NonmonotonicAdativeSampling

Expérimentation (1/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • La pondération au lieu du filtrage des exemples. •  Augmente l’exactitude. •  Augmente la taille de l’ensemble d’entrainement. • Simulation Oracle •  Permutation par hasard des données et utilisation des • exemples dans le nouvel ordre. Filtrer lors de l’entrainement du WeakLearner. Pondérer  lors de l’estimation des limites.

Expérimentation (2/2) Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • Tester FilterBoost avec et sans Confidence-Ratedpredictions. • Tester FilterBoost contre d’autres Batch et FilteringBoostings: MadaBoost, AdaBoost, Logistic AdaBoost • Tester: classification et conditional probability estimation FilteringBosterest plus long que les batch dans de petite base de données. Mais plus rapide dans les larges base de données.

Expérimentation: CPE Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion Décision Expert Arbre de Décision

Expérimentation: Classification Introduction • Analyse Expérimentations Conclusion FilterBoost Expérimentation Expérimentation :CPE Expérimentation: Classification • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion

Conclusion Introduction • Analyse Expérimentations Conclusion FilterBoost • Introduction • Problématique & motivations • Travaux antérieurs • Contribution • Conclusion • FilterBooster utilise des techniques de régression logistique, pour l’Estimation des probabilités conditionnelles et la classification. • Boosting-by-Filtering •  Utilisation d’un oracle et non pas d’un ensemble fixe d’entraînement. • Résultats: •  Plus efficace et plus robuste pour apprendre avec de large bases de données.  Plus rapide et plus robuste que le batch booster sans sacrifié l’exactitude.

Apprentissage et Fouilles de données

Apprentissage et Fouilles de données

Presentation Transcript

Written by Lin Donn Illustrated by Phillip Martin

Psychologie de l'apprentissage

S ance 5 Gestion et analyse des donn es clients

Apprentissage (II)

Vue d ensemble de la prise en charge base communautaire de la malnutrition aigu PCMA

L’influence du stress sur l’apprentissage

L anorexie mentale

Protection technique des donn é es personnelles de l ’ internaute

Produire et Utiliser les donn es pour les Strat gies de R duction de la Pauvret

Econom trie des donn es de panel

Bases de donn es r parties: Fragmentation et allocation

Unités d’apprentissage

Le mod le logique des donn es relationnel MLD

L’apprentissage

Apprentissage pour les jeux d’arcade

Mécanisme et Infrastructure de l’enseignement

Efficacité de l’apprentissage en ligne : le cas d’un cours de politique économique

Annonce de versement Taxe d’apprentissage 2014

Les troubles d'apprentissage

Le Service Académique de l’Apprentissage: S.A.A Daniel MAITREHENRI Coordonnateur du SAA

QU’EST-CE QUE L’APPRENTISSAGE?

Master Chimie et Biologie, aspects analytiques en alternance et en apprentissage 2012 - 2014