560 likes | 895 Vues
LA RÉGRESSION MULTIPLE. Michel Tenenhaus. La régression multiple. Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1 ,…, X k. Cas Ventes : les données. X 8. X 1. X 2. X 3. X 4. X 5. X 6. X 7. Y. !. !. Cas Ventes. Variable à expliquer :
E N D
LA RÉGRESSION MULTIPLE Michel Tenenhaus
La régression multiple • Une variable à expliquer numérique Y • k variables explicatives numériques ou binaires X1,…, Xk
Cas Ventes : les données X8 X1 X2 X3 X4 X5 X6 X7 Y ! !
Cas Ventes • Variable à expliquer : Y = Ventes semestrielles (KF) • Variables explicatives : X1 = Marché total (MF) X2 = Remises aux grossistes (KF) X3 = Prix (F) X4 = Budget de Recherche (KF) X5 = Investissement (KF) X6 = Publicité (KF) X7 = Frais de ventes (KF) X8 = Total budget publicité de la branche (KF)
Problème de prévision des ventes Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant : Marché total (MF) = 500 Remises aux grossistes (KF) = 100 Prix (F) = 83 Budget de Recherche (KF) = 30 Investissement (KF) = 50 Publicité (KF) = 90 Frais de ventes (KF) = 300 Total budget publicité de la branche (KF) = 200
Cas Ventes : les corrélations Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)
Cas Ventes : choix de modèles • Quel est le meilleur modèle à une variable? • Quel est le meilleur modèle à deux variables?
1. Les données • Y = Variable à expliquer numérique (ou dépendante) • X1, …, Xk = Variables explicatives numériques ou binaires (ou indépendantes) Le tableau des données
2. Le modèle • Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : où les xji sont fixes et i est un terme aléatoire de loi N(0,). • Les i sont indépendants les uns des autres.
i Zone de probabilité à 95% i + 2 i - 2 Ventes yi = 0 +1*MTi + 2*PUBi + i Un outlier yi i x1i x2i MT PUB
3. Les problèmes A) Estimation des coefficients de régression 0, 1,…, k. B) Estimation de l’écart-type du terme résiduel i. C) Analyse des résidus D) Mesurer la force de la liaison entre Y et les variables X1,…,Xk :R, R2 E) La liaison globale entre Y et X1,…, Xk est-elle significative ?
Les problèmes (suite) F) L’apport marginal de chaque variable Xj (en plus des autres) à l’explication de Y est-il significatif ? G) Sélection automatiques des « bonnes » variables Xj. H) Comparaison de modèles I) Intervalle de prévision à 95% de y. J) Intervalle de confiance à 95% de E(Y).
4. Estimation des coefficients de régression j Notations : - yi = valeur observée - = valeur calculée = prévision de yi - ei = yi - = erreur Méthode des moindres carrés : On recherche minimisant .
Graphique SPSS Régression simple de Ventes sur Prévision 7000 6000 19 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prévision La droite des moindres carrés est exactement la première bissectrice.
5. Estimation de l’écart-type du terme résiduel Estimation de 2 : Estimation de :
Résidu standardisé 6. Analyse des résidus Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + avec N(0, ) Un résidu ei est considéré comme trop important si Loi de 95% ou 1.96 -1.96 0
A) Formule de décomposition B) R2 = Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle C) R = 7. Coefficient de détermination R2 et corrélation multiple R
8. La liaison globale entre Y et X1,…,Xkest-elle significative ? Modèle : Y = 0 + 1X1 + … + kXk + Test : H0 : 1 = … = k = 0 (Y = 0 + ne dépend pas des X) H1 : Au moins un j 0 (Y dépend d’au moins un X) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si F F1- (k , n-k-1) Fractile d’une loi de Fisher-Snedecor
Niveau de signification Plus petite valeur de conduisant au rejet de H0 Loi de F sous H0 Niveau de signification F observé F1-(k,n-k-1) On rejette H0 au risque de se tromper si NS
Variance Inflation Factor 9. L’apport marginal de Xj est-il significatif ? Modèle : Y = 0 + 1X1 + … + jXj + … + kXk + Test : H0 : j = 0 (On peut supprimer Xj) H1 : j 0 (Il faut conserver Xj) Statistique utilisée : Décision de rejeter H0 au risque de se tromper : Rejet de H0 si | tj | t1-/2 (n-k-1) Fractile d’une loi de Student
Niveau de signification Plus petite valeur de conduisant au rejet de H0 Loi de tj sous H0 NS/2 /2 NS/2 |tj| -|tj| 0 t1-/2(n-k-1) On rejette « H0 : j = 0 » au risque de se tromper si NS
Mesure de la multi-colinéarité :Tolérance et VIF • Tolérance (Xj) = 1 - R2(Xj ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. • VIF = Variance Inflation Factor = 1 / Tolérance • Il est préférable d’observer un VIF inférieur à 3.
La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les variables X1,…,Xk. 1) F partiel 2) On obtient un |tj| petit si : - |cor(Y,Xj)| est petite (ex : RG) ou bien - R2(Xj ; Autres variables X) est grande (ex : FV).
10. Sélection des variables Régression pas à pas descendante (Backward) On part du modèle complet. A chaque étape on enlève la variable Xj ayant l’apport marginal le plus faible : |tj| minimum ou NS(tj) maximum à condition que cet apport soit non significatif (NS(tj) 0.1 = valeur par défaut de SPSS).
Cas Ventes Régression pas à pas descendante • Compléter le tableau suivant : • Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu. Nombre de Coefficient de Modèle Variable la moins variables détermination Ecart-type significative satisfaisant 2 explicatives R résiduel avec NS ³ 0.1 8 M
Etape 1 Variable enlevée : Total publicité de la branche
Etape 2 Variable enlevée : Budget de recherche
Etape 3 Variable enlevée : Frais de ventes
Etape 4 Variable enlevée : Remises aux grossistes
Etape 5 Toutes les variable sont significatives au seuil .10
11. Comparaison de modèles Modèle complet Modèle simplifié
Test sur le modèle complet Modèle complet Test : H0 : 2 = 4 = 7 = 8 = 0 H1 : Au moins un de ces j 0 Statistique utilisée : où : k1 = Nb de variables du modèle complet k2 = Nb de variables du modèle simplifié Décision : On rejette H0 au risque de se tromper si : F F1- [k1-k2, n-k1-1]
12. Intervalle de prévision de yi Modèle : Yi = 0 + 1x1i + … + kxki + i yi = future valeur de Yi Intervalle de prévision de yi au niveau 0.95 Formule simplifiée : Outlier Une observation i est mal reconstituée par le modèle si yi n’appartient pas à son propre intervalle de prévision.
RésultatsSPSS pour le modèle simplifié
Graphique SPSS Intervalles de prévision de y à 95% 7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction
7000 6000 5000 8 4000 VENTES 3000 3000 4000 5000 6000 7000 Prédiction
13. Intervalle de confiance de E(Y) Modèle : Yi = 0 + 1x1i + … + kxki + i Intervalle de confiance de E(Yi) au niveau 0.95 Formule simplifiée :
RésultatsSPSS pour le modèle simplifié