1 / 24

Régression linéaire (STT-2400)

Régression linéaire (STT-2400). Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007. Tests d’hypothèses. On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables:

lorant
Télécharger la présentation

Régression linéaire (STT-2400)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Régression linéaire (STT-2400) Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007

  2. Tests d’hypothèses • On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables: • PRICE, prix en milliers de dollars US: variable réponse. • FLR, surface du plancher en pieds carrés: préviseur. • RMS, nombre de pièces: préviseur. • BDR, nombre de chambres à coucher: préviseur. • BTH, nombre de salles de bain: préviseur. • GAR, présence ou non d’un garage (0: aucun garage, 1: garage simple, 1.5: garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur. • LOT, largeur de la façade du terrain en pieds: préviseur. • FP, nombre de foyers: préviseur. • ST, présence de contre-fenêtre (storm window): préviseur. STT-2400; Régression linéaire

  3. Ajustement dans l’exemple du prix des maisons • Un ajustement donne la fonction moyenne suivante: • Au niveau de l’interprétation, il semble y avoir une association positive entre l’ajout d’un garage et le prix de la maison de l’ordre de 1770$ US, les autres choses étant égales. • On note que l’augmentation d’une chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur l’augmentation d’une chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces). • Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter. STT-2400; Régression linéaire

  4. D’autres questions d’intérêt pourraient être… • (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? • (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? • (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? • (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? STT-2400; Régression linéaire

  5. Formulation des questions de façon statistique… tests déjà vus! • (a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)? • (b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US? STT-2400; Régression linéaire

  6. Formulation des questions de façon statistique… nouveaux tests! • (c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière? • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire

  7. Formulation des questions de façon statistique (suite) • (e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison? • Ce test correspond bien entendu au test F global dans une table d’ANOVA. STT-2400; Régression linéaire

  8. Hypothèse linéaire générale • Un examen attentif de tous ces tests montre qu’en fait toutes ces questions impliquent des contraintes linéaires sur les paramètres: • En fait toutes ces hypothèses peuvent s’exprimer comme un cas particulier de l’hypothèse linéaire générale. STT-2400; Régression linéaire

  9. Formulation de l’hypothèse linéaire générale • Considérons le modèle de régression linéaire multiple: • L’hypothèse linéaire générale est: • La matrice C est de dimension et elle est de rang m. Les vecteurs b et g sont de dimension . STT-2400; Régression linéaire

  10. Exemple (a) • Pour (a), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire

  11. Exemple (b) • Pour (b), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire

  12. Exemple (c) • Pour (c), il suffit de poser: • On a m = 1. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire

  13. Exemple (d) • Pour (d), il suffit de poser: • On a m = 2. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire

  14. Exemple (e) • Pour (e), il suffit de considérer la matrice : • On a donc m = 8. L’hypothèse linéaire générale est: • Elle se réduit donc à: STT-2400; Régression linéaire

  15. Statistique de test pour l’hypothèse linéaire générale • Supposons que les erreurs sont iid normales . Confrontons les hypothèses: • C est de dimension et de rang . • Posons: STT-2400; Régression linéaire

  16. Statistique F pour l’hypothèse linéaire générale • On pose encore: • Hypothèses à confronter: • Règle de décision: rejeter H0 si STT-2400; Régression linéaire

  17. Quelques faits concernant le test F • Ce test est en fait le test du rapport de vraisemblance pour les hypothèses considérées. • Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur l’estimation des paramètres du modèle par la méthode de vraisemblance maximale. • Même si les erreurs ne sont pas normales, ce test est généralement robuste aux écarts à la normalité des erreurs. • Qu’est-ce que cela veut dire? Si des écarts relativement peu importants de l’hypothèse de normalité surviennent, alors les estimateurs, tests d’hypothèses et intervalles de confiance se trouvent souvent peu affectés. STT-2400; Régression linéaire

  18. Test-F dans la situation « modèle plein – modèle réduit » • Reconsidérons l’exemple (d): • (d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison? STT-2400; Régression linéaire

  19. Formalisation de l’exemple (d) • Considérons , où les matrices composants X sont de dimensions: • On considère la partition suivante du vecteur b: STT-2400; Régression linéaire

  20. Confrontation du modèle plein et du modèle réduit • On désire confronter: • Autrement formulé, on désire tester l’hypothèse nulle: STT-2400; Régression linéaire

  21. Test F pour tester « modèle plein – modèle réduit » • Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante: • On compare avec la distribution F suivante: STT-2400; Régression linéaire

  22. Mise en œuvre pratique du test pour l’hypothèse « modèle plein-modèle réduit » • Ainsi afin de mettre en œuvre ce test il suffit d’effectuer deux régression. • On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSSMPet son nombre de dl associé. • On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSSMRet ses dl. • On calcule la statistique F. STT-2400; Régression linéaire

  23. Hypothèse linéaire avec SAS dans la procédure PROC REG • proc reg data=maison; • model price = flr rms bdr bth gar lot fp st; • HypA: test bdr = 0; • HypB: test gar = 5; • HypC: test bdr = bth; • HypD: test bth = 0, gar = 0; • HypE: test flr, rms, bdr, bth, gar, lot, fp, st; • run; • proc reg data=maison; • model price = flr rms bdr lot fp st; • run; STT-2400; Régression linéaire

  24. Quelques commentaires sur les tests • Pour HypA: on avait déjà ce test en regardant la statistique-t pour la variable BDR: (-4.21)2 = 17.70 avec valeur-p de 0.0006. • Pour HypE: on retrouve le résultat du test global, avec une statistique F de 20.11. • Pour HypD: La statistique-F est de 1.32. On peut obtenir cette statistique de l’ajustement des deux régressions, l’une incluant tous les préviseurs (RSS=378.21240, dl=17), l’autre excluant BTH et GAR (RSS=436.92812). On vérifie que: • (436.92812-378.21240)/(2*22.24779) = 1.32 STT-2400; Régression linéaire

More Related