1 / 144

Les variables qualitatives

Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation d’Économétrie avec Stata. Les variables qualitatives. Lionel Nesta. Plan du cours : première partie. Les variables qualitatives explicatives Création et gestion des variables qualitatives sous STATA

ronan-mejia
Télécharger la présentation

Les variables qualitatives

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ecole Doctorale Marchés et Organisation : Droit – Economie – Gestion Formation d’Économétrie avec Stata Les variables qualitatives Lionel Nesta

  2. Plan du cours : première partie • Les variables qualitatives explicatives • Création et gestion des variables qualitatives sous STATA • Les variables muettes dans le modèle MCO • Les modèles à variables qualitative dépendante • Le modèle de probabilité linéaire • L’estimation par le maximum de vraisemblance • La régression logistique

  3. Plan du cours : deuxième partie • La régression logistique multinomiale • Simple • Ordinale • Les modèles de comptage • Le modèle de Poisson • Le modèle négatif binomial

  4. Les variables qualitatives explicatives

  5. 1. Les variables qualitatives explicatives • Les variables qualitatives • Les variables muettes (les dummies) • Créer une variable muette avec Stata • Interprétation des coefficients dans le modèle MCO • Les effets croisés entre variables muettes et continues

  6. Les variables qualitatives • Il s’agit de variables qui donnent des informations sur des caractéristiques discrètes. • Le nombre de catégories prises par les variables qualitatives est en général petit. • Ces valeurs peuvent être numériques mais chaque nombre indique une qualité; une caractéristiques. • Une variable discrète peut avoir plusieurs modalités • Deux modalités : homme ou femme • Trois modalités : nationalité (française, allemande, anglaise) • Plus de trois modalités : secteur (automobile, chimie, bureautique, métallurgie, etc.)

  7. Les variables qualitatives • Il existe plusieurs manières de coder une variable qualitative à n modalités • Codage par une seule variable catégorielle • Codage par n - 1 variables muettes • Une variable muette ou indicatrice est une variable qualitative qui prend les valeurs 0 ou 1. • On parle de variable binaire ou dichotomique. • En Anglais, on parle de « dummy variables », ou « dummies »

  8. Les variables qualitatives • Codage par une seule variable catégorielle • Deux modalités : On crée une variable catégorielle « genre » qui est égale à 1 si l’individu est une femme, 2 si l’individu est un homme. • Trois modalités : On crée une variable « nationalité » qui est égale à 1 si l’individu est français, 2 si l’individu est allemand, 3 si l’individu est anglais. • Variable à n modalités : On crée une variable « nationalité » qui est égale à 1 si l’individu est français, 2 si l’individu est allemand, 3 si l’individu est anglais, etc. Le codage d’une variable catégorielle nécessité l’utilisation d’un label pour savoir à quelle modalité se réfère ledit numéro.

  9. Labéliser des variables • Labéliser les variables est intéressant, fastidieux, ennuyeux. • Conséquence importante sur l’interprétation des résultats • label variable. Décrit une variable qualitative ou quantitative • label variable asset "real capital" • label define. Décrit les valeurs (modalité) d’une variable qualitative • label definefirm_type 1 "biotech" 0 "Pharma" • label valuesApplique le label défini précédemment • label values type firm_type

  10. Exemple de labellisation ************************************************************************************* ******* CREATION DES LABELS INDUSTRIES ********* ************************************************************************************* egen industrie = group(isic_oecd) #delimit ; label define induscode 1 "Text. Habill. & Cuir" 2 "Bois" 3 "Pap. Cart. & Imprim." 4 "Coke Raffin. Nucl." 5 "Chimie" 6 "Caoutc. Plast." 7 "Aut. Prod. min." 8 "Métaux de base" 9 "Travail des métaux" 10 "Mach. & Equip." 11 "Bureau & Inform." 12 "Mach. & Mat. Elec." 13 "Radio TV Telecom." 14 "Instrum. optique" 15 "Automobile" 16 "Aut. transp." 17 "Autres"; #delimit cr label values industrie induscode

  11. Exercice • Téléchargez la base var_qual.dta • Labélisez la variable firm_type • Définissez un label pour la variable firm_type, sachant que la modalité 1 qualifie les grandes firmes pharmaceutiques et la modalité 2 qualifie les firmes de biotechnologie.

  12. Les variables qualitatives muettes • Codage par des variables muettes • Deux modalités. • On crée une variable muette « femme » qui est égale à 1 si l’individu est une femme, 0 sinon. • On crée une variable muette « homme » qui est égale à 1 si l’individu est une femme, 0 sinon. • Or une des deux variables muettes est redondante. A partir du moment où femme = 0, alors homme = 1. • Autrement dit pour une variable catégorielle à deux modalités, on a besoin d’une seule variable muette seulement pour avoir la même information.

  13. Les variables qualitatives muettes • Codage par n variables muettes • Exemple avec trois modalités • On crée trois variables muettes, la première étant est égale à 1 si l’individu est français, 0 sinon (variable appelé « FRA »). • la deuxième modalité est égale à 1 si l’individu est allemand, 0 sinon (variable appelé « DEU »). • la troisième modalité est égale à 1 si l’individu est anglais, 0 sinon (variable appelé « GBR »). • Or une des trois variables muettes est redondante. A partir du moment où FRA = 0, DEU = 0, alors GBR = 1. Pour une variable à n modalités, on crée n - 1variables muettes, chacune représentant une modalité particulière de la variable.

  14. Créer une variable muette sous stata • Générer une variable muette à partir d’une variable qualitative. • generate DEU = 0 • replace DEU = 1 if country==“GERMANY” • generate FRA = country==“FRANCE” • Générer une variable muette à partir d’une variable qualitative. • generate GE = 1 if taille > 100 • replace GE =0 if taille < 101 • generate GE = taille > 100

  15. Créer une variable muette sous stata • Si vous disposez d’une variable qualitative à n modalités, il peut être fastidieux de créer n-1 variables muettes • La fonction tabulate a une extension très pratique, puisqu’elle générera autant de variables muettes qu’il y a de modalités d’une variable catégorielle. • tabulate varcat, gen(v_) • tabulate country, gen(c_) • Va créer la variable muette c_1 pour le premier parti, c_2 pour le second, c_3 pour le troisième, etc.

  16. Interprétation des coefficients devant les variables muettes • Dans la régression linéaire, le coefficient estimé s’interprète comme la variation de la variable dépendante suite à la variation d’une unité de la variable explicative, toute chose égale par ailleurs. • Soit le modèle de fonction de production de connaissance où « y » est le nombre de brevet produit par les firmes et « biotech » est une variable muette égale à 1 pour les firmes de biotechnologie.

  17. Interprétation des coefficients devant les variables muettes • Si la firme est une firme de biotechnologie, la variable muette « biotech » est égale à l’unité, donc : • Si la firme est une firme pharmaceutique, la variable muette « biotech » est égale à 0, donc :

  18. Interprétation des coefficients devant les variables muettes • Quand la variable explicative est muette, le coefficient s’interprète comme variation de la variable dépendante quand la variable muette est égale à 1, relativement à une situation où la variable muette est égale à 0. • Pour deux modalités, je dois introduire une variable muette. • Pour trois modalités, je dois introduire deux variables muettes. • Pour n modalités, je dois introduire (n-1) variables muettes.

  19. Exercice • A partir de la base var_qual.dta, régressez le modèle • Prédisez la production de brevet pour les firmes de biotechnologie et les firmes pharmaceutiques • Etablissez les statiques descriptives de PAT pour chacun des types de firme avec la commande table • Qu’observez-vous ?

  20. Interprétation des coefficients devant les variables muettes • Pour la forme semi logarithmique (log Y), le coefficient β est interprété comme une approximation du pourcentage de variation de Y pour une variation de 1 de la variable explicative. • Cette approximation est acceptable quand β est petit (β < 0.1). Quand β est grand (β ≥ 0.1), alors le pourcentage exact de la différence selon les évènements 0 ou 1 est : 100 × (eβ – 1)

  21. Application 1: modèle de base La fonction de production de connaissances

  22. Application 1: modèle de base

  23. Application 2: Changement de modèle La fonction de production de connaissances

  24. Application 2: Changement de modèle

  25. Application 3: Variable muette La fonction de production de connaissances

  26. Application 3: Variable muette

  27. Application 3: Variable muette Patent ln(PAT) size

  28. Application 4: Variable d’interaction La fonction de production de connaissances

  29. Application 4: Variable d’interaction

  30. Application 4: Variable d’interaction Patent ln(PAT) Size

  31. Les modèles à variable qualitative dépendante

  32. Le modèle de probabilité linéaire

  33. Le modèle de probabilité linéaire • Quand la variable qualitative dépendante est binaire ou dichotomique (0/1), le modèle OLS est appelé modèle de probabilité linéaire (par exemple : Y=1 si l’entreprise innove, Y=0 sinon). • Y ne prend que 2 valeurs (0;1). Comment interpréter βj? Si E(u|X)=0 alors:

  34. Le modèle de probabilité linéaire • Y suit une distribution de Bernoulli d’espérance P. Ce modèle est donc dit MPL car son espérance conditionnelle E(Y|X) peut être interprétée comme la probabilité conditionnelle que l’évènement se produise compte tenu des valeurs de X : • β mesure de combien est modifié la probabilité de succès quand X change d’une unité (ΔX=1)

  35. Les limites du modèle de prob. linéaire (1) L’absence de normalité des erreurs • OLS6 : Le terme d'erreur est indépendant des variables indépendantes et suit une loi Normale de moyenne nulle et de variance 2 • Les erreurs étant le complémentaire par rapport à 1 de la probabilité conditionnelle, elles suivent une distribution de Bernoulli, et non normale.

  36. Les limites du modèle de prob. linéaire (1) L’absence de normalité des erreurs

  37. Les limites du modèle de prob. linéaire (2) L’hétéroscédasticité des erreurs • OLS5 : La variance du terme d'erreur est la même, quelle que soiet les valeurs des variables indépendantes • Si le terme d’erreur suit une distribution de Bernoulli, alors sa variance dépend de X:

  38. Les limites du modèle de prob. linéaire (2) L’hétéroscédasticité des erreurs

  39. Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes • Par définition, une probabilité est toujours comprise entre 0 et 1, si bien que : • Or OLS ne garantit en rien cette condition : • On peut imaginer des prédictions en dehors de [0;1] • L’effet marginal reste constant en permanence car P = E(Y|X) croit linéairement avec X. Ceci n’est pas réaliste (ex: la probabilité d’avoir un enfant en fonction du nombre d’enfants dans la fratrie).

  40. Mauvaises prédictions Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes

  41. Les limites du modèle de prob. linéaire (4) Un coefficient de détermination faible • Les valeurs observées de Y sont égales à 1 ou 0, alors que les valeurs prédites appartiennent à l‘ensemble des réels compris enter 0 et 1 : [0;1]. • Si on confronte graphiquement les valeurs prédites avec les valeurs observées, l’ajustement linéaire apparaît systématiquement faible.

  42. Mauvaises prédictions qui baissent le R2 Les limites du modèle de prob. linéaire (3) Des prédictions aberrantes

  43. Les limites du modèle de probabilité linéaire • L’absence de normalité des erreurs • L’hétéroscédasticité des erreurs • Les prédictions aberrantes • La faible valeur du coefficient de détermination

  44. Surmonter les limites du MPL • L’absence de normalité des erreurs • Augmenter la taille de l’échantillon • L’hétéroscédasticité des erreurs • Effectuer des estimations robustes • Les prédictions aberrantes • Effectuer des estimations contraintes ou non linéaires • La faible valeur du coefficient de détermination • Ne pas utiliser le R2 pour estimer la qualité de l’ajustement

  45. Le MPL et ses utilisations • Malgré ses limites, le MPL est assez largement utilisé : • Parce qu’il constitue une base exploratoire dont les coefficients sont faciles à interpréter. • Parce qu’il marche plutôt bien pour les valeurs des variables indépendantes qui sont proches de la moyenne des données. • Parce qu’à la condition de travailler sur des grandes bases de données, il permet d’aborder des problèmes d’estimation que d’autres approches ont du mal à aborder.

  46. Le modèle LOGIT

  47. Probabilités, chances et logit • Nous voulons expliquer la réalisation évènement : la variable à expliquer prend deux valeurs : y={0;1}. • En fait, on va expliquer la probabilité de réalisation (ou non) de l’évènement: P(Y=y | X) ∈ [0 ; 1]. • Il nous faudrait une transformation de P(Y) qui étendent l’intervalle de définition. • Nous allons voir que le calcul des chances permet d’envisager cette transformation. • Nous comprendrons alors les sources de la fonction logit.

  48. Le modèle Logit (1) Modélisons la probabilité en nous assurant que quelles que soient les valeurs de X, P reste toujours entre 0 et 1.

  49. Le modèle Logit (2) Ecrivons le ratio de chance (odds ratio) et prenons son log: • Notons deux caractéristiques importantes et désirées du modèle : • Malgré le fait que P soit compris entre 0 et 1, le logit est un réel compris entre -∞ et + ∞ • La probabilité n’est pas linéaire en X

  50. Les ratios de chance Ou plus généralement Plutôt que d’expliquer Y (=1 ou =0), on va tenter d’expliquer le ratio de chance (ou odds ratio)

More Related