1 / 62

Statistiques, licence

Statistiques, licence. Troisième séance. Techniques alternatives de corrélation. Pour variables non quantitatives. Plan. Position du problème Données dichotomiques Corrélation bisérielle de points Coefficient phi Données rangées (Coefficient de Spearman) Coefficient de Kendall

lucus
Télécharger la présentation

Statistiques, licence

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistiques, licence Troisième séance corrélations alternatives

  2. Techniques alternatives de corrélation Pour variables non quantitatives corrélations alternatives

  3. Plan • Position du problème • Données dichotomiques • Corrélation bisérielle de points • Coefficient phi • Données rangées • (Coefficient de Spearman) • Coefficient de Kendall • Quelques exemples • Compléments. corrélations alternatives

  4. 1. Position du problème corrélations alternatives

  5. Il arrive que l’on souhaite connaître le lien entre deux variables (cas de la régression linéaire simple), mais que les variables ne soient pas quantitatives. • On voudrait pouvoir arranger la méthode de corrélation linéaire à ces cas. corrélations alternatives

  6. Exemple • Supposons par exemple qu’on souhaite connaître le QI en fonction de la réussite ou non au baccalauréat. • On posera « échec »=0 et « réussite »=1 • La variable « réussite éventuelle » est maintenant codée. Elle n’est pas vraiment numérique, mais on peut toutefois appliquer formellement les méthodes pour variables quantitatives. corrélations alternatives

  7. Exemple • En réalité, dans cet exemple, il est plus simple d’utiliser la régression (tout court). Cela revient à calculer les moyennes conditionnelles. • La corrélation est alors mesurée par corrélations alternatives

  8. Exemple corrélations alternatives

  9. Mais… • En revanche, si le facteur est véritablement numérique et si la VD est dichotomique, aucune méthode élémentaire ne semble convenir. • On pourra alors utiliser le codage précédent (0 et 1) et utiliser la corrélation linéaire comme si on avait vraiment deux variables quantitatives. corrélations alternatives

  10. Données rangées • Le même type de problème (et de solution) apparaît avec les données ordonnées. • Une variable est ordinale si l’échelle de mesure est un ensemble ordonné mais que la variable n’est pas quantitative. • C’est le cas de variables utilisées dans les sondages, comme par exemple : jamais / rarement / parfois / souvent / toujours corrélations alternatives

  11. Les corrélations alternatives • Les « corrélations alternatives » ne sont bien souvent rien d’autres que des corrélations linéaires appliquées à des variables codées. • Comme elles ne sont pas automatiquement légitimes, on leur donne un nom différent, et on les traite autrement. • Pourtant, le principe est toujours le même. corrélations alternatives

  12. 2. Variables dichotomiques corrélations alternatives

  13. 2.1 Corrélation bisérielle de points Une variable dichotomique corrélations alternatives

  14. Exemple • On relève par un score numérique C la confiance en soi chez des chômeurs et des travailleurs en activité. • Le but est de déterminer si la confiance en soi dépend du fait d’avoir du travail • Ici, la VI (T, travail) est dichotomique. On la code par « chômeur » = 0 et « travailleur » = 1. La VD (C, confiance en soi) est continue. • On pourrait donc utiliser le test de Student pour montrer que les moyennes de C sont différents. Cela donnerait une valeur t. corrélations alternatives

  15. Exemple • On peut aussi, même si c’est a priori moins naturel, calculer le coefficient de corrélation r(T,C), que nous appellerons dans ce cas Coefficient de corrélation bisériel de points • Parce qu’on considère qu’il y a deux séries de valeurs. • On le note corrélations alternatives

  16. Exemple moyenne de C pour les chômeurs moyenne de C pour les employés corrélations alternatives

  17. Lien entre r et t • En réalité les deux méthodes (Student et corrélation bisérielle) sont liées par une relation assez simple : • Avec dl = n-1 (n est la taille totale de l’échantillon). corrélations alternatives

  18. Le sens de r • Le coefficient r prend un sens un peu plus concret au carré : • r² (coefficient de détermination) peut être compris comme la partie de la variation due au facteur. Ainsi, dans notre cas, si r² = 0.12, cela veut dire que le fait d’avoir du travail ou non explique 12% de la variation constatée des scores de confiance en soi. corrélations alternatives

  19. 2.2 Coefficient phi Deux variables dichotomiques corrélations alternatives

  20. Exemple • Les enfants uniques sont-ils plus susceptibles que les autres de développer des névroses? Sur des enfants, on relève le fait d’être unique ou non (variable dichotomique U), et un psychologue clinicien qui ne connaît pas U fait un diagnostique D. • La question du lien entre les variables peut se résoudre, bien qu’on soit loin de la situation de référence, avec la méthode de régression (adaptée aux données numériques) corrélations alternatives

  21. Coefficient phi • Le coefficient de corrélation se note alors • Mais on s’intéresse surtout à corrélations alternatives

  22. Phi et khi • Il serait également envisageable de procéder au test du khi². • Le résultat du test du khi² est lié de manière très simple au coefficient phi par la relation Taille de l’échantillon corrélations alternatives

  23. Interprétation intuitive de phi • Le coefficient phi² peut être conçu comme une mesure (mais attention : il s’agit d’une interprétation assez vague) de l’importance de l’effet d’une variable sur l’autre. Comme pour le r², on raisonne en terme de variations. • Si par exemple dans notre exemple nous trouvions Cela pourrait signifier que le fait d’être unique est une cause possible de névrose, mais non la seule. Que l’effet de U sur la névrose est réel, mais relativement faible. corrélations alternatives

  24. 3. Variables ordinales corrélations alternatives

  25. Problème • Dans le cas où les variables sont ordinales mais pas réellement numériques, l’idée est toujours de travailler sur les rangs dans l’échantillon • Le rang est le numéro d’ordre. • Le rang dans l’échantillon n’est pas la restriction d’une variable sur la population entière. • Cependant, on peut utiliser le coefficient r, calculé sur l’échantillon corrélations alternatives

  26. Problème • Par exemple, dans la série 0,4,3, les rangs sont respectivement 1,3,2. • Le problème des ex æquo est important. Trop d’ex æquo rend toujours les procédures impossibles. • On s’affranchira des cas où il y a quelques ex æquo par contre assez facilement ; en prenant la moyenne des rangs prévus. corrélations alternatives

  27. 3.1 Coefficient de Spearman Application directe de la corrélation corrélations alternatives

  28. Définition • Lorsqu’on calcule le coefficient de corrélation sur les rangs dans un échantillon de taille n, on parle de coefficient de corrélation de Spearman pour données rangées (ou coefficient de Spearman). • On le note habituellement corrélations alternatives

  29. Calcul • Il se calcule très facilement grâce à la formule (d est la différence des rangs) corrélations alternatives

  30. Exemple • La même série de 10 copies de philosophie des sciences est proposée à un professeur de philosophie et à un enseignant de mathématiques, qui doivent les classer. • On a donc deux rangs : M (maths) et P(philo). La question est de savoir si les deux juges évaluent de la même manière les copies. corrélations alternatives

  31. Exemple • S’ils ont les mêmes critères de jugement, on doit avoir à peu près le même classement, et donc M=P, soit r=1 • S’ils ont des critères contradictoires, on s’attend à avoir r<0 • S’ils notent indépendamment l’un de l’autre, on devrait avoir r=0 (à peu près) corrélations alternatives

  32. Données corrélations alternatives

  33. Données • On a donc corrélations alternatives

  34. Interprétation • Ce qui laisse penser que les deux juges notent sur des critères indépendants. • Si les données proviennent de variables continues, rsmesure le lien monotone entre les variables. • On notera cependant que la significativité de rs est difficile à déterminer. Comme les échantillons sont souvent petits (un juge classant mal un grand nombre d’items), nous prendrons toujours rs comme une indication. corrélations alternatives

  35. 3.2 Tau de Kendall Une alternative au coefficient de Spearman corrélations alternatives

  36. Principe • Le coefficient « tau » de Kendall est équivalent au rs pour ce qui est de l’interprétation. • Il est plus facile à tester (on connaît mieux la loi de distribution de t), ce qui en fait une alternative plus agréable. • Il n’est pas fondé sur le coefficient de Pearson (rs) contrairement à ses concurrents. corrélations alternatives

  37. Calcul tau taille de l’échantillon corrélations alternatives

  38. Calcul • Où K est le nombre d’inversions (nombre de couple (i,j) qui ne sont pas dans le même ordre pour les deux variables. • On peut déterminer simplement K en comptant le nombre de croisements dans le dessin qui suit. corrélations alternatives

  39. K 1 2 3 4 5 K = 3 3 1 2 5 4 corrélations alternatives

  40. 3. Exemples corrélations alternatives

  41. Attention et alcoolisme Y’a t-il un lien ? corrélations alternatives

  42. Situation [Howell, p 336, 10.11. Les données sont les mêmes que dans l’exercice] • On souhaite étudier le lien éventuel entre les troubles de l’attention dans l’enfance et l’alcoolisme à l’âge adulte. On note 1 en cas de présence du problème, et 0 sinon. • Des psychologues déterminent si le problème est présent ou non. corrélations alternatives

  43. Situation • Les variables sont donc : • L’alcoolisme, codé par une valeur A (variable dichotomique) • Les troubles de l’attention T, codés de la même manière (variable dichotomique également) • On cherche le lien entre ces deux variables • A est ici la VD, car les troubles de l’attention T de l’étude datent de l’enfance. corrélations alternatives

  44. Données corrélations alternatives

  45. Données Effectif observé Effectif théorique corrélations alternatives

  46. Calculs • On peut calculer le khi² correspondant à l’exemple : Attendu (expected) Observé (observed) corrélations alternatives

  47. Calculs • Ce qui donne corrélations alternatives

  48. Calculs • Il s’agit ici d’un coefficient significatif. • Méfions-nous toutefois du résultat : l’un des effectifs théoriques est inférieur à 5. • Pourtant, il semble bien que le lien entre les variables soit réel. Il va dans le sens d’un lien positif. • Les cases 00 et 11 sont en effet plus « remplies » que ce que prévoit l’indépendance. Il y a donc un lien positif entre les deux variables (au moins sur l’échantillon) corrélations alternatives

  49. Difficulté langagière Double classement corrélations alternatives

  50. Situation [d’après Howell, p 336, 10.12] • Un chercheur a classé 10 mots selon leur difficulté. Peu sûr de son classement, il demande à un collègue de classer à son tour les 10 mots. • Les « variables » sont (sur l’échantillon de 10 mots) R1 et R2 (rang pour le premier chercheur / pour le second). • On cherche un lien entre les deux variables. Un lien positif conforte le premier chercheur, un lien négatif ou nul remet son analyse en question. corrélations alternatives

More Related