630 likes | 844 Vues
Statistiques, licence. Troisième séance. Techniques alternatives de corrélation. Pour variables non quantitatives. Plan. Position du problème Données dichotomiques Corrélation bisérielle de points Coefficient phi Données rangées (Coefficient de Spearman) Coefficient de Kendall
E N D
Statistiques, licence Troisième séance corrélations alternatives
Techniques alternatives de corrélation Pour variables non quantitatives corrélations alternatives
Plan • Position du problème • Données dichotomiques • Corrélation bisérielle de points • Coefficient phi • Données rangées • (Coefficient de Spearman) • Coefficient de Kendall • Quelques exemples • Compléments. corrélations alternatives
1. Position du problème corrélations alternatives
Il arrive que l’on souhaite connaître le lien entre deux variables (cas de la régression linéaire simple), mais que les variables ne soient pas quantitatives. • On voudrait pouvoir arranger la méthode de corrélation linéaire à ces cas. corrélations alternatives
Exemple • Supposons par exemple qu’on souhaite connaître le QI en fonction de la réussite ou non au baccalauréat. • On posera « échec »=0 et « réussite »=1 • La variable « réussite éventuelle » est maintenant codée. Elle n’est pas vraiment numérique, mais on peut toutefois appliquer formellement les méthodes pour variables quantitatives. corrélations alternatives
Exemple • En réalité, dans cet exemple, il est plus simple d’utiliser la régression (tout court). Cela revient à calculer les moyennes conditionnelles. • La corrélation est alors mesurée par corrélations alternatives
Exemple corrélations alternatives
Mais… • En revanche, si le facteur est véritablement numérique et si la VD est dichotomique, aucune méthode élémentaire ne semble convenir. • On pourra alors utiliser le codage précédent (0 et 1) et utiliser la corrélation linéaire comme si on avait vraiment deux variables quantitatives. corrélations alternatives
Données rangées • Le même type de problème (et de solution) apparaît avec les données ordonnées. • Une variable est ordinale si l’échelle de mesure est un ensemble ordonné mais que la variable n’est pas quantitative. • C’est le cas de variables utilisées dans les sondages, comme par exemple : jamais / rarement / parfois / souvent / toujours corrélations alternatives
Les corrélations alternatives • Les « corrélations alternatives » ne sont bien souvent rien d’autres que des corrélations linéaires appliquées à des variables codées. • Comme elles ne sont pas automatiquement légitimes, on leur donne un nom différent, et on les traite autrement. • Pourtant, le principe est toujours le même. corrélations alternatives
2. Variables dichotomiques corrélations alternatives
2.1 Corrélation bisérielle de points Une variable dichotomique corrélations alternatives
Exemple • On relève par un score numérique C la confiance en soi chez des chômeurs et des travailleurs en activité. • Le but est de déterminer si la confiance en soi dépend du fait d’avoir du travail • Ici, la VI (T, travail) est dichotomique. On la code par « chômeur » = 0 et « travailleur » = 1. La VD (C, confiance en soi) est continue. • On pourrait donc utiliser le test de Student pour montrer que les moyennes de C sont différents. Cela donnerait une valeur t. corrélations alternatives
Exemple • On peut aussi, même si c’est a priori moins naturel, calculer le coefficient de corrélation r(T,C), que nous appellerons dans ce cas Coefficient de corrélation bisériel de points • Parce qu’on considère qu’il y a deux séries de valeurs. • On le note corrélations alternatives
Exemple moyenne de C pour les chômeurs moyenne de C pour les employés corrélations alternatives
Lien entre r et t • En réalité les deux méthodes (Student et corrélation bisérielle) sont liées par une relation assez simple : • Avec dl = n-1 (n est la taille totale de l’échantillon). corrélations alternatives
Le sens de r • Le coefficient r prend un sens un peu plus concret au carré : • r² (coefficient de détermination) peut être compris comme la partie de la variation due au facteur. Ainsi, dans notre cas, si r² = 0.12, cela veut dire que le fait d’avoir du travail ou non explique 12% de la variation constatée des scores de confiance en soi. corrélations alternatives
2.2 Coefficient phi Deux variables dichotomiques corrélations alternatives
Exemple • Les enfants uniques sont-ils plus susceptibles que les autres de développer des névroses? Sur des enfants, on relève le fait d’être unique ou non (variable dichotomique U), et un psychologue clinicien qui ne connaît pas U fait un diagnostique D. • La question du lien entre les variables peut se résoudre, bien qu’on soit loin de la situation de référence, avec la méthode de régression (adaptée aux données numériques) corrélations alternatives
Coefficient phi • Le coefficient de corrélation se note alors • Mais on s’intéresse surtout à corrélations alternatives
Phi et khi • Il serait également envisageable de procéder au test du khi². • Le résultat du test du khi² est lié de manière très simple au coefficient phi par la relation Taille de l’échantillon corrélations alternatives
Interprétation intuitive de phi • Le coefficient phi² peut être conçu comme une mesure (mais attention : il s’agit d’une interprétation assez vague) de l’importance de l’effet d’une variable sur l’autre. Comme pour le r², on raisonne en terme de variations. • Si par exemple dans notre exemple nous trouvions Cela pourrait signifier que le fait d’être unique est une cause possible de névrose, mais non la seule. Que l’effet de U sur la névrose est réel, mais relativement faible. corrélations alternatives
3. Variables ordinales corrélations alternatives
Problème • Dans le cas où les variables sont ordinales mais pas réellement numériques, l’idée est toujours de travailler sur les rangs dans l’échantillon • Le rang est le numéro d’ordre. • Le rang dans l’échantillon n’est pas la restriction d’une variable sur la population entière. • Cependant, on peut utiliser le coefficient r, calculé sur l’échantillon corrélations alternatives
Problème • Par exemple, dans la série 0,4,3, les rangs sont respectivement 1,3,2. • Le problème des ex æquo est important. Trop d’ex æquo rend toujours les procédures impossibles. • On s’affranchira des cas où il y a quelques ex æquo par contre assez facilement ; en prenant la moyenne des rangs prévus. corrélations alternatives
3.1 Coefficient de Spearman Application directe de la corrélation corrélations alternatives
Définition • Lorsqu’on calcule le coefficient de corrélation sur les rangs dans un échantillon de taille n, on parle de coefficient de corrélation de Spearman pour données rangées (ou coefficient de Spearman). • On le note habituellement corrélations alternatives
Calcul • Il se calcule très facilement grâce à la formule (d est la différence des rangs) corrélations alternatives
Exemple • La même série de 10 copies de philosophie des sciences est proposée à un professeur de philosophie et à un enseignant de mathématiques, qui doivent les classer. • On a donc deux rangs : M (maths) et P(philo). La question est de savoir si les deux juges évaluent de la même manière les copies. corrélations alternatives
Exemple • S’ils ont les mêmes critères de jugement, on doit avoir à peu près le même classement, et donc M=P, soit r=1 • S’ils ont des critères contradictoires, on s’attend à avoir r<0 • S’ils notent indépendamment l’un de l’autre, on devrait avoir r=0 (à peu près) corrélations alternatives
Données corrélations alternatives
Données • On a donc corrélations alternatives
Interprétation • Ce qui laisse penser que les deux juges notent sur des critères indépendants. • Si les données proviennent de variables continues, rsmesure le lien monotone entre les variables. • On notera cependant que la significativité de rs est difficile à déterminer. Comme les échantillons sont souvent petits (un juge classant mal un grand nombre d’items), nous prendrons toujours rs comme une indication. corrélations alternatives
3.2 Tau de Kendall Une alternative au coefficient de Spearman corrélations alternatives
Principe • Le coefficient « tau » de Kendall est équivalent au rs pour ce qui est de l’interprétation. • Il est plus facile à tester (on connaît mieux la loi de distribution de t), ce qui en fait une alternative plus agréable. • Il n’est pas fondé sur le coefficient de Pearson (rs) contrairement à ses concurrents. corrélations alternatives
Calcul tau taille de l’échantillon corrélations alternatives
Calcul • Où K est le nombre d’inversions (nombre de couple (i,j) qui ne sont pas dans le même ordre pour les deux variables. • On peut déterminer simplement K en comptant le nombre de croisements dans le dessin qui suit. corrélations alternatives
K 1 2 3 4 5 K = 3 3 1 2 5 4 corrélations alternatives
3. Exemples corrélations alternatives
Attention et alcoolisme Y’a t-il un lien ? corrélations alternatives
Situation [Howell, p 336, 10.11. Les données sont les mêmes que dans l’exercice] • On souhaite étudier le lien éventuel entre les troubles de l’attention dans l’enfance et l’alcoolisme à l’âge adulte. On note 1 en cas de présence du problème, et 0 sinon. • Des psychologues déterminent si le problème est présent ou non. corrélations alternatives
Situation • Les variables sont donc : • L’alcoolisme, codé par une valeur A (variable dichotomique) • Les troubles de l’attention T, codés de la même manière (variable dichotomique également) • On cherche le lien entre ces deux variables • A est ici la VD, car les troubles de l’attention T de l’étude datent de l’enfance. corrélations alternatives
Données corrélations alternatives
Données Effectif observé Effectif théorique corrélations alternatives
Calculs • On peut calculer le khi² correspondant à l’exemple : Attendu (expected) Observé (observed) corrélations alternatives
Calculs • Ce qui donne corrélations alternatives
Calculs • Il s’agit ici d’un coefficient significatif. • Méfions-nous toutefois du résultat : l’un des effectifs théoriques est inférieur à 5. • Pourtant, il semble bien que le lien entre les variables soit réel. Il va dans le sens d’un lien positif. • Les cases 00 et 11 sont en effet plus « remplies » que ce que prévoit l’indépendance. Il y a donc un lien positif entre les deux variables (au moins sur l’échantillon) corrélations alternatives
Difficulté langagière Double classement corrélations alternatives
Situation [d’après Howell, p 336, 10.12] • Un chercheur a classé 10 mots selon leur difficulté. Peu sûr de son classement, il demande à un collègue de classer à son tour les 10 mots. • Les « variables » sont (sur l’échantillon de 10 mots) R1 et R2 (rang pour le premier chercheur / pour le second). • On cherche un lien entre les deux variables. Un lien positif conforte le premier chercheur, un lien négatif ou nul remet son analyse en question. corrélations alternatives