1 / 39

ch.5. Description numérique d’une variable statistique.

ch.5. Description numérique d’une variable statistique. Ce chapitre s’intéressera principalement à quatre types de paramètres: Les paramètres de tendance centrale, les paramètres de dispersion, les paramètres de concentration, et les paramètres de forme

laddie
Télécharger la présentation

ch.5. Description numérique d’une variable statistique.

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ch.5.Description numérique d’une variable statistique. Ce chapitre s’intéressera principalement à quatre types de paramètres: Les paramètres de tendance centrale, les paramètres de dispersion, les paramètres de concentration, et les paramètres de forme 5.1 Les principaux paramètres de location. Un paramètre de location, de position ou de tendance centrale pour une variable x est un nombre qui indique l’ordre de grandeur habituel de x. Il existe trois principaux paramètres de location qui sont: la médiane, le mode et la moyenne arithmétique.

  2. 5.1.1 La médiane. • La médiane d’une variable statistique est la valeur de cette variable qui partage les effectifs supposés rangés par ordre de valeur croissante (ou décroissante) de la variable, en deux effectifs égaux. • Autrement dit la médiane de x notée Med(x) est le nombre qui occupe le milieu de la distribution statistique; elle correspond à la valeur pour laquelle la fréquence relative cumulée est égale à ½ ou 50% des observations. • La médiane peut être déterminée par graphique et/ou par interpolation linéaire. • N.B. Le mode de calcul de la médiane diffère selon la nature de la distribution statistique.

  3. 5.1.2 Le mode. • Le mode d’une variable statistique est la valeur qui correspond au maximum du diagramme différentiel (diagramme en bâtonnets ou histogramme suivant le cas). Le mode est la valeur la plus fréquente ou dominante de la variable statistique. • Lorsque la variable statistique est discrète, le mode correspond au bâtonnet le plus long. • Si plusieurs valeurs sont ex aequo, alors la variable statistique considérée a plusieurs modes. • Si la variable est continue, on ne peut que définir la classe modale qui correspond au maximum de la fréquence moyenne par unité d’amplitude.

  4. 5.1.3 La moyenne arithmétique. • La moyenne arithmétique de la variable x notée x barre ou  (lettre grecque « mu ») est la valeur moyenne que prendraient les valeurs de x • Deux cas peuvent se présenter: • Si on a une série statistique comportant n observations dont les valeurs respectives sont (x1,x2,x3,..., xn); alors la moyenne arithmétique de la variable x est égale à la somme des valeurs prises par cette variable divisée par le nombre des observations; il s’agit de cas à grandeurs additives.

  5. Cette expression algébrique définissant la moyenne a ensuite été étendue aux variables statistiques quelconques additives ou non; La moyenne d’une variable statistique est la moyenne arithmétique pondérée de ses valeurs possibles par les fréquences correspondantes ou ce qui revient au même par les effectifs correspondants:

  6. La moyenne arithmétique pondérée s’obtient en effectuant la somme de tous les produits de xi par les effectifs ou les fréquences relatives correspondants.

  7. A.Cas discret • exemple:1. Le rendement scolaire de deux classes ayant le même professeur enseignant la même matière se présente comme suit: • Classe A. 2;2;2;2;10;18;18;18;18. • Classe B. 9;9;9;9;10;11;11;11;11. • 1) déterminer les fréquences relatives et cumulées pour chaque classe. • 2) faire les représentations graphiques • 3) calculer et extrapoler les paramètres de location.

  8. i) médiane. • la série A est impaire donc: • 2n+1=9 • 2n = 8 • n = 4 ( quatrième terme), la médiane correspond à la valeur au n+1 terme i.e • 4+1= 5 terme d’ou Med(xA) = 10; Med(xB) =10 • ii) moyenne de xA = 10.... (4*2)+(10*1)+(18*4)/9 = 90/9 = 10 • moyenne de xB = 10 • iii) mode de xA = bimodale 2 et 18 • mode de xB = bimodale 9 et 11

  9. Exemple 2.Dans une école primaire rurale; les notes sur 20 de 10 élèves se présentent ainsi: • 17;14;15;13;11;6;5;8;9;10 • 1) calculer et extrapoler les paramètres de location. • i) médiane de x • n = 10 • 2n = 10 • n = 5ième terme • med(x) = [(nième) + (n+1)]/2 = (10 +11 )/2 = 21/2 = 10.5 indéterminée • 5;6;8;9;10;11;13;14;15;17 faire les graphiques • ii) mode = multimodale • iii) moyenne de x = 9.8

  10. B. cas continu. • i) la Médiane. • la Med(x) peut être déterminée par graphique et/ou par interpolation linéaire. • Au niveau graphique on se réfère au point d'intersection des courbes des fréquences cumulées, ou juste au point représentant 50% des effectifs sur F(x). • Par interpolation linéaire:

  11. ii) le mode. Le Mode(x) peut lui aussi être déterminé par graphique (histogrammes des fréquences relatives ou des effectifs); il correspond à la valeur la plus Fréquente dans la série statistique considérée. Nous pourrons aussi le déterminer par interpolation linéaire ainsi: Mode(x) = a + [(b - a)(ni - ni-1) ]/[ 2ni- ni-1- ni+1 ] NB. Une formule analogue peut être dégagée des fréquences.

  12. iii) La moyenne arithmétique. Dans le cas d'une variable statistique continue la moyenne arithmétique, E(x) peut être calculée à partir des effectifs ou des fréquences relatives. NB. Les xi considérés dans le calcul de la moyenne arithmétique, correspondent aux centres de classes.

  13. Exemple:1. prenons un tableau statistique des classes de poids et calculons les trois principaux paramètres de tendance centrale.

  14. a)Détermination des paramètres par interpolation linéaire. Med(x)= 65 + [(70-65)(0.50 -0.40)]/[0.55-0.40]=68.33 Kg. Mode1(x) = 70 +[(75-70)(5-3)]/[ (2x5-3-3)] = 72.50 Kg. Mode2(x) = 60 +[(65-60)(5-2)]/[ (2x5-2-3)] = 63.00 Kg E(x)=1/20[(52.50x0.05)+(57.50x0.10)+(62.50x0.25)+(67.5x0.15)+ (72.5x0.25)+(75.5x0.15)+(82.5x0.05)] = 67.70 Kg

  15. b) Détermination graphique des paramètres de location.

  16. Paramètres de dispersion Un paramètre de dispersion est un nombre qui indique l'ordre de grandeur des variations de X. Il se rapporte à la différence de deux grandeurs du caractère, alors qu'un paramètre de position représente une valeur du caractère. Il y a cinq principaux paramètres de dispersion qui sont : L'Etendue, l'écart absolu moyen, la variance, l'écart type, et Le coefficient de variation, et l'écart interquartiles.

  17. L’étendu L'Etendue de X ( notée Et(X) ) est simplement la distance qui sépare les deux valeurs extrêmes de X. Et(X) = max.{Xi} - min.{Xi}.

  18. L’écart absolu moyen L'écart absolu moyen par rapport à la moyenne (notéEcm(x)) est la moyenne des écarts à la moyenne µ en valeur absolu. Ecm(X) = E( x-µ ) = 1/n (nixi - µ ).

  19. Variance et écart type La variance de x (notée Var(x)) ou simplement σ²(x) "sigma carré") est la moyenne du carré de la distance entre X et sa moyenne µ. Var(x) = E ( x - µ )²) =1/n ∑ ni(xi -µ)² avec n = ∑ ni L'écart type de X ou l’écart quadratique moyen(notéσ(x) est simplement la racine carrée de la variance de x. σ(x) = √var(x).

  20. Le coefficient de variation La moyenne x, comme l’écart type, s’expriment dans la même unité que la variable x. On définit le coefficient de variation comme le rapport de l’écart type à la moyenne CV(x)= σ(x) / µ. C’est une quantité sans dimension, indépendantes des unités choisies, le coefficient de variation permet de comparer des distributions statistiques différentes ( ex. salaires dans différents pays).

  21. L'écart interquartiles L'écart interquartiles de X ( notéEiq(x)) est la distance entre les quartiles d'ordre 1/4 et 3/4. Eiq(X) = Q3/4 - Q1/4 Avant de calculer l'écart interquartiles, il est nécessaire de définir les quartiles. Il existe trois quartiles : Q1,Q2 et Q3; qui sont des valeurs de la variable pour lesquelles la fréquence cumulée est respectivement égale à 1/4, 1/2 et 3/4.

  22. F(Q1) = 1/4 = 25% F(Q2) = 1/2 = 50% F(Q3) = 3/4 = 75%. Ce sont les valeurs du caractère (xi) qui divisent une série statistique en quatre sous ensembles égaux. Ils sont au nombre de trois: Q1, Q2 et Q3. Les écarts interquartiles ne sont que la différence entre le quartile d'ordre un quart (Q1) et le quartile d'ordre trois quarts (Q3). [ Q3 - Q1 ].

  23. Le calcul des écarts interquartiles suivent le même raisonnement que celui de la médiane. Ils peuvent être déterminés par interpolation linéaire ou par graphique. Q1 = a + [( b - a )( n/4 - F(a) )/[ F(b) - F(a) ]. Q3 = a + [( b - a )(n3/4 - F(a) )/[ f(b) - F(a) ]. Eiq(x) = [ Q 3/4 - Q 1/4 ] = [ Q3 - Q1 ].

  24. Exercice Dans deux classes d’une même école, les notes sur 20 obtenues par les élèves à l’occasion d’une même composition sont les suivantes: Classe A

  25. Classe B

  26. 1) Comparer les classes à l’aide des paramètres de position 2) Continuer la comparaison en utilisant les paramètres de dispersion par rapport à la moyenne. 3) commenter le résultat.

  27. Solution Classe A.

  28. les paramètres de tendance centrale • µ(A) = 448/40 = 11.2/20 points • Med(A) = 11 • 2n = 40; n = 20 terme et n+1 = 21 terme ( 11 + 11)/2 = 11 • Mod(A) = 11. • 2) Les paramètres de dispersion. • étendue de x Et(x) = (15-6) = 9 points • ii) Ecm(x) = 84/40 = 2.1 points • iii) Var(x) = 268.4/40 = 6.71 et σ(x) = 2.59 points.

  29. Classe B. µ (B) = 430/40 = 10.75/20 points Med(B) = 10/20 2n = 40 donc 20 et 21 sur 2 donc (10+10)/2 = 10/20 Mod(B) = 15 Et(B)= 15-3=12/20 Ecm(B)= 107/40 = 2.675 Var(B)= 405.48/40 = 10.137 donc σ(B)= 3.18 points

  30. INTERPRETATIONS DES PARAMETRES STATISTIQUES L'essentiel à savoir Avant de donner une interprétation ou une explication d'un paramètre statistique, il faut avoir identifié la population étudiée, son effectif total et le caractère étudié. Toute interprétation doit être adaptée au caractère et à la population étudiée. Les exemples proposés dans la colonne de droite correspondent à la situation du devoir : La population étudiée est l'ensemble des 25 pays d'Europe, et le caractère étudié est le nombre d'habitants (population) de ces pays.

  31. -I- LES PARAMETRES NUMERIQUES : 1. La moyenne : C'est la valeur que l'on pourrait donner à chaque individu de la population s'ils avaient tous la même valeur du caractère. Si les 25 pays avaient la même population ils auraient 31,52 millions d'habitants. 2. L'écart type : Il donne une idée de la dispersion. La majorité des individus ont des modalités comprises entre µ−σ et µ+σ. Quand l'écart type est grand, cela signifie que la série contient des valeurs éloignées de la moyenne. L'écart type, 56,31 est très grand signifie que les données sont très dispersées. La série contient des valeurs très éloignées de la moyenne. Moyenne et écart type servent aussi à définir la plage de normalité à 95 % : [µ-2σ;+ µ-2σ] 3. La médiane : C'est la valeur m du caractère tel que 50% des individus de la population ont une modalité inférieure à m et 50 % des individus de la population ont une modalité supérieure à m. La médiane est 11. Cela signifie que 50 % des pays d'Europe concernés ont une population inférieure à 11 millions d'habitants.

  32. 4. Le premier quartile : C'est la valeur q de la série pour laquelle au moins 25 % des données de la série ont une valeur plus petite ou égale à q. 25 % des pays 25 d'Europe ont une population inférieure à 8 millions d'habitants. 5. Le troisième quartile : C'est la valeur q' de la série pour laquelle au moins 75 % des données de la série ont une valeur plus petite ou égale à q'. q'q− 75 % de ces pays ont une population inférieure 39 millions d'habitants. 6. L'écart interquartile : C'est le nombre . 50% des valeurs de la série sont comprises entre q et q', donc ont un écart inférieur à l'écart interquartile. 50 % des 25 pays ont des populations comprises entre 8 et 39 millions d'habitants, donc un écart de population inférieur à 31. 7. Le premier et le neuvième décile : C'est la valeur d (respectivement d') de la série pour laquelle 10 % (respectivement 90%) des données sont inférieures ou égales à d' (respectivement d'). 10 % des 25 pays ont une population inférieure ou égale à 4 millions

  33. -II- COMPARAISON DES PARAMETRES : 1. Médiane et moyenne : Si ces deux paramètres sont sensiblement différents, cela montre la présence de valeurs extrêmes. 2. De deux moyennes ou de deux écarts types : Ces deux paramètres sont très sensibles aux valeurs extrêmes, c'est la raison pour laquelle, dans le devoir, moyenne et écart type diminuent quand on enlève l'Union Soviétique. 3. De deux médianes : Elle n'est pas sensible aux valeurs extrêmes.

  34. -III- INTERPRETATION DANS LES GRAPHIQUES : 1. Dans un histogramme : L'aire des rectangles (valeur parfois affichée sur le rectangle) représente le nombre d'individus de la population ayant une valeur du caractère comprise dans l'intervalle en abscisse. Dans le devoir : 10 pays ont une population comprise entre 0 et 10 millions d'habitants. 2. Dans un diagramme en boîte : La boîte contient 50 % des effectifs que la médiane partage en deux fois 25 %. Sa longueur est l'écart interquartile. Avant la première moustache, il y a 10 % des effectifs et avant la dernière moustache, il y a 90 % des effectifs.

More Related