1 / 64

Initiation aux statistiques inférentielles

Initiation aux statistiques inférentielles. Chapitre 1 : les échantillons Chapitre 2 : la loi normale : première loi d ’ échantillonnage Chapitre 3 : l ’ estimation ponctuelle et par intervalle de confiance Chapitre 4 : l ’ initiation aux tests d ’ hypothèse. CHAPITRE 1 : LES ECHANTILLONS.

cian
Télécharger la présentation

Initiation aux statistiques inférentielles

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Initiation aux statistiques inférentielles • Chapitre 1 : les échantillons • Chapitre 2 : la loi normale : première loi d’échantillonnage • Chapitre 3 : l’estimation ponctuelle et par intervalle de confiance • Chapitre 4 : l’initiation aux tests d’hypothèse

  2. CHAPITRE 1 : LES ECHANTILLONS INTRODUCTION A. Les indicateurs des échantillons 1°) Exemple 1. 2°) Exemple 2. 3°) Exemple 3. B. Les fluctuations d’échantillonage. 1°) Objectif . 2°) Exemple. C. Les sondages classiques 1°) Les sondages aléatoires. 2°) les sondages empiriques. Mises en garde.

  3. CHAPITRE 1 : LES ECHANTILLONS Les objectifs • Premier objectif : Connaître les propriétés de la population dont est extrait l’ échantillon. • Deuxième objectif : Vérifier si la production est conforme aux attentes ou spécifications. • Troisième objectif : comparer deux (ou plus) traitements différents : en ressources humaines, peut-on affirmer que depuis la création de la crèche d’ entreprise, le taux d’ absentéisme a baissé ; en marketing, les ventes réalisées sont-elles différentes avec ce nouvel emballage ? • Le comportement des échantillons est incertain : • Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de trouver un échantillon de poids moyen 249 grammes • Si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment certain que A réalisera un score de 20 % lors de l’ élection ?

  4. CHAPITRE 1 : LES ECHANTILLONS Incertain et Aléatoire • Par exemple, si le poids moyen des paquets de la production est de 250 grammes, il est possible de trouver un échantillon de poids moyen 249 grammes mais avec quelle probabilité ? • Autre exemple : si dans un échantillon de 1 000 personnes, 200 votent pour A alors est-on vraiment certain que A réalisera un score de 20 % lors de l’ élection ? Avec quelle certitude ? • On peut penser que, si le sondage est bien fait, A réalisera un score «autour» de 20 % mais la question devient alors : • entre 19 % et 21 % ? • entre 17 % et 23 % ? • entre 10 % et 30 % ? • «il va peut-être pleuvoir» et «il y a une probabilité de 30 % qu’il pleuve» • Si je connais cette probabilité, j’adapte mon comportement et je prends ou pas mon parapluie

  5. Parmi ces trois échantillons qui suivent, y en a-t-il qui sont manifestement gaussiens ? CHAPITRE 1 : LES ECHANTILLONS Echantillon Gaussien • L’utilisation de la loi normale dont la caractéristique principale est sa forme de «courbe en cloche» est fondamentale • Parmi ces trois échantillons, y en a-t-il qui sont manifestement gaussiens ?

  6. CHAPITRE 1 : LES ECHANTILLONS Gaussien ? Oui !

  7. CHAPITRE 1 : LES ECHANTILLONS Gaussien ? Non !

  8. CHAPITRE 1 : LES ECHANTILLONS Gaussien ? ?? ?

  9. 1°) Exemple 1 : Dans une PME, durant les 25 derniers jours ouvrés, on a relevé chaque jour le nombre de salariés en arrêt de travail : CHAPITRE 1 : LES ECHANTILLONS A. Les indicateurs des échantillons la variable est numérique est il est bien difficile de savoir si la représentation est proche d’une courbe en cloche

  10. 2°) Exemple 2 : Une entreprise a étudié son chiffre d’ affaires sur les derniers jours: CHAPITRE 1 : LES ECHANTILLONS A. Les indicateurs des échantillons On rappelle que dans le cas d’une série continue, les xi représentent alors les centres de classe la variable est numérique et la représentation est proche d’une courbe en cloche

  11. CHAPITRE 1 : LES ECHANTILLONS

  12. 3°) Exemple 3 : Dans ce groupe de 135 étudiants, il y a 80 filles : 51 de moins de 21 ans et 29 de plus de 21 ans et 55 garçons : 25 de moins de 21 ans et 30 de plus de 21 ans. CHAPITRE 1 : LES ECHANTILLONS A. Les indicateurs des échantillons Quelle est la proportion de filles ? Elle est de Quelle est la proportion d’ étudiants de moins de 21 ans ? Elle est de Quelle est la proportion de filles parmi les étudiants de moins de 21 ans ? Elle est de • Les variables étudiées sont : • le sexe, variable qualitative • l’âge, variable quantitative mais comme l’échantillon est séparé en deux groupes , jeunes et moins jeunes, la variable est devenue qualitative.

  13. On en tire 10 . CHAPITRE 1 : LES ECHANTILLONS Urne :180 blanches et 20 noires B. Les fluctuations d’échantillonage. Quelle est la probabilité d’avoir 1 noire ? Quelle est la probabilité d’avoir au moins 3 noires ? Ceci est le point de vue probabiliste .

  14. On en tire 15 CHAPITRE 1 : LES ECHANTILLONS Urne : 1000 boules B. Les fluctuations d’échantillonage. par exemple on en obtient 3 noires soit 20 % Peut-on en déduire le nombre de noires dans l’urne ? C’est le point de vue du sondeur

  15. On en tire 15 CHAPITRE 1 : LES ECHANTILLONS Urne : beaucoup de boules B. Les fluctuations d’échantillonage. par exemple on en obtient 3 noires soit 20 % Peut-on en déduire le nombre de noires dans l’urne ? Peut-on en déduire la proportion de noires dans l’urne ? C’est le point de vue du sondeur

  16. On m’affirme 10 % de grains noirs et je prends un échantillon de 80 grains. CHAPITRE 1 : LES ECHANTILLONS Plage avec beaucoup de grains de sable B. Les fluctuations d’échantillonage. Je trouve non pas 8 grains noirs comme attendu mais 9. Que décider ? C’est le point de vue du contrôleur

  17. 2°) Exemple : On considère les 5 notes obtenues par un étudiant : 7 ; 8 ; 10 ; 11 ; 14 a) la moyenne : CHAPITRE 1 : LES ECHANTILLONS B. Les fluctuations d’échantillonage la variance : l’écart-type : et parmi ces 5 notes la proportion p de notes supérieure à 12 est Attention Si on considère que ces 5 notes constituent la population, les indicateurs de la population sont notés : On va prélever dans cette population de 5 notes des échantillons de taille 2

  18. CHAPITRE 1 : LES ECHANTILLONS Les 25 échantillons possibles pour le premier échantillon : moyenne variance proportion pour le cinquième échantillon : moyenne variance proportion Attention Si on considère que ces 2 notes constituent un des échantillons, les indicateurs de cet échantillon sont notés : Remarque : si la population était de N=7 notes et que l'on s'intéressait aux échantillons de taille 3, on aurait obtenu 73 échantillons !

  19. CHAPITRE 1 : LES ECHANTILLONS On ne retrouve pas dans ces échantillons les indicateurs de la population. Des outils de probabilité apparaissent rapidement : La moyenne observée, la variance observée et la proportion observée sont aléatoires (elles dépendent de l’ échantillon pris au hasard). Par convention, on conserve les majuscules pour ces variables aléatoires. L’ espérance est On retrouve une propriété bien pratique pour la suite : la moyenne observée dans un échantillon est une variable aléatoire. cette variable aléatoire a pour espérance la moyenne de la population le même travail fait pour la variance de l’échantillon montre que la variance est aussi aléatoire mais son espérance n’est pas la variance de la population : il faut y apporter une correction qui dépend de la taille de l’échantillon :

  20. CHAPITRE 1 : LES ECHANTILLONS • C. Les sondages classiques • 1°) Les sondages aléatoires • Les sondages aléatoires simples : on prend au hasard dans la population un échantillon (c’ est facile sur une fabrication en série ou sur un ensemble de chèques mais c’ est moins facile sur une population humaine : si on réalise un sondage dans les rues piétonnes le samedi après-midi, je risque de louper des tranches considérables de la population et de ne trouver que des jeunes et étudiants). • Les sondages par strates : chaque catégorie de la clientèle est considérée comme une population : on étudiera par exemple la population classée suivant son âge ou bien la population classée suivant son sexe. • 2°) les sondages empiriques : • La méthode des quotas : on essaie de conserver dans notre échantillon les proportions de la population : si la population-mère contient 25 % de femmes de moins de 25 ans, on gardera 25 % de femmes de moins de 25 ans dans notre échantillon. • Avantages : la précision est aussi bonne que dans les échantillon aléatoires simples, le coût est faible. • Inconvénient : il demande beaucoup de dextérité et d’ expérience pour bien relever les variables importantes : le sexe ? l’ âge ? la CSP ? le milieu rural ou urbain ? le niveau d’ études ? la religion ? le nombre d’ enfants ? les revenus annuels ? le nombre de salles de cinémas dans un rayon de 20 km ? (c'est une variable importante si vous réalisez un sondage sur la fréquentation des cinémas !). • En cette période post-électorale, on pourra se demander quelles sont les variables (ou critères) utilisées pour les sondages politiques et pourquoi celles-là. On pourrait aussi faire une enquête sur la taille des échantillons utilisés.

  21. CHAPITRE 1 : LES ECHANTILLONS Mises en garde : 1°) On ne s’ intéresse dans la suite qu’aux sondages aléatoires simples où la taille de l’ échantillon est inférieure au dixième de la taille de la population (ce qui permet de négliger la correction d’ exhaustivité et de pas tenir compte du sondage avec ou sans remise) . 2°) Les sondages ne peuvent s’ appliquer que sur des processus stabilisés : certains voulaient estimer une moyenne à venir alors que l’ on connaissait les ventes des 4 mois précédents. Oui, pourquoi pas ? Quand j'ai su que l’ on comptait lancer une campagne promotionnelle sur ce produit, tout était fortement déstabilisé. Quand de plus j'ai appris que ce produit était le CD d'un groupe de musique régional (et donc soumis aux effets de mode) j'ai renoncé!

  22. A. Prérequis : la loi normale. 1°) Les intervalles de référence. Cas d’ un intervalle unilatéral (ayant une borne infinie) CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités p(X ≤ 38)= Méthode 1 : 38=33+1*5 donc p(X≤38)=∏(1)=0,8413 Méthode 2 : p(X≤38)=∏((38-33)/5)=∏(1)=0,8413 1 écart-type au dessus de la moyenne On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités p(X ≤ 27)= Méthode 1 : 27=33-1,2*5 donc p(X≤27)=∏(-1,2)=1-∏(1,2)=1-0,8849=0,1151 Méthode 2 : p(X≤27)=∏((27-33)/5)=∏(-1,2)=0,1151 1,2 écart-type en dessous de la moyenne

  23. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE Cas d’ un intervalle unilatéral Déterminer un intervalle du type ]-∞ ; a] qui contienne 80 % de la population La table de la page 46 donne 0,80=∏(0,840) donc a= 33+0,840*5=37,2 L’intervalle est donc ]-∞ ; 37,2] 15 % de la population La table de la page 46 donne 0,15=∏(-1,040) donc a= 33-1,040*5=27,8 L’intervalle est donc ]-∞ ; 27,8] Les pourcentages classiques La table de la page 46 donne 0,95=∏(1,96) La table de la page 46 donne 0,90=∏(1,65) La table de la page 46 donne 0,05=∏(-1,96)

  24. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE Cas d’ un intervalle bilatéral • On suppose que X=NOR(33 ; 5), calculer puis représenter les probabilités • p(28 ≤ X ≤ 38) On remarque que 28=33- 1 *5 et que 38=33+ 1 *5. cet intervalle est centré sur la moyenne et il y a un écart-type de part et d’autre de la moyenne p(28 ≤ X ≤ 38)= 2∏(1)-1=2*0,8413-1=0,6826 • p(23 ≤ X ≤ 43) On remarque que 23=33-2 * 5 et que 38=33+ 2 *5. cet intervalle est centré sur la moyenne et il y a deux écarts-type de part et d’autre de la moyenne p(23 ≤ X ≤ 33)= 2∏(2)-1=2*0,9772-1=0,954 • p( 30 ≤ X ≤ 42) On remarque que 30=33-0,6*5 et que 42=33+1,8*5. cet intervalle n’est pas centré sur la moyenne et il faut revenir aux outils classiques :

  25. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE • 2°) Les propriétés de la loi normale • Théorème 1: • Théorème 2 : la somme de 2 lois normales indépendantes est une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances. Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont indépendantes et suivent des lois normales de moyennes respectives 100 et 120 et d’écarts-type respectifs 30 et 40. Quelle est la loi suivie par Q, quantité de produits vendues quotidiennement ? Quelle est la probabilité que Q soit supérieure à 250 ?

  26. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE Corollaire : La somme de lois normales indépendantes de mêmes moyennes et de mêmes écarts-type est une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances. Exemple : Les ventes quotidiennes pour un certain produit sont indépendantes et peuvent être approchées par une loi normale de paramètre 120 et 30. On dispose d’ un stock de 2500 objets. a) Quelle est la probabilité que le stock soit épuisé en 20 jours ? Les ventes totales en 20 jours est bien une variable aléatoire notée VT. VT est la somme de 20 lois normales de même moyenne (120) , de même écart-type (30) et indépendantes. D’après le théorème : Le stock est épuisé si les ventes VT ont dépassé ce stock :

  27. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE b) Si on ne tolère la rupture de stock qu’avec une probabilité inférieure à 1 %, au bout de combien de jours doit-on réapprovisionner ce stock ? On cherche le stock inconnu (que l’on va noter x) tel que la probabilité que les ventes soient supérieures aux stocks soit inférieure à 1%. ou par événement contraire tel que la probabilité que les ventes soient inférieures aux stocks soit supérieure à 99 % La table de la page 46 donne 0,99=∏(2,330) On prévoira un stock de 2713 objets

  28. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE 2°) Les propriétés de la loi normale c) Théorème 3 : la différence de 2 lois normales indépendantes est une loi normale dont la moyenne est la différence des moyennes et la variance est la somme des variances. Exemple : Une entreprise vend quotidiennement deux produits A et B. Les ventes de A et B sont indépendantes et suivent des lois normales de moyennes respectives 100 et 120 et d’écarts-type respectifs 30 et 40. Quelle est la probabilité, un jour fixé, de vendre plus de A que de B ? On cherche la probabilité que VA soit supérieure à VB c’est à dire p(VA≥VB) C’est aussi p(VA-VB≥0) Notons D=VA-VB alors, d’après le théorème

  29. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE 3°) Théorème central limite : a) Le Théorème : La somme de beaucoup de lois indépendantes de mêmes moyennes et de mêmes écarts-type peut être approchée par une loi normale dont la moyenne est la somme des moyennes et la variance est la somme des variances Ce théorème est un des théorèmes de référence des statistiques inférentielles cependant il faut bien noter les nuances (importantes) par rapport au théorème vu précédemment : Les lois utilisées ne sont pas nécessairement normales. Il faut que l’on additionne beaucoup de lois ( au moins 30) On a seulement une approximation b) Exercice de référence : Sur un site internet, on sait que le nombre de visites par minute a pour moyenne 20 et pour écart-type 30. 1°) Quelle est la loi suivie par le nombre de visites sur une journée de 24 heures soit 1440 minutes ? On peut considérer que les minutes sont indépendantes alors le théorème central limite donne :

  30. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE 3°) Théorème central limite : • 2) On considère une journée de 1440 minutes qui est la base (ou l’échantillon) pour réaliser une étude statistique sur le nombre de visites par minute. et en particulier sur le premier indicateur classique : la moyenne. • Pourquoi la moyenne par minute est-elle une variable aléatoire ? • La moyenne observée dépend de l’échantillon (qui est pris au hasard), elle est donc aléatoire • et se note avec une majuscule. • Pour calculer une moyenne, il suffit de tout additionner et de diviser par le nombre d’observations donc : Donner un intervalle bilatéral qui contienne 90 % des valeurs de cette moyenne. • Si on cherche un intervalle centré sur la moyenne qui contient un pourcentage ß de la population alors cet intervalle sera du type I=[m-a.s ; m+a.s] avec 2∏(a)-1=ß • Ici ß=0,90 donc 2∏(a)-1=0,9 et ∏(a)=0,95. • La table donne a=1,65 • L’intervalle sera donc I= [20-1,65.0,79 ; 20+1,65.0,79] • L’interprétation est intéressante : dans 90 % des échantillons d’une durée d’une journée, le nombre moyen de visiteurs par minute sera compris entre 18,70 et 21,30.

  31. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE 3°) Théorème central limite : c) Un corollaire : approximation d’ une loi binomiale par une loi normale : • Exemple : dans une région de 100 000 habitants, 20 % des personnes votent pour A. • On prend un échantillon de 852 personnes et X est la variable aléatoire qui prend pour valeurs le nombre de personnes qui votent pour A. • X est une loi hypergéométrique : • Première approximation de X : • Comme la taille de la population est au moins 10 fois supérieure à la taille de l’échantillon ( N≥10n), on peut approcher X par une loi binomiale : • Deuxième approximation de X : • Comme n=852 est supérieur ou égal à 30 et np=852*0,20=170,4 est supérieur ou égal à 5, cette loi binomiale peut être approchée par une loi normale :

  32. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE 3°) Théorème central limite : • Soit F la variable aléatoire qui prend pour valeurs le pourcentage observé de personnes qui votent pour A dans l’ échantillon. Quelle est la loi de F ? • F est la proportion observée donc c’est bien le rapport entre le nombre de cas favorables dans l’échantillon (X) et le nombre de personnes dans l’échantillon donc Calculer p(F≥0,22) et interpréter le résultat trouvé • On a donc environ 7,2 % de chances de trouver un échantillon de 852 personnes qui contiendra plus de 22 % pour A alors que ce pourcentage n’est que de 20 % dans la population.

  33. Théorème :Si n≥30 ou si l’ échantillon est gaussien, la moyenne de cet échantillon de taille n prélevé dans une population de moyenne m et d’ écart-type σ suit une loi normale de paramètres m et CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE B. Loi suivie par la moyenne d’ un échantillon prélevé dans une population d’écart-type σ connu. Démonstration : • En utilisant le théorème central limite, si n≥30, • Remarque : si l’échantillon est de taille inférieure à 30 mais chacune des lois est normale, alors le corollaire sur la somme de lois normales s’applique • Attention : • Il faut que l’écart-type de la population soit connu. • Si l’échantillon est de taille inférieure à 30 et si nous ne savons pas si cet échantillon est gaussien, le théorème ne peut s’appliquer

  34. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE Exercice 1 : Dans une population de moyenne 85 et d’ écart-type 12, on prélève un échantillon de taille 50. Quelle est la probabilité d’observer un échantillon de moyenne inférieure à 82 ? • D’après le théorème précédent, l’échantillon est de taille supérieure à 30, la population est d’écart-type connu donc : • Déterminer un intervalle de centre 85 qui contienne 95 % des moyennes des échantillons de taille 50. • On cherche un intervalle centré sur la moyenne qui contienne un pourcentage α=95 % alors • 2∏(a)-1=0,95 et ∏(a)=0,975 donc a=1,96. • Cet intervalle sera : • Déterminer un intervalle du type ]-∞; a] qui contienne 95 % des moyennes des échantillons de taille 50. • On a alors ∏(a)=0,95 et la table donne a=1,65 • Cet intervalle sera :

  35. Théorème : La fréquence dans un grand échantillon prélevé dans une population de proportion p suit une loi normale de paramètres p et CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE C. Loi suivie par la fréquence d’ un grand échantillon. • Démonstration : • La fréquence observée (dans l’échantillon) est bien le nombre de cas favorables divisé par la taille de l’échantillon. • Cette fréquence, notée F, est aussi une variable aléatoire • Appelons X la variable aléatoire qui prend pour valeurs le nombre de cas favorables observé dans l’échantillon. • X est une loi hypergéométrique de paramètres N, n et p. • X peut être approchée par une loi binomiale de paramètres n et p • X peut être approchée par une loi normale car on a supposé que l’échantillon est grand.

  36. CHAPITRE 2 : LES LOIS DE L’ECHANTILLONNAGE • Exercice 1: Dans une population, 20 % des individus sont de type B. On prélève un échantillon de taille 210. Est-il possible d’ observer un échantillon où la fréquence observée d’ individus de type B est inférieure à 15 % ? • Pourquoi pas ! • Si oui, avec quelle probabilité? • Déterminer un intervalle de centre 20 % qui contienne 95 % des fréquences observées dans des échantillons de taille 210. • Nous avons vu précédemment que l’intervalle centré sur la moyenne qui contient 95 % de la population pour une loi normale était obtenu avec 1,96 écart-type donc • Interprétation : nous savons (avant de prélever l’échantillon) que, dans 95 % des échantillons, le pourcentage observé sera compris entre 14,5 % et 25,5 % Déterminer un intervalle du type ]-∞ ; a] qui contienne 95 % des fréquences observées dans des échantillons de taille 210. • Comme précédemment, l’intervalle sera :

  37. On connaît les caractéristiques f ou et s d’ un échantillon, on voudrait en déduire des caractéristiques p et m et de la population. Population Taille N ? Moyenne m ? Ecart-type σ ? Proportion p ? Echantillon Taille n Moyenne Ecart-type s Proportion f CHAPITRE 3 : L’ESTIMATION PRESENTATION DU PROBLEME : Bien entendu, on ne pourra pas donner des probabilités sur ces valeurs car ce ne sont pas des variables aléatoires, elles sont fixes et dépendent de la population. On définira alors des intervalles de confiance. ATTENTION : On distinguera nettement les indicateurs de l’ échantillon et les indicateurs de la population Nos conventions sont résumées par le schéma suivant

  38. 2°) Estimation ponctuelles usuelles Pour m : On sait, d’ après le chapitre 1, que alors la meilleure estimation de m ( que l’ on notera ) est Pour p : On sait, d’ après le chapitre 1, que alors la meilleure estimation de p ( que l’ on notera ) est Pour σ : On sait, d’ après le chapitre 1, que alors la meilleure estimation de σ (que l’ on notera ) est CHAPITRE 3 : L’ESTIMATION A. Estimations ponctuelles Quelques exemples de «biais statistiques» : Un premier biais statistique est connu par les sondeurs politiques : l’expérience a montré que lors de sondages, certains électeurs n’osent pas «avouer» leur préférence. Ainsi, à l’aide de l’expérience, les sondeurs corrigent ce biais en ajoutant environ 3 % à ce parti politique : Si dans l’échantillon, ce parti est à 11 % alors les instituts de sondage l’affichent à 14 % !. D’autres biais statistiques apparaissent dans les sondages, ces biais statistiques peuvent être corrigés de deux façons : à la louche comme au dessus ou bien à l’aide de définitions mathématiques 1°) Usage : si g est un indicateur que l’ on veut connaître par sondage, on note ĝ la meilleure estimation de g. Cette estimation s’ appuie sur la valeur observée dans l’ échantillon.

  39. CHAPITRE 3 : L’ESTIMATION A. Estimations ponctuelles Exemple : Dans une production de paquets de café, on prélève un échantillon de taille 50. Dans cet échantillon de taille 50, la moyenne observée est 248 grammes, l’écart-type observé est de1,2 gramme et un paquets sur les 50 pèsent moins de 245 grammes. Donner des estimations ponctuelles de la masse moyenne d’un paquet de café, de l’écart-type de la masse d’un paquet de café et de la proportion de paquets de café pesant moins de 245 grammes • D’après les formules précédentes , on a

  40. CHAPITRE 3 : L’ESTIMATION A. Estimations ponctuelles • Problème de fiabilité : • Illustration : Supposons que dans la production, la proportion de paquets de café défectueux soit de 4 %. Prenons un lot de 50 paquets de café et X est la variable aléatoire qui prend pour valeurs le nombre de défectueux dans le lot. • X suit une loi hypergéométrique : X=HYP(N ; 50 ; 0,04) • X peut être approchée par une loi binomiale : X=BIN(50 ; 0,04) • X peut être approchée par une loi de Poisson : X=POI(2) en effet n est grand ( ≥30) et np est petit (≤5) • A l’aide de la table de la loi de Poisson de paramètre 2, comparons les probabilités d’avoir dans ce lot 1 défectueux, puis 2. p(X=1)=0,2707 p(X=2)=0,2707 Conclusion : il y avait autant de chances d’avoir 1 paquet défectueux que d’avoir 2 paquets défectueux. Réciproquement, supposons que la proportion dans la population n’est pas connue ( c’est bien le principe de l’estimation) et que le sondeur ait la même probabilité d’avoir 1 défectueux que 2 alors l’estimation ponctuelle peut prendre plusieurs valeurs : dans le premier cas j’aurais dit que la proportion estimée est de 1 sur 50 soit 2 % dans le deuxième cas, j’aurais dit que la proportion estimée est de 2 sur 50 soit 4 % Enfin p(X=5)=0,0361 Enfin, il était possible d’avoir 5 paquets défectueux (probabilité de 0,036) et dans ce cas , j’aurai déclaré que la proportion estimée est 5 sur 50 soit 10 %.

  41. CHAPITRE 3 : L’ESTIMATION B) Estimation par intervalle de confiance d’ un indicateur statistique : Stratégie : On a vu dans le chapitre précédent, les indicateurs statistiques des échantillons sont aléatoires (ils dépendent de l’ échantillon pris au hasard) et suivent les lois d’ échantillonnage. Appelons l’ indicateur Ge de l’ échantillon correspondant à l’ indicateur gp de la population. On sait que Ge est une variable aléatoire. Si gp est connu, alors il y a une probabilité α que l’ indicateur Ge soit dans un intervalle de centre gp c’est à dire : C’est à dire que la distance entre gp et Ge est inférieure à ∆ avec une probabilité α. Et donc, on peut mesurer la distance entre gp et Ge. On obtient donc un encadrement du type La stratégie de l'estimation par intervalle de confiance est de remplacer la variable aléatoire Ge par la valeur observée dans l'échantillon notée ge. α n’ est plus une probabilité car gp n’est pas aléatoire, α est appelé niveau de confiance

  42. CHAPITRE 3 : L’ESTIMATION B) Estimation par intervalle de confiance d’ un indicateur statistique : Comment faire en pratique ?L’ énoncé donne les caractéristiques de l’ échantillon : sa taille, sa moyenne, son écart-type et la proportion observée Dans une population normale d’écart-type 9, on a prélevé un échantillon de taille 51 et de moyenne observée 30 . Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 82 % Première étape : On donne les estimations ponctuelles. Deuxième étape : On construit l’intervalle de confiance a)On donne la loi suivie par l’indicateur de l’échantillon. m est inconnue b) On donne, sous forme d’ encadrement, un intervalle centré qui contienne un pourcentage α= 82 % des indicateurs de l’ échantillon. 2∏(a)-1=0,82 2∏(a)=1,82 ∏(a)=0,91 a=1,340 On permute dans cet encadrement l’indicateur de la population et celui de l’échantillon avec les propriétés des encadrements • Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée. Interprétation : la valeur de m cherchée est comprise entre 28,29 et 31,71 avec une méthode fiable à 82 %

  43. Intervalle de confiance de m au niveau de confiance 98 % : a) Loi suivie par : CHAPITRE 3 : L’ESTIMATION B) Estimation par intervalle de confiance d’ un indicateur statistique : Exercice 1 : Dans une population normale d’ écart-type 38, on a prélevé un échantillon de taille 15, de moyenne observée 30. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 98 %. Estimation ponctuelle : m est inconnue b) 2∏(a)-1=0,98 2∏(a)=1,98 ∏(a)=0,99 a=2,33 • Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée. • Commentaires : pourquoi un intervalle aussi large : • A cause de l’écart-type de la population (grand) • A cause du niveau de confiance élevé • A cause de la taille de l’échantillon ( petite)

  44. On sait que l’on remplacera F par la valeur observée dans l’échantillon mais p est inconnue. Deux stratégies s’opposent : • la première, très rigoureuse, utilise le fait que pour toute valeur de p entre 0 et 1 et on a alors : CHAPITRE 3 : L’ESTIMATION • Exercice 2 : Dans une population, on a prélevé un échantillon de taille 200, et parmi ces 200 individus, 48 possède une caractéristique notée C. Donner un intervalle de confiance de la proportion d’ individus présentant la caractéristique C dans la population au niveau de confiance 94 %. • Estimation ponctuelle : • Intervalle de confiance de p au niveau de confiance 94 % : • Loi suivie par F : b) Intervalle de centre p qui contient 94 % des valeurs de F : 2∏(a)-1=0,94 2∏(a)=1,94 ∏(a)=0,97 a=1,88 Par permutation : • la deuxième remplace la valeur de p par son estimation ponctuelle : c'est la méthode fréquemment utilisée c) Intervalle de confiance de p : • Premier cas : • Deuxième cas :

  45. CHAPITRE 3 : L’ESTIMATION Exercice 3 où il y danger : Dans une population normale, on a prélevé un échantillon de taille 300, de moyenne 51 et d’ écart-type 9. Donner un intervalle de confiance de la moyenne de la population au niveau de confiance 95 %. Estimation ponctuelle : Intervalle de confiance de m au niveau de confiance 95 % : a) Loi suivie par : Attention : l’écart-type de la population n’est pas donné, on donne l’écart-type de l’échantillon ! b) 2∏(a)-1=0,95 2∏(a)=1,95 ∏(a)=0,975 a=1,96 Par permutation : • Enfin on remplace dans cet intervalle la variable aléatoire de l’échantillon par la valeur estimée. Si l’échantillon est grand et si l’écart-type de la population est inconnu, on démontre que l’ on peut utiliser l’estimation ponctuelle de cet écart-type.

  46. CHAPITRE 3 : L’ESTIMATION L'estimation par intervalle de confiance sous un aspect pédagogique : Dans la dernière minute du cours d'amphi, demander aux 140 étudiants présents le travail suivant pour la prochaine fois : Lancer 100 fois une pièce de monnaie (la même, par exemple de 1€) et de noter la série de résultats obtenus sous la forme P, F, P, F, F.... Lors du cours suivant, vérifier que tout le monde l' a fait (et faire confiance), passer un léger savon à ceux qui ont recopié ou fait ensemble (Comme il y avait 2100 ≈1,26×1030 séries possibles, quelle est la probabilité d'avoir le même résultat que le voisin ?) Demander aux étudiants de compter le nombre de piles obtenus, puis de calculer la fréquence de piles obtenus noté f) Calculer les bornes de l'intervalle Attention aux parenthèses ! J'affirme alors que 90 % des étudiants ont la valeur 0,5 dans cet intervalle et donc que 10 % n'ont pas la valeur 0,5 dans cet intervalle. Je demande aux 14 attendus (soit 10 % de 140) de lever la main. Je constate que je ne suis pas loin des 14. Remarques : je n'ai pas travaillé avec les 2100 échantillons mais avec seulement 140 (mais statistiquement, ces deux nombres sont grands). Définition : Je constate que 90 % des intervalles construits de cette façon contiennent la vraie valeur de p : j'ai construit un intervalle de confiance de p avec un niveau de confiance de 90 %. Enfin, on peut recommencer avec les 50 premiers lancers (on divise par 50) et constater que les résultats restent vrais mais l'amplitude de l'intervalle est plus large. L'expérience a montré que cela reste valable avec des effectifs plus petits ( on peut même descendre à 20 étudiants, en prenant un peu de marge : entre 1 et 3 n'auront pas la vraie valeur de p dans leur intervalle).

  47. CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES

  48. CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES Premier exercice de référence : Un médecin sait que chez les personnes en bonne santé, le taux X de .. suit une loi normale de paramètre 1,5 et 0,4. Dans sa pratique, il a décidé que si le taux observé chez un patient est inférieur ou égal à 2,2 alors il déclare ce patient non malade. Question 1 : Un patient en bonne santé se présente, quelle est la probabilité que le médecin ne le déclare pas malade ? Quelle est la probabilité qu’il soit déclaré malade ? En rendant sa décision, le médecin a commis un risque dit de 1° espèce noté α : c’est la probabilité que le médecin le déclare malade alors qu’il ne l’est pas ( le patient est en bonne santé)

  49. CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES En fait, ce médecin ne sait pas que pour un malade, ce taux suit une loi normale de paramètre 2,5 et 0,4. Question 2 : Un patient malade se présente. quelle est alors la probabilité que le médecin le déclare non malade ? En rendant sa décision, le médecin a commis une erreur dite erreur de 2° espèce notée ß : c’est la probabilité de le déclarer pas malade alors qu’il l’est. La puissance du test est 1-ß=77 %

  50. CHAPITRE 4 : L’INITIATION AUX TESTS D’HYPOTHESES Codage des informations : En fait, si l’information initiale pour un patient non malade est correcte, l’affirmation pour un malade est sujette à caution et d’autres affirment que pour un malade, ce taux suit alors une loi normale de paramètres 2,8 et 0,3. Quelle est alors le risque de 2° espèce ? Quelle est la puissance du test ? Le risque de 2° espèce est de 2 % La puissance du test est de 98 %

More Related