1 / 79

Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête)

Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête) Initiation à l’analyse de données (Comment présenter les données ?) (Pourquoi a-t-on besoin des tests ?). Dr Benoît Lepage (lepage@cict.fr), Dr Vanina Bongard (bongard@cict.fr)

paiva
Télécharger la présentation

Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête) Initiation à l’analyse de données (Comment présenter les données ?) (Pourquoi a-t-on besoin des tests ?) Dr Benoît Lepage (lepage@cict.fr), Dr Vanina Bongard (bongard@cict.fr) Département d’Epidémiologie, Economie de la Santé et Santé Publique Université Toulouse III – Paul Sabatier Master de Santé Publique, Toulouse III

  2. Les outils statistiques • Description de données • Sondages, échantillons, inférence • Estimations • Tests • Les principaux types d’enquêtes • Essais cliniques • transversales • Cohortes • Cas témoins

  3. I. Outils statistiques Comment présenter les données ? • Unités statistiques :éléments faisant l’objet de l’étude : personnes, temps de mesures, département, … • Variables statistiques : • Paramètre pouvant prendre différentes valeurs d’une unité statistique à l’autre • variable qualitative = variable catégorielle • variable qualitative nominale (sans relation d’ordre) • variable qualitative ordonnée (relation d’ordre) • Variable quantitative • variable quantitative discontinue = discrète • variable quantitative continue

  4. a. Représentation synthétique d’une variable qualitative • Tableaux de fréquence • Fréquence absolue : nombre de cas • Fréquence relative : pourcentage Variable booléenne, dichotomique, binaire, à 2 modalités N = 150 Sexe, n (%) hommes femmes Tabagisme, n (%) non fumeurs anciens fumeurs fumeurs 80 (53,3 %) 70 (46,7 %) 77 (51,3 %) 28 (18,7 %) 45 (30,0 %)

  5. Graphiques => faire ressortir une vision synthétique (mais souvent moins précise que les tableaux) • Diagrammes en secteurs

  6. Diagrammes en barres

  7. b. De la variable qualitative à la variable quantitative • Histogrammes (variables discrètes)

  8. Histogrammes 70 80 90 100 110 120 130 140 150 160 170 180 190

  9. Courbes de distribution 40 30 20 10 0 70 90 110 130 140 160

  10. c. Représentation synthétique d’une variable quantitative • 1. Paramètres de positionou de tendance centrale • moyenne arithmétique et géométrique • médiane • mode • 2. Paramètres de dispersion • variance • écart type, erreur standard • quantiles • intervalle interquartile • Extrêmes, étendue DISPERSION POSITION

  11. 1. Paramètres de position • Moyenne arithmétique Nb de cas Nb de cas   Distribution gaussienne: Distribution non gaussienne: La moyenne correspond aux valeurs les plus fréquentes La moyenne ne correspond pas aux valeurs les plus fréquentes bon indicateur de tendance centrale mauvais indicateur de tendance centrale

  12. 1. Paramètres de position • Médiane : plus adaptée si distribution asymétrique • Valeur centrale séparant l’échantillon en deux moitiés • 50 % des valeurs sont au dessus • 50 % des valeurs sont en dessous • rang de la médiane : • (n + 1) / 2 si n est pair • n/2 si n est impair • Mode • Valeur la plus représentée (variables quantitatives discrètes +)

  13. Exemple médiane (1) • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • Moyenne de la 40ème et 41ème valeur • Médiane = (73+74)/2 = 73,5 kg • (ne nécessite pas de connaître toutes les valeurs)

  14. Exemple médiane (2) • Une série de 7 sujets : • 45 50 55 58 60 63 64 • Ici, n est impair, la médiane est la valeur de rang (n+1)/2 • = la valeur de rang 4 • La médiane est 58

  15.  Dispersion 

  16. n 1 n i = 1 • Variance 2 (X i - ) 2 = • La variance est la moyenne des carrés des écarts des valeurs par rapport à la moyenne. • L’unité de la variance est l’unité de la variable étudiée au carré. • Ecart Type, déviation standard, SD • L’unité de l’écart type est identique à l’unité de la variable étudiée.  =   2

  17. Si une variable suitune distribution normale : - 2DS - 1DS + 1DS + 2DS 68% 95% Moy ± 1ET contient 68% des observations Moy ± 2ET contient 95% des observations Moy ± 3ET contient 99% des observations

  18. Quantiles • (k – 1) valeurs séparant l’échantillon en k zones comportant le même nombre d’observations • k = 3 : tertiles • k = 4 : quartiles • k = 10 : déciles • k = 100 : centiles ou percentiles • Un intervalle entre deux quantiles correspond à un intervalle interquantile

  19. Exemple : quartiles • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • 1er quartile = (¼,¾) = 69 kg • 2ème quartile = Médiane = 73,5 kg • 3ème quartile = (¾,¼) = 77 kg

  20. Notion d’inférence = tirer une conclusion au niveau d’une population inaccessible à partir d’observations faites sur un échantillon • Population cible : ensemble des individus auxquels on s’intéresse • Population source : ensemble des individus à partir desquels on effectue le tirage au sort • Echantillon : ensemble des individus effectivement étudiés

  21. Un sondage est un procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette observation des informations sur la population entière. Population source représentative de la population cible N sujets Echantillon n sujets n < N

  22. Fluctuations d’échantillonnage Malade Non malade

  23. AVANTAGES d’un sondage : Le sondage est plus rapide, moins cher et plus facilement réalisable qu’une enquête exhaustive sur la population cible. INCONVENIENT d’un sondage : Incertitude de l’extrapolation à la population cible des observations faites sur l’échantillon. CONTRAINTES d’un sondage : L’échantillon doit être représentatif de la population cible. L’échantillon doit être composé d’unités statistiques en nombre suffisant.

  24. Il faut bien distinguer un biais des fluctuations normales d’échantillonnage erreur aléatoire erreur systématique Estimation biaisée Conduit à définir un intervalle de confiance du paramètre à estimer

  25. Déformation des faits due au hasard de l’échantillonnage : erreur non systématique due au hasard (fluctuations d’échantillonnage ) Estimation précise et non biaisée Estimation peu précise mais non biaisée Déformation des faits due à un biais : erreur systématique allant toujours dans le même sens (biais) Estimation précise mais biaisée Estimation peu précise et biaisée Biais et erreurs aléatoires

  26. Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon

  27. Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population

  28. Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif

  29. Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif • En répétant l’échantillonnage, autres valeurs proches les unes des autres

  30. Estimation : Définition (2) Valeur observée(échantillon) Valeur exacte(population générale) • Incapable de connaître la vraie valeur !!! • Objectif de l’estimation en statistique => calculer des bornes où se trouve la valeur inconnue du paramètre (avec une confiance suffisamment grande) = Intervalle de confiance +++

  31. Estimation d’une moyenne inconnue (1) • On sait calculer la moyenne observée d’une variable quantitative sur un échantillon • Problème: Estimer la moyenne inconnue de la population d’où est extrait l’échantillon

  32. Estimation d’une moyenne inconnue (2) • Utiliser un échantillon représentatif de la population (obtenu par tirage aléatoire) • Estimation de  à partir de l ’échantillon 1 : •  est estimée par m1 = (xi) / n1 • où xi = {x1, x2, … , xn1} les n1 valeurs de X dans l ’échantillon 1 • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ?

  33. Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée   inconnue • Mais à quelle distance, de quel côté de  ?

  34. Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 3ème échantillon : idem...

  35. Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale

  36. Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon

  37. Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon Fluctuations d’échantillonnage de la moyenne

  38. Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue  est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre Fluctuations d’échantillonnage de l’estimation de la moyenne Distribution de la variable X dans la population Distribution des moyennes de X dans chaque échantillon

  39. Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue  est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre On peut estimer la moyennede l’estimation de la moyenne Et la variance de l’estimationde la moyenne Distribution de la variable X dans la population

  40. Estimation d’une moyenne inconnue (4) Dans un échantillon,on sait calculer un intervalle de confiance à 95% m1 m2 m3 m4 m5 m6 m7 m8 m9 … mk Si on calcule l’intervalle de confiance auprès d’un très grand nombre d’échantillons, la vraie moyenne  de la population est comprise dans 95 % des intervalles de confiance Moyenne de la population

  41. Intérêt des tests • Les tests servent à extrapoler les résultats observés sur des échantillons à l’ensemble des populations dont ils sont issus +++ • Échantillon : image ponctuelle • Intérêt majeur des tests : • Économie de moyens +++ • En permettant de déceler des différences sur un nombre réduit d’observations

  42. Principe des tests de comparaison • Principe général : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard • 2 hypothèses sont posées : • Hypothèse nulle = « il n’y a pas de différence » • Hypothèse alternative = « il y a une différence » (dans la population à laquelle on veut généraliser le résultat)

  43. Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Hypothèse nulle H0 : la pièce n’est pas faussée, et j’ai une chance sur deux de gagner P(joueur 1 gagne) = P(joueur 2 gagne) • Hypothèse alternative H1 : la pièce est faussée, un des joueurs à une probabilité plus élevée de gagner que l’autre joueur : P(joueur 1 gagne)  P(joueur 2 gagne)

  44. Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

  45. Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

  46. Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Vous continuez à jouer, vous perdez 5 fois de suite. • Vous commencez à avoir de sérieux doute et à remettre en cause la validité de l’hypothèse nulle selon laquelle la pièce n’est pas faussée

  47. Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au bout du 10ème essai, vous avez perdu 10 fois de suite, vous décider d’arrêter de jouer, • la probabilité que la pièce ne soit pas faussée (que l’hypothèse nulle soit vraie) est trop faible : vous rejetez cette hypothèse et acceptez l’hypothèse alternative H1 (la pièce est faussée) • vous prenez le risque de vous fâcher avec votre ami (le risque de se fâcher alors que la pièce était en réalité normale est devenu beaucoup trop faible). Il y a un seuil à partir duquel, on décide de rejeter l’hypothèse nulle

  48. Exemple d’utilisation d’un test Principe général des tests de comparaison : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard 2éme Exemple : La prévalence du diabète est-elle supérieure chez les sujets en surcharge pondérale par rapport aux sujets de poids normal ?  Sondage dans la population cible pour obtenir un échantillon représentatif.

  49. Hypothèse nulle H0 : La prévalence du diabète dans la population cible est identique parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1 = P0 ou D = P1 – P0 = 0 Hypothèse alternative H1 : La prévalence du diabète dans la population cible est différente parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1  P0 ou D = P1 – P0  0

More Related