Initiation Ã la recherche clinique et Ã©pidÃ©miologique (Les diffÃ©rents types dâ€™enquÃªte)

Initiation à la recherche clinique et épidémiologique (Les différents types d’enquête) Initiation à l’analyse de données (Comment présenter les données ?) (Pourquoi a-t-on besoin des tests ?) Dr Benoît Lepage (lepage@cict.fr), Dr Vanina Bongard (bongard@cict.fr) Département d’Epidémiologie, Economie de la Santé et Santé Publique Université Toulouse III – Paul Sabatier Master de Santé Publique, Toulouse III

Les outils statistiques • Description de données • Sondages, échantillons, inférence • Estimations • Tests • Les principaux types d’enquêtes • Essais cliniques • transversales • Cohortes • Cas témoins

I. Outils statistiques Comment présenter les données ? • Unités statistiques :éléments faisant l’objet de l’étude : personnes, temps de mesures, département, … • Variables statistiques : • Paramètre pouvant prendre différentes valeurs d’une unité statistique à l’autre • variable qualitative = variable catégorielle • variable qualitative nominale (sans relation d’ordre) • variable qualitative ordonnée (relation d’ordre) • Variable quantitative • variable quantitative discontinue = discrète • variable quantitative continue

a. Représentation synthétique d’une variable qualitative • Tableaux de fréquence • Fréquence absolue : nombre de cas • Fréquence relative : pourcentage Variable booléenne, dichotomique, binaire, à 2 modalités N = 150 Sexe, n (%) hommes femmes Tabagisme, n (%) non fumeurs anciens fumeurs fumeurs 80 (53,3 %) 70 (46,7 %) 77 (51,3 %) 28 (18,7 %) 45 (30,0 %)

Graphiques => faire ressortir une vision synthétique (mais souvent moins précise que les tableaux) • Diagrammes en secteurs

Diagrammes en barres

b. De la variable qualitative à la variable quantitative • Histogrammes (variables discrètes)

Histogrammes 70 80 90 100 110 120 130 140 150 160 170 180 190

Courbes de distribution 40 30 20 10 0 70 90 110 130 140 160

c. Représentation synthétique d’une variable quantitative • 1. Paramètres de positionou de tendance centrale • moyenne arithmétique et géométrique • médiane • mode • 2. Paramètres de dispersion • variance • écart type, erreur standard • quantiles • intervalle interquartile • Extrêmes, étendue DISPERSION POSITION

1. Paramètres de position • Moyenne arithmétique Nb de cas Nb de cas   Distribution gaussienne: Distribution non gaussienne: La moyenne correspond aux valeurs les plus fréquentes La moyenne ne correspond pas aux valeurs les plus fréquentes bon indicateur de tendance centrale mauvais indicateur de tendance centrale

1. Paramètres de position • Médiane : plus adaptée si distribution asymétrique • Valeur centrale séparant l’échantillon en deux moitiés • 50 % des valeurs sont au dessus • 50 % des valeurs sont en dessous • rang de la médiane : • (n + 1) / 2 si n est pair • n/2 si n est impair • Mode • Valeur la plus représentée (variables quantitatives discrètes +)

Exemple médiane (1) • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • Moyenne de la 40ème et 41ème valeur • Médiane = (73+74)/2 = 73,5 kg • (ne nécessite pas de connaître toutes les valeurs)

Exemple médiane (2) • Une série de 7 sujets : • 45 50 55 58 60 63 64 • Ici, n est impair, la médiane est la valeur de rang (n+1)/2 • = la valeur de rang 4 • La médiane est 58

 Dispersion 

 n 1 n i = 1 • Variance 2 (X i - ) 2 = • La variance est la moyenne des carrés des écarts des valeurs par rapport à la moyenne. • L’unité de la variance est l’unité de la variable étudiée au carré. • Ecart Type, déviation standard, SD • L’unité de l’écart type est identique à l’unité de la variable étudiée.  =   2

Si une variable suitune distribution normale : - 2DS - 1DS + 1DS + 2DS 68% 95% Moy ± 1ET contient 68% des observations Moy ± 2ET contient 95% des observations Moy ± 3ET contient 99% des observations

Quantiles • (k – 1) valeurs séparant l’échantillon en k zones comportant le même nombre d’observations • k = 3 : tertiles • k = 4 : quartiles • k = 10 : déciles • k = 100 : centiles ou percentiles • Un intervalle entre deux quantiles correspond à un intervalle interquantile

Exemple : quartiles • Poids en Kg d’une série de 80 sujets (après classement par ordre croissant) • 45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68 • 70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73 • 74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77 • 77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86 • 1er quartile = (¼,¾) = 69 kg • 2ème quartile = Médiane = 73,5 kg • 3ème quartile = (¾,¼) = 77 kg

Notion d’inférence = tirer une conclusion au niveau d’une population inaccessible à partir d’observations faites sur un échantillon • Population cible : ensemble des individus auxquels on s’intéresse • Population source : ensemble des individus à partir desquels on effectue le tirage au sort • Echantillon : ensemble des individus effectivement étudiés

Un sondage est un procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette observation des informations sur la population entière. Population source représentative de la population cible N sujets Echantillon n sujets n < N

Fluctuations d’échantillonnage Malade Non malade

AVANTAGES d’un sondage : Le sondage est plus rapide, moins cher et plus facilement réalisable qu’une enquête exhaustive sur la population cible. INCONVENIENT d’un sondage : Incertitude de l’extrapolation à la population cible des observations faites sur l’échantillon. CONTRAINTES d’un sondage : L’échantillon doit être représentatif de la population cible. L’échantillon doit être composé d’unités statistiques en nombre suffisant.

Il faut bien distinguer un biais des fluctuations normales d’échantillonnage erreur aléatoire erreur systématique Estimation biaisée Conduit à définir un intervalle de confiance du paramètre à estimer

Déformation des faits due au hasard de l’échantillonnage : erreur non systématique due au hasard (fluctuations d’échantillonnage ) Estimation précise et non biaisée Estimation peu précise mais non biaisée Déformation des faits due à un biais : erreur systématique allant toujours dans le même sens (biais) Estimation précise mais biaisée Estimation peu précise et biaisée Biais et erreurs aléatoires

Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon

Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population

Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif

Estimation : Définition (1) • Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon • Valeur observée  valeur inconnue de la population • Valeur observée proche de la valeur inconnue si échantillon représentatif • En répétant l’échantillonnage, autres valeurs proches les unes des autres

Estimation : Définition (2) Valeur observée(échantillon) Valeur exacte(population générale) • Incapable de connaître la vraie valeur !!! • Objectif de l’estimation en statistique => calculer des bornes où se trouve la valeur inconnue du paramètre (avec une confiance suffisamment grande) = Intervalle de confiance +++

Estimation d’une moyenne inconnue (1) • On sait calculer la moyenne observée d’une variable quantitative sur un échantillon • Problème: Estimer la moyenne inconnue de la population d’où est extrait l’échantillon

Estimation d’une moyenne inconnue (2) • Utiliser un échantillon représentatif de la population (obtenu par tirage aléatoire) • Estimation de  à partir de l ’échantillon 1 : •  est estimée par m1 = (xi) / n1 • où xi = {x1, x2, … , xn1} les n1 valeurs de X dans l ’échantillon 1 • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ?

Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée   inconnue • Mais à quelle distance, de quel côté de  ?

Estimation d’une moyenne inconnue (2) • Échantillon représentatif de la population (obtenu par tirage aléatoire) • m1 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 2ème échantillon (par tirage aléatoire) • m2 proche de m1 • m2 observée   inconnue • Mais à quelle distance, de quel côté de  ? • 3ème échantillon : idem...

Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale

Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon

Estimation d’une moyenne inconnue (3) • Si on dispose de la totalité des échantillons possibles tirés de la population générale • On obtiendrait une moyenne m pour chaque échantillon Fluctuations d’échantillonnage de la moyenne

Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue  est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre Fluctuations d’échantillonnage de l’estimation de la moyenne Distribution de la variable X dans la population Distribution des moyennes de X dans chaque échantillon

Estimation d’une moyenne inconnue (3) • L’estimation m de la moyenne inconnue  est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre On peut estimer la moyennede l’estimation de la moyenne Et la variance de l’estimationde la moyenne Distribution de la variable X dans la population

Estimation d’une moyenne inconnue (4) Dans un échantillon,on sait calculer un intervalle de confiance à 95% m1 m2 m3 m4 m5 m6 m7 m8 m9 … mk Si on calcule l’intervalle de confiance auprès d’un très grand nombre d’échantillons, la vraie moyenne  de la population est comprise dans 95 % des intervalles de confiance Moyenne de la population

Intérêt des tests • Les tests servent à extrapoler les résultats observés sur des échantillons à l’ensemble des populations dont ils sont issus +++ • Échantillon : image ponctuelle • Intérêt majeur des tests : • Économie de moyens +++ • En permettant de déceler des différences sur un nombre réduit d’observations

Principe des tests de comparaison • Principe général : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard • 2 hypothèses sont posées : • Hypothèse nulle = « il n’y a pas de différence » • Hypothèse alternative = « il y a une différence » (dans la population à laquelle on veut généraliser le résultat)

Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Hypothèse nulle H0 : la pièce n’est pas faussée, et j’ai une chance sur deux de gagner P(joueur 1 gagne) = P(joueur 2 gagne) • Hypothèse alternative H1 : la pièce est faussée, un des joueurs à une probabilité plus élevée de gagner que l’autre joueur : P(joueur 1 gagne)  P(joueur 2 gagne)

Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au premier essai, vous perdez • Vous pensez que vous n’avez pas eu de chance cette fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Au deuxième essai, vous perdez à nouveau • Vous pensez que vous n’avez vraiment pas de chance, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise. • Vous continuez à jouer, vous perdez 5 fois de suite. • Vous commencez à avoir de sérieux doute et à remettre en cause la validité de l’hypothèse nulle selon laquelle la pièce n’est pas faussée

Principe des tests de comparaison • Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce. • Au bout du 10ème essai, vous avez perdu 10 fois de suite, vous décider d’arrêter de jouer, • la probabilité que la pièce ne soit pas faussée (que l’hypothèse nulle soit vraie) est trop faible : vous rejetez cette hypothèse et acceptez l’hypothèse alternative H1 (la pièce est faussée) • vous prenez le risque de vous fâcher avec votre ami (le risque de se fâcher alors que la pièce était en réalité normale est devenu beaucoup trop faible). Il y a un seuil à partir duquel, on décide de rejeter l’hypothèse nulle

Exemple d’utilisation d’un test Principe général des tests de comparaison : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard 2éme Exemple : La prévalence du diabète est-elle supérieure chez les sujets en surcharge pondérale par rapport aux sujets de poids normal ?  Sondage dans la population cible pour obtenir un échantillon représentatif.

Hypothèse nulle H0 : La prévalence du diabète dans la population cible est identique parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1 = P0 ou D = P1 – P0 = 0 Hypothèse alternative H1 : La prévalence du diabète dans la population cible est différente parmi les sujets de poids normal et parmi les sujets en surcharge pondérale. P1  P0 ou D = P1 – P0  0

Initiation Ã la recherche clinique et Ã©pidÃ©miologique (Les diffÃ©rents types dâ€™enquÃªte)

Initiation Ã la recherche clinique et Ã©pidÃ©miologique (Les diffÃ©rents types dâ€™enquÃªte)

Presentation Transcript

diff rents types de morph mes crit res de classification

Raisonnement et D marche clinique

Ethique et recherche clinique

RECHERCHE DOCUMENTAIRE ET RECHERCHE D INFORMATION

Les diff rents principes analytiques en NFS

Les diff rents moyens de paiement

ETHIQUE ET RECHERCHE CLINIQUE

La recherche d information sur les entreprises

D X Expertise Les diff rences qui font la diff rence

Les diff rentes m thodes d chantillonnage

La recherche d informations sur les entreprises

La Recherche Clinique en 2010

S ance 2 La recherche qualitative et l enqu te

Enqu te sur la sant dans les collectivit s canadiennes

L tude pid miologique de la BPCO

La pr cision des estimations issues de l enqu te, comparaison de diff rents modes de calcul

pid miologie M thodologie de la recherche clinique: tudes pronostiques

Etude pid miologique

Les diff rents paradigmes d enseignement et d apprentissage

D X Expertise Les diff rences qui font la diff rence

Initiation la composition d histoire et de g ographie

Les NTIC dans les diff rentes formes d enseignement