Guide pratique d'échantillonnage pour les évaluations d'impact

Matthias Rieger Graduate Institute, Geneva World Bank Guide pratique d'échantillonnagepour les évaluationsd'impact

Introduction • Comment construire un échantillon permettant de détecter de manière crédible un effet significatif ? • Quels groupes ou quelle population nous intéressent et où les trouver ? • Combien de communes, villages, ménages et personnesfaut-il interviewer/observer dans cette population ? • Quelles en sont les conséquences sur le budget de l'évaluation ? • Attention ! • Cette présentation n'a pas la prétention de faire de vous un expert en échantillonnage • Elle ne cherche pas non plus à vouscompliquer la vie! • Il s'agitplutôt de répondre à la question générale : Comment les composantes de l'échantillonnage affectent-elles cequ’une évaluation d'impactpeut nous apprendre?

Plan de présentation • Cadre d'échantillonnage • Quels groupes ou quelles populations nous intéressent ? • Comment les trouve-t-on ? • Taille de l'échantillon • Pourquoi est-ce si important : crédibilité des résultats • Déterminants de la tailleadéquate d’un échantillon • Autres questions • Exemples • Budgets

Cadre d'échantillonnage • Qui nous intéresse ? • Communes/quartiers (fonctionnaires des communes) • Villages (chefs des villages) • Ménages (chefs des ménages) • Individus • Enfants, femmes • Garder à l'esprit la validité externe • Les conclusions tirées d'une population peuvent-elles être utiles pour préparer des mesures à portée nationale ? • Il faut aussi garder à l'esprit la faisabilité et ce que vous voulez apprendre • Il peut ne pas être possible ou souhaitable de piloter un programme ou une politique dont le champ d’applicationest extrêmement large

Cadre d'échantillonnage : Déterminerquellessont les unités qui nous intéressent • Fonction de la taille et du type d'expérience • Sélection aléatoire parmi les candidats • Exemple : Programme de dévelopmentcommunautaire (CDD) dans 100 communes rurales d’un pays. Choixaléatoire de 50 communes qui recevront le traitement • Possibilité d'utiliser des unités de traitement et de comparaison à partir du pool de communes • Villages/ménages: Il fautprendre un échantillon pour mesurer l'impact • Changement de politique • Exemple : un changement du montant de la taxe de marchédans un échantillonaléatoire de communes rurales • Pour mesurerl'impactsur les marchands, on ne peut pas échantillonnertous les marchands du marchédans les communes de traitement et dans les communes de comparaison • Il faudraprendre un échantillon de marchands au sein des communes • Informations nécessaires avant de prendre un échantillon • Une liste exhaustive de toutes les unités d'observation disponibles pour l'échantillonnage dans chaque zone ou chaquegroupe (liste des communes, villages et ménages)

Plan de présentation • Cadre d'échantillonnage • Quels groupes ou quelles populations nous intéressent ? • Comment les trouve-t-on ? • Taille de l'échantillon • Pourquoi est-ce si important : crédibilité des résultats • Déterminants de la tailleadéquate d’un échantillon • Autres questions • Exemples • Budgets

Taille de l'échantillon et crédibilité des résultats • Commencer par une question plus simple que l'impact du programme • Si par exemple nous voulons savoir quel est la moyenne de revenuagricole des ménages pour évaluer un programmed’engraismodernes… • Option 1 : Nous interrogeonscinq ménages et nous utilisons la moyenne de leursréponses • Option 2 : Nous interrogeons 1000 ménages et nous utilisons la moyenne de leursréponses • Quelle sera la moyenne la plus proche de la vraie moyenne ?

1 000 Ménages Taille de l'échantillon et crédibilité des résultats • Cinq Ménages

Taille de l'échantillon et crédibilité des résultats • De manière similaire, quand on détermine l'impact du programme… • Il faut de nombreuses observations pour pouvoir dire avec certitude que le résultat moyen du groupe de traitement est plus/moins élevé que celui du groupe de comparaison • Qu’entend-on par certitude? • Réduire au minimum l'erreur statistique

Taille de l'échantillon et certitude • Erreur de Type 1 : Trouver un impact du programme quand il n'y en a pas • L'erreur peut être minimisée après la collecte des données, au cours de l'analyse statistique • Besoin d'ajuster les niveaux de significativité des estimations d'impact (par ex. intervalles de confiance à 99 % ou 95 %) • Erreur de Type 2 : Ne pas pouvoir détecter un effet alors qu’il y en a un • En jargon statistique: la puissance du test est faible • Il faut minimiser l'erreur avant la collecte des données • Meilleur moyen d'y parvenir : s'assurer que vous disposez d'un échantillon suffisamment important • Tout l'intérêt d'une évaluation d'impact est d'en apprendre quelque chose • Ex ante (a priori) : Nous ne savons pas quelle est l'importance de l'impact de ce programme • Faible puissance ex-post (a posteriori) : Ce programme pourrait avoir fait progresser les revenus agricoles des ménages de 50%, mais nous ne pouvons pas distinguer avec certitude une augmentation de 50% d'une augmentation nulle

Calcul de la taille de l'échantillon • En fait, il existe une formule… • L'essentiel de ce qu'il faut avoir à l'esprit : • Taille de l'effet détectable • Probabilité d'erreurs de type 1 et 2 • Variance du/des résultat(s) • Unités (communes/villages/ménages) par zone traitée

Calcul de la taille de l'échantillon • Taille de l'effet détectable • L'effet minimal recherché pour faire la distinction par rapport à zéro • Une augmentation des revenus agricoles de 20 %, une amélioration de la santé des enfants (poids et taille-âge) de 10 % • Échantillons plus larges  des effets moindres sont plus faciles à détecter

Calcul de la taille de l'échantillon • Comment choisir la taille de l'effet détectable • L'effet minimal incitant la réponsed’une intervention publique • L'effet minimal qui vous permettra de dire qu'un programme n'a pas été un échec • Ce programme a fait progresser de manièresignificative le poids/âge des enfants de 10 % • Génial - voyons comment nous pouvons répliquer ceci à plus grandeéchelle • Ce programme a fait progresser de manièresignificative le poids/âge de 2 % • Génial...euh... voyons-voir : on a dépensé tout ça pour ne faire progresser les ventesque de sipeu?

Calcul de la taille de l'échantillon • Erreurs de Type 1 et Type 2 • Type 1 • Niveau de significativité des estimations fixé généralement à 1 % ou 5 % • Probabilité de 1 % ou 5 % qu'il n'y ait pas d'effet, mais nous en trouvons un • Type 2 • Puissance généralement fixée à 80 % ou 90 % • Probabilité de 20 % ou 10 % qu'il y ait un effet mais nous ne pouvons pas le détecter • Échantillons plus larges  puissance plus grande

Calcul de la taille de l'échantillon • Variance des résultats • Moins de variabilité sous-jacente  différences plus faciles à détecter  possibilité d’avoir un plus petit échantillon

Calcul de la taille de l'échantillon • Variance des résultats • Comment la connaître avant de décider de la taille de l'échantillon et avant de collecternos données ? • Idéalement, donnéespréexistantes • Souvent...inexistantes • Possibilité d'utiliser des données préexistantes provenant d'une population similaire • Exemples : Enquêtes des ménages/communes/villages • Relève plus de l’expérienceque des sciences exactes

Autres questions • Groupes de traitement multiples • Résultats désagrégés par groupe • Participation • Qualité des données

Autres questions • Groupes de traitement multiples • Simplicité de la comparaison de chaque traitement séparément au groupe de comparaison • Il faut de très grands échantillons pour comparer les groupes de traitement • Notamment si les traitements sont très similaires, les différences entre les groupes de traitement seront moindres • En fait, c'est comme si l'onfixait une taille d'effet détectable très petite • Résultats désagrégés par groupe • Les effets diffèrent-ils entre hommes et femmes ? Pour les différentssecteursd’emploi du ménage ? • Si les genres/secteurs ont tendance à réagir de manière similaire, il faudra aussi des échantillons très larges pour estimer les différences d'impact du traitement

Autres questions • Résultats désagrégés par groupe • Pour assurer un équilibre entre les groupes de traitement et les groupes de comparaison, il est recommandé de diviser l'échantillon en strates avant l'assignation du traitement • Strates • Sous-populations • Stratescourantes: espacesgéographiques, sexe, secteurs, valeurs initiales de la variable de résultat • L'assignation au traitement (ou l'échantillonnage) se déroule au sein de ces groupes

Pourquoi faut-il des strates ? • Un exemple géographique • Quel est l'impact dans une région particulière ? • Parfois difficile à déterminer avec certitude • = T • = C

Pourquoi faut-il des strates ? • Assignation aléatoire à un traitement au sein d' unités géographiques • Dans chaque unité, une moitié sera du groupe de traitement, l’autre du groupe de comparaison. • Même logique pour sexe, métier, taille de communes, etc.

Autres questions • Participation • Une faible participation augmente la taille de l'effet détectable • Un effet ne se détecte que s'il est vraiment important • Réduit efficacement la taille de l'échantillon • Exemple : Offred’engraismodernes aux ménages agricoles • Offre à 5 000 ménages • 50 utilisent les engraismodernes • C’estseulementdans les casoùces ménages auraient des énormes augmentations de revenus après l’interventionquel’onpourra dire avec certitude qu'il y a un effet sur les revenusagricoles

Autres questions • Qualité des données • Des données de qualité médiocre augmentent sensiblement la taille requise de l'échantillon • Observations manquantes • Bruit accru • Peut être en parti résolu avec le coordonnateur de terrain dans le suivi de la collecte des données sur le terrain

Un exemplefictif • Les calculs peuvent être faits à l'aide de nombreux logiciels de statistiques - par exemple STATA, OD ou R-Cran • Exemplefictif: Programme de DévelopmentAgricolevisant à accroître les revenusagricoles des ménages avec des engraismodernes • Revenuagricole par mois d’un ménage, valeur de référence • 50$ par mois • Données sur les revenusgénéralement bruitées, donc un coefficient de variation > 1 estfréquent • Exemple de code STATA pour détecter une augmentation de 10% des revenus 50$ -> 55$ : • sampsi 50 55, p(0,8) pre(1) post(1) r1(0,5) sd1(50) sd2(50) • Disponibilité de données de référence et de suivi aide à réduire la taillenécessaire pour l’échantillon (pré et post) • Résultats • Augmentation de 10% (de 50 à 55) : 1 178 ménages de chaque groupe • Augmentation de 20% (de 50 à 60) : 295 ménages de chaquegroupe • Augmentation de 50% (de 50 à 75) : 48 ménages de chaque groupe (mais cette taille d'effet n'est pas réaliste)

En bref • Cadre d'échantillonnage • Quels groupes ou quelles populations nous intéressent ? • Comment les trouve-t-on ? • Taille de l'échantillon • Pourquoi est-ce si important : crédibilité des résultats • Déterminants de la tailleadéquate d’un échantillon • Autres questions • Exemples • Budgets

Budgets • Que faut-il prévoir ? • Formation des enquêteurs • Pré-test/Pilotage • Collecte des données • Société de sondages • Saisie des données • Coordonnateur de terrain pour assurer que le traitementsuive le protocole de randomisation et pour surveiller la collecte des données • Analyse des données

Budgets • Combien tout ceci va-t-il coûter ? • Un éventail de coûts très large. Souvent fonction de… • La durée de l'enquête • La distribution spatiale des personnes à interroger • Les problèmes de sécurité • Matériel, prix de location des voitures, prix de l‘essence • Capital humain requis par l'énumérateur • Etc. • Données d'enquête sur les ménages: 40$+/ménage • Coordonnateur de terrain: 800$-4000$/mois • Varie en fonction des possibilités de recrutement sur place

Synthèse • La taille de l'échantillon de votre évaluation d'impact déterminera la quantitéd'information que vous pourrez tirer de votre expérience • Les calculs supposent une dose de jugement et de supposition mais il est important d'y consacrer du temps • Si la taille de l'échantillon est trop faible : perte de temps et d'argent car vous ne pourrez pas détecter un impact non nul avec certitude • Si la conception de l'échantillon et la collecte des donnéessont réalisées avec peu d'efforts : voir ci-dessus • Questions ?

Guide pratique d'échantillonnage pour les évaluations d'impact