Thème : METHODES D’EVALUATION DES PROGRAMMES DE DEVELOPPEMENT 9-10 septembre 2009, Grand-Bassam

Cellule d’Analyse de Politiques Economiques du CIRES ATELIER DE FORMATION DES RESPONSABLES DE LA PROGRAMMATION ET DU SUIVI ET EVALUATION DES ADMINISTRATIONS PUBLIQUES ET PRIVEES Thème : METHODES D’EVALUATION DES PROGRAMMES DE DEVELOPPEMENT 9-10 septembre 2009, Grand-Bassam Dr. Alban A. E. AHOURE Dr. Wautabouna OUATTARA

Lecture 0:Contexte, Objectifs et Résultats Attendus • Contexte et Justification Rareté des ressources nationales/ internationales affectées aux programmes de développement. Orienter celles-ci vers des projets ayant un impact réel sur les populations DSRP/PPTE  Gestion Par les Résultats Comment Évaluer les Résultats / L’Impact ?

Objectifs Développement des connaissances sur les méthodes d’évaluation des programmes de Developpement • Favoriser la compréhension des méthodes d’évaluation des projets de développement par les participants. • Permettre aux participants de maîtriser les méthodes d’évaluation apprises. • Permettre aux participants d’analyser ces méthodes, de dégager celles applicables aux projets dans leur institution et de savoir les utiliser. 3

Résultats attendus • Les principes de base des Méthodes d’Évaluation des Programmes de Développement sont maîtrisés. • Les processus d’évaluation des programmes sont connus et maîtrisés. • Les participants sont en mesure d’évaluer les programmes de développement dans leurs structures respectives à partir méthodes apprises. 4

LECTURE 1 LA PROBLEMATIQUE DE L’EVALUATION DES POLITIQUES DE DEVELOPPEMENT

PLAN I. SUIVI ET EVALUATION DES PROJETS : Cadre Conceptuel II. CONTEXTE III. LES DEUX APPROCHES METHODOLOGIQUES IV. QUELQUES NOTIONS SUR LES METHODES V. REVUE DE TRAVAUX EMPIRIQUES DANS LES PVD

I. SUIVI ET EVALUATION DES PROJETS : Cadre Conceptuel

II. CONTEXTE Demande croissante de preuves concernant les politiques de développement mises en œuvre : Ces politiques ont-elles les effets attendus ? Les effets sont-ils significatifs ? Domaines très variés : programme de bien-être, programmes de formation, programmes de subvention des salaires, programme de nutrition, programmes d’éducation, etc.

A. REPONSES QUALITATIVES INSUFFISANTES • Etudes sur documents, revues, interviews, données secondaires, etc. • Etablir les inférences causales sur la base de processus (A  B  C). • Limites : Subjectivité dans la collecte des données, l’absence de groupe de comparaison et absence de robustesse statistique.

B. QUESTIONS SOULEVEES Quelle serait la situation des individus participant à un programme en l’absence du programme ? Quelle serait la situation des non exposés au programme s’ils en étaient bénéficiaires ?  Ces deux questions ont un point commun : l’absence d’un don d’ubiquité. En d’autres termes, on ne peut à une date t, participer et ne pas participer au programme. Si existence d’informations sur les situations où le même individu à la fois participe et ne participe pas à un programme  pas de problème pour l’évaluation.  Besoin d’un contrefactuel

C. POURQUOI AVONS-NOUS BESOIN D’UN CONTREFACTUEL ? Changement dans le Résultat = Dû au Projet + Dû aux Autres Facteurs (environnementaux, personnels) • Comparer les mêmes individus avant et après le projet  ne contrôle pas pour les effets environnementaux. Impossibilité d’isoler les effets imputables à des facteurs exogènes au programme. • Comparer seulement des individus similaires mais non identiques au temps t  ne contrôle pas pour les différences personnelles • Contrefactuel: contrôle à la fois pour les facteurs environnementaux et personnels. Toutes les évaluations quantitatives d’impact se résument en la construction d’un groupe contrefactuel crédible.

III. LES DEUX APPROCHES METHODOLOGIQUES Les Méthodes Expérimentales : construisent le contrefactuel par assignation randomisée d’un groupe de participants au projet (le groupe de traitement) et d’un groupe de non- participants (groupe témoin). Les Méthodes Non Expérimentales : obtiennent le contrefactuel par des techniques statistiques (Score de Propension et Appariement, Doubles Différences, Variables Instrumentales, Regression Discontinuity Design).  Différent dans la manière de construire le contrefactuel.

IV. QUELQUES NOTIONS SUR LES METHODES • Les expérimentations contrôlées • Elles ont débuté aux USA mais se sont étendues aux pays en développement. • Pour évaluer un projet: expérimentation contrôlée fondée sur le principe de l’assignation aléatoire à un groupe de traitement et à un groupe de contrôle • Le groupe de contrôle et le groupe de traitement sont en principe identiques. • Seule la différence de traitement expliquerait les évolutions ultérieures des deux groupes.

L’objectif : Mettre en application un programme pour construire des conditions où les bénéficiaires sont entièrement comparables aux non bénéficiaires. Les méthodes expérimentales d’évaluation Les méthodes d’expérimentation contrôlée Proche de l’approche clinique. Repose sur la règle de l’assignation aléatoire. Loterie, Phase-in, Encouragement Les méthodes d’expérimentation naturelle Exploitent l’assignation aux programmes grâce à un évènement naturel survenu indépendamment du chercheur.

Portée et limites de l’approche expérimentale • Elle exerce un grand attrait : application transparente  grande qualité du contrefactuel, principe simple: nécessite un petit échantillon. Intègre l’implémentation à l’évaluation. • MAIS : • Les expériences contrôlées ne s’appliquent pas à tous les projets  raisons d’ordre éthique, d’ordre pratique : politique expérimentée souvent à une échelle réduite ; il est impossible alors d’extrapoler. • La validité interne est fonction de la conception et de l’implémentation: problèmes d’attrition (des individus disparaissent de l’échantillon), spillover, contamination, biais de randomisation.

B. Les évaluations quasi expérimentales Beaucoup de projets sont mis en œuvre sans un dispositif explicite d’évaluation d’impact. Malgré tout, on veut savoir s’ils ont bien fonctionné : quelle est l’ampleur de leur effet sur les bénéficiaires. L’approche consiste à construire un groupe témoin dont les caractéristiques sont aussi comparables que celles du groupe des bénéficiaires de l’intervention. Comment construire le groupe contrefactuel? Méthodes: Score de Propension et Appariement, Doubles Différences, Variables Instrumentales, Regression Discontinuity Design.

Les Méthodes d’évaluation expérimentales Les méthodes dites de « Discontinuity Design », Tirent profit des “discontinuités naturelles” dans la règle d’assignation des individus au traitement. Les méthodes d’appariement(matching) Cherchent à reproduire le groupe de traitement parmi les non bénéficiaires afin de reconstituer les conditions d’un cadre expérimental, et cela en s’appuyant sur les variables observables. Les méthodes de variables instrumentales Plus proches de celles de l’approche structurelle. Reposent sur des restrictions d’exclusion pour parvenir à l’identification. Le choix des paramètres d’intérêt dépend de l’environnement particulier dans lequel la politique est mise en œuvre. Les méthodes de fonction de contrôle Ces méthodes sont plus proches de celles de l’économétrie. Modélisent directement la règle d’assignation afin de contrôler la sélection dans les données d’observation .

Portée et Limites des Méthodes Non- Expérimentales • Pratiques  applicables à presque tous les types d’intervention et peuvent quelque fois être appliquées de façon rétrospective. MAIS • Peuvent entraîner des biais dûs à la sélection des échantillons (pas de contrôle parfait) et/ou à la spécification des modèles. • Peuvent comprendre des données très intensives  nécessitant des calculs compliqués.

V. Revue de travaux empiriques dans les PVD • (1) La nature de l’intervention. • -Transferts d’argent aux ménages en contrepartie d’obligations en matière d’éducation et de santé de leurs enfants: programme PROGRESA au Mexique, ou les travaux relatifs à l’Afrique du Sud (Aguiro, Carter et Woohard, 2007) ; • Programme de petit déjeuner exécuté dans les écoles rurales (Cueto etalii., 2000) ; • - Un paquet sanitaire offert sous la forme d’un déparasitage intestinal (Miguel et Kremer, 2004) ; • - Programmes de subvention d’écoles pour la scolarisation des enfants (Behrman & al., 2005).

(2) Lespopulations cibles sont variées: exemple les enfants de moins d’un an à 14 ans en milieu rural ou les parents comme dans le cas des programmes de transfert d’argent en Amérique latine ou en Afrique du Sud. (3) Deux stratégies d’échantillonnage: La sélection randomisée des participants et non participants lorsqu’il s’agit d’une expérimentation contrôlée, L’utilisation d’autres méthodes pour construire des groupes de contrôle lorsqu’on n’a pu en disposer avant le démarrage du programme.

(4)La taille de l’échantillon. Elle est souvent faible dans les études expérimentales, même dans les pays développés, par exemple, moins de 150 individus, dans la plupart des études sur l’éducation préscolaire qui ont été menées aux Etats-Unis (Behrman, Cheng, Todd, 2005). Cependant, des échantillons de grande taille sont parfois utilisés comme l’ont fait Chen, Mu et Ravaillion (2006) pour l’évaluation d’un programme de réduction de la pauvreté dans le sud ouest de la Chine (plus de 2000 bénéficiaires et non bénéficiaires). Behrman, Sengupta et Todd (2005), recourant à des données du programme PROGRESA au Mexique, ont construit un échantillon de 30 000 enfants pour étudier l’impact, sur leurs performances scolaires, des transferts d’argent dont leurs ménages ont bénéficié.

(5) Ladurée d’expositiondes bénéficiaires au traitement. • Elle peut être d’un an (Miguel, Kremer, 2004 ; Behrman, Sengupta et Todd, 2005), d’autres peuvent dépasser 10 ans (Chen, Mu et Ravaillion, 2006). • (6) les effets attendus: même si le paquet de traitement est le même (par exemple, repas chauds ou déparasitage), les études ne mettent pas toujours l’accent sur. • (7) Les indicateurs de performance: une grande variabilité. • Certains insistent sur les impacts relatifs au statut nutritionnel mesuré par des indicateurs anthropométriques (poids-âge, taille-âge, ou taille-poids), d’autres s’intéressent à l’état sanitaire (Huerta, 2006) ou à l’éducation (Newman et al.,1994).

(8)L’effet moyendu traitement ou soneffet marginal?. Effet Moyen: la valeur de la variable d’impact du groupe de traitement est comparée à celle du groupe de comparaison. Effet marginale: l’effet marginal du traitement est mesuré, soit par la différence entre les effets moyens estimés à deux dates différentes, soit en comparant les valeurs prises par la variable d’impact pour des groupes de participants qui différent par leur durée d’exposition au traitement.

(9)Les méthodes utilisées:Les différences dans les stratégies d’échantillonnage et les types d’effets à mesurer  une grande diversité : Certains travaux comparent les effets du groupe de traitement à ceux d’un groupe de contrôle en recourant à des techniques du traitement binaire comme les doubles différences ou les modèles de choix discret (Essama, 2006 ; Maluccio, Flores, 2005) D’autres recourent à des méthodes qui permettent de se passer de l’existence d’un groupe de contrôle et se concentrent sur le groupe de traitement (Imbens, 2004 ; Aguiro, Carter et Woohard, 2007).

(10) Quelques Résultats La plupart des travaux reportent des effets positifs des programmes sur la nutrition et le statut sanitaire. Miguel et Kremer (2004) ont évalué un projet kényan dans lequel un traitement de déparasitage de masse a été appliqué, par phases, à des élèves d’écoles choisies de manière randomisée. Le programme a enregistré une réduction de l’absentéisme d’un quart et stimulé la participation. QU’EST-CE QUE LA RANDOMISATION? QUELLES EN SONT LES PRINCIPES? POURQUOI CETTE METHODE CONNAIT-T-ELLE UN GRAND INTERET AUPRES DES ECONOMISTES DU DEVELOPPEMENT, AUJOURD’HUI?

Je Vous Remercie Pour Votre Attention

Atelier de formation des responsables de la programmation et du suivi et évaluation des administrations publiques et privées Lecture 2 : LA RANDOMISATION Dr. Wautabouna OUATTARA 9 septembre 2009, Grand-Bassam Cellule d’Analyse de Politiques Economiques du CIRES

REFERENCES Duflo, Esther, Rachel Glennerster, Michael Kremer (2008), “Using randomization in development economics research: a toolkit”, In Handbook of Development Economics, Volume 4, ed. T. Paul Schultz and John Strauss, 3895–3962. Amsterdam and Oxford: Elsevier, North-Holland. Imbens, Guido and Jeffrey Wooldridge (2009), “Recent developments in the econometrics of program evaluations”, JEL, 47(1), 5-86. Abadie, Alberto (2005), “Semiparametric Difference-in-differences estimators”, Review of Economic Studies 72(1), 1-19. 28

PLAN DE LA LECTURE I°/ GENERALITES SUR LA RANDOMISATION 2°/ INTERET DU RECOURS A LA RANDOMISATION 3°/ FORMALISATION DE LA RANDOMISATION 4°/ DIFFERENTES FORMES DE LA RANDOMISATION 5°/ EXEMPLE PRATIQUE AVEC LES DOUBLES DIFFERENCES 6°/ CONCLUSION 29

1. GENERALITES SUR LA RANDOMISATION Depuis la fin des années 90, certains économistes du développement (notamment Michael Kremer, Esther Duflo, Abhijit Barnerjee…) ont développé des outils pour appréhender les faits des politiques économiques. Ils ont propulsé la théorie de la randomisation (évaluation aléatoire) et insistent sur les micro-projets comme stratégie de développement efficace quand on s'y prend rationnellement. 30

Shanta Devarajan : La randomisation (ou application par répartition aléatoire) des programmes d’aide est actuellement considérée comme la « règle d’or » permettant d’évaluer l’impact de chaque projet et de trouver les schémas d’intervention les plus efficaces possible. Esther Duflo : La randomisation est une méthode qui est utilisée pour essayer d’évaluer l’impact d’un programme ou d’un projet dans des domaines tels que l’éducation, la santé, la corruption, le crédit, etc., . Le principe général: s’approcher au mieux de la méthode de l’essai clinique. On compare des gens qui ont bénéficié d’un traitement et des gens qui n’en ont pas bénéficié. Cela suppose que les personnes dans l’échantillon d’étude ont des similitudes). 31

L’objectif de l’expérience randomisée • Travailler avec les partenaires de terrain (ONG, Gouvernements locaux, Compagnies privées etc.) qui veulent mettre en application un programme pour construire des conditions où ceux qui bénéficient du programme soient entièrement comparables à ceux qui n’en bénéficient pas dans un premier temps. • Exemple: Si un gouvernement a de quoi financer la construction de 100 écoles, on va choisir 200 villages au lieu de choisir les 100 qu’il aurait choisi de toute façon. Et après, on collecte des données sur les 200 depuis le début, ce qui permet de comparer par exemple la scolarisation des enfants sur les deux types de villages. Puis, en général, quand l’expérience est terminée, on construit des écoles partout. 32

LES RELATIONS DE CAUSALITE 1. Relation de causalité de nature déterministe En général, on parle d’une relation de causalité de nature déterministelorsque la présence de la cause implique l’effet et réciproquement, si on observe l’effet, la cause est présente au départ. Exemple:En supposant qu’une seule variable soit suffisante pour causer un phénomène, alors l’observation de cette caractéristique implique nécessairement le phénomène. D’autre part si on observe le phénomène chez un individu, alors celui-ci possède la caractéristique. Le lien entre la variable explicative et le phénomène apparaît comme un lien de causalité de nature déterministe. 33

2. Relation de causalité de nature probabiliste Si la cause est présente, l’effet suit avec une certaine probabilité. Réciproquement si on observe l’effet, la cause est présente au départ avec une certaine probabilité. Exemple. Le fait de recevoir une subvention pour un ménage, n’entraîne pas nécessairement la scolarisation des enfants en âge d’aller à l’école. Un ménage n’ayant pas reçu la subvention, par ailleurs, peut scolariser ses enfants. La liaison entre le facteur et son effet est souvent exprimée par des mesures statistiques d’association, comme la différence de probabilité de scolariser les enfants entre deux ménages ou l’écart moyen entre les mesures d’une certaine variable dans les deux groupes. 34

Toutefois, ces mesures n’indiquent pas nécessairement une relation de cause à effet. Elles peuvent seulement témoigner d’une relation statistique. Avant qu’une association observée entre une politique (ou un traitement)et un résultat ne soit déclarée causale, certaines précautions doivent être prisespour établir un tel jugement. En particulier, il faut s’assurer que les groupes soient comparables par rapport à toute caractéristique des sujets (âge, genre, etc.) qui peut influencer l’association. Seul le traitement doit faire la différence. 35

Objet: Relation causale des traitements Traitement: programme de bien-être, programmes de formation, transferts, dons, programme de nutrition, programmes d’éducation, etc. Traités vs Non Traités (groupe de contrôle) Expériences randomisées avec assignation aléatoire (indépendante des résultats et des variables) vs méthode post-évaluation à partir de données observationnelles. 2. INTERET DU RECOURS A LA RANDOMISATION 36

Problèmes de l’inférence causale Comparer le même individu dans deux situations différentes tandis qu’une seule est observable. Au cours du temps, les autres facteurs peuvent changer. Recourir à un groupe de comparaison, mais il peut exister des différences initiales (biais de sélection ou programme administré à un groupe particulier). La randomisation permet de corriger le biais de sélection. D’autres méthodes non expérimentales: contrôler les observables, Regression Discontinuity Design, Doubles-Différences, Effets Fixes. Pas de consensus sur la méthode la plus robuste. 37

: le résultat pour un individu i traité (exemple: recevoir des livres à l’école) : le résultat pour l’ individu i sans traitement : résultatmoyendu traitement sur les individus traités : résultat moyen de l’absence de traitement sur les individus non-traités (le groupe de comparaison). 3. FORMALISATION DE LA RANDOMISATION 38

Effet du Traitement et Biais de Sélection E[YiT-YiC|T]= Effet Moyen du Traitement sur les Traités C’est la différence entre le résultat réel des traités et le résultat potentiel des non-traités si le traitement a lieu. E[YiC|T]- E[YiC|C]= Biais de Sélection, la différence dans les résultats potentiels des non-traités s’ils avaient été traités et leurs résultats réels (en tant que groupe de comparaison). Problème: E[YiC|T] (résultat moyen du traitement sur les individus non-traités) n’est pas observable. D’où la nécessité de construire un factuel (groupe d’individus similaires qui ne reçoit pas le traitement. 39

Que Mesure l’Effet Total ou l’Effet Partiel ? Les résultats des évaluations randomisées donnent une forme réduite des impacts du traitement, c-à-d les effets totaux. Nous pouvons être intéressés par des effets partiels (ceteris paribus). Pour cela, nous avons besoin d’un modèle structurelle qui explique les différences entre les effets totaux et les effets partiels. Exemple : Si un enfant reçoit les livres scolaires, les parents peuvent accroître ou décroître l’offre domestique d’inputs éducationnels. Ce qui accroît ou décroît l’effet partiel du programme de dons de livres. 40

1. Méthode de loterie. Exemple : Crédit de consommation élargi en Afrique du Sud. Approbation aléatoire des demandes de prêts. Trois groupes: approbation totale, approbation partielle et rejet total. Cela n’est valable que pour un groupe marginal. 2. Randomisation ordonnée ou phase-in Exemple: Programme de déparasitage intestinal dans des écoles au Kenya. 75 premières écoles ont été sélectionnées de façon aléatoire en 1998-2002. 25 écoles sélectionnées commencent le programme en 1998 et sont comparées au 50 autres. Un autre groupe de 25 écoles commencent le programme en 1999. Ainsi, les 50 écoles qui reçoivent le traitement sont comparées aux 25 dernières en 1999. Les 25 dernières écoles reçoivent le traitement en 2000. Cette méthode se focalise sur les effets de court terme. Si le phase-in est très rapide, les effets peuvent ne pas avoir le temps nécessaire pour leur maturité. Problème lie au traitement futur escompte, attendu par les groupes. 4. LES DIFFERENTES FORMES DE RANDOMISATION 41

3. La randomisation within-group Exemple : Programme de tutorat (balsakhi) dans les écoles des zones urbaines pauvres en Inde. Un (1) balsakhi est assigné de façon aléatoire aux classes dans chaque école. Problème: contamination des écoles de comparaison. (les directeurs font une réallocation des ressources dans les classes des Balsakhi) 4. Les plans d’encouragement Exemple : les agriculteurs sont invités de façon aléatoire à participer à des formations sur l’utilisation des engrais au Kenya. Cela accroît la probabilité du traitement 42

5. EXEMPLE PRATIQUE AVEC LES DOUBLES DIFFERENCES 43

EXEMPLE ILLUSTRATIF Le gouvernement souhaite subventionner les lycées de plus de 500 élèves. L’objectif est d’apprécier les effets de cette subvention sur les résultats scolaires afin de généraliser le projet à tous les établissements du pays, à terme. On considère une Ville Pilote regroupant 50 lycées supposés identiques. 25 lycées (Groupe B des traités) reçoivent la subvention à la date (t). 25 lycées (Groupe A de contrôle) ne sont pas sont à l’expérimentation à la même date (t). 48

EXEMPLE ILLUSTRATIF La variable d’intérêt est le Résultat Scolaire (RS). Avec: : output moyen du groupe des traités à la date 1. : output moyen du groupe des traités à la date 2. : output moyen du groupe de contrôle à la date 1. : output moyen du groupe de contrôle à la date 2. Problème 1: Si on considère les traités uniquement : ne suffit pas à capter l’effet de la politique. Problème 2: Si on considère la période post traitement uniquement : ne suffit pas à capter l’effet de la politique. Une des solutions réside dans l’approche de la double différence qui conduit à des estimateurs sans biais. 49

CONCLUSION Les conclusions tirées d’un test de randomisation sont strictement valables seulement pour les sujets utilisés dans l’expérience (validation interne). Ces conclusions peuvent être inférées à une population mère si les sujets sont un échantillon aléatoire de la population mère. Malheureusement, ceci est souvent impossible en pratique. 50

Thème : METHODES D’EVALUATION DES PROGRAMMES DE DEVELOPPEMENT 9-10 septembre 2009, Grand-Bassam