340 likes | 599 Vues
Sesión VI T é cnicas de Pareamiento. Sebastian Galiani Mayo 2006. El caso de la asignación aleatoria al tratamiento. Si la asignación al tratamiento es aleatoria en la población, ambos resultados potenciales son independientes del estado de tratamiento. Y (1) , Y (0) D (1)
E N D
Sesión VITécnicas de Pareamiento Sebastian Galiani Mayo 2006
El caso de la asignación aleatoria al tratamiento • Si la asignación al tratamiento es aleatoria en la población, ambos resultados potenciales son independientes del estado de tratamiento. Y (1), Y (0) D (1) • En este caso la información faltante no crea problemas porque: E{Yi(0)|Di= 0} = E{Yi(0)|Di= 1} = E{Yi(0)} (2) E{Yi(1)|Di= 0} = E{Yi(1)|Di= 1} = E{Yi(1)} (3) • Entonces, = E{i| Di= 1} (4) =E{Yi(1) - Yi(0) | Di= 1} =E{Yi(1)|Di= 1} - E{Yi(0) | Di= 1} = E{Yi(1)|Di= 1} - E{Yi(0)|Di= 0} = E{Yi|Di= 1} - E{Yi|Di= 0}.
El caso de la asignación aleatoria al tratamiento • La aleatorización asegura que el sesgo de selección de la muestra es cero: E{Yi(0) | Di = 1} - E{Yi(0) | Di = 0} = 0 (5) • Notar que la aleatorización implica que la información faltante es “completamente faltante de forma aleatoria”, por esta razón no puede crear problemas. • Si la aleatorización no es posible y no están disponibles experimentos naturales necesitamos partir de un conjunto diferente de hipótesis.
Insesgamiento y selección en observables • Sea X una matriz en la cual cada renglón es un vector de variables observables antes del tratamiento para el individuo i. • Definición de insesgamiento La asignación al tratamiento es insesgada dadas las variables pre-tratamiento si Y (1), Y (0) D | X • Veáse que asumir es equivalente a decir que: • Dentro de cada celda definida por el tratamiento X es aleatoria ; • La selección dentro del tratamiento depende sólo de las variables observables X.
Efectos promedio sobre los intervenidos asumiendo insesgamiento • Si estamos dispuestos a asumir que no hay sesgos: E{Yi(0)|Di= 0,X} = E{Yi(0)|Di= 1,X} = E{Yi(0)|X} (6) E{Yi(1)|Di= 0,X} = E{Yi(1)|Di= 1,X} = E{Yi(1)|X} (7) • Usando estas expresiones, podemos definir para cada celda definida por X: x =E{i|X} (8) = E{Yi(1) - Yi(0)|X} = E{Yi(1)|X}- E{Yi(0)|X} = E{Yi(1)|Di= 1,X} - E{Yi(0)|Di = 0,X} = E{Yi|Di= 1,X} - E{Yi|Di= 0,X}
Efectos promedio sobre los intervenidos asumiendo insesgamiento • Usando la Ley de expectativas interativas, el efecto promedio del tratamiento sobre el grupo de intervención está dado por: = E{i|Di= 1} (9) = E{E{ i|Di= 1,X} | Di= 1} = E{ E{Yi|Di= 1,X} - E{Yi|Di= 0,X} |Di= 1} = E{x|Di= 1} • Donde la esperanza externa está sobre la distribución de X|Di = 1.
Estrategias de Pareamiento y Regresión para la estimación los efectos causales promedio • Insesgamiento sugiere la siguiente estrategia para la estimación del efecto del tratamiento promedio definido en las ecuaciones 8 y 9: • estratificar los datos dentro de cada celda definida para cada valor particular de X; • Dentro de cada celda (i.e. condicionando en X) calcular la diferencias entre los resultados promedio entre el grupo de tratamiento y de control; • El promedio de estas diferencias con respecto a la distribución de Xien la población de unidades tratadas. • Esta estrategia genera las siguientes preguntas: • ¿Esta estrategia es diferente de la estimación de una regresación lineal de Y sobre D controlando no parametricamente para todo el conjunto de principales efectos e intereacciones de las covariables X? • ¿Es viable esta estrategia?
¿Es factible el pareamiento? El problema de dimensionalidad • Es evidente, sin embargo, que la inclusión en una regresión de un conjunto completo de interacciones o-parámétricas entre todas las variables observables puede no ser factible cuando la muestra es pequeña, el conjunto de covariables es grande y muchas de ellas presentan múltiples valores, o, en el peor de los casos, continua. • El problema de dimensionalidad, es probable que también incorpore problemas en la estrategia de pareamiento descritas por las ecuaciones 8 y 9: • Con K variables binarias el número de celda es 2K y crece exponencialmente con K. • El número de celdas se incrementa más si algunas variables en X toman más de 2 valores. • Si el número de celdas es muy grande con respecto al tamaño de la muestra, es muy fácil encontrar situaciones en las cuales hay: • Celdas que contienen sólo unidades con tratamiento • Celdas que contienen sólo controles.
¿Son factibles el pareamiento y la regresión? El problema de dimensionalidad • Por lo tanto, el efecto promedio del tratamiento para estas celdas no puede ser calculado. • Rosenbaum y Rubin (1983) proponen una estrategia de estimación equivalente y factible basada en el concepto del Propensity Score y sobre sus propiedades que permiten reducir el problema de dimensionalidad. • Es importante darse cuenta que la regresión con un modelo no saturado no es una solución y puede conducir a conclusiones totalmente erróneas.
Pareamietno basado en el “propensity score” • Definición: “Puntaje de Propensión” (Rosenbaum y Rubin, 1983): El “propensity score” es la probabilidad condicional de recibir el tratamiento dadas las variables observadas antes del tratamiento: p(X) Pr{D = 1|X} = E{D|X} (10) • El “propensity score” tiene dos propiedades importantes: • Lema 1 Equilibrarlas variables pre-tratamiento dado su “puntaje de propensidad” (Rosenbaum y Rubin, 1983) Si p(X) es el “propensity score” D X | p(X) (11) • Lema 2 Insesgamiento dado el “puntaje de propensidad” (Rosenbaum y Rubin, 1983) Suponer que la asignación del tratamiento es insesgada, i.e. Y (1), Y (0) D | X Entonces, la asignación al tratamiento es insesgada dado el “puntaje de propensidad”, i.e Y (1), Y (0) D | p(X) (12)
Efectos promedio del tratamiento y el “propensity score” • Utilizando el “puntaje de propensidad” y sus propiedades podemos ahora parear casos y controles en base a éste en lugar del vector multidimensionalidad de variables observables X. E{Yi(0)|Di= 0, p(Xi)} = E{Yi(0)|Di= 1, p(Xi)} = E{Yi(0)|p(Xi)} (13) E{Yi(1)|Di= 0, p(Xi)} = E{Yi(1)|Di= 1, p(Xi)} = E{Yi(1)|p(Xi)} (14) • Usando estas expresiones, podemos definir para cada celda denotada por p(X): p(x)E{i|p(Xi)} (15) E{Yi(1) - Yi(0)|p(Xi)} E{Yi(1)|p(Xi)} - E{Yi(0)|p(Xi)} = E{Yi(1)|Di= 1, p(Xi)} - E{Yi(0)|Di= 0, p(Xi)} = E{Yi|Di= 1, p(Xi)} - E{Yi|Di= 0, p(Xi)}.
Efectos promedio del tratamiento y el “propensity score” • Usando la Ley de “Esperanzas iteradas/interactuadas”, el efecto promedio del tratamiento en las unidades tratadas está dado por: = E{i|Di= 1} (29) = E{E{i|Di= 1, p(Xi)}|Di = 1} = E{ E{Yi(1)|Di= 1, p(Xi)} - E{Yi(0)|Di= 0, , p(Xi)} |Di= 1} = E{p(x)|Di= 1} • Donde la esperanza externa está en la distribución de p(Xi)|Di= 1.
Implementación de la estrategia de estimación • Para implementar la estrategia de estimación sugerida por el puntaje de propensidad y sus propiedades son necesarios 2 pasos secuenciales. i. Estimación del propensity score Este paso es necesario porque el puntaje de propensidad verdadero no se conoce y por tanto, el puntaje de propensidad tiene que ser estimado. ii. Estimación del efecto promedio de tratamiento dado el puntaje de propensidad Idealmente en este paso nos gustaría: • parear los casos y controles con exactamente el mismo puntaje de propensidad (estimado); • Calcular el efecto del tratamiento para cada valor del puntaje de propensidad (estimado) (ver ecuación 28). • Obtener el promedio de los efectos condicionales como en la ecuación 29.
Implementación de la estrategia de estimación • Esto no es factible en la práctica porque es raro encontrar 2 unidades con exactamente el mismo propensity score. • Hay, sin embargo, varias alternativas y procedimientos factibles para llevar a cabo este paso: • Estratificación en la puntuación; • Pareamiento por la unidad más próxima en la puntuación; • Pareamiento por radio en la puntuación; • Pareamiento de Kernel en la puntuación; • Asignar un peso en base a la puntuación
Estimación del puntaje de propensidad • Aparentemente, el mismo problema de dimensionalidad que evita la estimación de los efectos de tratamiento debería evitar también la estimación de los puntajes de propensidad. • Sin embargo, este no es el caso gracias al “propiedad de balance” del puntaje de propensidad (Lema 1) de acuerdo al cual: • Las observaciones con el mismo “puntaje de propensidad” tienen la misma distribución de covariables observables independientemente del status de tratamiento; • Para un “puntaje de propensidad” dado, la asignación al tratamiento es aleatoria y por tanto, creada y las unidades de control son en promedio idénticas observacionalmente.
Estimación del “puntaje de propensidad” • Por lo tanto, cualquier modelo de probabilidad estándar puede ser utilizado para estimar el puntaje de propensidad, por ejemplo: un modelo logit: donde h(Xi) es una función de covariables con terminos lineales y de ordenes superiores. • La elección de cuál término de mayor orden incluir es determinada únicamente por la necesidad de obtener una estimación del puntaje de propensidad que satisfaga la “propiedad de balance”.
Estimación del “puntaje de propensidad” • Así como la especificación de h(Xi), la cual satisface la propiedad de balance, tiene más parsimoniaque el conjunto total de interacciones necesarias para parear casos y controles en base a las observables (como en las ecuaciones 8 y 9), el puntaje de propensidad reduce la dimensionalidad del problema de estimación. • Notar que, dado este propósito, la estimación de los puntajes de propensidad no necesitan una interpretación conductual.
Un algoritmo para estimar el puntaje de propensidad i. Iniciar con una función logit o probit con parsimonia para estimar la puntuación. ii. Clasificar los datos de acuerdo al puntaje de propensidad estimado (de menor a mayor). iii. Estratificar todas las observaciones en bloques, de tal manera que, en cada bloque los puntajes de propensidad estimados para los casos y los controles no sean estadísticamente diferentes: (a) Iniciar con 5 bloques de igual rango de puntuación” {0 - 0.2, ..., 0.8 - 1}; (b) Probar si las medias de las puntuaciones para las unidades tratadas y los controles son estadísticamente diferentes en cada bloque; (c) De ser así, aumentar el número de bloques y probar de nuevo; (d) Si no, ir al siguiente paso. (continua en la diapositiva siguiente…)
Un algoritmo para estimar el puntaje de propensidad vi. Probar que la propiedad de balnacese mantiene en todos los blocks para todas las covariables: (a) para cada covariable, probar si las medias (y posiblemente momentos de mayor orden) para las unidades tratadas y para los controles son estadísticamente diferentes en todos los grupos; (b) si una covariable no está distribuida de manera equilibrada en un block, dividir el grupo y probar de nuevo dentro de cada “finer” block; (c) si una covariables no está distribuida de manera equilibrada en todos los grupos, modificar la estimación logit del “propensity score” añadiendo más interacciones y términos de mayor orden y probar de nuevo. • Notar que en todos estos procedimientos el resultado no tiene un rol. • Ver el Programa STATA pscore.ado descargable en: http://www.iue.it/Personal/Ichino/Welcome.html
Algunas herramientas de diagnóstico útiles • Como discutimos al inicio de esta sección, los métodos de puntaje de propensidad se basan en la idea de que la estimación de los efectos del tratamiento requiere un minucioso pareamiento de los casos y controles. • Si los casos y controles son muy diferentes en términos de las observables, este pareamiento no es suficientemente estrecho y confiable o incluso puede ser imposible. • La comparación de los puntajes de propensidad estimados en las unidades tratadas y de control provee una útil herramienta de diagnóstico para evaluar qué tan similares son los casos y los controles, y por tanto, qué tan confiable es la estrategia de estimación.
Algunas herramientas de diagnóstico útiles • Específicamente, es aconsejable: • Contar cuántos controles tienen un puntaje de propensidad menor al mínimo o mayor al máximo de los de las unidades tratadas. • Idealmente nos gustaría que el rango de variación de los puntajes de propensidad sea el mismo en los dos grupos. • Generar histogramas de los puntajes de propensidad estimados para los casos y los controles con barras que correspondan a(con) los estratos construidos para la estimation de puntajes de propensidad. • Idealmente, desearíamos una frecuencia igual de unidades de tratamiento y controles en cada celda. Nótese que estos indicadores de diagnóstico fundamentales no son calculados en una regresión estándar, aunque también podrían ser útiles para este análisis. (Ver Dehejia y Wahba, 1999).
Estimación del efecto de tratamiento por estratificación de la puntuación • Este método está basado en el mismo procedimiento de estratificación utilizado para estimar el puntaje de propensidad. Por construcción, en cada estrato the covariates are balanced y la asignación al tratamiento es aleatoria. • Sea T elconjunto deunidades tratadas y C el conjuntode unidades de control, y sean YiTy YjTlos resultados observados de las unidades de casos y controles, respectivamente.
Estimación del efecto de tratamiento por estratificación de la puntuación • Sea el índice q los estratos definidos sobre los intervalos del puntaje de propensidad, dentro de cada grupo podemos calcular donde I(q) es el conjunto de unidades en un grupo q mientras que NqTy NqCson los números de unidades de tratamiento y control en el grupo q.
Estimación del efecto de tratamiento por estratificación de la puntuación • El estimador de ATT es calculado con la siguiente fórmula: donde el peso para cada grupo está dado por la fracción correspondiente de unidades tratadas y Q es el número degrupos. • Asumiendo independencia de los resultados entre las unidades, la varianza deSéstá dada por
Comentarios adicionales • Controles irrelevantes Si el objetivo es estimar el efecto del tratamiento sobre el tratado el procedimiento debería ser aplicado después de haver descartado a todos los controles con un puntaje de propensidad más alto que el valor máximo o menor que el valor mínimo de los puntajes de propensidad de los casos. • Castigo for un número desigual de unidades tratadas y controles en un grupo • Nótese que si hay un grupo en el cual el número de controles es más pequeño que el número de unidades tratadas, la varianza aumenta y el castigo es mayor entre mayor sea la fracción de los tratados en ese grupo. Si NqT= NqCla varianza se simpifica a:
Comentarios adicionales • Alternativas para la estimación de los resultados dentro de los grupos. • En las expresiones anteriores, el resultado en caso de tratamiento en un grupo ha sido estimado como el resultado promedio de los casos en ese grupo (y de manera similar para los controles). Otra posibilidad es obtener estos resultados como valores predichos de la estimación de funciones lineales (o más sofisticadas) de los "propensity scores”. Los beneficios de usar estas técnicas más sofisticadas no parecen ser grandes. (See Dehejia and Wahba, 1996.)
Estimación del efecto de tratamiento pareando por unidad más próxima, por radio y Kernel • Idealmente, nos gustaría parear cada unidad tratada con una unidad de control que tenga exactamente el mismo puntaje de propensidad y viceversa. • Este pareamiento exacto es, sin embargo, imposible en la mayoría de las aplicaciones. • Para un pareamiento exacto, lo más que podemos hacer es parear cada unidad tratada con el control más cercano en términos del puntaje de propensidad. • Sin embargo, esto plantea la cuestión de qué hacer con las unidades para las cuales el par más cercano ha sido ya utilizado • Describimos aquí 3 métodos enfocados a resolver este problema. • Pareando por la unidad (individuo) más próxima con reemplazo; • Parear por radio con reemplazo; • Pareamiento de Kernel
Estimación del efecto de tratamiento asignando cierto peso a la puntuación • Este método para estimar los efectos del tratamiento es sugerido por el siguiente lema, donde ATE es el efecto promedio de tratamiento (average effect of treatment) en la población. • Lema 3 ATE y asignación cierto peso sobre el puntaje de propensidad Suponemos que la asignación al tratamiento es insesgado, i.e. Y (1), Y (0) D | X Luego
Estimación del efecto de tratamiento asignando cierto peso a la puntuación • Comprobación del Lema 3: usando la ley de “esperanzas iteradas/interactuadas”: lo cual puede se puede expresar como: Usar la definición de propensity score y el hecho de que el insesgamiento hace el condicionamineto en el tratamiento irrelevante en las dos esperanzas internas, esto es igual a: E{E{Yi(1)|X}- E{Yi(0)|X}} = E{Yi(1)} - E{Yi(0)} (25) QED.
Estimación del efecto de tratamiento asignando cierto peso a la puntuación • Por tanto, substituyendo las estadísticas muestrales en el RHS de 22 obtenemos una estimación de ATE. • Un lema similar sugiere un estimador ponderado del ATT ATT. • Lema 4 ATT y ponderación en el puntaje de propensidad • Suponer que esa asignación al tratamiento es insesgado, i.e. Y (1), Y (0) D | X Luego = {E{Yi(1)|Di = 1} - E{Yi(0)|Di = 1}} (26)
Estimación del efecto de tratamiento asignando cierto peso a la puntuación • Substituting sample statistics in the RHS of 26 we obtain an estimate of the ATT. Note the different weighting function with respect to the ATE. • Un problema potencial del métodos que asigna un peso es que es sensible a la forma en que es estimado el puntaje de propensidad. • En cambio, los métodos de estratificación y pareo no son sensibles a la especificación del “puntaje de propensidad” estimado. • En cambio, una ventaja del método de ponderación es que no depende de los procedimientos de estratificación o pareamiento.
Estimación del efecto de tratamiento asignando cierto peso a la puntuación • Es aconsejable usar todos los métodos y compararlos: diferencias grandes entre ellos podrían ser resultado de: • No especificación del puntaje de propensidad; • Una falla en el supuesto de insesgamiento; • El cálculo del error estándar es problemático porque el puntaje de propensidad es estimado. Hirano, Imbens y Ridder (2000) muestran cómo calcular el error estándar. Ver también Heckman, Ichimura y Todd (1998) y Hahn (1998).
Referencias • Dehejia, R.H. and S. Wahba (1999), “Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs”, Journal of the American Statistical Association, 94, 448, 1053-1062. • Dehejia, R.H. and S. Wahba (1996), “Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs”, Harvard University, Mimeo. • Hahn, Jinyong (1998), “ ON the role of the propensity score in efficient semiparamentric estimation of average treatment effects”, Econometrica, 66,2,315-331.
Referencias • Heckman, James J. H. Ichimura, and P. Todd (1998), “ Matching as an econometric evaluation estimator ”, Review of Economic Studies, 65, 261-294. • Hirano, K., G.W. Imbens and G. Ridder (2000), “Efficient Estimation of Average Treatment Effects using the Estimated Propensity Score”, mimeo. • Rosenbaum, P.R. and D.B. Rubin (1983), “The Central Role of the Propensity Score in Observational Studies for Causal Effects”, Biometrika 70, 1, 41–55.