340 likes | 501 Vues
X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES. IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática Escuela Politécnica Nacional Quito, julio, 2006. CONTENIDO. LA NO RESPUESTA PROBLEMAS CON IMPUTACIÓN SIMPLE
E N D
X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática Escuela Politécnica Nacional Quito, julio, 2006
CONTENIDO • LA NO RESPUESTA • PROBLEMAS CON IMPUTACIÓN SIMPLE • LA IMPUTACIÓN MÚLTIPLE (IM) • SOFTWARE PARA IM • CONCLUSIONES
LA NO RESPUESTA ¿POR QUÉ SE PRODUCE LA NO RESPUESTA? Al realizar la recolección de datos, a través de encuestas o de procesos administrativos, en general ocurren dos situaciones: 1. No respuesta por unidad: hay unidades que no han respondido o de las cuales no se tiene información. 2. No respuesta por ítem: no respuesta en ciertas preguntas del formulario.
LA NO RESPUESTA LA “SOLUCIÓN” INICIAL: • No respuesta por unidad: trabajar solamente con los datos entregados (se ignora a quienes no tienen información). • No respuesta por ítem: eliminar los registros con datos incompletos y se trabaja solamente con aquellos que están completos.
LA NO RESPUESTA PREGUNTAS FUNDAMENTALES: • ¿Para qué análisis estadístico se van a utilizar los datos? • ¿Cuál es el tamaño de la muestra y cuántos los datos faltantes?
LA NO RESPUESTA REQUERIMIENTO DE DATOS COMPLETOS • Regresión lineal, ACP, Análisis de varianza, etc. requieren de datos completos. • Producir algoritmos para estos modelos con datos faltantes puede ser demasiado complicado y costoso. • Las bases de datos producidas por instituciones estatales serán utilizadas por especialistas en diferentes campos. Dejar la imputación de datos al libre albedrío puede ser muy peligroso.
LA NO RESPUESTA ¿CUÁNDO SE PUEDEN UTLIZAR DATOS INCOMPLETOS? • Si se requiere calcular solamente ciertos resúmenes de las variables (medias, varianzas). • En general si las no respuestas se pueden considerar unidades seleccionadas completamente al azar. En este caso, también los estimadores continuarán siendo insesgados. • Si el tamaño de la muestra retenida es lo suficientemente grande para que no afecte demasiado la precisión. No es lo mismo que falten 25% de los datos en una muestra objetivo de 400 datos que en una de 20.000.
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Al remplazar un valor a través de la imputación simple: media, regresión, etc., se están generando estimadores sesgados. En general, quienes no responden pueden tener razones sistemáticas para ello (preguntas sensibles como ingresos, consumo de drogas, aprovechamiento académico, etc.).
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO SE EVALÚA EL SESGO? • Es muy difícil, pues no se conocen las causas precisas de la no respuesta. • Se deberían realizar seguimientos posteriores para tratar de estudiar el comportamiento de las variables de interés en quienes no responden. • Más adelante se presentarán algunos resultados al respecto.
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO AFECTA A LA VARIANZA? EFECTOS EN LA VARIANZA DE LA MEDIA MUESTRAL Considérese el caso de imputación por la media • Población de tamaño:N • Muestra de tamaño: n • Media poblacional: µ • Media muestral: • Varianza muestral: s2
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Se puede demostrar que aproximadamente: (1) Si solamente se han observado de los elementos de la muestra (por no respuesta aleatoria); entonces, aproximadamente: (2)
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Supóngase que en lugar de utilizar (2), se utiliza (1) sin distinguir entre registros observados e imputados. Entonces, la media muestral para los n valores es: cuya varianza muestral:
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Por tanto, para los n valores, utilizando la imputación igual a la media muestral, la varianza muestral será: (3) Si se realiza el cociente entre (3) y (1) se obtiene
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Así, para n1 y N/n1 grandes y n1<n, se obtiene que la varianza de dada en (1) es menor que la varianza dada en (2) por un factor aproximado de (n1 /n)2.
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE CONSECUENCIA DE LA SUBESTIMACIÓN DE LA VARIANZA: • Ganancia en precisión ficticia en la estimación de µ • La hipótesis µ=0, será rechazada con mayor frecuencia de lo que debería. NOTA: Otros mecanismos de imputación simple comúnmente utilizados también conducen a subestimar la varianza; por ejemplo:
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE • “Hot deck” (selección aleatoria entre los datos observados). • Dato emparejado. • Arrastre de la última observación disponible. • Arrastre de la peor observación disponible o valor mínimo. • Regresión simple o múltiple.
PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿HAY OTRAS CONSECUENCIAS MÁSGRAVES? LAMENTABLEMENTE SI MECANISMOS DE AUSENCIA DE DATOS: • Ausencia no aleatoria o no ignorable (NMAR): la ausencia depende de los valores observados y de los faltantes. • Ausencia aleatoria (MAR): la ausencia depende solo de los datos observados. • Ausencia completamente aleatoria (MCAR): la ausencia no depende de los datos observados ni de los datos ausentes.
EJEMPLO: Considérese un vector aleatorio normal (X,Y)’ tal que: Se consideran los siguientes mecanismos para ausencia de datos para X: • MCAR: Un valor de X está ausente con probabilidad 0,5. • MAR: Un valor de X está ausente si Y<0. • NMAR: Un valor de X está ausente si X<0.
LA IMPUTACIÓN MÚLTIPLE UNA ALTERNATIVA Rubin (1986, 2004), propone un mecanismo de imputación múltiple (para mecanismo de ausencia MAR). La estrategia básica consiste en generar m opciones distintas de valores para cada dato ausente, para tratar de incorporar la variabilidad de la medida objetivo y la incertidumbre de valores ausentes (en realidad se estaría considerando una distribución de valores ausentes para cada dato). La justificación teórica y la bondad de este método se justifican en el contexto bayesiano.
LA IMPUTACIÓN MÚLTIPLE El procedimiento se resume en los cuatro pasos siguientes: • Selección del método de imputación (explícito o implícito). • Generación de conjuntos de valores a imputar (generalmente entre 5 y 20). • Análisis de los diferentes conjuntos de valores imputados. • Combinación de estos resultados para obtener una estimación promedio.
LA IMPUTACIÓN MÚLTIPLE El siguiente gráfico resume el procedimiento señalado: DATO IMPUTADO ANÁLISIS COMBINACIÓN DATO FALTANTE RESULTADOS FINALES
LA IMPUTACIÓN MÚLTIPLE Para comprender mejor las ideas planteadas por Rubín, se considera el siguiente ejemplo (Rubin, 2004): En una encuesta sobre una población de 1.000 elementos, se elige una muestra aleatoria de 10 unidades. Se conoce la información para la variable X en 1970, sobre toda la población, y se trata de obtener información de la variable Y sobre la muestra; sin embargo, dos elementos no respondieron. Con datos completos, se propone estimar la media poblacional de Y, µY, con el estimador de la razón: µX ; además, un intervalo de confianza de nivel 95% se obtiene con la fórmula µX ±1,96*SD/n½, donde se supone que la media poblacional de X, µX=12. En este caso:
LA IMPUTACIÓN MÚLTIPLE • En este caso:
TABLA 1: Ejemplo artificial de datos con imputación múltiple
LA IMPUTACIÓN MÚLTIPLE A continuación, se combinan las dos respuestas obtenidas sobre el mismo modelo (réplicas) para obtener inferencias para µY en cada modelo considerado. Se considera como centro del intervalo resultante al promedio de las estimaciones. La varianza asociada con estas estimaciones tiene dos componentes: Varianza total = promedio de varianzas con imputación + (1+1/m)*varianza entre imputaciones
LA IMPUTACIÓN MÚLTIPLE Para el modelo 1: Estimación de µY = (13,38+13,57)/2 = 13,48 Varianza total = (2,96+3,19)/2 + (1+1/2)[(13,38-13,48)2+(13,57-13,48)2]
LA IMPUTACIÓN MÚLTIPLE GENERACIÓN DE DATOS A IMPUTAR Inicialmente, Rubin había propuesto generalizar las técnicas de imputación simple para generar los valores a imputar. Sin embargo, los métodos más utilizados en la actualidad son: • Aproximación bayesiana “bootstrap”. • Montecarlo para cadenas de Markov (MCMC)
LA IMPUTACIÓN MÚLTIPLE UN EJEMPLO COMPARATIVO (GÓMEZ J., PALAREA J., 2003) Se considera una matriz de datos completos 20*3, de un vector normal (Y,X1,X2)’en los cuales se ha generado un 35% de faltantes con un mecanismo MAR. Se considera el problema de la regresión de Y sobre X1 y X2. La siguiente tabla recoge las estimaciones obtenidas, en donde se observa que la IM-MCMC se destaca, en general, con respecto a los otros métodos.
Tabla 3: Inferencia basada en imputación en problemas con información incompleta
SOFTWARE EN IM: • Windows: WinMICE, NORM • SPLUS o R: MICE, L. Schafer. • SAS: IVEWARE, PROCMI, PROC MIANALIZE • STATA: ICE • DOS, GAUSS: AMELIA (series de tiempo) • L. Schafer (gratuito): NORM, CAT, MIX, PAN (sobre S-PLUS) CARACTERÍSTICA GENERAL: no interactivo; se requiere algo de programación.
CONCLUSIONES • La imputación de datos es una tarea necesaria, pero muy delicada. • Existe un gran desarrollo para el mecanismo MAR. • La imputación simple, en general, no es adecuada. • IM es el camino correcto. Se deben aprovechar las nuevas técnicas de simulación (MCM, por ejemplo). • Se requiere mucho cuidado para elegir el software apropiado; no todo lo existente es útil.
BIBLIOGRAFÍA • Gómez J., Palarea J., Inferencia basada en imputación múltiple en problemas con información incompleta, IX Conferencia Española de Biometría, La Coruña, 2003. • Rubin D., Multiple imputation for nonresponse in surveys, Wiley Classics Library, 2004. • Von Hippel P., Biases in SPSS 12.0 Missing Value Analysis, The American Statistician, Vol. 58, No. 2, 2004. • http://www.multiple-imputation.com/