890 likes | 1.12k Vues
II CONTEO DE POBLACIÓN Y VIVIENDA 2005 REVISIÓN DE CONSISTENCIA DE LA INFORMACIÓN Eunice Bañuelos y Marcela Eternod. INSTITUTO NACIONAL DE ESTADÍSTICA, GEOGRAFÍA E INFORMÁTICA. Buenos Aires, Argentina Junio de 2006. Validación. Revisión de consistencia de la información.
E N D
II CONTEO DE POBLACIÓN Y VIVIENDA 2005REVISIÓN DE CONSISTENCIA DE LA INFORMACIÓNEunice Bañuelos y Marcela Eternod INSTITUTO NACIONAL DE ESTADÍSTICA, GEOGRAFÍA E INFORMÁTICA • Buenos Aires, Argentina • Junio de 2006
Validación Revisión de consistencia de la información Todo proceso de generación de información requiere un control de la calidad, control indispensable debido a los errores “inevitables” que suceden en las diferentes etapas del proceso de generación, principalmente en el trabajo de campo. • Validación • Previsión y detección de errores • Revisión de congruencia • Aplicación de tratamientos lógicos (de acuerdo con los marcos conceptuales y metodológicos) que permiten rescatar información Datos imperfectos Datos mejorados
Medidas que contribuyen a mejorar la calidad • Diseñar un cuestionario bien estructurado, de fácil llenado y universal entendimiento • Utilizar un manual con instrucciones claras, impartir capacitación en tiempo y forma, con ejercicios prácticos • Utilizar una estructura operativa con funciones de supervisión y revisión de datos • Aplicar una campaña de sensibilización para la población
Validación • La validación es una actividad que acompaña todas las fases de un proyecto de generación de datos • Contenido de esta presentación • Primera sección • Lineamientos rectores • Procedimientos aplicados en la captura • Secuencia de los procesos temáticos • Segunda sección • Tratamientos aplicados a los temas y preguntas. Criterios para resolver omisión e incongruencia.
Etapas del conteo Planeación Levantamiento de la información Concentración de cuestionarios Captura Codificación Validación automática Actualización cartográfica y preparación de archivos para explotación
Planeación y levantamiento • Planeación • Se definieron todas las estrategias de supervisión, revisión y adecuación de los datos que aplicarían en todo el proceso, las cuales están incluidas en las cinco etapas restantes. • Levantamiento • Supervisión en el llenado del cuestionario con especial interés en los datos de control (juegos de cuestionarios por hogar y vivienda, número de cuestionarios, viviendas y población contadas). • Aplicación de criterios de revisión y procedimientos de corrección de errores. • Control de la cobertura (tarea prioritaria)
Procesamiento y codificación • Una vez levantada la información en campo, los cuestionarios fueron empaquetados y trasladados a 10 áreas regionales del INEGI. • Se tuvieron estrictos mecanismos de control. • Digitación de datos mediante teclado. • Se resolvieron los casos simples de multirrespuesta. • La codificación fue prácticamente automática y permitió facilitar el procesamiento y la explotación de la información.
Reportes para análisis Cuestionarios validados Cuestionarios liberados de codificación Proceso de validación de información Reportes para análisis Validación automática • Desarrollo y utilización de programas informáticos con base en criterios definidos previamente y sustentados en los fundamentos conceptuales y metodológicos de cada variable para detectar datos incongruentes y omisiones, y al mismo tiempo aplicar tratamientos de corrección.
Criterios de validación • Se acepta que a lo largo del proceso de generación de información se cometen errores y equivocaciones que pueden distorsionar los resultados emitidos, por ello es necesario aplicar un conjunto de normas de coherencia de revisión y establecer las medidas de corrección más apropiadas y acordes con los objetivos y metas del proyecto de generación estadística. • Hay tres fuentes regulares de error: • Informantes • Entrevistadores • Digitadores que capturan los datos en la computadora
Clases de error • Omisión o falta de respuesta, debido a que se desconocen los datos, el entrevistador no aplicó la pregunta o no anotó la respuesta. • Respuesta múltiple, provocada por incomprensión del informante, inadecuada formulación de la pregunta y falta de entendimiento por parte del entrevistador. • Valor inverosímil o fuera del rango posible, el entrevistador equivoca al asentar el dato en el cuestionario, o bien el digitador comete errores al momento de insertar el dato en la computadora. • No respetar pases en la aplicación de preguntas condicionadas, por problemas en el diseño del cuestionario o falta de comprensión de las instrucciones para llenar el cuestionario. • Incongruencia entre las respuestas obtenidas de preguntas relacionadas, provocadas por errores de asentamiento por parte del entrevistador, desconocimiento de instrucciones de llenado y equivocaciones al momento de digitar los datos.
Diversas fuentes de error • Los errores se generan en diferentes momentos del desarrollo del proyecto, principalmente: • Por el diseño del cuestionario e instrumentos de recolección. • Por imprecisiones o la falta de instrucciones en los manuales de levantamiento. • Por una capacitación inadecuada, incompleta o inexistente. • Por carencia de supervisión, revisión y corrección en el levantamiento. • Por incomprensión del informante y poca capacidad o interés del entrevistador para hacer aclaraciones. • Por hacer un registro incorrecto o incompleto de las respuestas debido a desconocimiento, ineptitud o cansancio. • Por un inadecuado diseño u operación de los programas de captura y codificación.
Elementos rectores en el diseño de criterios • Los criterios de validación establecidos para el II Conteo tienen las siguientes características: • Respetan las normas conceptuales y metodológicas establecidas, éstas se concretan en las instrucciones de llenado del instrumento de recolección (cuestionario). • Preservan la información recolectada en campo que fue correctamente captada. No pretender aumentar la cobertura, agregando unidades inexistentes. • Responden a una revisión de congruencia lógica sustentada en evidencias empíricas observadas en previos proyectos de generación.
Elementos rectores en el diseño de criterios • La asignación de valores sólo se realiza si están sustentados en la información contenida en otras variables asociadas. • Son de aplicación universal y homogénea para todas las viviendas, hogares y población de todas las entidades federativas que integran el territorio nacional. • Casi en su totalidad son determinísticos, porque las soluciones se definieron previamente, con base en la experiencia empírica a partir de los problemas observados en las formas de registrar la información en los cuestionarios; así como en las posibles inserciones de errores durante la digitación de los datos en la computadora.
Elementos rectores en el diseño de criterios • No son demasiado rígidos y no cubren todos los posibles errores o los que podrían ser interpretados como tales, para no eliminar situaciones que pueden presentarse en diversos contextos regionales y locales. • No implican un desarrollo de programas complejos y costosos en tiempo. En su mayoría los criterios son traducidos al método de “vectores teóricos” que permiten considerar todas las posibles combinaciones y facilitan la elaboración de programas informáticos. • Se aplican mediante programas informáticos que permiten el monitoreo y la generación de reportes de las modificaciones efectuadas con el propósito de cuantificar y evaluar el impacto de la aplicación de los criterios en cada variable.
Criterios de validación aplicados en captura • Para garantizar un procesamiento de la información eficaz, oportuno y con un costo razonable, en la fase de captura se aplicaron procedimientos para lograr lo siguiente: • Controlar la inserción de valores fuera de un rango establecido para evitar la introducción de errores de digitación y reducir el tiempo de corrección posterior. • No capturar respuestas múltiples ya que la muy baja frecuencia observada en proyectos anteriores sugirió evitar su captura. • Verificar la captura con una muestra de cuestionarios (10%) y cuando se detectaron proporciones considerables de errores, los lotes completos se volvieron a capturar. • Aplicar procedimientos primarios de análisis para preservar la cobertura total de cuestionarios y eliminar los registros duplicados.
Control de códigos fuera de rango • El programa de captura tenía establecidos los rangos válidos para cada variable con base en la cantidad y tipo de respuestas posibles en el cuestionario. • Para la parte correspondiente a la carátula o portada del cuestionario, en donde se ubica centralmente la identificación geográfica, así como el control de cuestionarios por vivienda y por hogar:
Control de códigos fuera de rango • Para las variables que identifican el tipo y clase de vivienda, así como las características de las viviendas particulares:
Control de códigos fuera de rango • Para el apartado residentes, hogares y lista de personas:
Control de códigos fuera de rango • Para la tercera sección del cuestionario que corresponde a las características de las personas:
Solución de respuesta múltiple en captura • Los criterios para resolver la respuesta múltiple fueron: • Ante una respuesta dicotómica, es decir SI o NO, el criterio adoptado fue blanquear la información. • Para las preguntas con tres o más opciones de respuesta, se adoptó el código mayor o el menor, dependiendo de cada variable.
Aplicación de criterios en validación • En esta fase se revisa que los valores que tienen las variables se encuentren dentro de los límites establecidos y que dichos valores sean congruentes con la información de otras variables que están relacionadas entre si. Asimismo, se les asigna un valor definitivo que permitirá generar el archivo para conformar las bases de datos de explotación.
Procesos de revisión y secuencia • La validación del II Conteo se planteó en tres grandes secciones: • Una rutina inicial que revisa, principalmente, la información sobre ubicación geográfica, a la cual entran todas las viviendas. • La segunda sección corresponde a los procedimientos que se aplican a las preguntas sobre las características de las viviendas y actividades agropecuarias. • La tercera agrupa los procedimientos que permitenvalidar la información de hogares y su población.
Procesos de revisión y secuencia • Para aplicar la validación se estableció el siguiente orden y se definieron 22 procesos, considerando las variables que tienen una relación en las respuestas, así como las que utilizarían para validar la información de otras variables.
Metodología de vectores • Para elaborar los criterios de validación se utilizó la metodología de vectores que consiste en construir una función que relaciona las variables, donde cada combinación de variables genera una imagen y cada imagen recibe una solución específica. • La función toma un conjunto de valores y cada valor tiene especificado su procedimiento. • f(x) = Ax + By + Cz … • Esta metodología es muy fácil de programar y muy rápida para procesar grandes cantidades de información.
Comentario final • La historia de los criterios de validación utilizados en México para los censos y conteos de población y vivienda, refleja algunos de los problemas inherentes a la realidad de muchas de las oficinas de estadística en Latinoamérica y sirve para ilustrar la importancia de transparentar el proceso de validación de cada proyecto estadístico. • En México el censo de 1980 se validó con dos metodologías complementarias y un corolario: • Tomando como base una matriz de casos correctos, se imputaba la información faltante en aquellas situaciones que tenían similitud y semejanza, para determinadas variables: características económicas, número de hijos, etc. • Teniendo un conjunto de datos específicos, se rescata información faltante de determinada pregunta o se acota la respuesta.
Comentario final • El corolario es que todo lo que no se previó tuvo que decidirse sobre la marcha y se tuvieron que diseñar y rediseñar criterios. Aquí hubo problemas graves con la validación y en muchos casos está fue manual o sobre los propios archivos. No hay documentación de cuántos casos se imputaron, se reprocesaron, ni de cómo entró y cómo salió la información para la mitad de las entidades federativas del país. • El censo de 1990 se validó todo con vectores, en esta ocasión se decidió lo que se iba a validar, se diseñaron los criterios y se llevó a cabo de manera automática; se tuvo cuidado de contabilizar cuántos casos se modificaron, porque se hizo la modificación (que criterio), y cómo quedó la información de salida. El ejercicio quedó documentado y se identificaron 7 rutinas de validación susceptibles de revisión y ajuste.
Comentario final • En 1995 gran parte de la información se validó en campo, otra parte se resolvió en la captura y posteriormente, una vez capturada la información se decidió qué hacer con algunos casos concretos y con los no especificados, tomando decisiones de carácter puntual; por ejemplo para las áreas con hablantes de lengua indígena. • A diferencia del censo de 1990 que, debido al “shock” del censo de 1980, documentó todo el ejercicio de validación, en 1995 no se documentó la validación en forma completa y exhaustiva. Aún hoy a pesar de la arqueología estadística que hemos realizado no podemos saber cuántos casos se validaron en campo, dónde fue necesario validar más datos, por qué, etc.
Comentario final • Para el censo del 2000 se construyeron una serie de rutinas básicas de validación, dependiendo de lo que se iba encontrando se iba instrumentando una validación complementaria. • Para este ejercicio se tienen documentados casi todos los criterios, no así las frecuencias de los errores, ni el número de casos reasignados de acuerdo con el código de asignación. Se conoce la decisión, pero no su monto. • Otro aspecto que vale la pena comentar se centra en la evolución, el cambió de criterios y las diferentes decisiones que se toman para validar cada proyecto, es claro que los criterios y procedimientos de 1980 se abandonaron en 1990 y se cambiaron sustancialmente. • Como ejemplo recuérdese la asignación directa del jefe a cualquier hombre de 12 años o más.
Comentario final • En México cada proyecto estadístico en el área sociodemográfica hasta hace muy poco diseñaba sus criterios de validación, decidía acerca de las metodologías para operacionalizarlos, utilizaba las herramientas disponibles: a mano, con una tablita de asignación, por corrección directa, por medio de vectores, con secuencias fijas, etc. • Las diferencias no se encuentran nada más entre censos, encuestas y registros, se encuentran entre un censo y otro, entre un conteo y un censo. • Los equipos responsables de su diseño y del análisis cambian y los criterios no son iguales. Ante la carencia de documentación es complicada la reconstrucción, ya hablé de la arqueología estadística, ahí seguiremos trabajando. Sin embargo, con la idea de ir consolidando el esquema de soluciones de validación, nos comprometimos en 2005 a publicar los criterios de validación, uno a uno y las frecuencias de validación de cada variable.
Comentario final • Con respecto a las imputaciones la posición del INEGI se está revisando. Creemos que es necesario tener una base de datos cruda, a imagen y sin alteraciones, tal cual se asienta la información en los instrumentos de recolección. • La base validada debe quedar completamente documentada, para ello publicaremos los criterios de validación y el número de casos correctos y corregidos. Aquí nos gustaría saber quién publica sus criterios. • Con la base lista para la explotación se hacen las imputaciones complementarias: hogares pobres, reasignación de ingresos con base en la encuesta de ingresos y gastos, índices de marginación, etc. Esta tarea la deben hacer las oficinas de estadística y los usuarios especializados.
Anexo con los criterios • VALIDACIÓN DE VIVIENDA Y SUS CARACTERÍSTICAS
Clase de vivienda particular y pisos • Clase de vivienda particular, se respondió con base en la observación del entrevistador. • Para los locales no construidos para habitación, viviendas móviles y refugios, se indicó omitir las características de la vivienda. • En pisos se preguntó por el material predominante. La omisión no estaba permitida, salvo en las clases de vivienda señaladas en el párrafo anterior.
Criterios de validación • Los criterios de validación revisan la congruencia y corrigen las siguientes situaciones: • Si la clase de vivienda es departamento en edificio o un cuarto en la azotea y tiene pisos de tierra, se asigna no especificado (9), en forma alterna a clase de vivienda particular y pisos. • Si la vivienda es un local no construido para habitación, una vivienda móvil o un refugio, se blanquean las respuestas en las variables: pisos, número de cuartos, total de cuartos, bienes, disponibilidad de agua, excusado y drenaje. • A los registros con blanco en clase de vivienda y en pisos se les asigna código 9 (no especificado).
Importante • Durante la aplicación del PROCESO 2 (clase de vivienda particular y pisos) a los locales no construidos para habitación (5), viviendas móviles (6) y Refugios (7), se les “blanquea” la información de las características de la vivienda (imagen 7, procedimiento 5). • De acuerdo con los criterios establecidos después del PROCESO 2 sólo se les da tratamiento a las viviendas que registran: • CLASE DE VIVIENDA PARTICULAR = 1, 2, 3, 4 ó 9.
Electricidad: criterios de validación • Al llegar a la etapa de validación automática sólo presentan registros con valores = 1, 2, blanco. • En la validación no se revisa ningún tipo de congruencia con otras variables, ni se asignan datos. • Cuando la respuesta está en blanco, se asigna código 9 (no especificado). Se captó la existencia de energía eléctrica independientemente de la fuente
Bienes: captación y registro • Identifica la disponibilidad de cuatro bienes; la última opción sólo debió marcarse si no se disponía de ninguno de los cuatro bienes. • A la validación automática la información puede llegar con uno, varios de los códigos marcados o en blanco.
Bienes: criterios de validación • En la fase de validación automática se revisa la congruencia entre tener uno o varios bienes (códigos de 1…4) y no tener ningún bien (5). • Cuando se presenta dicha inconsistencia, se privilegia el tener algún bien y por lo tanto se elimina el código 5. • Cuando todos las respuestas están en blanco se asigna código 9 (no especificado) en la variable “sin bienes” .
Disponibilidad de agua: captación y registro • Se captó la disponibilidad de agua entubada que proviene de la red pública, así como la forma en que se abastecen de agua cuando no se dispone del servicio público. • A la fase de validación automática llegan los registros con valores entre {1…7} o en blanco. • En la validación automática no se lleva a cabo ninguna revisión de congruencia con otras variables, ni se imputa información. • Cuando la variable está en blanco, se asigna el código 9, que identifica el no especificado.
Número de cuartos: captación y registro • En el manual del entrevistador se insistió para garantizar una contabilidad correcta del número de cuartos usados para dormir y del total de cuartos en la vivienda.
Número de cuartos: criterios de validación • En la validación se establecieron tres criterios básicos: • El número de dormitorios y el total de cuartos debe estar entre 1 y 25. • El número de dormitorios debe ser menor o igual al total de cuartos. • Asignar cuartos o dormitorios cuando alguna de las dos preguntas estuviera en blanco. Esta asignación se hizo con base en un análisis del comportamiento estadístico registrado en eventos censales anteriores.
Excusado o sanitario y drenaje: captación y registro • Las preguntas de excusado captan la existencia del mismo y su tipo a partir de la posibilidad o no de admitir agua para eliminar los desechos. • La pregunta de drenaje capta su disponibilidad y tipo de drenaje.
Excusado o sanitario y drenaje: criterios de validación • Los criterios de validación revisan la consistencia entre las combinación excusado con admisión de agua y la disponibilidad de drenaje. En general se privilegia la información de drenaje. • Si la vivienda tiene excusado (1) con admisión de agua (3 o 4), pero no tiene drenaje, se cambia la respuesta de admisión de agua por la de no se le puede echar agua (5). • Cuando la vivienda tiene excusado (1) con admisión de agua (3 o 4) y no existe respuesta en drenaje, se asigna información en drenaje (1 a 4), con base en el dato que registra la vivienda inmediata anterior, siempre y cuando esta respuesta corresponda a tener drenaje. • Cuando no existe información suficiente para asignar algún valor se asigna no especificado (9).
Actividades agropecuarias y forestales • La pregunta identifica a las viviendas en donde alguno de sus ocupantes tiene o maneja terrenos en donde se realizan actividades agropecuarias o forestales. • Antes de aplicar la validación sólo se registran valores = 1, 2 o blanco. • En la validación automática no se revisa ningún tipo de congruencia con otras variables, ni se asignan datos a partir de la información contenida en otras preguntas. • Cuando la respuesta está en blanco, se asigna código 9 (no especificado).
Hogares y parentesco Esta parte de la validación contempla un conjunto de variables que se considera están relacionadas y a las que se aplica tratamiento de manera secuencial, a partir de la composición de parentesco del hogar y la edad de los integrantes del hogar. La validación de hogares se divide en tres procesos: PARENTESCO, HOGARES I y HOGARES II. El orden de los procesos requiere que el parentesco y los hogares sean validados de forma secuencial, e incluye tratamientos para la vivienda, que se desprenden de la composición de parentesco del hogar. Los procesos de hogares se aplican antes de revisión de las características de la población
Parentesco • El propósito de este proceso es corregir los casos de multirrespuesta entre el parentesco y el otro parentesco, recuperar los casos con omisión o no especificado y hacer consistente el parentesco con la edad de las personas. • Para este procesode validación se consideraron las siguientes premisas: • Identificación del número de personas en el hogar. Se contempla ya que existen hogares de una sola persona, lo cual facilita ampliamente la solución a los errores de la información en el parentesco. • Límites de edad por parentesco. La edad mínima que pueden tener el jefe del hogar y el cónyuge es 12 años. A partir de este límite se han establecido algunos más para otros parentescos, que básicamente son intervalos intergeneracionales de 10 años en relación con la edad del jefe.
Parentesco • Verificación de la primera persona del hogar. Según las instrucciones de llenado del cuestionario, la lista de personas debe iniciarse con el jefe del hogar, por ello cuando un registro presenta los códigos 101 (jefe) o 102 (persona sola), el procesode validación revisa que sea la primera persona del hogar. • En consecuencia se contemplan las siguientes situaciones.- • Si hay una sola persona en el hogar y cualquier combinación de respuestas en parentesco y otro parentesco • Si hay dos o más personas en el hogar y el registro presenta: • Omisión o no especificado, • Multirrespuesta, o • Respuesta en parentesco y omisión o no especificado en otro parentesco
Parentesco: criterios aplicados • Para solucionar estos casos se utiliza la información de parentesco, edad, número de personas en el hogar, número de cuestionario del hogar y número de registro de la persona. Los criterios se resumen a continuación: • Si es un hogar de una persona, se asigna persona sola, no importa qué respuesta(s) tuviera. Estos casos, pasan directamente a HOGARES II. • Si en el hogar hay 2 o más personas • Si parentesco y otro parentesco carecen de información válida, se asigna no especificado • Si ambos presentan información válida, se realizan estos pasos: • Revisión de la edad, si no es congruente, se asigna el código 623. • Si presenta los códigos 101 o 102 en otro parentesco, se verifica que sea la primera persona del hogar. De ser así, se asigna jefe del hogar (101).
Parentesco: criterios aplicados • Si parentesco tiene el código 2 (cónyuge) y otro parentesco los códigos de cónyuge o de hijo, se da preferencia al otro parentesco sobre el parentesco. Si no tiene esos códigos se da preferencia a parentesco (cónyuge) y se asigna el código 201. • Si parentesco tiene el código 3 (hijo) y otro parentesco los códigos de hijo, se da preferencia al otro parentesco sobre el parentesco. Si no tiene esos códigos se da preferencia a parentesco (hijo) y se asigna el código 301. • Si parentesco tiene el código 4 (nieto), se da preferencia a parentesco sobre el otro parentesco y se asigna el código 609.