Introducción a Estimación en Áreas Pequeñas (EAP)

   Boletín Ciudades y Regiones, Nueva Época, Entrada 7

Álvaro Martínez

Introducción

La estimación en áreas pequeñas (EAP) son un conjunto de técnicas que ayudan a mejorar la eficiencia de estimadores estadísticos cuando se requieren cálculos en subgrupos de población para los cuales la información disponible es escasa. El término “área pequeña” hace referencia a un área geográfica reducida o dominio para la cual la muestra tomada es insuficiente (o no existe) para producir estimaciones directas con la precisión adecuada. Estas áreas suelen ser municipios, comarcas, alcaldías o subpoblaciones.

Para entender mejor el sentido del concepto de área pequeña se ilustra mediante el siguiente ejemplo. La Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) se obtiene a partir de una muestra probabilística estratificada en dos etapas, para que esta sea representativa de la población. Si quisiésemos realizar algún modelo econométrico para estimar alguna de las variables que contiene la encuesta, no tendríamos problemas en términos del tamaño de la muestra al nivel de desagregación para la que fue diseñada. Sin embargo, si fuera el caso de que se deseara trabajar con un nivel geográfico más pequeño, por ejemplo, una sola entidad, es probable que la muestra tomada de esa área resulte insuficiente para realizar estimaciones puesto que habrá municipios de los que se tomó una muestra más grande mientras que otros no están representados. A estas últimas se les conoce como áreas pequeñas y se recurre a técnicas estadísticas especiales (estimaciones indirectas) ya que resulta mucho más asequible que tomar una mayor muestra.

Imagen 1.  Áreas pequeñas

Fuente: Elaboración propia con datos de “concentrado hogar” (ENIGH, 2020).

En muchas encuestas o censos existe un problema en común y es que los tamaños de la muestra para muchos estados y sus municipios son pequeños. Entonces, se pueden hacer estimaciones directas sobre las características del dominio considerado en el diseño de la muestra, pero no se pueden usar para las características de cada estado o municipio de forma individual.

La estimación en áreas pequeñas: su sentido más general

El método consiste en la utilización de censos o encuestas y de información auxiliar para “tomar prestada su fuerza” al usar los valores de la variable de interés y así aumentar el “tamaño efectivo” de la muestra, es decir, el método consiste en tomar la riqueza de información de otras fuentes y así mejorar las estimaciones para dichas áreas. A estos estimadores se les conoce como “indirectos”, “sintéticos” o de “área pequeña”.

En la literatura se mencionan tres tipos de estimadores indirectos:

  • Área o dominio: utilizan valores de otro dominio como información auxiliar.
  • Tiempo: utilizan valores de otro periodo de tiempo como información auxiliar.
  • Tiempo y área: usan valores de otro dominio y periodo.

Los estimadores de área pequeña o indirectos (EAP) tradicionalmente se basan en modelos de vinculación implícita que están bajo el supuesto de que las áreas pequeñas tienen el mismo comportamiento estadístico que las grandes. Si el modelo de vinculación implícito es aproximadamente cierto, entonces el sesgo de diseño será pequeño, lo que conducirá a un error cuadrático medio (MSE) de diseño significativamente menor en comparación con el MSE de un estimador directo. La reducción en MSE es la principal razón para usar EAP.

Actualmente, han llamado la atención los estimadores indirectos basados en modelos de vinculación explícita o estimadores basados en modelos (EBM). Estos modelos tienen en cuenta específicamente la variación entre áreas. En particular, los modelos mixtos que involucran efectos aleatorios específicos del área que explican la variación entre áreas más allá de lo explicado por las variables auxiliares incluidas en el modelo.

Existen dos tipos de estimadores basados en modelos o de área pequeña:

  • Modelos de nivel agregado o de área: relacionan las medias de área pequeña con las variables auxiliares específicas del área.
  • Modelos de nivel de unidad: relacionan los valores unitarios de la variable de estudio con las variables auxiliares específicas de la unidad. 

Un breve repaso histórico

Las EBM evolucionaron de métodos demográficos para la estimación de la población en áreas pequeñas (Ghosh y Rao, 1994) (Corcuera, 2002, p. 3) donde se utilizaban registros administrativos poblacionales relativos a nacimientos, muertes y migración. Si bien esta información no se obtenía con fines estadísticos, sí se puede extraer información útil para la inferencia estadística (Erciulescu, et al,2018). En Brackstone (1987) se menciona que el uso de los registros administrativos para EBM data de siglo XI en Inglaterra, y el siglo XVII en Canadá. Existen registros donde se muestra que estos métodos empezaron a ser utilizados en Inglaterra, Estados Unidos y Canadá hacia finales del siglo XIX.

En años posteriores y con el nacimiento de las encuestas de población, se desarrollaron métodos que combinan censos o encuestas con registros administrativos. Purcell y Kish (1980) categorizaron esta clase de métodos bajo el nombre de Técnicas Contables Sintomáticas (SAT en inglés). Ghosh y Rao (1994) mencionan algunos de los métodos descritos en la literatura, estos son: las vital rates method (Bogue, 1950), método compuesto (Bogue y Duncan, 1959), el Método del Componente del Censo II (CM-II) (U.S. Bureau of the Census, 1966), el método de Registros Administrativos (AR) (Starsinic, 1974) y el método de Unidad de Vivienda (HU) (Smith y Lewis, 1980).

Actualmente las EBM han causado cada vez más interés en el sector público y privado debido a la alta demanda de obtener estimadores confiables para áreas pequeñas, tal y como sostienen Ghosh y Rao (1994, p. 56) cuando dicen que “[. . .] se necesitan estadísticas de áreas pequeñas en la distribución de fondos gubernamentales y en la planificación regional y urbana. Además, [. . .] la formulación de políticas de muchas empresas e industrias depende de las condiciones socio económicas locales”.

Investigaciones que han utilizado EAP

Como se mencionó, la importancia estadística de cálculos a escalas pequeñas ha crecido en los últimos años por lo que también lo han hecho el número de investigaciones sobre el tema. El Instituto Nacional de Estadística (INE) de España utilizó estas técnicas para la Encuesta de Población Activa con información auxiliar de registros de población y laborales con el objetivo de estimar la población ocupada de las Islas Canarias (Paños, 2000). En dicho trabajo se recurrió a estimadores sintéticos y compuestos, comparando su coeficiente de variación para determinar cuál es el de menor sesgo. En un estudio a cargo del Ministerio de Desarrollo Social y Familiar (2017) se estimaron con este método las tasas de pobreza en Chile a través la encuesta CASEN desde 2009 hasta 2017. En el documento se explica cómo se llevaron a cabo las estimaciones para cada año de la encuesta, así como sus actualizaciones metodológicas. Principalmente se utilizó el modelo de Fay-Harriot (1979) con variaciones a lo largo de los años.

Para el caso de México, el Instituto Nacional de Estadística y Geografía (INEGI) ha realizado varios trabajos de estimación en áreas pequeñas. En 2020, realizó un estudio sobre la Prevalencia de Hipertensión y Obesidad, Diabetes para los Municipios de México 2018. El objetivo de la institución fue de “estimar la proporción de la población de 20 años y más que padece enfermedades de Obesidad, para los municipios de México, mediante técnicas de Estimación para Áreas Pequeñas (EAP), a fin de ampliar la oferta de información derivada de la Encuesta Nacional de Salud y Nutrición (ENSANUT, 2018) y apoyar la toma de decisiones” (INEGI 2020).

Por otra parte, Suárez Campos (2015) realizó un estudio sobre los ingresos por trabajo en la vivienda para todos los municipios y alcaldías de México. Hace comparación de los resultados de la estimación directa y los obtenidos por EBM. Utilizó los datos publicados por la ENIGH 2010 y los Censos de Población y Vivienda (CPV) 2010. A través del modelo de Fay-Harriot (1979) comprueba la eficiencia de estas técnicas para estimaciones en pequeñas áreas que las encuestas no logran cubrir con suficientes datos.

El trabajo de Campos (2010) se combina la información de la ENIGH del año 2005 y el II Conteo de población y Vivienda levantado también en el año 2005 para obtener información relativa al Estado de Sonora, mediante la aplicación y comparación de técnicas estadísticas que estiman y/o predicen el valor promedio del ingreso de los hogares en los 72 municipios del estado. 

Paquetes en R para la EAP

El creciente uso de estas técnicas de estimación para la investigación académica e institucional, así como del acceso a herramientas computacionales con mayor capacidad de procesamiento, han abierto la puerta al uso de software especializado. Para el caso del popular Software R se diseñó el paquete SAE por Isabel Molina y Yolanda Marhuenda. Fue lanzado el 1 de junio del 2021.

Algunos de los trabajos que han usado dicho software para la EAP son los trabajos de Rao, J. N., y Molina, I. (2015). Small area estimation, Pratesi, M. (Ed.). (2016). Analysis of poverty data by small area estimation. Tzavidis, N., Zhang, L. C., Luna, A., Schmid, T., y Rojas‐Perilla, N. (2018). From start to finish: a framework for the production of small area official statistics y Molina, I. (2019). Desagregación de datos en encuestas de hogares: metodologías de estimación en áreas pequeñas.

En este enlace se puede encontrar toda la documentación sobre cómo hacer uso de SAE en R.

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://journal.r-project.org/archive/2015/RJ-2015-007/RJ-2015-007.pdf 

Referencias 

Bogue, D. J. (1950). A technique for making extensive population estimates. Journal of the American Statistical Association, 45(250), 149-163.

Bogue, D. J. and Duncan, B. D. (1959). A composite method of estimating post censal popoulation of small areas by age, sex and colour. Vital Statistics-Special Report 47, No. 6, National Office of Vital Statistics, Washington, DC.

Brackstone, G. J. (1987). Small area data: policy issues and technical challenges. Small Area Statistics, 3, 20.

Corcuera, J. M. (2002). Técnicas de estimación en áreas pequeñas. URl: http://www. eustat. eus/documentos/datos/ct_05_c. pdf.

Erciulescu, A. L., Franco, C., & Lahiri, P. (2018). Chapter: Use of Administrative Records in Small Area Estimation.

Ghosh, M., & Rao, J. (1994). Small area estimation: an appraisal. Statistical science, 9(1), 55-76.

INEGI (2020). Prevalencia de Hipertensión y Obesidad, Diabetes para los Municipios de México 2018.

Ministerio de Desarrollo Social y Familiar (2017). Estimaciones de La Tasa de Pobreza Por Ingresos y Multidimensional a Nivel Comunal, Año 2017. Aplicación de metodología de estimación para áreas pequeñas (SAE).

Molina, I. (2019). Desagregación de datos en encuestas de hogares: metodologías de estimación en áreas pequeñas.

Molina, I., & Marhuenda, Y. (2015). sae: An R Package for Small Area Estimation. R J., 7(1), 81.

Paños, López. (2000). “Estimaciones Para Áreas Pequeñas.” Estadistica española 42: 291–338.

Pratesi, M. (Ed.). (2016). Analysis of poverty data by small area estimation.

Purcell, N. J., & Kish, L. (1980). Postcensal estimates for local areas (or domains). International Statistical Review/Revue Internationale de Statistique 48(1), 3-18.

Rao, J. N., & Molina, I. (2015). Small area estimation. John Wiley & Sons.

Smith, S. K., & Lewis, B. B. (1980). Some new techniques for applying the housing unit method of local population estimation. Demography, 17(3), 323-339.

Starsinic, D. E. (1974). Development of population estimates for revenue sharing areas. US Census Bureau [custodian].

Suárez Campos, M. A., Aguilar Mata, G., & Mejía González, R. (2015). Estimación del ingreso por trabajo en los municipios y las delegaciones de México utilizando técnicas de estimación para áreas pequeñas. Realidad, datos y espacio. Revista internacional de estadística y geografía, (3), 44-61.

Tzavidis, N., Zhang, L. C., Luna, A., Schmid, T., & Rojas‐Perilla, N. (2018). From start to finish: a framework for the production of small area official statistics. Journal of the Royal Statistical Society: Series A (Statistics in Society), 181(4), 927-979.

Entradas populares de este blog

Producción orgánica de mango en Escuinapa, Sinaloa: un aproximación a la economía solidaria en la región / Organic mango production in Escuinapa, Sinaloa: an approach to the solidarity economy in the region

Principales ingresos y gastos de los hogares por entidad federativa en México, 2018 / Main income and expenses of households by state in Mexico, 2018

Reseña de “Análisis de datos espaciales en R: Manejo, visualización y modelos econométricos” / Review of “Spatial Data Analysis in R: Management, Visualization and Econometric Models”