Introducción a Estimación en Áreas Pequeñas (EAP)
Boletín Ciudades y Regiones, Nueva Época, Entrada 7
Álvaro Martínez
Introducción
La estimación en áreas pequeñas
(EAP) son un conjunto de técnicas que ayudan a mejorar la eficiencia de
estimadores estadísticos cuando se requieren cálculos en subgrupos de población
para los cuales la información disponible es escasa. El término “área pequeña”
hace referencia a un área geográfica reducida o dominio para la cual la muestra
tomada es insuficiente (o no existe) para producir estimaciones directas con la
precisión adecuada. Estas áreas suelen ser municipios, comarcas, alcaldías o
subpoblaciones.
Para entender mejor el sentido
del concepto de área pequeña se ilustra mediante el siguiente ejemplo. La
Encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) se obtiene a
partir de una muestra probabilística estratificada en dos etapas, para que esta
sea representativa de la población. Si quisiésemos realizar algún modelo
econométrico para estimar alguna de las variables que contiene la encuesta, no
tendríamos problemas en términos del tamaño de la muestra al nivel de
desagregación para la que fue diseñada. Sin embargo, si fuera el caso de que se
deseara trabajar con un nivel geográfico más pequeño, por ejemplo, una sola entidad,
es probable que la muestra tomada de esa área resulte insuficiente para
realizar estimaciones puesto que habrá municipios de los que se tomó una
muestra más grande mientras que otros no están representados. A estas últimas
se les conoce como áreas pequeñas y se recurre a técnicas estadísticas
especiales (estimaciones indirectas) ya que resulta mucho más asequible que
tomar una mayor muestra.
Imagen 1. Áreas pequeñas
Fuente: Elaboración propia con datos de “concentrado hogar” (ENIGH, 2020).
En muchas encuestas o censos
existe un problema en común y es que los tamaños de la muestra para muchos
estados y sus municipios son pequeños. Entonces, se pueden hacer estimaciones
directas sobre las características del dominio considerado en el diseño de la
muestra, pero no se pueden usar para las características de cada estado o
municipio de forma individual.
La estimación en áreas pequeñas:
su sentido más general
El método consiste en la
utilización de censos o encuestas y de información auxiliar para “tomar
prestada su fuerza” al usar los valores de la variable de interés y así
aumentar el “tamaño efectivo” de la muestra, es decir, el método consiste en
tomar la riqueza de información de otras fuentes y así mejorar las estimaciones
para dichas áreas. A estos estimadores se les conoce como “indirectos”,
“sintéticos” o de “área pequeña”.
En la literatura se mencionan
tres tipos de estimadores indirectos:
- Área o dominio: utilizan valores de otro dominio como información auxiliar.
- Tiempo: utilizan valores de otro periodo de tiempo como información auxiliar.
- Tiempo y área: usan valores de otro dominio y periodo.
Los estimadores de área pequeña o
indirectos (EAP) tradicionalmente se basan en modelos de vinculación implícita
que están bajo el supuesto de que las áreas pequeñas tienen el mismo
comportamiento estadístico que las grandes. Si el modelo de vinculación
implícito es aproximadamente cierto, entonces el sesgo de diseño será pequeño,
lo que conducirá a un error cuadrático medio (MSE) de diseño significativamente
menor en comparación con el MSE de un estimador directo. La reducción en MSE es
la principal razón para usar EAP.
Actualmente, han llamado la
atención los estimadores indirectos basados en modelos de vinculación explícita
o estimadores basados en modelos (EBM). Estos modelos tienen en cuenta
específicamente la variación entre áreas. En particular, los modelos mixtos que
involucran efectos aleatorios específicos del área que explican la variación
entre áreas más allá de lo explicado por las variables auxiliares incluidas en
el modelo.
Existen dos tipos de estimadores
basados en modelos o de área pequeña:
- Modelos de nivel agregado o de área: relacionan las medias de área pequeña con las variables auxiliares específicas del área.
- Modelos de nivel de unidad: relacionan los valores unitarios de la variable de estudio con las variables auxiliares específicas de la unidad.
Un breve repaso histórico
Las EBM evolucionaron de métodos
demográficos para la estimación de la población en áreas pequeñas (Ghosh y Rao,
1994) (Corcuera, 2002, p. 3) donde se utilizaban registros administrativos
poblacionales relativos a nacimientos, muertes y migración. Si bien esta
información no se obtenía con fines estadísticos, sí se puede extraer
información útil para la inferencia estadística (Erciulescu, et al,2018). En
Brackstone (1987) se menciona que el uso de los registros administrativos para
EBM data de siglo XI en Inglaterra, y el siglo XVII en Canadá. Existen
registros donde se muestra que estos métodos empezaron a ser utilizados en
Inglaterra, Estados Unidos y Canadá hacia finales del siglo XIX.
En años posteriores y con el
nacimiento de las encuestas de población, se desarrollaron métodos que combinan
censos o encuestas con registros administrativos. Purcell y Kish (1980)
categorizaron esta clase de métodos bajo el nombre de Técnicas Contables
Sintomáticas (SAT en inglés). Ghosh y Rao (1994) mencionan algunos de los
métodos descritos en la literatura, estos son: las vital rates method (Bogue,
1950), método compuesto (Bogue y Duncan, 1959), el Método del Componente del
Censo II (CM-II) (U.S. Bureau of the Census, 1966), el método de Registros
Administrativos (AR) (Starsinic, 1974) y el método de Unidad de Vivienda (HU)
(Smith y Lewis, 1980).
Actualmente las EBM han causado
cada vez más interés en el sector público y privado debido a la alta demanda de
obtener estimadores confiables para áreas pequeñas, tal y como sostienen Ghosh
y Rao (1994, p. 56) cuando dicen que “[. . .] se necesitan estadísticas de
áreas pequeñas en la distribución de fondos gubernamentales y en la
planificación regional y urbana. Además, [. . .] la formulación de políticas de
muchas empresas e industrias depende de las condiciones socio económicas
locales”.
Investigaciones que han utilizado EAP
Como se mencionó, la importancia
estadística de cálculos a escalas pequeñas ha crecido en los últimos años por
lo que también lo han hecho el número de investigaciones sobre el tema. El
Instituto Nacional de Estadística (INE) de España utilizó estas técnicas para
la Encuesta de Población Activa con información auxiliar de registros de
población y laborales con el objetivo de estimar la población ocupada de las
Islas Canarias (Paños, 2000). En dicho trabajo se recurrió a estimadores
sintéticos y compuestos, comparando su coeficiente de variación para determinar
cuál es el de menor sesgo. En un estudio a cargo del Ministerio de Desarrollo
Social y Familiar (2017) se estimaron con este método las tasas de pobreza en
Chile a través la encuesta CASEN desde 2009 hasta 2017. En el documento se
explica cómo se llevaron a cabo las estimaciones para cada año de la encuesta,
así como sus actualizaciones metodológicas. Principalmente se utilizó el modelo
de Fay-Harriot (1979) con variaciones a lo largo de los años.
Para el caso de México, el
Instituto Nacional de Estadística y Geografía (INEGI) ha realizado varios
trabajos de estimación en áreas pequeñas. En 2020, realizó un estudio sobre la
Prevalencia de Hipertensión y Obesidad, Diabetes para los Municipios de México
2018. El objetivo de la institución fue de “estimar la proporción de la
población de 20 años y más que padece enfermedades de Obesidad, para los
municipios de México, mediante técnicas de Estimación para Áreas Pequeñas
(EAP), a fin de ampliar la oferta de información derivada de la Encuesta
Nacional de Salud y Nutrición (ENSANUT, 2018) y apoyar la toma de decisiones”
(INEGI 2020).
Por otra parte, Suárez Campos
(2015) realizó un estudio sobre los ingresos por trabajo en la vivienda para
todos los municipios y alcaldías de México. Hace comparación de los resultados
de la estimación directa y los obtenidos por EBM. Utilizó los datos publicados
por la ENIGH 2010 y los Censos de Población y Vivienda (CPV) 2010. A través del
modelo de Fay-Harriot (1979) comprueba la eficiencia de estas técnicas para
estimaciones en pequeñas áreas que las encuestas no logran cubrir con
suficientes datos.
El trabajo de Campos (2010) se combina la información de la ENIGH del año 2005 y el II Conteo de población y Vivienda levantado también en el año 2005 para obtener información relativa al Estado de Sonora, mediante la aplicación y comparación de técnicas estadísticas que estiman y/o predicen el valor promedio del ingreso de los hogares en los 72 municipios del estado.
Paquetes en R para la EAP
El creciente uso de estas
técnicas de estimación para la investigación académica e institucional, así
como del acceso a herramientas computacionales con mayor capacidad de
procesamiento, han abierto la puerta al uso de software especializado. Para el
caso del popular Software R se diseñó el paquete SAE por Isabel Molina y
Yolanda Marhuenda. Fue lanzado el 1 de junio del 2021.
Algunos de los trabajos que han
usado dicho software para la EAP son los trabajos de Rao, J. N., y Molina, I.
(2015). Small area estimation, Pratesi, M. (Ed.). (2016). Analysis of poverty
data by small area estimation. Tzavidis, N., Zhang, L. C., Luna, A., Schmid,
T., y Rojas‐Perilla, N. (2018). From start to finish: a framework for the
production of small area official statistics y Molina, I. (2019). Desagregación
de datos en encuestas de hogares: metodologías de estimación en áreas pequeñas.
En este enlace se puede encontrar
toda la documentación sobre cómo hacer uso de SAE en R.
chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://journal.r-project.org/archive/2015/RJ-2015-007/RJ-2015-007.pdf
Referencias
Bogue, D. J. (1950). A technique
for making extensive population estimates. Journal of the American Statistical
Association, 45(250), 149-163.
Bogue, D. J. and Duncan, B. D.
(1959). A composite method of estimating post censal popoulation of small areas
by age, sex and colour. Vital Statistics-Special Report 47, No. 6, National
Office of Vital Statistics, Washington, DC.
Brackstone, G. J. (1987). Small
area data: policy issues and technical challenges. Small Area Statistics, 3,
20.
Corcuera, J. M. (2002). Técnicas
de estimación en áreas pequeñas. URl: http://www. eustat.
eus/documentos/datos/ct_05_c. pdf.
Erciulescu, A. L., Franco, C.,
& Lahiri, P. (2018). Chapter: Use of Administrative Records in Small Area
Estimation.
Ghosh, M., & Rao, J. (1994).
Small area estimation: an appraisal. Statistical science, 9(1), 55-76.
INEGI (2020). Prevalencia de
Hipertensión y Obesidad, Diabetes para los Municipios de México 2018.
Ministerio de Desarrollo Social y
Familiar (2017). Estimaciones de La Tasa de Pobreza Por Ingresos y
Multidimensional a Nivel Comunal, Año 2017. Aplicación de metodología de
estimación para áreas pequeñas (SAE).
Molina, I. (2019). Desagregación
de datos en encuestas de hogares: metodologías de estimación en áreas pequeñas.
Molina, I., & Marhuenda, Y.
(2015). sae: An R Package for Small Area Estimation. R J., 7(1), 81.
Paños, López. (2000).
“Estimaciones Para Áreas Pequeñas.” Estadistica española 42: 291–338.
Pratesi, M. (Ed.). (2016).
Analysis of poverty data by small area estimation.
Purcell, N. J., & Kish, L.
(1980). Postcensal estimates for local areas (or domains). International
Statistical Review/Revue Internationale de Statistique 48(1), 3-18.
Rao, J. N., & Molina, I.
(2015). Small area estimation. John Wiley & Sons.
Smith, S. K., & Lewis, B. B.
(1980). Some new techniques for applying the housing unit method of local
population estimation. Demography, 17(3), 323-339.
Starsinic, D. E. (1974).
Development of population estimates for revenue sharing areas. US Census Bureau
[custodian].
Suárez Campos, M. A., Aguilar
Mata, G., & Mejía González, R. (2015). Estimación del ingreso por trabajo
en los municipios y las delegaciones de México utilizando técnicas de
estimación para áreas pequeñas. Realidad, datos y espacio. Revista
internacional de estadística y geografía, (3), 44-61.
Tzavidis, N., Zhang, L. C., Luna,
A., Schmid, T., & Rojas‐Perilla, N. (2018). From start to finish: a
framework for the production of small area official statistics. Journal of the
Royal Statistical Society: Series A (Statistics in Society), 181(4), 927-979.