ESTIMACI´ON EN ´AREAS PEQUE˜NAS: EL INGRESO

Transcripción

ESTIMACI´ON EN ´AREAS PEQUE˜NAS: EL INGRESO
IX Congreso Galego de Estatı́stica e Investigación de Operacións
Ourense, 12–13–14 de novembro de 2009
ESTIMACIÓN EN ÁREAS PEQUEÑAS: EL INGRESO MEDIO
MENSUAL POR HOGAR EN LAS COMARCAS GALLEGAS.
Roberto Domı́nguez Gómez1 , Marı́a José Lombardı́a Cortiña2 , Esther López
Vizcaı́no3 , Wenceslao González Manteiga1 y José Manuel Prada Sánchez1
1
Universidade de Santiago de Compostela
Universidade da Coruña
3
Instituto Galego de Estatı́stica
2
RESUMEN
El ingreso medio mensual por hogar es un indicador de la situación socioeconómica y por lo tanto es de principal interés para la sociedad en
general, y en particular para la administración local y regional que necesitan la información para diferentes programas económicos y sociales. La
efectividad de estos programas depende del conocimiento de la situación
socioeconómica a través de información estadı́stica fiable. En consecuencia, hoy en dı́a los estudios y las investigaciones a nivel regional y local
son de gran interés. Un estudio de simulación compara los resultados de
la estimación basada en el diseño con la estimación basada en el modelo.
Finalmente se aplican los estimadores con datos reales.
Palabras clave: Encuesta de Condiciones de Vida, modelo lineal mixto, efecto
aleatorio, bootstrap.
1. INTRODUCCIÓN
El problema surge cuando a partir de una encuesta se quiere ofrecer datos con un nivel
de desagregación inferior a provincia o agrupación comarcal. En particular, el IGE
realiza encuestas para dar estimaciones directas para las provincias o agrupaciones
comarcales pero no es habitual ofrecer datos con un nivel de desagregación inferior,
debido a que las encuestas no están diseñadas para dar estimaciones directas para este
nivel de desagregación. Un área es considerada como área pequeña cuando la muestra
en el área no es suficientemente grande para conseguir estimaciones directas fiables.
Ejemplos de áreas pequeñas pueden ser áreas geográficas (estados, provincias, municipios, comarcas, distritos escolares), grupos socio-demográficos (grupos especı́ficos
por edad-sexo-raza) y otras subpoblaciones como un conjunto de firmas de empresas.
1
Un modo de afrontar el problema en áreas pequeñas es aumentar el tamaño muestral. Sin embargo, un aumento de tamaño de muestra lleva, entre otras cosas, a
un aumento en el coste del estudio, una mayor carga de respuesta a los informantes
y mayores errores ajenos al muestreo, lo que, en general, se trata de evitar. Otra
alternativa es utilizar técnicas más complejas, asistidas y basadas en modelos. Las
estimaciones basadas en el modelo están siendo de gran interés en los últimos años
por sus buenos resultados. Una propiedad importante de estos estimadores es su bajo
error cuadrático medio (MSE) comparado con los estimadores directos. Notamos que
es importante que el modelo esté bien especificado y que las variables auxiliares contengan información relevante. La inclusión de efectos aleatorios de área en el modelo
es común en la estimación para áreas pequeñas. Estos efectos recogen la variación en
las áreas que no está explicada por las variables auxiliares.
En general se dispone de la información auxiliar a través del censo u otras fuentes administrativas. Si se cuenta con información auxiliar relevante para cada unidad de la
población, entonces los modelos se pueden definir a nivel de individuo. Sin embargo,
existen casos donde la información a nivel de individuo no está actualizada u otros
donde no se dispone de información a nivel de individuo por razones de privacidad.
Normalmente en estos casos es posible conseguir datos agregados por área, lo que nos
llevarı́a a un modelo de área.
Este documento se centra en la estimación del ingreso medio mensual por hogar en
las 53 comarcas de Galicia. Dada una muestra s, se quiere estimar el ingreso medio
mensual Y d en la comarca d. A continuación se definen los estimadores usados en el
estudio, estos se pueden clasificar en dos grupos: los estimadores clásicos basados en
el diseño y los estimadores basados en el modelo.
2. METODOLOGÍA
Estimación basada en el diseño:
• Estimador Horvitz-Thompson:
P
HT
ωj yj
b
Y d = Psd
,
sd ωj
d = 1, . . . , D
donde sd es la muestra perteneciente a la comarca d, yj el ingreso mensual del
hogar j y ωj el peso muestral asignado al hogar j.
• Estimador postestratificado sintético:
H
P OST,S
HT
1 X
Yb d
=
Mdh Yb h ,
Md
d = 1, . . . , D
h=1
denotando por h los postestratos relevantes, Md el total poblacional de las personas en la comarca d y Mdh el total poblacional de las personas que pertenecen
2
HT
a la intersección de la comarca d con el estrato h. Además definimos Yb h como
el estimador de Horvitz-Thompson de la media mensual en el estrato h.
• Estimador compuesto:
COM P,P
HT
P OST,S
Yb d
= γd Yb d + (1 − γd )Yb d
,
d = 1, . . . , D
donde γd son pesos dependientes del tamaño muestral en la comarca d, definidos
como:

cHT ≥ δMd
1
si M

d
HT
c
γd =
M
d

en caso contrario
δMd
cHT la estimación de Horvitz-Thompson del total de las personas Md en la
con M
d
comarca d. Para el parámetro δ se pueden tomar distintos valores, δ ∈ {1, 3/2, 2}
(Eustat, 2008).
Estimación basada en el modelo:
• Modelo Fay-Herriot:
El modelo se construye a partir de la información auxiliar disponible de la
Agencia Estatal de la Administración Tributaria (AEAT). La información está
disponible solamente a nivel de comarca y por lo tanto la estimación se basa en
el siguiente modelo de área (Fay and Herriot, 1979):
HT
Yb d = β0 + Xd β1 + ud + εd ,
d = 1, . . . , D
Este modelo asume que los efectos aleatorios de área ud son independientes e
idénticamente distribuidos según ud ∼ N (0, σu2 ) y los errores de muestreo εd son
independientes y distribuidos según εd ∼ N (0, σd2 ), con ud independientes de εd .
También se asume que la varianza σu2 de los efectos aleatorios es desconocida y
que las varianzas σd2 = s2d /nd de los errores muestrales son conocidas, siendo s2d
y nd la cuasivarianza muestral de la variable objetivo y el tamaño muestral en
la comarca d, respectivamente.
Además, como covariable Xd se toma la renta media anual declarada por individuo en la comarca d (datos del IRPF).
Basándose en este modelo, se define el estimador Fay-Herriot:
EBLU P
Yb d
= β̂0 + Xd β̂1 + ûd ,
d = 1, . . . , D
Los parámetros se estiman por máxima verosimilitud restringida (REML). Para
más detalle, véase Rao (2003, Cap. 6 y 7).
3
3. APLICACIÓN
Se quiere estimar el ingreso medio mensual por hogar en las comarcas gallegas. A
continuación se dan las estimaciones de la variable objetivo para cada comarca y su
coeficiente de variación estimado (CV):
q
mse(Yb d )
× 100,
d = 1, . . . , 51
CVd =
Yb
d
En el estudio se aplican los estimadores Horvitz-Thompson (HT), compuesto (COMP2)
y Fay-Herriot (FH).
Ingreso medio en €
HT
COMP2
FH
1950
1850
1750
1650
1550
1450
1350
1250
1150
950
Muros
Terra de Melide
Quiroga
Allariz-Maceda
Viana
A Barcala
Fisterra
O Sar
Os Ancares
Meira
O Ribeiro
T. de Caldelas
A Paradanta
Ortegal
Terra de Soneira
Xallas
Chantada
A Mariña Or
Sarria
A Ulloa
O Carballiño
T. de Celanova
Valdeorras
Arzúa
Baixa Limia
Verín
Betanzos
Eume
A Mariña Central
A Mariña Occ
O Baixo Miño
Caldas
O Condado
Tabeirós-Montes
Terra de Lemos
Terra Chá
A Limia
Ordes
Deza
Barbanza
Noia
O Morrazo
Bergantiños
O Salnés
Lugo
Pontevedra
Santiago
Ourense
Ferrol
A Coruña
Vigo
1050
Figura 1: Estimación del ingreso medio mensual en las comarcas de Galicia.
Nota: datos experimentales.
4
CV ingreso medio en %
HT B
COMP2 B
FH B
45
40
35
30
25
20
15
10
0
Muros
Terra de Melide
Quiroga
Allariz-Maceda
Viana
A Barcala
Fisterra
O Sar
Os Ancares
Meira
O Ribeiro
T. de Caldelas
A Paradanta
Ortegal
Terra de Soneira
Xallas
Chantada
A Mariña Or
Sarria
A Ulloa
O Carballiño
T. de Celanova
Valdeorras
Arzúa
Baixa Limia
Verín
Betanzos
Eume
A Mariña Central
A Mariña Occ
O Baixo Miño
Caldas
O Condado
Tabeirós-Montes
Terra de Lemos
Terra Chá
A Limia
Ordes
Deza
Barbanza
Noia
O Morrazo
Bergantiños
O Salnés
Lugo
Pontevedra
Santiago
Ourense
Ferrol
A Coruña
Vigo
5
Figura 2: Estimación del CV (en %) de los estimadores del ingreso medio mensual en
las comarcas de Galicia. Nota: datos experimentales.
Las comarcas en las Figuras 1 y 2 están ordenadas según su tamaño muestral. Se
observa en la Figura 1 que los valores más altos de la variable objetivo se obtienen
en las comarcas con mayor tamaño muestral. Pontevedra es la comarca con el valor
más alto con un ingreso medio mensual de cerca de 1.900 euros, A Baixa Limia es la
comarca con el valor más bajo con un ingreso medio mensual de aproximadamente
1.000 euros. Además, en la Figura 1 se observa una gran diferencia (de aproximadamente 400 euros) entre las estimaciones de HT y de FH del ingreso medio mensual
en la comarca de Os Ancares. Para estas comarcas se coge el estimador con menor
coeficiente de variación.
En la Figura 2 se ve que el estimador Fay-Herriot obtiene mejores resultados en
cuanto al CV, sobre todo para las comarcas con menor tamaño muestral. Por ejemplo, en la Figura 2 se observa una diferencia del 30% entre los CV de los estimadores
en la comarca de Allariz-Maceda.
Analizando los resultados se puede concluir que el estimador Fay-Herriot basado en
el modelo es un serio competidor de los estimadores clásicos basados en el diseño.
5
REFERENCIAS
Eustat (2008) Estimación de áreas pequeñas en la encuesta de población en relación
con la actividad de la C.A. de Euskadi. Eustat.
Fay, R. E. and Herriot, R. A. (1979) Estimates of income for small places: An application of James-Stein procedures to census data. Journal of the American Statistical
Association , 74, 269-277.
Rao, J. N. K. (2003) Small Area Estimation. Wiley, New York.
6

Documentos relacionados