ESTIMACIÓN EN ÁREAS PEQUEÑAS: EL INGRESO

Transcripción

IX Congreso Galego de Estatı́stica e Investigación de Operacións
Ourense, 12–13–14 de novembro de 2009
ESTIMACIÓN EN ÁREAS PEQUEÑAS: EL INGRESO MEDIO
MENSUAL POR HOGAR EN LAS COMARCAS GALLEGAS.
Roberto Domı́nguez Gómez1 , Marı́a José Lombardı́a Cortiña2 , Esther López
Vizcaı́no3 , Wenceslao González Manteiga1 y José Manuel Prada Sánchez1
1
Universidade de Santiago de Compostela
Universidade da Coruña
3
Instituto Galego de Estatı́stica
2
RESUMEN
El ingreso medio mensual por hogar es un indicador de la situación socioeconómica y por lo tanto es de principal interés para la sociedad en
general, y en particular para la administración local y regional que necesitan la información para diferentes programas económicos y sociales. La
efectividad de estos programas depende del conocimiento de la situación
socioeconómica a través de información estadı́stica fiable. En consecuencia, hoy en dı́a los estudios y las investigaciones a nivel regional y local
son de gran interés. Un estudio de simulación compara los resultados de
la estimación basada en el diseño con la estimación basada en el modelo.
Finalmente se aplican los estimadores con datos reales.
Palabras clave: Encuesta de Condiciones de Vida, modelo lineal mixto, efecto
aleatorio, bootstrap.
1. INTRODUCCIÓN
El problema surge cuando a partir de una encuesta se quiere ofrecer datos con un nivel
de desagregación inferior a provincia o agrupación comarcal. En particular, el IGE
realiza encuestas para dar estimaciones directas para las provincias o agrupaciones
comarcales pero no es habitual ofrecer datos con un nivel de desagregación inferior,
debido a que las encuestas no están diseñadas para dar estimaciones directas para este
nivel de desagregación. Un área es considerada como área pequeña cuando la muestra
en el área no es suficientemente grande para conseguir estimaciones directas fiables.
Ejemplos de áreas pequeñas pueden ser áreas geográficas (estados, provincias, municipios, comarcas, distritos escolares), grupos socio-demográficos (grupos especı́ficos
por edad-sexo-raza) y otras subpoblaciones como un conjunto de firmas de empresas.
1
Un modo de afrontar el problema en áreas pequeñas es aumentar el tamaño muestral. Sin embargo, un aumento de tamaño de muestra lleva, entre otras cosas, a
un aumento en el coste del estudio, una mayor carga de respuesta a los informantes
y mayores errores ajenos al muestreo, lo que, en general, se trata de evitar. Otra
alternativa es utilizar técnicas más complejas, asistidas y basadas en modelos. Las
estimaciones basadas en el modelo están siendo de gran interés en los últimos años
por sus buenos resultados. Una propiedad importante de estos estimadores es su bajo
error cuadrático medio (MSE) comparado con los estimadores directos. Notamos que
es importante que el modelo esté bien especificado y que las variables auxiliares contengan información relevante. La inclusión de efectos aleatorios de área en el modelo
es común en la estimación para áreas pequeñas. Estos efectos recogen la variación en
las áreas que no está explicada por las variables auxiliares.
En general se dispone de la información auxiliar a través del censo u otras fuentes administrativas. Si se cuenta con información auxiliar relevante para cada unidad de la
población, entonces los modelos se pueden definir a nivel de individuo. Sin embargo,
existen casos donde la información a nivel de individuo no está actualizada u otros
donde no se dispone de información a nivel de individuo por razones de privacidad.
Normalmente en estos casos es posible conseguir datos agregados por área, lo que nos
llevarı́a a un modelo de área.
Este documento se centra en la estimación del ingreso medio mensual por hogar en
las 53 comarcas de Galicia. Dada una muestra s, se quiere estimar el ingreso medio
mensual Y d en la comarca d. A continuación se definen los estimadores usados en el
estudio, estos se pueden clasificar en dos grupos: los estimadores clásicos basados en
el diseño y los estimadores basados en el modelo.
2. METODOLOGÍA
Estimación basada en el diseño:
• Estimador Horvitz-Thompson:
P
HT
ωj yj
b
Y d = Psd
,
sd ωj
d = 1, . . . , D
donde sd es la muestra perteneciente a la comarca d, yj el ingreso mensual del
hogar j y ωj el peso muestral asignado al hogar j.
• Estimador postestratificado sintético:
H
P OST,S
HT
1 X
Yb d
=
Mdh Yb h ,
Md
d = 1, . . . , D
h=1
denotando por h los postestratos relevantes, Md el total poblacional de las personas en la comarca d y Mdh el total poblacional de las personas que pertenecen
2
HT
a la intersección de la comarca d con el estrato h. Además definimos Yb h como
el estimador de Horvitz-Thompson de la media mensual en el estrato h.
• Estimador compuesto:
COM P,P
HT
P OST,S
Yb d
= γd Yb d + (1 − γd )Yb d
,
d = 1, . . . , D
donde γd son pesos dependientes del tamaño muestral en la comarca d, definidos
como:

cHT ≥ δMd
1
si M

d
HT
c
γd =
M
d

en caso contrario
δMd
cHT la estimación de Horvitz-Thompson del total de las personas Md en la
con M
d
comarca d. Para el parámetro δ se pueden tomar distintos valores, δ ∈ {1, 3/2, 2}
(Eustat, 2008).
Estimación basada en el modelo:
• Modelo Fay-Herriot:
El modelo se construye a partir de la información auxiliar disponible de la
Agencia Estatal de la Administración Tributaria (AEAT). La información está
disponible solamente a nivel de comarca y por lo tanto la estimación se basa en
el siguiente modelo de área (Fay and Herriot, 1979):
HT
Yb d = β0 + Xd β1 + ud + εd ,
d = 1, . . . , D
Este modelo asume que los efectos aleatorios de área ud son independientes e
idénticamente distribuidos según ud ∼ N (0, σu2 ) y los errores de muestreo εd son
independientes y distribuidos según εd ∼ N (0, σd2 ), con ud independientes de εd .
También se asume que la varianza σu2 de los efectos aleatorios es desconocida y
que las varianzas σd2 = s2d /nd de los errores muestrales son conocidas, siendo s2d
y nd la cuasivarianza muestral de la variable objetivo y el tamaño muestral en
la comarca d, respectivamente.
Además, como covariable Xd se toma la renta media anual declarada por individuo en la comarca d (datos del IRPF).
Basándose en este modelo, se define el estimador Fay-Herriot:
EBLU P
Yb d
= β̂0 + Xd β̂1 + ûd ,
d = 1, . . . , D
Los parámetros se estiman por máxima verosimilitud restringida (REML). Para
más detalle, véase Rao (2003, Cap. 6 y 7).
3
3. APLICACIÓN
Se quiere estimar el ingreso medio mensual por hogar en las comarcas gallegas. A
continuación se dan las estimaciones de la variable objetivo para cada comarca y su
coeficiente de variación estimado (CV):
q
mse(Yb d )
× 100,
d = 1, . . . , 51
CVd =
Yb
d
En el estudio se aplican los estimadores Horvitz-Thompson (HT), compuesto (COMP2)
y Fay-Herriot (FH).
Ingreso medio en €
HT
COMP2
FH
1950
1850
1750
1650
1550
1450
1350
1250
1150
950
Muros
Terra de Melide
Quiroga
Allariz-Maceda
Viana
A Barcala
Fisterra
O Sar
Os Ancares
Meira
O Ribeiro
T. de Caldelas
A Paradanta
Ortegal
Terra de Soneira
Xallas
Chantada
A Mariña Or
Sarria
A Ulloa
O Carballiño
T. de Celanova
Valdeorras
Arzúa
Baixa Limia
Verín
Betanzos
Eume
A Mariña Central
A Mariña Occ
O Baixo Miño
Caldas
O Condado
Tabeirós-Montes
Terra de Lemos
Terra Chá
A Limia
Ordes
Deza
Barbanza
Noia
O Morrazo
Bergantiños
O Salnés
Lugo
Pontevedra
Santiago
Ourense
Ferrol
A Coruña
Vigo
1050
Figura 1: Estimación del ingreso medio mensual en las comarcas de Galicia.
Nota: datos experimentales.
4
CV ingreso medio en %
HT B
COMP2 B
FH B
45
40
35
30
25
20
15
10
0
Muros
Terra de Melide
Quiroga
Allariz-Maceda
Viana
A Barcala
Fisterra
O Sar
Os Ancares
Meira
O Ribeiro
T. de Caldelas
A Paradanta
Ortegal
Terra de Soneira
Xallas
Chantada
A Mariña Or
Sarria
A Ulloa
O Carballiño
T. de Celanova
Valdeorras
Arzúa
Baixa Limia
Verín
Betanzos
Eume
A Mariña Central
A Mariña Occ
O Baixo Miño
Caldas
O Condado
Tabeirós-Montes
Terra de Lemos
Terra Chá
A Limia
Ordes
Deza
Barbanza
Noia
O Morrazo
Bergantiños
O Salnés
Lugo
Pontevedra
Santiago
Ourense
Ferrol
A Coruña
Vigo
5
Figura 2: Estimación del CV (en %) de los estimadores del ingreso medio mensual en
las comarcas de Galicia. Nota: datos experimentales.
Las comarcas en las Figuras 1 y 2 están ordenadas según su tamaño muestral. Se
observa en la Figura 1 que los valores más altos de la variable objetivo se obtienen
en las comarcas con mayor tamaño muestral. Pontevedra es la comarca con el valor
más alto con un ingreso medio mensual de cerca de 1.900 euros, A Baixa Limia es la
comarca con el valor más bajo con un ingreso medio mensual de aproximadamente
1.000 euros. Además, en la Figura 1 se observa una gran diferencia (de aproximadamente 400 euros) entre las estimaciones de HT y de FH del ingreso medio mensual
en la comarca de Os Ancares. Para estas comarcas se coge el estimador con menor
coeficiente de variación.
En la Figura 2 se ve que el estimador Fay-Herriot obtiene mejores resultados en
cuanto al CV, sobre todo para las comarcas con menor tamaño muestral. Por ejemplo, en la Figura 2 se observa una diferencia del 30% entre los CV de los estimadores
en la comarca de Allariz-Maceda.
Analizando los resultados se puede concluir que el estimador Fay-Herriot basado en
el modelo es un serio competidor de los estimadores clásicos basados en el diseño.
5
REFERENCIAS
Eustat (2008) Estimación de áreas pequeñas en la encuesta de población en relación
con la actividad de la C.A. de Euskadi. Eustat.
Fay, R. E. and Herriot, R. A. (1979) Estimates of income for small places: An application of James-Stein procedures to census data. Journal of the American Statistical
Association , 74, 269-277.
Rao, J. N. K. (2003) Small Area Estimation. Wiley, New York.
6

ESTIMACIÓN EN ÁREAS PEQUEÑAS: EL INGRESO

Transcripción

Documentos relacionados

cartel percusion - Comarca Andorra Sierra de Arcos

División Comarcal PROVINCIA DE CHUBUT

INFORME PARTICIPACIÓN EN CONGRESO GENERAL GUNA