ESTIMACI´ON EN ´AREAS PEQUE˜NAS: EL INGRESO
Transcripción
ESTIMACI´ON EN ´AREAS PEQUE˜NAS: EL INGRESO
IX Congreso Galego de Estatı́stica e Investigación de Operacións Ourense, 12–13–14 de novembro de 2009 ESTIMACIÓN EN ÁREAS PEQUEÑAS: EL INGRESO MEDIO MENSUAL POR HOGAR EN LAS COMARCAS GALLEGAS. Roberto Domı́nguez Gómez1 , Marı́a José Lombardı́a Cortiña2 , Esther López Vizcaı́no3 , Wenceslao González Manteiga1 y José Manuel Prada Sánchez1 1 Universidade de Santiago de Compostela Universidade da Coruña 3 Instituto Galego de Estatı́stica 2 RESUMEN El ingreso medio mensual por hogar es un indicador de la situación socioeconómica y por lo tanto es de principal interés para la sociedad en general, y en particular para la administración local y regional que necesitan la información para diferentes programas económicos y sociales. La efectividad de estos programas depende del conocimiento de la situación socioeconómica a través de información estadı́stica fiable. En consecuencia, hoy en dı́a los estudios y las investigaciones a nivel regional y local son de gran interés. Un estudio de simulación compara los resultados de la estimación basada en el diseño con la estimación basada en el modelo. Finalmente se aplican los estimadores con datos reales. Palabras clave: Encuesta de Condiciones de Vida, modelo lineal mixto, efecto aleatorio, bootstrap. 1. INTRODUCCIÓN El problema surge cuando a partir de una encuesta se quiere ofrecer datos con un nivel de desagregación inferior a provincia o agrupación comarcal. En particular, el IGE realiza encuestas para dar estimaciones directas para las provincias o agrupaciones comarcales pero no es habitual ofrecer datos con un nivel de desagregación inferior, debido a que las encuestas no están diseñadas para dar estimaciones directas para este nivel de desagregación. Un área es considerada como área pequeña cuando la muestra en el área no es suficientemente grande para conseguir estimaciones directas fiables. Ejemplos de áreas pequeñas pueden ser áreas geográficas (estados, provincias, municipios, comarcas, distritos escolares), grupos socio-demográficos (grupos especı́ficos por edad-sexo-raza) y otras subpoblaciones como un conjunto de firmas de empresas. 1 Un modo de afrontar el problema en áreas pequeñas es aumentar el tamaño muestral. Sin embargo, un aumento de tamaño de muestra lleva, entre otras cosas, a un aumento en el coste del estudio, una mayor carga de respuesta a los informantes y mayores errores ajenos al muestreo, lo que, en general, se trata de evitar. Otra alternativa es utilizar técnicas más complejas, asistidas y basadas en modelos. Las estimaciones basadas en el modelo están siendo de gran interés en los últimos años por sus buenos resultados. Una propiedad importante de estos estimadores es su bajo error cuadrático medio (MSE) comparado con los estimadores directos. Notamos que es importante que el modelo esté bien especificado y que las variables auxiliares contengan información relevante. La inclusión de efectos aleatorios de área en el modelo es común en la estimación para áreas pequeñas. Estos efectos recogen la variación en las áreas que no está explicada por las variables auxiliares. En general se dispone de la información auxiliar a través del censo u otras fuentes administrativas. Si se cuenta con información auxiliar relevante para cada unidad de la población, entonces los modelos se pueden definir a nivel de individuo. Sin embargo, existen casos donde la información a nivel de individuo no está actualizada u otros donde no se dispone de información a nivel de individuo por razones de privacidad. Normalmente en estos casos es posible conseguir datos agregados por área, lo que nos llevarı́a a un modelo de área. Este documento se centra en la estimación del ingreso medio mensual por hogar en las 53 comarcas de Galicia. Dada una muestra s, se quiere estimar el ingreso medio mensual Y d en la comarca d. A continuación se definen los estimadores usados en el estudio, estos se pueden clasificar en dos grupos: los estimadores clásicos basados en el diseño y los estimadores basados en el modelo. 2. METODOLOGÍA Estimación basada en el diseño: • Estimador Horvitz-Thompson: P HT ωj yj b Y d = Psd , sd ωj d = 1, . . . , D donde sd es la muestra perteneciente a la comarca d, yj el ingreso mensual del hogar j y ωj el peso muestral asignado al hogar j. • Estimador postestratificado sintético: H P OST,S HT 1 X Yb d = Mdh Yb h , Md d = 1, . . . , D h=1 denotando por h los postestratos relevantes, Md el total poblacional de las personas en la comarca d y Mdh el total poblacional de las personas que pertenecen 2 HT a la intersección de la comarca d con el estrato h. Además definimos Yb h como el estimador de Horvitz-Thompson de la media mensual en el estrato h. • Estimador compuesto: COM P,P HT P OST,S Yb d = γd Yb d + (1 − γd )Yb d , d = 1, . . . , D donde γd son pesos dependientes del tamaño muestral en la comarca d, definidos como: cHT ≥ δMd 1 si M d HT c γd = M d en caso contrario δMd cHT la estimación de Horvitz-Thompson del total de las personas Md en la con M d comarca d. Para el parámetro δ se pueden tomar distintos valores, δ ∈ {1, 3/2, 2} (Eustat, 2008). Estimación basada en el modelo: • Modelo Fay-Herriot: El modelo se construye a partir de la información auxiliar disponible de la Agencia Estatal de la Administración Tributaria (AEAT). La información está disponible solamente a nivel de comarca y por lo tanto la estimación se basa en el siguiente modelo de área (Fay and Herriot, 1979): HT Yb d = β0 + Xd β1 + ud + εd , d = 1, . . . , D Este modelo asume que los efectos aleatorios de área ud son independientes e idénticamente distribuidos según ud ∼ N (0, σu2 ) y los errores de muestreo εd son independientes y distribuidos según εd ∼ N (0, σd2 ), con ud independientes de εd . También se asume que la varianza σu2 de los efectos aleatorios es desconocida y que las varianzas σd2 = s2d /nd de los errores muestrales son conocidas, siendo s2d y nd la cuasivarianza muestral de la variable objetivo y el tamaño muestral en la comarca d, respectivamente. Además, como covariable Xd se toma la renta media anual declarada por individuo en la comarca d (datos del IRPF). Basándose en este modelo, se define el estimador Fay-Herriot: EBLU P Yb d = β̂0 + Xd β̂1 + ûd , d = 1, . . . , D Los parámetros se estiman por máxima verosimilitud restringida (REML). Para más detalle, véase Rao (2003, Cap. 6 y 7). 3 3. APLICACIÓN Se quiere estimar el ingreso medio mensual por hogar en las comarcas gallegas. A continuación se dan las estimaciones de la variable objetivo para cada comarca y su coeficiente de variación estimado (CV): q mse(Yb d ) × 100, d = 1, . . . , 51 CVd = Yb d En el estudio se aplican los estimadores Horvitz-Thompson (HT), compuesto (COMP2) y Fay-Herriot (FH). Ingreso medio en € HT COMP2 FH 1950 1850 1750 1650 1550 1450 1350 1250 1150 950 Muros Terra de Melide Quiroga Allariz-Maceda Viana A Barcala Fisterra O Sar Os Ancares Meira O Ribeiro T. de Caldelas A Paradanta Ortegal Terra de Soneira Xallas Chantada A Mariña Or Sarria A Ulloa O Carballiño T. de Celanova Valdeorras Arzúa Baixa Limia Verín Betanzos Eume A Mariña Central A Mariña Occ O Baixo Miño Caldas O Condado Tabeirós-Montes Terra de Lemos Terra Chá A Limia Ordes Deza Barbanza Noia O Morrazo Bergantiños O Salnés Lugo Pontevedra Santiago Ourense Ferrol A Coruña Vigo 1050 Figura 1: Estimación del ingreso medio mensual en las comarcas de Galicia. Nota: datos experimentales. 4 CV ingreso medio en % HT B COMP2 B FH B 45 40 35 30 25 20 15 10 0 Muros Terra de Melide Quiroga Allariz-Maceda Viana A Barcala Fisterra O Sar Os Ancares Meira O Ribeiro T. de Caldelas A Paradanta Ortegal Terra de Soneira Xallas Chantada A Mariña Or Sarria A Ulloa O Carballiño T. de Celanova Valdeorras Arzúa Baixa Limia Verín Betanzos Eume A Mariña Central A Mariña Occ O Baixo Miño Caldas O Condado Tabeirós-Montes Terra de Lemos Terra Chá A Limia Ordes Deza Barbanza Noia O Morrazo Bergantiños O Salnés Lugo Pontevedra Santiago Ourense Ferrol A Coruña Vigo 5 Figura 2: Estimación del CV (en %) de los estimadores del ingreso medio mensual en las comarcas de Galicia. Nota: datos experimentales. Las comarcas en las Figuras 1 y 2 están ordenadas según su tamaño muestral. Se observa en la Figura 1 que los valores más altos de la variable objetivo se obtienen en las comarcas con mayor tamaño muestral. Pontevedra es la comarca con el valor más alto con un ingreso medio mensual de cerca de 1.900 euros, A Baixa Limia es la comarca con el valor más bajo con un ingreso medio mensual de aproximadamente 1.000 euros. Además, en la Figura 1 se observa una gran diferencia (de aproximadamente 400 euros) entre las estimaciones de HT y de FH del ingreso medio mensual en la comarca de Os Ancares. Para estas comarcas se coge el estimador con menor coeficiente de variación. En la Figura 2 se ve que el estimador Fay-Herriot obtiene mejores resultados en cuanto al CV, sobre todo para las comarcas con menor tamaño muestral. Por ejemplo, en la Figura 2 se observa una diferencia del 30% entre los CV de los estimadores en la comarca de Allariz-Maceda. Analizando los resultados se puede concluir que el estimador Fay-Herriot basado en el modelo es un serio competidor de los estimadores clásicos basados en el diseño. 5 REFERENCIAS Eustat (2008) Estimación de áreas pequeñas en la encuesta de población en relación con la actividad de la C.A. de Euskadi. Eustat. Fay, R. E. and Herriot, R. A. (1979) Estimates of income for small places: An application of James-Stein procedures to census data. Journal of the American Statistical Association , 74, 269-277. Rao, J. N. K. (2003) Small Area Estimation. Wiley, New York. 6