Muestreo. Tarea 1. Semestre 2015-2. Profesora: Guillermina Eslava
Transcripción
Muestreo. Tarea 1. Semestre 2015-2. Profesora: Guillermina Eslava
Muestreo. Tarea 1. Semestre 2015-2. Profesora: Guillermina Eslava Gómez. Ayudante: Graciela Martı́nez Sánchez Fecha de entrega: viernes 27 de febrero en clase Resolver en equipos de 4 a 6 alumnos. Las tareas se entregan en hojas blancas y bien escritas, manuscritas o en latex. Precede a examen 1 del viernes 6 de marzo. 1. Los diseños muestrales donde las probabilidades de inclusión de primer orden son constantes se llaman diseños autoponderados, y son muy buscados por que facilitan el análisis estadı́stico de la información generada con ellos. El muestreo aleatorio simple es un diseño autoponderado, donde además de tener probabilidades de inclusión de primer orden constantes, también tiene probabilidades de inclusión de segundo orden constantes y estrictamente positivas: n(n − 1) n , πij = , i, j = 1, ..., N, i 6= j. N N (N − 1) i) Desarrolle las expresiones especı́ficas correspondientes al estimador HorvitzThompson, πi = b tπ = N n N X X X yk yl yk b (πkl − πk πl ) , V (tπ ) = , πk πk πl k=1 k=1 l=1 Vb (b tπ ) = n n X X (πkl − πk πl ) yk yl . π π kl k πl k=1 l=1 ii) Demuestre que para este diseño especı́fico, que satisface ser de tamaño de muestra constante, el estimador de la varianza Horvitz-Thompson coincide con el estimador de Yates-Grundy, es decir, VbHT (b tπ ) = n X n n n X πkl − πk πl yk yl 1 X X πkl − πk πl yk yl =− ( − )2 = VbY G . πkl π k πl 2 k=1 l=1 πkl πk πl k=1 l=1 2. Al considerar un muestreo especı́fico, las mediciones de interés pueden ser consideradas como variables continuas o discretas. Por ejemplo, Y puede corresponder al ingreso total del hogar y tratarse como una variable contı́nua. O bien Y puede representar la presencia o ausencia de un atributo y entonces ser una variable binaria (0, 1), en este caso la expresión del estimador Horvitz-Thompson, de su varianza y de su varianza estimada toman expresiones aún más especı́ficas. Cuando el diseño muestral es un aleatorio simple, variable binaria toma Pnla media estimada de una b la forma de una proporción: y /n = y = P = P , lo que se conoce como n n i=1 i muestreo aleatorio simple para proporciones. Usando las expresiones derivadas en el ejercicio 1 i) y considerando que yi = 0 ó yi = 1, derive las expresiones especı́ficas en función de PN ó Pn para un muestreo aleatorio simple para proporciones. 1 3. En un sector de la industria se llevó a cabo una encuesta con el fin de estimar el grado de abstencionismo de los trabajadores en dı́as hábiles. Se tomó una muestra aleatoria simple de 1,000 trabajadores de una población total de 36,000, y se les preguntó el número de dı́as que faltaron al trabajo en los últimos seis meses, sin incluir dı́as festivos o faltas por enfermedad. Se observó lo siguiente. Ausencias Número de trabajadores 0 451 1 162 2 187 3 112 4 49 5 6 21 5 7 8 11 2 i) Dé el conjunto de probabilidades de inclusión de primer y de segundo orden, {πi ; i = 1, ...N }, {πkl ; k, l : 1, ....N }. ii) ¿Es el diseño autoponderado? Dé el conjunto de factores de expansión o pesos muestrales. iii) Estime el número total de ausencias ocurridas en el grupo de trabajadores en los últimos seis meses, b tπ . iv) Estime el número promedio de ausencias por trabajador en los últimos seis meses, b tπ /N . v) Calcule la varianza de los estimadores en iii) y iv), y reporte un intervalo de confianza aproximado (para muestras grandes) al 95% para el total de dias ausentes en el grupo y para el número promedio de ausencias por trabajador, q q tπ ) < t < b tπ + t(n−1) Vb (b tπ ) = 1 − α, P b tπ − t(n−1) Vb (b q q b b b b b P t̂π /N − t(n−1) V (tπ /N ) < t/N < tπ /N + t(n−1) V (tπ /N ) = 1 − α. Nota: Para el cálculo de los estimadores puede usar la fórmula general o bien la fórmula especifica correspondiente al diseño. Recuerde que P X πkl − πk πl yk yl n 1 ni=1 (yi − ȳs )2 2 V̂ (t̂π ) = = N (1 − ) π π N n n−1 kl k πl k,l∈s Cálculo auxiliar P40 i=1 (yi − ȳs )2 = 175.6. Use el valor de t(39) = 2.0 4. Considere el problema presentado en la pregunta anterior. Suponga que se desea estimar la proporción, P , de trabajadores calificados como faltı́stas, aquellos que faltaron más de tres dı́as. i) Estime la proporción de trabajadores faltistas, Pb. b = 1 − Pb. ii) Estime la proporción de trabajadores no faltistas, Q b iii) Estime la varianza de cada estimador estimador, Vb (Pb) y Vb (Q). iv) De un intervalo de confianza para la proporción P de maestros faltistas. ReP̂ Q̂ cuerde que V̂ (P̂ ) = V̂ ( t̂Nπ ) = (1 − Nn ) n−1 . 2 5. Suponga que se desea conducir una encuesta acerca de un aspecto sensitivo en una población, e.g. para estimar la proporción P de individuos que alguna vez hayan consumido drogas no prescritas por el médico, y se procede como sigue. Se selecciona una muestra aleatoria simple de tamaño n de una población de N individuos, a cada uno se le pide responder, con probabilidades respectivas α y 1 − α, la pregunta A ó la pregunta B de forma confidencial, sin revelar que pregunta contestaron. Pregunta A ¿Ha consumido alguna vez drogas? Pregunta B ¿El dı́a de su cumpleaños es en el mes de abril? De las n personas encuestadas, n1 contestaron ”Sı́”. i) Suponiendo que un doceavo de la población tiene cumpleaños en el mes de abril, indique como estimarı́a P . ii) Discuta el efecto de la elección de diferentes valores de α, y explique las ventajas posibles de este esquema de muestreo. iii) Compare su resultado con el caso extremo, pero más usual, donde α = 1: esto es cuando no se usa la pregunta B. Este ejercicio es un ejemplo del método de respuesta aleatorizada, ó del principio de la pregunta irrelevante. 6. Sea N = 6 y n = 3. Suponga que son conocidos todos los valores de la variable Y en la población. y1 = 98, y2 = 102, y3 = 154, y4 = 133, y5 = 190, y6 = 175 El objetivo es estimar la media poblacional Y . Para esto se proponen dos diseños de muestreo: Diseño 1. Se puede elegir entre ocho muestras posibles. En la tabla siguiente se presentan los subı́ndices de los elementos que conforman cada muestra posible ası́ como la probabilidad de seleccionar cada una de ellas: s p(s) {1, 3, 5} {1, 3, 6} {1, 4, 5} {1, 4, 6} {2, 3, 5} {2, 3, 6} {2, 4, 5} {2, 4, 6} 1 8 1 8 1 8 1 8 1 8 1 8 1 8 1 8 Diseño 2. Se puede elegir entre tres muestras posibles. En la tabla siguiente se presentan los subı́ndices de los elementos que conforman cada muestra posible ası́ como la probabilidad de seleccionar cada una: s p(s) {1, 4, 6} {2, 3, 6} {1, 3, 5} 1 4 1 2 1 4 i) Calcule la media poblacional P ii) Considere como estimador de Y a Yb = s yni . Encuentre la distribución del estimador Yb para cada diseño de muestreo. iii) Calcule la media y varianza de Yb para cada diseño de muestreo. iv) Calcule el sesgo y el error cuadrático medio de Yb para cada diseño de muestreo. v) ¿Cuál diseño de muestreo considera que es el mejor?¿Por qué? 3 7. Considere una población U = {u1 , u2 , u3 } y el diseño de muestreo siguiente: 1 p({u1 , u3 }) = , 4 1 p({u1 , u2 }) = , 2 1 p({u2 , u3 }) = . 4 i) Calcula todas las probabilidades de inclusión de primer y segundo orden. ii) Determine la función de probabilidad del estimador Horvitz-Thompson para el total de la variable Y , b tyπ . Esta función deberá estar en términos de los valores yi s. Suponga que yk = πk ∀ k ∈ U. iii) Calcule E(b tyπ ) y V (b tyπ ). iv) Considere el estimador de V (b tyπ ) propuesto por Horvitz & Thompson, Vb (b tyπ ). Calcule la función de probabilidades de este estimador, su esperanza y su varianza. X X (πkl − πk πl ) yk yl Vb (b tyπ ) = πkl πk πl k∈s l∈s v) Considere el estimador de V (b tyπ ) propuesto por Yates et al., Vb (b tyπ ). Calcule la función de probabilidades de este estimador, su esperanza y varianza. 1 Vb (b tyπ ) = − 2 X X (πkl − πk πl ) yk yl ( − )2 . πkl πk πl k∈s l∈s vi) Comente sobre las ventajas y desventajas de los dos estimadores de la varianza considerados en este ejemplo particular. 8. Considere una población de 10 estaciones de servicio y suponga que se requiere estudiar el precio por litro de un tipo de gasolina. Los precios de la gasolina durante dos meses consecutivos, Mayo y Junio, aparecen en la tabla siguiente: Estación 1 Mayo 5.82 Junio 5.89 2 5.33 5.34 3 5.76 5.92 4 5.98 6.05 5 6.20 6.20 6 5.89 6.00 7 5.68 5.79 8 5.55 5.63 9 5.69 5.78 10 5.81 5.84 i) Se requiere estimar la evolución del precio promedio por litro entre Mayo y Junio. Para esto se elige como parámetro la diferencia de los precios promedios de cada mes y como estimador de éste la diferencia entre las medias muestrales de cada mes. Considere las dos estrategias siguientes: a) Se seleccionan n estaciones (n < 10) en Mayo mediante un muestreo aleatorio simple y n estaciones en Junio también mediante un muestreo aleatorio simple, de manera que las dos muestras son completamente independientes. b) Se seleccionan n estaciones en Mayo mediante un muestreo aleatorio simple, y estas mismas n estaciones se consideran para el mes de Junio. Compare la eficiencia de las dos estrategias planteadas. 4 ii) Ahora suponga que el parámetro a estimar es el precio promedio de un litro de gasolina en los dos periodos. Considere como estimador el promedio de las medias muestrales de cada mes, compare la eficiencia de las dos estrategias planteadas en i). Hint: Observe que en un caso las muestras son independientes y por lo tanto los estimadores son independientes, por otro lado, se puede calcular la covarianza de dos estimadores expresando estos últimos en función de variables indicadoras. 9. Sea U una población de tamaño N . Suponga que se selecciona una muestra aleatoria simple s1 de tamaño fijo n1 de U . i) Suponga que se selecciona una muestra s2 de tamaño n2 de U \ s1 mediante un muestreo aleatorio simple. Considere la muestra s = s1 ∪ s2 . Determine la función diseño p(s). En ocasiones es conveniente aumentar la muestra seleccionada en un principio, por ejemplo, cuando los estimadores obtenidos son muy poco precisos o la tasa de no respuesta esperada es elevada. Este es un ejemplo en el que la selección de la muestra inicial se realiza mediante un muestreo aleatorio simple y la muestra complementaria también se selecciona mediante un muestreo aleatorio simple. ii) Suponga que se requiere estimar Y y se define el estimador siguiente: Yb θ = θYb 1 + (1 − θ)Yb 2 , P donde 0 < θ < 1, Yb 1 = k∈s1 yk n1 P y Yb 2 = k∈s2 n2 yk . Muestre que para todo θ, Yb θ es un estimador insesgado de Y . iii) Encuentre el valor de θ con el que se obtiene el estimador óptimo entre la clase de estimadores de la forma Yb . θ 10. Considere una población de tamaño N y que de ésta se selecciona una muestra mediante un muestreo aleatorio simple con reemplazo de tamaño m = 3 extracciones. Sea se la muestra ordenada seleccionada incluyendo repeticiones y sea s la muestra obtenida omitiendo orden y con solamente los elementos distintos. i) Calcule la probabilidad Ri , i = 1, 2, 3, de que la muestra se contenga exactamente i unidades distintas. ii) Muestre que el diseño de s condicionado a su tamaño ns es un muestreo aleatorio simple sin reemplazo con tamaño fijo. iii) Dé el diseño asociado a s. Hint: Para iii) puede condicionar en ns y usar lo obtenido en ii). 11. Ejercicios de Särndal: 2.1, 2.3, 2.4, 2.5, 2.6 y 2.13. 5