Muestreo. Tarea 1. Semestre 2015-2. Profesora: Guillermina Eslava

Transcripción

Muestreo. Tarea 1. Semestre 2015-2. Profesora: Guillermina Eslava
Muestreo. Tarea 1. Semestre 2015-2.
Profesora: Guillermina Eslava Gómez. Ayudante: Graciela Martı́nez Sánchez
Fecha de entrega: viernes 27 de febrero en clase
Resolver en equipos de 4 a 6 alumnos.
Las tareas se entregan en hojas blancas y bien escritas, manuscritas o en latex.
Precede a examen 1 del viernes 6 de marzo.
1. Los diseños muestrales donde las probabilidades de inclusión de primer orden son
constantes se llaman diseños autoponderados, y son muy buscados por que facilitan
el análisis estadı́stico de la información generada con ellos. El muestreo aleatorio
simple es un diseño autoponderado, donde además de tener probabilidades de inclusión de primer orden constantes, también tiene probabilidades de inclusión de
segundo orden constantes y estrictamente positivas:
n(n − 1)
n
,
πij =
,
i, j = 1, ..., N, i 6= j.
N
N (N − 1)
i) Desarrolle las expresiones especı́ficas correspondientes al estimador HorvitzThompson,
πi =
b
tπ =
N
n
N X
X
X
yk yl
yk
b
(πkl − πk πl )
, V (tπ ) =
,
πk
πk πl
k=1
k=1 l=1
Vb (b
tπ ) =
n
n X
X
(πkl − πk πl ) yk yl
.
π
π
kl
k πl
k=1 l=1
ii) Demuestre que para este diseño especı́fico, que satisface ser de tamaño de
muestra constante, el estimador de la varianza Horvitz-Thompson coincide
con el estimador de Yates-Grundy, es decir,
VbHT (b
tπ ) =
n X
n
n
n
X
πkl − πk πl yk yl
1 X X πkl − πk πl yk
yl
=−
( − )2 = VbY G .
πkl
π k πl
2 k=1 l=1
πkl
πk πl
k=1 l=1
2. Al considerar un muestreo especı́fico, las mediciones de interés pueden ser consideradas como variables continuas o discretas. Por ejemplo, Y puede corresponder al
ingreso total del hogar y tratarse como una variable contı́nua. O bien Y puede representar la presencia o ausencia de un atributo y entonces ser una variable binaria
(0, 1), en este caso la expresión del estimador Horvitz-Thompson, de su varianza y
de su varianza estimada toman expresiones aún más especı́ficas. Cuando el diseño
muestral es un aleatorio simple,
variable binaria toma
Pnla media estimada de una
b
la forma de una proporción:
y
/n
=
y
=
P
=
P
,
lo
que se conoce como
n
n
i=1 i
muestreo aleatorio simple para proporciones.
Usando las expresiones derivadas en el ejercicio 1 i) y considerando que yi = 0 ó
yi = 1, derive las expresiones especı́ficas en función de PN ó Pn para un muestreo
aleatorio simple para proporciones.
1
3. En un sector de la industria se llevó a cabo una encuesta con el fin de estimar el
grado de abstencionismo de los trabajadores en dı́as hábiles. Se tomó una muestra
aleatoria simple de 1,000 trabajadores de una población total de 36,000, y se les
preguntó el número de dı́as que faltaron al trabajo en los últimos seis meses, sin
incluir dı́as festivos o faltas por enfermedad. Se observó lo siguiente.
Ausencias
Número de trabajadores
0
451
1
162
2
187
3
112
4
49
5 6
21 5
7 8
11 2
i) Dé el conjunto de probabilidades de inclusión de primer y de segundo orden,
{πi ; i = 1, ...N }, {πkl ; k, l : 1, ....N }.
ii) ¿Es el diseño autoponderado? Dé el conjunto de factores de expansión o pesos
muestrales.
iii) Estime el número total de ausencias ocurridas en el grupo de trabajadores en
los últimos seis meses, b
tπ .
iv) Estime el número promedio de ausencias por trabajador en los últimos seis
meses, b
tπ /N .
v) Calcule la varianza de los estimadores en iii) y iv), y reporte un intervalo de
confianza aproximado (para muestras grandes) al 95% para el total de dias
ausentes en el grupo y para el número promedio de ausencias por trabajador,
q
q
tπ ) < t < b
tπ + t(n−1) Vb (b
tπ ) = 1 − α,
P b
tπ − t(n−1) Vb (b
q
q
b
b
b
b
b
P t̂π /N − t(n−1) V (tπ /N ) < t/N < tπ /N + t(n−1) V (tπ /N ) = 1 − α.
Nota: Para el cálculo de los estimadores puede usar la fórmula general o bien
la fórmula especifica correspondiente al diseño. Recuerde que
P
X πkl − πk πl yk yl
n 1 ni=1 (yi − ȳs )2
2
V̂ (t̂π ) =
= N (1 − )
π
π
N n
n−1
kl
k πl
k,l∈s
Cálculo auxiliar
P40
i=1 (yi
− ȳs )2 = 175.6. Use el valor de t(39) = 2.0
4. Considere el problema presentado en la pregunta anterior. Suponga que se desea
estimar la proporción, P , de trabajadores calificados como faltı́stas, aquellos que
faltaron más de tres dı́as.
i) Estime la proporción de trabajadores faltistas, Pb.
b = 1 − Pb.
ii) Estime la proporción de trabajadores no faltistas, Q
b
iii) Estime la varianza de cada estimador estimador, Vb (Pb) y Vb (Q).
iv) De un intervalo de confianza para la proporción P de maestros faltistas. ReP̂ Q̂
cuerde que V̂ (P̂ ) = V̂ ( t̂Nπ ) = (1 − Nn ) n−1
.
2
5. Suponga que se desea conducir una encuesta acerca de un aspecto sensitivo en una
población, e.g. para estimar la proporción P de individuos que alguna vez hayan
consumido drogas no prescritas por el médico, y se procede como sigue. Se selecciona
una muestra aleatoria simple de tamaño n de una población de N individuos, a cada
uno se le pide responder, con probabilidades respectivas α y 1 − α, la pregunta A ó
la pregunta B de forma confidencial, sin revelar que pregunta contestaron.
Pregunta A ¿Ha consumido alguna vez drogas?
Pregunta B ¿El dı́a de su cumpleaños es en el mes de abril?
De las n personas encuestadas, n1 contestaron ”Sı́”.
i) Suponiendo que un doceavo de la población tiene cumpleaños en el mes de
abril, indique como estimarı́a P .
ii) Discuta el efecto de la elección de diferentes valores de α, y explique las ventajas
posibles de este esquema de muestreo.
iii) Compare su resultado con el caso extremo, pero más usual, donde α = 1: esto
es cuando no se usa la pregunta B.
Este ejercicio es un ejemplo del método de respuesta aleatorizada, ó del principio de
la pregunta irrelevante.
6. Sea N = 6 y n = 3. Suponga que son conocidos todos los valores de la variable Y
en la población.
y1 = 98, y2 = 102, y3 = 154, y4 = 133, y5 = 190, y6 = 175
El objetivo es estimar la media poblacional Y . Para esto se proponen dos diseños
de muestreo:
Diseño 1. Se puede elegir entre ocho muestras posibles. En la tabla siguiente se
presentan los subı́ndices de los elementos que conforman cada muestra posible
ası́ como la probabilidad de seleccionar cada una de ellas:
s
p(s)
{1, 3, 5}
{1, 3, 6}
{1, 4, 5}
{1, 4, 6}
{2, 3, 5}
{2, 3, 6}
{2, 4, 5}
{2, 4, 6}
1
8
1
8
1
8
1
8
1
8
1
8
1
8
1
8
Diseño 2. Se puede elegir entre tres muestras posibles. En la tabla siguiente se
presentan los subı́ndices de los elementos que conforman cada muestra posible
ası́ como la probabilidad de seleccionar cada una:
s
p(s)
{1, 4, 6}
{2, 3, 6}
{1, 3, 5}
1
4
1
2
1
4
i) Calcule la media poblacional
P
ii) Considere como estimador de Y a Yb = s yni . Encuentre la distribución del
estimador Yb para cada diseño de muestreo.
iii) Calcule la media y varianza de Yb para cada diseño de muestreo.
iv) Calcule el sesgo y el error cuadrático medio de Yb para cada diseño de muestreo.
v) ¿Cuál diseño de muestreo considera que es el mejor?¿Por qué?
3
7. Considere una población U = {u1 , u2 , u3 } y el diseño de muestreo siguiente:
1
p({u1 , u3 }) = ,
4
1
p({u1 , u2 }) = ,
2
1
p({u2 , u3 }) = .
4
i) Calcula todas las probabilidades de inclusión de primer y segundo orden.
ii) Determine la función de probabilidad del estimador Horvitz-Thompson para el
total de la variable Y , b
tyπ .
Esta función deberá estar en términos de los valores yi s.
Suponga que yk = πk
∀ k ∈ U.
iii) Calcule E(b
tyπ ) y V (b
tyπ ).
iv) Considere el estimador de V (b
tyπ ) propuesto por Horvitz & Thompson, Vb (b
tyπ ).
Calcule la función de probabilidades de este estimador, su esperanza y su varianza.
X X (πkl − πk πl ) yk yl
Vb (b
tyπ ) =
πkl
πk πl
k∈s l∈s
v) Considere el estimador de V (b
tyπ ) propuesto por Yates et al., Vb (b
tyπ ). Calcule
la función de probabilidades de este estimador, su esperanza y varianza.
1
Vb (b
tyπ ) = −
2
X X (πkl − πk πl ) yk
yl
( − )2 .
πkl
πk πl
k∈s l∈s
vi) Comente sobre las ventajas y desventajas de los dos estimadores de la varianza
considerados en este ejemplo particular.
8. Considere una población de 10 estaciones de servicio y suponga que se requiere
estudiar el precio por litro de un tipo de gasolina. Los precios de la gasolina durante
dos meses consecutivos, Mayo y Junio, aparecen en la tabla siguiente:
Estación
1
Mayo 5.82
Junio 5.89
2
5.33
5.34
3
5.76
5.92
4
5.98
6.05
5
6.20
6.20
6
5.89
6.00
7
5.68
5.79
8
5.55
5.63
9
5.69
5.78
10
5.81
5.84
i) Se requiere estimar la evolución del precio promedio por litro entre Mayo y
Junio. Para esto se elige como parámetro la diferencia de los precios promedios
de cada mes y como estimador de éste la diferencia entre las medias muestrales
de cada mes.
Considere las dos estrategias siguientes:
a) Se seleccionan n estaciones (n < 10) en Mayo mediante un muestreo aleatorio simple y n estaciones en Junio también mediante un muestreo aleatorio
simple, de manera que las dos muestras son completamente independientes.
b) Se seleccionan n estaciones en Mayo mediante un muestreo aleatorio simple, y estas mismas n estaciones se consideran para el mes de Junio.
Compare la eficiencia de las dos estrategias planteadas.
4
ii) Ahora suponga que el parámetro a estimar es el precio promedio de un litro
de gasolina en los dos periodos. Considere como estimador el promedio de las
medias muestrales de cada mes, compare la eficiencia de las dos estrategias
planteadas en i).
Hint: Observe que en un caso las muestras son independientes y por lo tanto los
estimadores son independientes, por otro lado, se puede calcular la covarianza de
dos estimadores expresando estos últimos en función de variables indicadoras.
9. Sea U una población de tamaño N . Suponga que se selecciona una muestra aleatoria
simple s1 de tamaño fijo n1 de U .
i) Suponga que se selecciona una muestra s2 de tamaño n2 de U \ s1 mediante
un muestreo aleatorio simple. Considere la muestra s = s1 ∪ s2 . Determine la
función diseño p(s).
En ocasiones es conveniente aumentar la muestra seleccionada en un principio, por ejemplo, cuando los estimadores obtenidos son muy poco precisos o
la tasa de no respuesta esperada es elevada. Este es un ejemplo en el que la
selección de la muestra inicial se realiza mediante un muestreo aleatorio simple y la muestra complementaria también se selecciona mediante un muestreo
aleatorio simple.
ii) Suponga que se requiere estimar Y y se define el estimador siguiente:
Yb θ = θYb 1 + (1 − θ)Yb 2 ,
P
donde 0 < θ < 1, Yb 1 =
k∈s1
yk
n1
P
y Yb 2 =
k∈s2
n2
yk
.
Muestre que para todo θ, Yb θ es un estimador insesgado de Y .
iii) Encuentre el valor de θ con el que se obtiene el estimador óptimo entre la clase
de estimadores de la forma Yb .
θ
10. Considere una población de tamaño N y que de ésta se selecciona una muestra mediante un muestreo aleatorio simple con reemplazo de tamaño m = 3 extracciones.
Sea se la muestra ordenada seleccionada incluyendo repeticiones y sea s la muestra
obtenida omitiendo orden y con solamente los elementos distintos.
i) Calcule la probabilidad Ri , i = 1, 2, 3, de que la muestra se contenga exactamente i unidades distintas.
ii) Muestre que el diseño de s condicionado a su tamaño ns es un muestreo aleatorio simple sin reemplazo con tamaño fijo.
iii) Dé el diseño asociado a s.
Hint: Para iii) puede condicionar en ns y usar lo obtenido en ii).
11. Ejercicios de Särndal: 2.1, 2.3, 2.4, 2.5, 2.6 y 2.13.
5

Documentos relacionados