Examen (Parcial 1)

Transcripción

Examen (Parcial 1)
EST-46111 Fundamentos de Estadística
ITAM
Examen (Parcial 1)
Prof.: Juan Carlos Martínez-Ovando
06 de octubre de 2016
1. Considera que X es una variable aleatoria que toma valores en 10 y 20 con probabilidad θx y (1 − θx ),
respectivamente. A su vez, Y es una variable aleatoria que toma valores en 0, 5 y 10 con probabilidad
γy1 , γy2 y γy3 , respectivamente.
(a) Escribe la función de masa de probabilidad de X y Y respectivamente.
(b) Describe el espacio parametral de FX y FY respectivamente.
(c) Define W = X +Y . Deduce el soporte de W y define su correspondiente función de distribución
en términos de los parámetros de FX y FY .
(d) Si deseamos emplear el enfoque bayesiano de inferencia para completar la especificación del
modelo, se requiere incorporar una distribución inicial. Describe qué distribuciones iniciales
propondrías para cada FX , FY y FW .
R.(a) Para X,
F(X = x) = θx I{10} (x) + (1 − θx )I{20} (x),
donde I{y} (x) = 1 si x = y e igual a 0 en otro caso.
Para Y tenemos,
F(Y = x) = γy1 I{0} (x) + γy2 I{5} (x) + γy3 I{10} (x).
(b) El espacio parametral para FX es el espacio donde θx toma valores, i.e. Θ = (0, 1).
Por otro lado, el espacio parametral para FY está dado por el simplex de dimensión 2, i.e.
Γ = {(γ1 , γ2 ) : γ1 , γ2 > 0 y γ1 + γ2 ≤ 1}. Esto porque γy3 = 1 − γy1 − γy2 .
(c) El soporte para W está dado por el conjunto de valores donde W tiene masas de probabilidad
mayores a cero, i.e. W = {10, 15, 20, 25, 30}. La función de masa de probabilidades está
definida como,
Pr(W = 10) = Pr(X = 10,Y = 0) = γy1 θx
Pr(W = 15) = Pr(X = 10,Y = 5) = γy2 θx
Pr(W = 20) = Pr(X = 20,Y = 0) + Pr(X = 10,Y = 10) = γy1 (1 − θx ) + γy3 θx
Pr(W = 25) = Pr(X = 20,Y = 5) = γy2 (1 − θx )
Pr(W = 30) = Pr(X = 20,Y = 10) = γy3 (1 − θx ),
1-1
Examen (Parcial 1)
1-2
los cuales se obtienen de suponer que X y Y son independientes. (Sería difícil hacer otro
supuesto, pues no existe información para ello).
(d) Respecto la distrbución inicial podemos plantear lo siguiente:
• Para FX (·|θx ), la cual es Bernoulli con parámetro θx , podemos suponer que
θx ∼ Be(θ |a, b) ∝ θ a−1 (1 − θ )b−1 I(0,1) (θ ),
con a, b > 0.
• Para FY (·|γy1 , γy2 ), podemos suponer que la distribución inicial está dada por
c1 −1 c2 −1
(γy1 , γy2 ) ∼ π((γy1 , γy2 )|c1 , c2 , c − 3) ∝ γy1
γy2 (1 − γy1 − γy2 )c3 IS2 (γy1 , γy2 ),
con c1 , c2 , c3 > 0 donde S2 denota el simplex de dimensión dos.
Nota que la última expresión se parece a la de la distribución beta, y se conoce como
distribución Dirichlet.
• Finalmente, FW está parametrizada por (θx , γy1 , γy2 ), y podemos suponer que en bloque
son mutiamente independientes, i.e.
π(θx , γy1 , γy2 ) = π(θx ) × π(γy1 , γy2 ),
con π(θx ) y π(γy1 , γy2 ) dadas como antes.
Examen (Parcial 1)
1-3
2. Considera la función de densidad mostrada en la siguiente figura. Identifica:
(a) El soporte de la variable aleatoria.
(b) Al menos dos valores de localización asociados con la distribución.
(c) Un valor asociado con la dispersión.
(d) La región (intervalo) con el tamaǹo más pequeńo acumularía el 95 por ciento de la probabilidad.
R.(a) Podemos suponer que el soporte de la variables aleatoria asociada con f (x) es la recta real o,
alternativamente, el intervalo (0, 6), ya que la masa de probabilidad fuera del mismo es casi
nula.
(b) En este caso, siendo aparentemente una distribución (densidad) simétrica y unimodal, tres
valores de centralidad comunes (media, moda y mediana) coincidirán. el valor 3 parecería
ser razonable.
(c)
(d) El intervalo con menor longitud
para el 0.95 de probabilidad sería (q0.025 , q0.975 ), donde qx
Rx
es tal que Pr(X ∈ (−∞, qx )) = −∞
f (u)du = x para x ∈ (0, 1).
Examen (Parcial 1)
1-4
3. La probabilidad condicional de dos eventos X y Y se define como Pr(X|Y ) = Pr(X,Y )/ Pr(Y ). Considera tres eventos aleatorios: A, B y C. Muestra que
Pr(A, B,C) = Pr(A|B,C) Pr(B|C) Pr(C).
R.- Empecemos por expender recursivamente las probabilidades condicionales de A dado (B,C)
y de B dado C, como
Pr(A, B,C) = Pr(A, B,C) Pr(B,C)/P(B,C)
= Pr(A|B,C) Pr(B,C)
= Pr(A|B,C) Pr(B,C) Pr(C)/ Pr(C)
= Pr(A|B,C) Pr(B|C) Pr(C).
El resultado se sigue, entonces.
Examen (Parcial 1)
1-5
4. Supongamos que podemos dividir nuestros emails en tres categorías: spam, ordinario e importante.
Mi experiencia previa indica el 60 por ciento es spam y el 10 es importante. Definamos el evento
de que un email contenga la palabra aviso. La experiencia previa me indica que el 90 por ciento de
los emails que son spam incluyen la palabra aviso, mientras que sólo el 1 por ciento de los que son
ordinarios la incluyen, lo mismo para los que son importantes.
(a) Estoy por recibir un nuevo email. Cuál es la probabilidad de que sea importante?
(b) Cuál es la probabilidad de que este nuevo email contenga la palabra aviso?
(c) He recibido ya un email más con la palabra aviso en el asunto del correo. Antes de leer su
contenido, cuál es la probabilidad de que sea spam?
R.- Definamos A1 , A2 y A3 al grupo de emails spam, ordinario e importante, respectivamente.
Denotemos por B al evento que un email contenga la palabra aviso en su contenido.
(a) De acuerdo a la información proporcionada, las probabilidades marginales para el tipo de
email son:
Pr(A1 ) = 0.6
Pr(A2 ) = 0.3
Pr(A3 ) = 0.1.
Así, la respuesta a (a) está dada por Pr(A3 ).
(b) Por otro lado, tenemos que
Pr(B|A1 ) = 0.9
Pr(B|A2 ) = 0.01
Pr(B|A3 ) = 0.01.
De esta forma, la probabilidad de que este nuevo email contenga la palabra aviso está dada
por
3
Pr(B) =
∑ Pr(B|Ai ) Pr(Ai )
i=1
= (0.6)(0.9) + (0.3)(0.01) + (0.1)(0.01).
(c) Adicionalmente, la probabilidad de que un nuevo email sea spam dado que ya se observó que
contiene la palabra aviso (sin considerarhaber leido el contenido el email), está dada por
Pr(A1 |B) =
=
Pr(B|A1 ) Pr(A1 )
3
∑i=1 Pr(B|Ai ) Pr(Ai )
(0.6)(0.9)
.
(0.6)(0.9) + (0.3)(0.01) + (0.1)(0.01)
Examen (Parcial 1)
1-6
5. Consideremos el problema donde N1 hogares con hijos menores reciben apoyo de un programa social
y N2 hogares con características similares no reciben apoyo. Definamos X1i como el evento que al
menos uno de los hijos del hogar i que recibe apoyo asisten a la escuela, para i = 1, . . . , N1 . Define
análogamente X2 j dentro del grupo de hogares que no reciben apoyo, para j = 1, . . . , N2 .
(a) Elabora acerca del supuesto de dependencia que podemos emplear entre los hogares dentro de
los grupos de apoyo y no apoyo, y entre grupos.
1
(b) Describe qué modelo estadístico bayesiano podemos emplear para describir las variables {X1i }Ni=1
2
y {X2i }Nj=1
.
R.(a) En principio, podemos suponer que marginalmente cada X ji se distribuye Bernoulli dado en
θ j = Pr(al menos uno de los hijos del hogar asiste a la escuela| grupo j), donde j = 1 denota
el grupo de hogares que reciben asistencia del programa, y j = 2 el grupo que no recibe apoyo
del programa.
Ahora, podemos suponer adicionalmente que las variables X j1 , . . . , X jN j son condicionalmente independientes dado θ j . (El supuesto de independencia no aplicaría aquí, porque
trataremos cada θ j como aleatoria).
La contribución relevante ahora consistiría en suponer que dados θ1 y θ2 , los bloques de variables aleatorias (X11 , . . . , X1N1 ) y (X21 , . . . , X2N2 ) son condicionalente independientes. Esto
nos permitirá asociar ambos grupos posteriormente.
(b) Derivado del inciso anterior tenemos que, condicional en θ j , la variable aleatoria X j =
Nj
∑i=1 X ji se distribuye binomial, i.e. X j |θ j ∼ Bin(x j |N j , θ j ), para j = 1, 2. Como consecuencia del segundo supuesto del inciso anterior, tendríamos que X1 y X2 son condicionalmente
independientes dado θ1 y θ2 , i.e.
Pr(X1 = x1 , X2 = x2 |θ1 , θ2 ) = Pr(X1 = x1 |θ1 , θ2 ) Pr(X2 = x2 |θ1 , θ2 )
= Bin(X1 = x1 |N1 , θ1 )Bin(X2 = x2 |N2 , θ2 ).
Ahora, el modelo se completaría con la especificación de la distribución inicial para (θ1 , θ2 ).
En este caso, podemos suponer genéricamente una distribución inicial independiente para
cada una de estos parámetros. Así, si adicionalmente adoptamos conjugacidad, tenemos
π(θ1 , θ2 ) = Be(θ1 |a, b) × Be(θ2 |c, d).
Un organismo internacional está interesado en evaluar la relevancia del programa social con base
haber observado que en x1 hogares que recibieron apoyo los hijos asisten a la escuela y, complementariamente, x2 hogares que no reciben apoyo los hijos asisten a la escuela.
c) Calcula, para los dos grupos de hogares, la probabilidad posterior que al menos uno sus hijos
asista la escuela?
d) El organismo dictamina que el programa social es relevante si la probabilidad que en un hogar
que recibe el apoyo sus hijos asisten a la escuela es mayor a la de un hogar que no lo recibe.
Examen (Parcial 1)
1-7
Cómo plantearías resolver acerca de la relevancia del programa con la información y modelos
estadísticos elegidos?
R.c) Por conjugacidad, sabemos que dada la muestra X1 = x1 y X2 = x2 , las distribuciones finales
para θ1 y θ2 son
π(θ1 |x1 , x2 ) = Be(θ1 |a + x1 , b + N1 − x1 )
π(θ2 |x1 , x2 ) = Be(θ2 |c + x2 , d + N2 − x2 ).
d) La relevancia del programa social estará dictada por la nueva variable aleatoria γI = gI (θ1 , θ2 ) =
θ1 − θ2 o γII = gII (θ1 , θ2 ) = θ1 /θ2 . Notemos que la distribución de γI y γII estará inducida por Be(θ1 |a + x1 , b + N1 − x1 ) y Be(θ2 |c + x2 , d + N2 − x2 ). Así, necesitamos evaluar
Pr(γI > 0|x1 , x2 ) o Pr(γII > 1|x1 , x2 ).

Documentos relacionados