Apuntes de la asignatura. - Departament d`Estadística i Investigació

Transcripción

Curso de Inferencia y Decisión
Guadalupe Gómez y Pedro Delicado
Departament d’Estadı́stica i Investigació Operativa
Universitat Politècnica de Catalunya
Enero de 2006
Índice abreviado
Capı́tulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Capı́tulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Capı́tulo 3. Estimación puntual 1: Construcción de estimadores . 45
Capı́tulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 87
Capı́tulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Capı́tulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Capı́tulo 7. Introducción a la Teorı́a de la Decisión . . . . . . . . . . . . . 215
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
i
Índice general
Índice abreviado
I
Índice general
II
Prólogo
VII
1. Introducción
1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . .
3
1.2.2. Distribución de una variable aleatoria. Funciones de distribución, de probabilidad y de densidad . . . . . . . . . .
4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . .
5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . .
6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . .
7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . .
8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . .
12
1.3.1. Familias de localización y escala . . . . . . . . . . . . . .
12
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . .
13
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . .
13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . .
16
1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite . .
18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . .
18
1.5.2. Teorema central del lı́mite . . . . . . . . . . . . . . . . . .
19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . .
20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .
21
iii
iv
ÍNDICE GENERAL
2. Principios para reducir los datos
25
2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Estadı́sticos suficientes r-dimensionales
26
. . . . . . . . . .
31
2.1.2. Estadı́sticos suficientes minimales . . . . . . . . . . . . . .
32
2.1.3. Estadı́sticos ancilares . . . . . . . . . . . . . . . . . . . . .
35
2.1.4. Estadı́sticos completos . . . . . . . . . . . . . . . . . . . .
36
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .
38
41
3. Estimación puntual 1: Construcción de estimadores
45
3.1. La función de distribución empı́rica y el método de los momentos
45
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . .
47
3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . .
50
3.1.3. El método de los momentos . . . . . . . . . . . . . . . . .
51
3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . .
53
3.2.1. Cálculo del estimador máximo verosı́mil . . . . . . . . . .
56
3.2.2. Cálculo numérico de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.2.3. Principio de invariancia del estimador máximo verosı́mil .
70
3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . .
71
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . .
71
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . .
75
3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . .
79
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . .
80
83
4. Estimación puntual 2: Evaluación de estimadores
87
4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . .
87
4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . .
91
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . .
94
4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . .
96
4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 105
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 108
ÍNDICE GENERAL
v
4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 114
4.3.1. Consistencia
. . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 116
4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 124
4.4. Teorı́a asintótica para el estimador máximo verosı́mil . . . . . . . 125
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5. Contrastes de hipótesis
141
5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 141
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148
5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 149
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150
5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin152
5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 155
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157
5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 158
5.5.1. Relación con el Lema de Neyman-Pearson.
. . . . . . . . 159
5.5.2. Propiedades de los contrastes de razón de verosimilitudes 160
5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 163
5.6.1. Test del score.
. . . . . . . . . . . . . . . . . . . . . . . . 163
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 166
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171
5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 172
5.7.3. Contraste de dos hipótesis compuestas.
. . . . . . . . . . 173
5.7.4. Contraste de hipótesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
vi
ÍNDICE GENERAL
6. Estimación por intervalos
183
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183
6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 185
6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 185
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195
6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 196
6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 197
6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 200
6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 202
6.4.1. Intervalos basados en el estimador de máxima verosimilitud203
6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 205
7. Introducción a la Teorı́a de la Decisión
215
7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 215
7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 217
7.2. Teorı́a de la decisión e inferencia estadı́stica . . . . . . . . . . . . 218
7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 218
7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 221
7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 223
7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 225
7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 229
7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 229
7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 230
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Referencias
243
Prólogo
Este documento es el fruto de nuestra experiencia como docentes de la asignatura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estadı́sticas,
Universitat Politècnica de Catalunya) durante los cursos 99-03.
Cuando se preparó por primera vez la docencia de Inferencia y Decisión se
pensó en seguir lo más fielmente posible algún libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexistencia de libros en castellano o catalán dirigidos especı́ficamente para alumnos
de Inferencia y Decisión, se optó por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasiones la necesidad de completarlo con otros libros. Ante esta situación (ausencia
de textos en castellano y cierta insatisfacción con el libro elegido) consideramos
conveniente escribir este documento. En él se recogen y amplı́an los apuntes preparados para las clases teóricas y las listas de problemas resueltas en las clases
prácticas.
El objetivo principal de la asignatura Inferencia y Decisión es proporcionar
una sólida base teórica de los fundamentos de la Inferencia Estadı́stica y de la
Teorı́a de la Decisión. Confiamos en que este Curso de Inferencia y Decisión
contribuya a lograrlo.
vii
Capı́tulo 1
Introducción
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, capı́tulo 3, 5.1, 5.2,
5.4.
En este curso de Inferencia y Decisión se desarrollan ideas y herramientas
matemáticas que la estadı́stica utiliza para analizar datos. Se estudiarán técnicas
para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante
no perder de vista que en la aplicación de la estadı́stica se necesita mucho más
que el conocimiento matemático. La recogida y la interpretación de los datos es
un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas.
Ejemplo 1
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos dı́as o más. Supongamos que podemos entrevistar a 20 estudiantes.
¿Qué se entiende por estudiante?
¿Cómo se puede asegurar que la muestra sea aleatoria?
¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing
data).
¿Dirán la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p?
En este caso el problema se plantea en términos de la variable aleatoria
X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p)
1
2
CAPÍTULO 1. INTRODUCCIÓN
y es un ejemplo de estimación en un contexto de inferencia paramétrica.
.
.
Ejemplo 2
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
cardı́acos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:
Aspirina
Placebo
Sufren ataques
cardı́acos
104
189
No sufren
ataques cardı́acos
10933
10845
Ataques por
cada 1000 personas
9.42
17.13
¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aquı́ un problema de decisión o el contraste de
una hipótesis.
.
.
1.1.
Datos y modelos
Los datos que aparecen en los problemas estadı́sticos pueden suponerse provenientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Término de acepción muy amplia que incluye cualquier procedimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experimento.
Ejemplo 3
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podrı́a pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tratados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difı́cil obtener resultados extrapolables a toda la población. Serı́a más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA
3
nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no responde. En el primer caso el número de pacientes es variable y el espacio muestral
deberı́a incluir las secuencias de todas las posibles longitudes (tantas como posibles números de pacientes), mientras que en el segundo caso el espacio muestral
consistirá en las secuencias de longitud n.
.
.
Definimos un modelo para un experimento como una colección de distribuciones de probabilidad sobre el espacio muestral.
Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tamaño de la población
de referencia es mucho más grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {P (X1 = x1 , . . . , Xn = xn ) =
n
Y
pxi (1 − p)1−xi , 0 < p < 1}.
i=1
Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico
es {p : 0 < p < 1} ⊂ IR.
Los problemas de inferencia en este modelo consistirán en hacer afirmaciones (en forma de estimación puntual, estimación por intervalos o contrastes de
hipótesis) sobre cuán verosı́miles son los posibles valores del parámetro p.
.
.
1.2.
1.2.1.
Variable aleatoria
Variables y vectores aleatorios
Consideramos un experimento aleatorio cuyos resultados pertenecen al espacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna
(Ω, A, P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,
A ⊆ P(Ω) es una σ-álgebra, y P : A −→ [0, 1] es una medida de probabilidad
que refleja las caracterı́sticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representación numérica que facilita su tratamiento. Esto se
4
hace mediante la definición de variables aleatorias. Dado un espacio de
probabilidad (Ω, A, P) y el espacio medible (IR, B), donde B es la σ-álgebra de
Borel definida sobre la recta real IR, una variable aleatoria es una función
X : Ω −→ IR
medible, es decir, X −1 (B) ∈ A para todo B ∈ B.
Si el espacio muestral Ω es finito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadas al experimento normalmente estarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que
es un espacio continuo y X : Ω −→ IR.
A partir de un mismo experimento se pueden definir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio
muestral asociado a este experimento es Ω = {CC, C+, +C, ++}. Se pueden
definir diversas variables aleatorias:
X1 = número de caras, X2 = número de cruces,
X3 = cuadrado del número de caras = X12 , etc.
Usualmente los datos están modelizados por un vector de variables aleatorias
X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamaree
e
mos vector aleatorio o también variable aleatoria multidimensional.
1.2.2.
Distribución de una variable aleatoria. Funciones de
distribución, de probabilidad y de densidad
La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω
que es aleatorio. Por lo tanto X(ω) es un valor de IR también aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en IR. A esa medida
de probabilidad se le llama distribución de X o ley de X. Una de las formas
de caracterizar la distribución de una variable aleatoria es dar su función de
distribución FX , que está definida ası́:
FX (x) = P(X ≤ x) = P({ω ∈ Ω : X(ω) ≤ x}) = P(X −1 (−∞, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X sólo tome una cantidad finita o numerable de valores de IR, su
distribución también puede caracterizarse por su función de probabilidad
(o función de masa de probabilidad) fX , definida como
fX : IR −→ [0, 1], fX (x) = P(X = x).
Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en
adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A
5
partir de la función de masa de probabilidad se puede calcular la probabilidad
de que la variable aleatoria X tome valores en cualquier elemento A de B:
X
P(X ∈ A) =
fX (x).
x∈A
La función de distribución y la función de masa de probabilidad se relacionan
de la siguiente forma:
X
FX (x) =
fX (u), fX (x) = FX (x) − FX (x− ),
u≤x
donde FX (x− ) = lı́mh−→0+ F (x − h).
Una clase relevante de variables aleatorias no discretas son las que poseen
función de densidad, es decir, aquellas cuya distribución de probabilidad
puede caracterizarse por una función fX (x) ≥ 0 que cumple que
Z
P(X ∈ A) =
fX (x)dx, para todo A ∈ B.
x∈A
La relación entre FX y fX es la siguiente:
Z x
d
FX (x)
FX (x) =
fX (u)du, fX (x) =
dx
−∞
salvo quizás en un número finito de puntos x ∈ IR. Las variables aleatorias que
poseen función de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aquı́ nos referiremos a ellas como variables
aleatorias continuas.
1.2.3.
Esperanza y varianza
Si se desea describir totalmente la distribución de probabilidad de una variable aleatoria X acabamos de ver que podemos dar su función de distribución o
su función de masa o de densidad, según el caso. Una descripción parcial puede
efectuarse calculando algunas caracterı́sticas de la variable aleatoria X, como
por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
Z
E(X) =
X(w)dP(w).
Ω
En el caso de variables aleatorias discretas la esperanza puede calcularse como
X
X
X
kfX (k).
kP (X = k) =
E(X) =
X(ω)P(ω) =
w∈Ω
k∈Z
k∈Z
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
ası́:
Z
E(X) =
xfX (x)dx.
IR
6
La esperanza de una variable aleatoria X es una medida de posición de X: es
el centro de gravedad de la distribución de probabilidad de X.
Si h es una función medible h : IR −→ IR, entonces Y = h(X) es también
variable aleatoria y su esperanza se puede calcular a partir de la distribución de
X:
Z
E(h(X)) =
h(X(ω))dP(ω)
Ω
que en el caso de que X sea discreta puede reescribirse como
X
E(h(X)) =
h(k)fX (k).
k∈Z
Si X es una variable aleatoria continua entonces
Z
E(h(X)) =
h(x)fX (x)dx.
IR
Si existe µ = E(X) y es finita puede definirse una medida de dispersión de
la variable aleatoria X a partir de una transformación h de X. Es lo que se
denomina varianza de X y se define ası́:
V (X) = E((X − µ)2 ) = E(X 2 ) − µ2 = E(X 2 ) − (E(X)2 ).
1.2.4.
Muestra aleatoria simple
Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes
e
(X1 , . . . , Xn ) son independientes si
P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn )
para cualesquiera valores x1 , . . . , xn . Si además la distribución de las n variables
aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias
independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con función de densidad (en su
e
caso, de masa) fX , la distribución conjunta de X viene dada por la función de
e
densidad (en su caso, de masa) conjunta
f
n
Y
( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) =
fX (xi ).
X e
i=1
e
A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribución igual a la de
e
la variable aleatoria X se le denomina también muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se desea estudiar la caracterı́stica X de los individuos de una población de tamaño
infinito. Definimos el experimento consistente en elegir aleatoriamente un individuo de la población y llamamos X al valor de la caracterı́stica de interés en
7
ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento
consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el
valor de la caracterı́stica en el individuo i-ésimo, entonces X = (X1 , . . . , Xn )
e
es una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria
X, es decir, X1 , . . . , Xn es una m.a.s. de X.
1.2.5.
Modelo paramétrico
Usualmente la ley de probabilidad de una variable aleatoria se supone perteneciente a un modelo matemático que depende sólo de un número finito de parámetros:
fX ∈ {f (x|θ) : θ ∈ Θ ⊆ IRk }.
Escribiremos alternativamente f (x; θ), f (x|θ) o fθ (x). El conjunto de distribuciones dadas por fθ (x), θ ∈ Θ se llama familia paramétrica de distribuciones. Θ es el conjunto de parámetros.
La correspondiente distribución conjunta de una muestra aleatoria simple de
X viene dada por la función de densidad (o función de masa de probabilidad,
según el caso)
n
Y
f ( x |θ) =
fθ (xi ).
X e
i=1
e
A esta función la llamaremos función de verosimilitud de la muestra X .
e
Utilizaremos este término para referirnos indistintamente a la función de densidad conjunta (si las variables aleatorias son continuas) o a la función de masa
conjunta (si son discretas).
Ejemplo 4
Si X ∼ N (µ, σ 2 ),
fX (x|µ, σ 2 ) = √
1
2πσ 2
1
2
e− 2σ2 (x−µ) .
La distribución de X es conocida salvo por dos parámetros, µ y σ 2 . En este caso
k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 .
La distribución conjunta de n v.a.i.i.d. con la misma distribución es
f
Pn
1
1
1
−
||x−1n µ||2
− 12
(xi −µ)2
2σ
i=1
e
e (2πσ2 )n
( x |µ, σ 2 ) =
=
2
n
2
n
X e
(2πσ )
(2πσ )
e
donde 1n = (1, . . . , 1)t ∈ IRn .
.
.
8
1.2.6.
Sumas de variables aleatorias
Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se
calculan a partir de ellas cantidades que resumen los valores observados. Cualquiera de estos resúmenes se puede expresar como una función T (x1 , . . . , xn ) definida en el espacio X n ⊆ IRn donde están las imágenes del vector (X1 , . . . , Xn ).
Esta función T puede devolver valores de IR, IR2 o, en general, IRk .
Ejemplo 5
T (X1 , . . . , Xn ) =
T (X1 , . . . , Xn )
n
X
Xi , X, X + 3, mı́n{X1 , . . . , Xn }
i=1
n
X
= (
i=1
Xi ,
n
X
(Xi − X)2 )
i=1
T (X1 , . . . , Xn )
= (mı́n{X1 , . . . , Xn },
T (X1 , . . . , Xn )
=
n
X
i=1
Xi ,
n
X
(Xi − X)2 )
i=1
(X1 , . . . , Xn )
.
.
Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn
se llaman estadı́sticos. Dependen de los valores observados, pero no de los
parámetros desconocidos que determinan la distribución de Xi . Cuando un estadı́stico T es utilizado con el propósito de estimar un parámetro θ diremos que
T es un estimador de θ.
Ejemplo 6
T (X1 , . . . , Xn ) = X es un estimador de µ = E(X).
.
.
En inferencia estadı́stica interesa saber qué estadı́sticos son suficientes para
recoger toda la información que la muestra aporta sobre la distribución de la
variable aleatoria X muestreada. La respuesta depende de la distribución de X.
Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y =
e
T (X1 , . . . , Xn ) será también una variable aleatoria. La ley de probabilidad de Y
se denomina distribución en el muestreo de Y (o distribución muestral).
Los siguientes resultados dan información sobre algunas caracterı́sticas de
estadı́sticos definidos a partir de sumas de variables aleatorias.
9
Pn
Teorema 1 Sean x1 , . . . , xn n números reales, sea x = n1 i=1 xi su media
Pn
aritmética y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral.
Pn
− a)2 = i=1 (xi − x)2 .
Pn
Pn
(b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 .
(a) mı́na
Pn
i=1 (xi
Demostración:
(a)
n
n
X
X
(xi − a)2 =
(xi − x + x − a)2 =
i=1
n
X
i=1
(xi − x)2 +
n
X
i=1
i=1
n
X
n
X
i=1
(observar que
(xi − x)2 +
(x − a)2 + 2
n
X
(xi − x)(x − a) =
i=1
(x − a)2 + 2(x − a)
i=1
Pn
i=1 (xi
n
X
(xi − x) =
i=1
− x) = 0)
n
n
n
X
X
X
(xi − x)2 +
(x − a)2 ≥
(xi − x)2 .
i=1
i=1
i=1
Por lo tanto el mı́nimo se alcanza si a = x.
(b) Trivial.
2
Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una
función tal que E(g(X)) y V (g(X)) existen. Entonces,
Pn
(a) E( i=1 g(Xi )) = nE(g(X)),
Pn
(b) V ( i=1 g(Xi )) = nV (g(X)),
Demostración: (a) Trivial, por propiedades básicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y
aplicando propiedades básicas del operador varianza.
2
Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X
con esperanza µ y varianza σ 2 < ∞. Sean
n
X=
n
1X
1 X
Xi , S 2 =
(Xi − X)2 ,
n i=1
n − 1 i=1
la media y la varianza muestrales, respectivamente. Entonces,
10
(a) E(X) = µ,
(b) V (X) = σ 2 /n,
(c) E(S 2 ) = σ 2 .
Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
(n − 1)S 2 =
n
X
2
2
Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) =
i=1
1
n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 =
n
(n − 1)σ 2 =⇒ E(S 2 ) = σ 2 .
2
El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de
la media muestral en función de la f.g.m. de la variable aleatoria muestreada.
Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar
completamente la distribución de la media muestral.
Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X
con función generatriz de momentos MX (t). La función generatriz de momentos
de X es
n
MX (t) = (MX (t/n)) .
Demostración: La f.g.m. de X se define como MX (t) = E(etX ) para los valores
de t para los que esa esperanza existe. Ası́,
Ã n
!
³
´
³ t Pn
´
Y t
Xi
tX
X
i
n
i=1
MX (t) = E e
en
=
=E e
=E
i=1
(independencia de las v.a. Xi )
n
Y
³
E e
t
n Xi
´
=
n
Y
MXi (t/n) =
i=1
i=1
(las Xi son idénticamente distribuidas)
n
Y
n
MX (t/n) = (MX (t/n)) .
i=1
2
11
Ejemplo 7
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces,
MX (t) = exp(µt +
Ası́,
σ 2 t2
).
2
¶n
µ
σ 2 t2
µt σ 2 (t/n)2
MX (t) = exp( +
)
= exp(µt +
)
n
2
2n
y, por tanto, X ∼ N (µ, σ 2 /n).
.
.
Ejemplo 8
X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,
fX (x) =
xα−1 e−x/β
, x > 0, E(X) = αβ, V (X) = αβ 2 ,
Γ(α)β α
µ
MX (t) =
Ası́,
µµ
MX (t) =
1
1 − βt
1
1 − βt/n
¶α
, t<
µ
¶α ¶n
=
1
.
β
1
1 − (β/n)t
¶αn
y, por lo tanto, X ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası́ que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá
E(X) = n
.
µ
µ2
µ2
= µ, V (X)n 2 =
.
n
n
n
.
Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien
porque la f.g.m resultante no se corresponde con ninguna distribución conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribución de la media muestral. En primer lugar, se puede
trabajar con la función caracterı́stica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la función de densidad de la suma como
la convolución de las n funciones de densidad (ver el ejemplo de la distribución
de Cauchy, Casella-Berger, páginas 210-211).
12
1.3.
1.3.1.
Dos familias de distribuciones importantes
Familias de localización y escala
Sea Z una variable aleatoria con distribución conocida. A la colección de
distribuciones de probabilidad de las variables aleatorias X que se pueden definir
de la forma
X = µ + σZ, µ, σ ∈ IR σ > 0
se la denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es variable aleatoria absolutamente continua con función
de densidad f (x), la familia de funciones de densidad
µ
¶
¾
½
1
x−µ
f (x|µ, σ) = f
: µ ∈ IR, σ > 0
σ
σ
forman la familia de localización y escala de f (x).
El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si
µ > 0) o a la izquierda (si µ < 0).
Proposición 1
(a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ).
(b) X ∼ f (x|µ, σ) ⇐⇒ X−µ
∼ f (x).
σ
Demostración: Trivial, aplicando la fórmula de la función de densidad de la
transformación biyectiva de una variable aleatoria univariante.
2
Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U (a, b) también es una familia
de localización y escala. En este caso µ = (a + b)/2 y σ = b − a podrı́an servir
como parámetros de posición y escala.
.
.
Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z ∼ f (x) y sea X1 , . . . , Xn una
¡
¢
.
m.a.s. de X ∼ f (x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es σ1 g x−µ
σ
Demostración: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando la
proposición anterior se tiene el resultado.
2
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL
1.3.2.
13
Familias exponenciales
X pertenece a la familia exponencial si su función de densidad o función de
masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ IRp y puede escribirse
ası́:


k
X
f (x|θ) = h(x)c(θ) exp 
wj (θ)tj (x)
j=1
para ciertas funciones h, c, wj y tj . Si p = k y wj (θ) = θj , j = 1, . . . , p, entonces
diremos que la familia exponencial está parametrizada de forma natural. En ese
caso, el espacio paramétrico natural de esa familia es el conjunto


Z ∞
k
X
Θ = {θ ∈ IRk :
h(x) exp 
θj tj (x) dx < ∞}.
−∞
j=1
Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,
entonces


Ã n
!
k
n
Y
X
X
n
f (x1 , . . . , xn |θ) =
h(xi ) (c(θ)) exp 
wj (θ)
tj (xi ) .
i=1
j=1
i=1
Pn
Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, entonces la distribución de (T1 , . . . , Tk ) viene dada por


k
X
n
fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp 
wj (θ)uj  ,
j=1
es decir, T también pertenece a la familia exponencial.
Ejemplo 10
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, binomial negativa, exponencial, normal, gamma, beta.
.
.
1.4.
Muestreo de una distribución normal
En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una
N (µ, σ 2 ).
Teorema 4 (Teorema de Fisher)
dependientes.
(a) X y Sn2 son variables aleatorias in-
14
(b) X ∼ N (µ, σ 2 /n).
(c) (n − 1)Sn2 /σ 2 ∼ χ2n−1 .
Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1,
puesto que la familia normal es una familia de posición y escala.
(b) Se ha demostrado en el ejemplo 7.
(a) Obsérvese que
(n −
1)Sn2
=
n
X
2
2
(Xi − X) = (X1 − X) +
i=1
(como
Pn
i=1 (Xi
n
X
(Xi − X)2 =
i=2
− X) = 0)
Ã
!2
n
n
X
X
(Xi − X) +
(Xi − X)2
i=2
i=2
de donde se deduce que Sn2 es función de (X2 − X, . . . , Xn − X). Probaremos
ahora que (X2 − X, . . . , Xn − X) y X son independientes, lo cuál implicará que
(a) es cierto.
Hacemos el cambio de variable
Pn
Pn
Pn

y1 = x
x1 = nx − i=2 xi = x − i=2 (xi − x) = y1 − i=2 yi



x2 = y2 + y1
y2 = x2 − x 
=⇒ .
..
..


.


xn = yn + y1
yn = xn − x
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
fY (y1 . . . , yn ) = fX (y1 −
n
X
yi , y2 + y1 , . . . , yn + y1 )n =
i=2
(
)
n
n
X
1
1X
(∗)
2
2
n exp − (y1 −
yi ) −
(yi + y1 )
=
2
2
i=2
i=2
(
Ã n
!)
¾
½
n
X
1 X 2
n
1 2
2
√
exp − ny1 exp −
y +(
yi )
.
2
2 i=2 i
( 2π)n
i=2
µ
1
√
2π
¶n
Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aquı́ se sigue que X es
independiente de Sn2 .
(∗) Falta por justificar el paso marcado con un (∗):
(y1 −
n
X
i=2
yi )2 +
n
X
i=2
(yi + y1 )2 =
15
n
n
n
n
X
X
X
X
y12 + (
yi )2 − 2y1
yi +
yi2 + (n − 1)y12 + 2y1
yi =
i=2
i=2
i=2
n
X
ny12 + (
i=2
yi )2 +
i=2
n
X
yi2 .
i=2
(c) La demostración de este apartado se seguirá mejor después del apartado
siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tamaño n.
En primer lugar probaremos que se verifica la siguiente fórmula recursiva:
2
(n − 1)Sn2 = (n − 2)Sn−1
+
n−1
(Xn − X n−1 )2 .
n
En efecto,
(n − 1)Sn2 =
n
X
(Xi − X n )2 =
n−1
X
i=1
(Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 =
i=1
2
(n − 2)Sn−1
+ (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗)
(teniendo en cuenta que (n − 1)X n−1 = nX n − Xn =⇒ (n − 1)(X n−1 − Xn ) =
n(X n −Xn ) y que (n−1)(X n−1 −X n ) = (X n −Xn ) = ((n−1)/n)(X n−1 −Xn ))
2
(∗) = (n − 2)Sn−1
+ (n − 1)
1
(n − 1)2
2
(X
−
X
)
+
(X n−1 − Xn )2 =
n−1
n
n2
n2
2
(n − 2)Sn−1
+
n−1
(Xn − X n−1 )2 .
n
2
probaremos por inducción que
Una vez probada la relación entre Sn2 y Sn−1
2
2
2
(n − 1)Sn /σ ∼ χn−1 .
Para n = 2, la fórmula recursiva nos da
S22 =
1
(X2 − X1 )2 .
2
√
Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1)
y de ahı́ que
√
S22 = ((X2 − X1 )/ 2)2 ∼ χ21 ,
con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k − 1)Sk2 /σ 2 ∼ χ2k−1 .
16
Probemos que es también cierto para n = k + 1. Observar que
k
2
kSk+1
= (k − 1)Sk2 +
(Xk+1 − X k )2 .
| {z } k + 1
∼χ2k−1
Ası́, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1 −X k )2 es
una χ21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente
de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razón, Xk+1 ∼ N (0, 1) es también independiente de X k ∼
N (0, 1/k). Ası́ que
µ
Xk+1 − X k ∼ N
k+1
0,
k
Ãr
¶
=⇒
!2
k
(Xk+1 − X k )
∼ χ21
k+1
que es precisamente lo que querı́amos probar.
2
Existen demostraciones alternativas de este teorema basadas en la función
generatriz de momentos o en la función caracterı́stica.
1.4.1.
Distribuciones asociadas a la normal
En esta sección se recuerdan las definiciones de las leyes χ2 , t de Student
y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger.
La ley χ2ν
Diremos que X tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es
fν (x) =
1
x(ν/2)−1 e−x/2 , 0 < x < ∞,
Γ(ν/2)2ν/2
es decir, X ∼ γ(ν/2, 2).
Lema 2
(a) Si X ∼ N (µ, σ 2 ) entonces
(X − µ)2
∼ χ21 .
σ2
(b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces
Y =
n
X
i=1
donde ν =
Pn
i=1
νi .
Xi ∼ χ2ν ,
17
(c) Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente distribuidas según una N (0, 1). La variable aleatoria
Y =
n
X
Xi2 ∼ χ2n .
i=1
(Nota: esta propiedad se usa a veces como definición de la distribución
χ2 ).
La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp , si su función de densidad es
fp (x) =
1
Γ((p + 1)/2) 1
, −∞ < x < ∞.
√
Γ(p/2)
πp (1 + t2 /p)(p+1)/2
Si p = 1 se trata de la distribución de Cauchy.
Lema 3
(a) Z ∼ N (0, 1), Y ∼ χ2p , Z e Y independientes, entonces,
Z
∼ tp .
X=p
Y /p
(Nota: esta propiedad se usa a veces como definición de la distribución t
de Student.)
(a) Sean X1 , . . . , Xn una m.a.s. de una N (µ, σ 2 ). Entonces
X −µ
√ ∼ tn−1 .
S/ n
La distribución t de Student no tiene f.g.m. porque no tiene momentos de
todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden
estrictamente inferior a p: existe E(X α ) para α < p.
Si X ∼ tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p − 2) si p > 2.
La ley Fp,q
Diremos que X sigue una distribución F con p y q grados de libertad y
lo denotaremos X ∼ Fp,q , si su función de densidad es
¡
¢ µ ¶p/2
Γ p+q
p
x(p/2)−1
fp,q (x) = ¡ p ¢ 2 ¡ q ¢
, 0 < x < ∞.
³
´ p+q
q
Γ 2 Γ 2
2
p
1 + qx
Lema 4
(a) Si U ∼ χ2p , V ∼ χ2q y U y V son independientes, entonces
X=
U/p
∼ Fp,q .
V /q
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
18
2
(b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX
), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ),
dos muestras independientes. Entonces
2
2
SX
/σX
∼ Fn−1,m−1 .
SY2 /σY2
(c) Si X ∼ Fp,q , entonces X −1 ∼ Fq,p .
(d) Si X ∼ tp ,entonces X 2 ∼ F1,p .
(e) Si X ∼ Fp,q , entonces
³p q ´
p X
∼
Beta
,
.
q 1 + pq X
2 2
(f ) Si X ∼ Fn−1,m−1 , entonces
µ
E(X) = E
χ2n−1 /(n − 1)
χ2m−1 /(m − 1)
µ
n−1
n−1
¶µ
¶
µ
=E
m−1
m−3
¶
=
χ2n−1
n−1
¶
µ
E
m−1
χ2m−1
¶
=
m−1
.
m−3
(g) Si las distribuciones de partida tienen simetrı́a esférica, entonces el cociente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).
1.5.
Leyes de los Grandes Números y Teorema
Central del Lı́mite
En esta sección se enuncian dos resultados fundamentales en inferencia estadı́stica: la Ley Fuerte de los Grandes Números y el Teorema Central del Lı́mite.
Dada una sucesión de variables aleatorias definidas sobre el mismo espacio
muestral, se llaman leyes de los grandes números a los resultados sobre
convergencia de las sucesiones de sus medias aritméticas a una constante. Se
conoce como problema del lı́mite central el estudio de la convergencia
débil de la sucesión de medias muestrales centradas y tipificadas a una distribución no degenerada.
1.5.1.
Leyes de los grandes números
Se enuncia a continuación una versión de ley débil de los grandes números que establece la convergencia en media cuadrática (y por tanto, en probabilidad) de la media aritmética de una sucesión de variables aleatorias incorreladas.
1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMA CENTRAL DEL LÍMITE19
Teorema 5 (Ley débil de los grandes números) Sea {Xn }n∈IN una sucesión de variables aleatorias incorreladas con momentos de segundo orden acoPn
tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces
Ã¯
¯ !
¯ Sn − E(Sn ) ¯2
C
¯
E ¯¯
≤
¯
n
n
y, como consecuencia
Sn − E(Sn )
=0
n
en el sentido de la convergencia en media cuadrática.
lı́m
n−→∞
La demostración de este resultado puede verse, por ejemplo, en Sanz (1999).
Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley débil de Bernoulli.
Los resultados que garantizan la convergencia casi segura de la media muestral se conocen como leyes fuertes de los grandes números. Se enuncia
a continuación una ley fuerte para variables con segundos momentos finitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes números) Bajo las hipótesis del teorema 5 se tiene que
Sn − E(Sn )
lı́m
=0
n−→∞
n
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostración de este resultado. En ese
mismo texto se recoge una versión más general de la ley fuerte de los grandes
números, conocida como ley fuerte de los grandes números de Kolmogorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la
convergencia casi segura de la media muestral a la esperanza.
1.5.2.
Teorema central del lı́mite
En esta sección se presenta el teorema central del lı́mite de LévyLindeberg, válido para sucesiones de variables aleatorias independientes e
idénticamente distribuidas con momento de segundo orden finito.
Teorema 7 (Teorema central del lı́mite) Sea {Xn }n∈IN una sucesión de
variables aleatorias independientes e idénticamente distribuidas con momento
de segundo orden finito. Sea µ la esperanza común y σ 2 la varianza común, que
Pn
supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que
Sn − nµ
√
−→D Z,
σ n
donde Z ∼ N (0, 1) y −→D indica convergencia en distribución.
20
Este resultado puede demostrarse utilizando funciones generadoras de moementos o funciones caracterı́sticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostración (más laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una versión más fuerte
del teorema central del lı́mite.
El Teorema de De Moivre-Laplace, que establece la convergencia débil de la
binomial tipificada a la normal estándar, es una aplicación directa del teorema
central del lı́mite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproximación de la binomial por la normal son la estimación del error de aproximar
la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en
encuestas.
1.5.3.
Versiones multivariantes
Se enuncian a continuación versiones multivariantes de la ley de los griandes
números y del teorema central del lı́mite.
Teorema 8 Sea { X n }n∈IN una sucesión de variables aleatorias p-dimensionales
e
independientes e idénticamente distribuidas. Sea X el vector p-diemensional
e n
media aritmética de las n primeras variables:
n
1X
X =
X i.
n i=1 e
e n
Se tiene lo siguiente:
1. Si existe E( X i ) = µ, entonces X converge a µ casi seguramente.
e
e n
2. Si, además, X i tiene matriz de varianza y covarianzas finita Σ, entonces
e
√
n( X − µ) −→D Np (0, Σ).
e n
La demostración de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribución multinomial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS
1.6.
21
Lista de problemas
Variables aleatorias. Muestras
1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con densidad f (x). Supongamos que cada Xi mide la cantidad anual de precipitaciones en un determinado emplazamiento. Da la distribución del número
de años que transcurren hasta que las lluvias del primer año, X1 , son
superadas por primera vez.
2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea
X su media muestral. Prueba que
fX (x) = nfX1 +···+Xn (nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
n
X=
n
1X
1 X
Xi , S 2 =
(Xi − X)2 .
n i=1
n − 1 i=1
a) Prueba que
n
S2 =
n
XX
1
(Xi − Xj )2 .
2n(n − 1) i=1 j=1
Supongamos que E(X 4 ) < ∞. Sean θ1 = E(X) y θj = E((X − θ1 )j ),
j = 2, 3, 4.
b) Prueba que
1
V (S ) =
n
2
µ
¶
n−3 2
θ4 −
θ .
n−1 2
c) Da la expresión de Cov(X, S 2 ) en términos de θ1 , . . . , θ4 . ¿Bajo qué condiciones son X y S 2 incorreladas?
d ) Si la distribución de X es simétrica respecto de θ1 , ¿es posible que la
covarianza de esos estadı́sticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1 , ¿es posible que
la covarianza de esos estadı́sticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza muestrales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que
se observa un nuevo valor Xn+1 . Demuestra las siguientes fórmulas recursivas.
a)
X n+1 =
1
(Xn+1 + nX n ).
n+1
22
b)
2
nSn+1
= (n − 1)Sn2 +
n
(Xn+1 − X n )2 .
n+1
5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ 2 . Halla el menor valor de n que garantiza que
³
σ´
P |X 1 − X 2 | <
5
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lı́mite. Comenta los resultados obtenidos.
6. (Casella-Berger, 5.29) Sean Xi ∼ N (i, i2 ), i = 1, 2, 3, tres variables aleatorias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a) χ23 .
b) t2 .
c) F1,2 .
7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias independientes con distribución U (0, 1). Sea X una variable aleatoria con distribución
1
P (X = x) =
, x = 1, 2, 3, . . .
(e − 1)x!
Da la distribución de
Z = mı́n{U1 , . . . , UX }.
Indicación: Observar que Z|X = x es el primer estadı́stico de orden de
una muestra de tamaño x de una U (0, 1).
8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una
población con densidad
fX (x) =
1
I(0,θ) (x).
θ
Sean X(1) , . . . , X(n) los estadı́sticos orden. Prueba que X(1) /X(n) y X(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias exponenciales y describe el espacio paramétrico natural de cada una de ellas.
a) Familia normal con alguno de los parámetros µ o σ conocidos.
23
b) Familia gamma con alguno de los parámetros α o β conocidos.
c) Familia beta con alguno de los parámetros α o β conocidos.
d ) Familia Poisson.
e) Binomial negativa con el parámetro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en términos de su espacio paramétrico natural con densidad
k
X
f (x; η ) = h(x)c( η ) exp{
ηi ti (x)}.
e
e
i=1
Prueba que
∂
log(c( η )).
(t (X)) = −
η i
∂ηi
e
e
Indicación: Usa el hecho de que para una familia exponencial se tiene
que
Z ∞
Z ∞ j
∂j
∂
f (x)dx =
f (x)dx.
j
j
η
η
∂ηi −∞
−∞ ∂ηi
e
e
12. Considera la familia de distribuciones normales con media θ y varianza
θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
E
13. Sean X1 , . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia exponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
Familias de localización y escala
17. (Casella-Berger, 3.31) Considera la función de densidad
f (x) =
Dibuja el gráfico de
63 6
(x − x8 ), −1 < x < 1.
4
µ
¶
1
x−µ
f
σ
σ
para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.
24
a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.
18. (Casella-Berger, 3.32) Muestra que si f (x) es una función de densidad
simétrica alrededor de 0, entonces la mediana de la densidad
µ
¶
1
x−µ
f
σ
σ
es µ.
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se
define zα como un número que satisface que
Z ∞
α = P (Z > zα ) =
f (z)dz.
zα
Sea X una variable aleatoria con densidad en la familia de localización y
escala de f
µ
¶
x−µ
1
f
σ
σ
y sea xα = µ + σzα . Prueba que P (X > xα ) = α. (Nota: Ası́, los valores de xα se calculan fácilmente para cualquier miembro de la familia de
localización y escala si se dispone de una tabla de valores zα .)
20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad
f (x) =
1
, x ∈ IR,
π(1 + x2 )
y la familia de localización y escala definida a partir de ella: X tiene
distribución de Cauchy con parámetros µ y σ si su densidad es
f (x; µ, σ) =
σ
, x ∈ IR.
π(σ 2 + (x − µ)2 )
No existen la esperanza ni la varianza de estas distribuciones, luego µ
y σ 2 no son la media y la varianza. No obstante, tienen un importante
significado.
a) Prueba que µ es la mediana de X.
b) Prueba que µ − σ y µ + σ son los cuartiles primero y tercero, respectivamente, de X.
21. (Casella-Berger, 3.35) Sea f (x) una función de densidad con media µ y
varianza σ 2 . Indica cómo crear una familia de localización y escala basada
en f (x) tal que la densidad estándar de la familia, f ∗ (x), tenga esperanza
0 y varianza 1.
Capı́tulo 2
Principios para reducir los
datos
Referencias: Casella-Berger, capı́tulo 6. En algunos puntos se han
seguido también Cristóbal (1992) (capı́tulo 7), Schervish (1995)
(capı́tulo 2) y Garcı́a-Nogales (1998) (capı́tulo 3).
El uso de cualquier estadı́stico T ( X ) implica una reducción de los datos
e
muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector
e
aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (reae
e
lizaciones de X ). Si decidimos usar el estadı́stico T ( X ) en vez de toda la muese
e
tra, serán tratadas igual dos muestras observadas cualesquiera x , y , siempre
e e
que T ( x ) = T ( y ). Es decir, al usar el estadı́stico T , en lugar de toda la muese
e
tra, se pierde información.
Se plantea ası́ el problema de buscar estadı́sticos T
tales que la información que se pierde al usarlos sea irrelevante para los fines
que nos hayamos marcado.
Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio
X , reducir los datos en términos de un estadı́stico T es equivalente a dar
e
una partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X }, la
imagen de X mediante el estadı́stico T . Entonces {At = T −1 (t) : t ∈ T } es una
partición de X inducida por T . Al observar x y limitarnos a registrar el valor
e
de T ( x ), podremos saber que hemos observado un elemento de A
, pero
T( x )
e
e
desconoceremos cuál de ellos.
Ejemplo 11
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
X = { x = (x1 , . . . , xn ) : xi ∈ {0, 1}}.
e
25
26
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Se define T ( x ) =
e
Pn
i=1
xi . Entonces
T = {0, 1, 2, . . . , n}.
El estadı́stico T ha creado una partición en X de forma que todas aquellas
secuencias de resultados con igual número de unos están en la misma clase:
At = { x = (x1 , . . . , xn ) ∈ T :
e
n
X
xi = t}.
i=1
No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.
.
.
En este tema estudiaremos dos principios para reducir los datos que garantizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aquı́ (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene distribución perteneciente a una familia paramétrica:
X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }.
Se supondrá además que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estadı́sticos.
2.1.
Principio de suficiencia
Un estadı́stico T es suficiente para un parámetro θ si captura toda la información que sobre θ contiene la muestra. Cualquier información adicional (es
decir, aparte del valor del estadı́stico T ) que la muestra pueda aportar, no proporciona información relevante sobre θ. Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estadı́stico suficiente para θ, cualquier inferencia sobre θ ha de depender de la muestra X = (X1 , . . . , Xn ) sólo a través del valor T ( X ). Es decir,
e
e
si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre
e e
e
e
θ será la misma tanto si se observa x como si se observa y .
e
e
Formalmente, diremos que un estadı́stico T es suficiente para θ si la distribución condicionada de X dado el valor T ( X ), no depende de θ.
e
e
Veamos, en el caso discreto, que la información que sobre un parámetro
aporta un estadı́stico suficiente es toda la información que aportarı́a la muestra
2.1. PRINCIPIO DE SUFICIENCIA
27
completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir,
e
si Pθ (T ( X ) = t) > 0, entonces
e
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
Ası́ que sólo son de interés las probabilidades condicionadas Pθ ( X = x |T ( X ) =
e
e
e
T ( x )). Si T es suficiente estas probabilidades no dependen de θ, luego,
e
Pθ ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x ))
e
e
e
e
e
e
e
e
para todo θ. En este sentido entendemos que T captura toda la información
sobre θ.
Supongamos que dos cientı́ficos se interesan por la variable aleatoria X cuya
distribución depende del parámetro desconocido θ. Supongamos además que el
primer cientı́fico observa toda una muestra x de X, mientras que el segundo
e
sólo puede estudiar el fenómeno a través de una revista que publica el valor del
estadı́stico suficiente T ( x ). La cuestión relevante entonces es saber si ambos
e
cientı́ficos tienen o no la misma información sobre θ. Veamos que ası́ es.
Como P ( X = x |T ( X ) = T ( x )) no depende de θ, esta distribución cone
e
e
e
dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cientı́ficos conocen
P ( X = y |T ( X ) = T ( x )), para todo y ∈ A
= {y : T ( y ) = T ( x )}.
T( x )
e
e
e
e
e
e
e
Si el segundo cientı́fico quisiera, podrı́a generar un vector aleatorio Y siguiendo
e
esa distribución y se satisfarı́a que
P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y ∈ A
T( x )
e
e
e
e
e
e
e
e
e
Por lo tanto X e Y tendrı́an la misma distribución condicionada a que T ( X ) =
e
T ( x ). Además, ambas variables tienen la misma distribución incondicional:
e
Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
(porque { X = x } ⊆ {T ( X ) = T ( x )})
e
e
e
e
Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e
e
e
e
e
e
Pθ ( Y = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e
e
e
e
e
e
Pθ ( Y = x , T ( X ) = T ( x )) =
e
e
e
e
(teniendo en cuenta que { Y = x } ⊆ {T ( X ) = T ( x )})
e
e
e
e
Pθ ( Y = x )
e
e
28
Por lo tanto el segundo cientı́fico ha podido observar una variable aleatoria
Y que tiene la misma distribución que la variable aleatoria X que observó el
e
e
primer cientı́fico, y ambos cientı́ficos obtienen el mismo valor del estadı́stico T
a partir de sus respectivas observaciones. Por lo tanto, ambos cientı́ficos tienen
la misma información.
Teorema 9 Si f ( x |θ) es la verosimilitud de un vector aleatorio X y q(t|θ) es
e
e
la verosimilitud (función de densidad o de masa) de un estadı́stico T ( X ), se
e
tiene la siguiente equivalencia. T ( X ) es un estadı́stico suficiente para θ si y
e
sólo si para cada x del espacio muestral X el cociente
e
f ( x |θ)
e
q(T ( x )|θ)
e
no depende de θ.
Demostración: Haremos la prueba para el caso discreto. El caso continuo no
presenta dificultades adicionales.
Veamos primero que si f ( x |θ)/q(T ( x )|θ) no depende de θ entonces T es
e
e
suficiente. Como ya se vio anteriormente,
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
Luego si T ( x ) 6= t la función de masa de probabilidad condicionada vale 0 y,
e
no depende de θ. En el otro caso,
Pθ ( X = x , T ( X ) = T ( x ))
e
e
e
e =
Pθ (T ( X ) = T ( x ))
e
e
Pθ ( X = x )
f ( x |θ)
e
e
e
=
Pθ (T ( X ) = T ( x ))
q(T ( x )|θ)
e
e
e
que tampoco depende de θ, de donde se sigue que T es suficiente.
Pθ ( X = x |T ( X ) = T ( x )) =
e
e
e
e
Para probar el recı́proco, basta con leer la igualdad anterior en orden inverso,
f ( x |θ)
e
= Pθ ( X = x |T ( X ) = T ( x )),
e
e
e
e
q(T ( x )|θ)
e
que no depende de θ si T es suficiente.
2
Ejemplo 12
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
e
estadı́stico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ:
e
Qn
f ( x |θ)
θxi (1 − θ)1−xi
¢
e
=
= ¡i=1
n t
n−t
q(T ( x )|θ)
t θ (1 − θ)
e
(donde se ha definido t =
Pn
i=1
29
xi )
θt (1 − θ)n−t
1
¡n¢
= ¡n¢
t (1 − θ)n−t
θ
t
t
que no depende de θ.
.
.
Ejemplo 13
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido.
e
El estadı́stico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ:
©
ª
Pn
f ( x |θ)
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2
©
ª =
e
=
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
q(T ( x )|θ)
e
©
¡Pn
¢ª
2 −n/2
2
2
(2πσ )
exp − 2σ1 2
i=1 (xi − x) + n(x − µ)
©
ª
=
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
©
ª
Pn
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2
=
n1/2 (2πσ 2 )−1/2
(
)
n
1 X
2 −(n−1)/2 −1/2
2
(xi − x) ,
(2πσ )
n
exp − 2
2σ i=1
que no depende de µ.
.
.
El teorema 9 es útil para comprobar si un estadı́stico es suficiente, pero no lo
es para buscar estadı́sticos suficientes. El siguiente teorema sı́ podrá usarse para
este cometido: permite encontrar estadı́sticos suficientes mediante la inspección
de la función de densidad o la función de masa de probabilidad, según el caso.
Teorema 10 (Teorema de Factorización) Sea f ( x |θ) la verosimilitud de
e
X = (X1 , . . . , Xn ). El estadı́stico T ( X ) es suficiente para θ si y sólo si existen
e
e
funciones g(t|θ) y h( x ) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la
e
e
función f ( x |θ) puede factorizarse ası́:
e
f ( x |θ) = g(T ( x )|θ)h( x ).
e
e
e
Demostración: (En el caso discreto). Supongamos primero que T es suficiente.
Tomemos g(t|θ) = Pθ (T ( X ) = t) y h( x ) = Pθ ( X = x |T ( X ) = T ( x )), que
e
e
e
e
e
e
no depende de θ al ser T suficiente. Con esta elección,
f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
e
30
Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = t) = g(T ( x )|θ)h( x ).
e
e
e
e
e
e
e
Veamos ahora el recı́proco. Supongamos que f ( x |θ) = g(T ( x )|θ)h( x ) y que
e
e
e
q(t|θ) es la función de masa de probabilidad de T ( X ). Entonces,
e
f ( x |θ)
f ( x |θ)
e
e
=P
=
q(t|θ)
f (y|θ)
y∈A
T( x )
e
g(T ( x )|θ)h( x )
g(T ( x )|θ)h( x )
h( x )
e
e
e
e
e
=P
=P
,
g(T ( y )|θ)h( y )
g(T ( x )|θ)h( y )
h( y )
y∈A
y∈A
y∈A
e
e
e
e
e
T( x )
T( x )
T( x )
e
e
e
que es independiente de θ. Luego T es suficiente para θ.
2
P
(Nota: la demostración para el caso continuo puede verse, por ejemplo, en
Lehmann 1986 o en Cristóbal (1992), p. 173.)
Según el Teorema 10, para encontrar un estadı́stico suficiente se factoriza la
función de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al
e
parámetro θ, y la otra que dependa de la muestra sólo a través de una función
suya T ( x ). El estadı́stico suficiente será entonces T ( X ).
e
e
Ejemplo 14
Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
1
f (x|θ) = I{1,2,...,θ} (x)
θ
donde IA (x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
1
θn
.
Ã
f (x1 , . . . , xn |θ) =
n
1 Y
I{1,2,...,θ} (xi ) =
θn i=1
!Ã
!
Ã n
!Ã n
!
Y
1 Y
IIN−{0} (xi )
I(−∞,θ] (xi ) = n
IIN−{0} (xi )
I[xi ,∞) (θ) =
θ
i=1
i=1
i=1
i=1
Ã n
!
Y
1
I
(θ)
IIN−{0} (xi )
n (máx{xi :1≤i≤n},∞)
|θ
{z
} i=1
{z
}
|
g(t|θ), donde t=máxi xi
h( x )
e
n
Y
n
Y
.
31
Ejemplo 15
Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es
(
)
n
n n
o
1 X
2 −n/2
2
f ( x |µ) = (2πσ )
exp − 2
(xi − x) exp − 2 (x − µ)2
2σ i=1
2σ{z
e
|
}
|
{z
}
g(t|µ), donde t=x
h( x )
e
Por lo tanto T ( X ) = X es estadı́stico suficiente para µ.
e P
n
Obsérvese que i=1 Xi = nX también es estadı́stico suficiente: podrı́a defiª
©
nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 .
e
.
.
En general, si T ( X ) es estadı́stico suficiente para θ y τ : T −→ S es una
e
transformación biyectiva del espacio donde toma valores T , se tiene que S( X ) =
e
τ (T ( X )) también es estadı́stico suficiente para θ:
e
f ( x |θ) = g(T ( x )|θ)h( x ) = g(τ −1 (S( x ))|θ)h( x ) = g ∗ (S( x )|θ)h( x ),
e
e
e
e
e
e
e
de donde se deduce que S( X ) también es estadı́stico suficiente. La función
e
g ∗ (s|θ) es g ∗ (s|θ) = g(τ −1 (s)|θ).
2.1.1.
Estadı́sticos suficientes r-dimensionales
Hasta ahora hemos visto únicamente estadı́sticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de
factorización puede ocurrir que la función g(t|θ) dependa de la muestra a través
de más de una función suya. En ese caso la colección de esas funciones, digamos
T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadı́stico suficiente r-dimensional. Las
e
e
e
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidimensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estadı́stico suficiente.
Ejemplo 16
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Ası́,
)
(
n
o
n n
1 X
2
2
2 −n/2
f ( x |µ, σ ) = (2πσ )
exp − 2
(xi − x) exp − 2 (x − µ)2 .
2σ i=1
2σ
e
Pn
Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces,
e
e
¾
½
o
n n
(n − 1)
2
2
2 −n/2
=
T
(
x
)
exp
−
(T
(
x
)
−
µ)
f ( x |µ, σ ) = (2πσ )
exp −
2
1
2σ 2
2σ 2
e
e
e
32
g(T1 ( x ), T2 ( x )|µ, σ 2 )
e
e
y tomando h( x ) = 1 se tiene la factorización de f ( x |µ, σ 2 ) que implica que
e
e
T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente para (µ, σ 2 ) en
e
e
e
la distribución normal. Es un estadı́stico bivariante.
Obsérvese que el hecho de que un estadı́stico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberı́amos conformarnos con conocer únicamente la media y la varianza muestral.
.
.
2.1.2.
Estadı́sticos suficientes minimales
La factorización de la función de verosimilitud no es única y como consecuencia de ello, tampoco es único el estadı́stico suficiente para un parámetro.
Ya vimos que cualquier transformación biyectiva de un estadı́stico suficiente da
lugar a otro estadı́stico suficiente. Pero aún hay muchos más estadı́sticos suficientes. Por ejemplo, la muestra completa X también es estadı́stico suficiente
e
para el parámetro:
f ( x |θ) = g( x |θ)h( x ),
e
e
e
donde h( x ) = 1, T ( x ) = x y g( x |θ) = f ( x |θ).
e
e
e
e
e
Un estadı́stico suficiente T ( X ) se llama minimal si para cualquier otro
e
estadı́stico S( X ) se tiene que T ( X ) es función de S( X ). Es decir, si ocurre
e
e
e
que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra
e
e
e esto es la siguiente: sea {A : t ∈ T } la partición
forma de expresar
dele espacio
t
muestral inducida por el estadı́stico T y sea {Bs : s ∈ S} la partición inducida
por S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At . La partición inducida
por cualquier estadı́stico suficiente es más fina que la inducida por el estadı́stico
suficiente minimal.
Ejemplo 17
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos. Hemos
visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente
e
e
para (µ, σ 2 ).
Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) =
e
X es estadı́stico suficiente para µ. Pero también es cierto que (T1 ( X ), T2 ( X )) =
e
e
(X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducción
e
33
de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como función de
e
e
e
(T1 ( X ), T2 ( X )): T1 ( X ) = τ (T1 ( X ), T2 ( X )) donde τ (a, b) = a.
e
e
e
e
e
Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para µ, ame
e
e
bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral
S 2 = T2 ( X ) no aporta ninguna información sobre la media µ cuando σ 2 es
e
conocida.
.
.
El siguiente teorema proporciona un método para encontrar el estadı́stico
suficiente minimal.
Teorema 11 Sea f
( x |θ) la función de verosimilitud conjunta de X (disX e
e
e
creta o continua). Supongamos que existe una función T ( x ) tal que para cuale
quier par de elementos del espacio muestral x , y , el cociente
e e
f
( x |θ)
X e
e
f ( y |θ)
X e
e
es constante como función de θ, si y sólo si T ( x ) = T ( y ). Entonces T ( x ) es
e
e
e
estadı́stico suficiente minimal para θ.
Demostración: Casella-Berger, p. 255
2
Ejemplo 18
Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros dese
conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las
e
e y varianzas muestrales. Recordando la factorización
correspondientes medias
de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que
e
n
o
© n
ª
f ( x |θ)
2
2
(2πσ 2 )−n/2 exp − (n−1)
X e
2σ 2 Sx exp − 2σ 2 (x − µ)
o
n
e
=
©
ª =
2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2
f ( y |θ)
(2πσ
2
2
y
2σ
2σ
X e
e
½
¾
¢
1 ¡
2
2
2
2
exp
=
−n(x
−
µ)
+
n(y
−
µ)
−
(n
−
1)(S
−
S
)
x
y
2σ 2
½
¾
¢
1 ¡
2
2
2
2
exp
−n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy )
2σ 2
Esta expresión es constante como función de (µ, σ 2 ) si y sólo si
−n(x2 − y 2 ) + 2nµ(x − y) − (n − 1)(Sx2 − Sy2 ) = 0,
34
y recordando que Sx2 =
Pn
i=1
2nµ(x − y) −
x2i − nx2 eso ocurrirá si y sólo si
n
X
i=1
x2i +
n
X
yi2 = 0, para todo µ,
i=1
pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)
es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y
sólo si
n
n
X
X
x=y y
x2i =
yi2 ,
i=1
i=1
lo que equivale a decir, que
x = y y Sx2 = Sy2 .
Concluimos pues que (X, S 2 ) es estadı́stico minimal suficiente para (µ, σ 2 ) cuando muestreamos de una normal.
.
.
Ejemplo 19
Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası́,
n
Y
f ( x |θ) =
I[θ,θ+1] (xi ) = I[máxi xi −1,mı́ni xi ] (θ).
e
i=1
Por el teorema de factorización, (T1 ( X ), T2 ( X )) = (mı́ni Xi , máxi Xi ) es un
e
e
estadı́stico suficiente para θ.
Para dos muestras x e y, el numerador y el denominador de f ( x |θ)/f (y|θ)
e
e
serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y
máxi xi = máxi yi . En ese caso además el cociente valdrá 1, independientemente
del valor de θ. Ası́ que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi
y máxi xi = máxi yi , luego (mı́ni Xi , máxi Xi ) es un estadı́stico suficiente minimal.
.
.
Obsérvese que el estadı́stico minimal no es único: cualquier transformación
biyectiva suya también es estadı́stico minimal suficiente.
Se puede probar que siempre existen estadı́sticos suficientes minimales. Ver,
por ejemplo, el problema 15 del capı́tulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristóbal (1992).
2.1.3.
35
Estadı́sticos ancilares
Se define un estadı́stico ancilar como aquel cuya distribución no depende del parámetro θ. Los estadı́sticos ancilares son los que resumen la parte
de información de la muestra que no recogen los estadı́sticos minimales suficientes. A primera vista, parece que no deben aportar información relevante en
la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que
en combinación con otros estadı́sticos sı́ son útiles en la estimación de θ (ver
Casella-Berger, ejemplo 6.1.11).
Ejemplo 20
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
e
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la
muestra.
El estadı́stico Rango, definido como R = X(n) − X(1) , sigue una distribución
Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estadı́stico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de localización:
Sean X observaciones i.i.d. de una familia de localización con función de distrie
bución F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden
de la muestra. Entonces la distribución del rango, definido como R = X(n) −X(1) ,
no depende de θ por lo que es un estadı́stico ancilar.
.
.
Ejemplo 21
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) =
1
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estadı́sticos de orden de la muestra. Puede demostrarse
que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estadı́stico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1.
El saber el valor del estadı́stico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habrı́amos tenido ninguna
36
información sobre θ.
.
2.1.4.
.
Estadı́sticos completos
Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un estadı́stico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es completa si se da la implicación siguiente:
Eθ (g(T )) = 0 para todo θ =⇒ Pθ (g(T ) = 0) = 1 para todo θ.
En ese caso diremos que T es un estadı́stico completo.
Ejemplo 22
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
µ ¶
¶t
µ ¶µ
n
X
n t
n
p
n−t
n
0 = E(g(T )) =
g(t)
p (1 − p)
= (1 − p)
.
g(t)
t
1−p
t
t=0
t=0
n
X
Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0, ∞) es
idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos:
µ ¶
n
g(t)
= 0, para todo t ∈ 0, 1, . . . , n
t
de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego
Pp (g(T ) = 0) = 1, para todo p,
y la familia de distribuciones de T es completa.
.
.
La definición de completitud refuerza la de suficiencia en el sentido de que
si un estadı́stico es suficiente y completo entonces, por una parte, es suficiente
minimal (el recı́proco no es cierto) y, por otra, ese estadı́stico es independiente
de cualquier estadı́stico ancilar. Es decir, en el caso de que exista un estadı́stico
suficiente y completo sı́ es cierta la idea intuitiva de que los estadı́stico ancilares
no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre
si sólo se tienen estadı́sticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.
Teorema 12 Si T es un estadı́stico suficiente y completo para θ, entonces T
es suficiente minimal.
37
Demostración: (Extraı́da de Cristóbal 1992, p. 200.)
Sea S un estadı́stico suficiente para θ. Entonces, por la ley de la esperanza
iterada,
Eθ (T − E(T /S)) = Eθ (T ) − Eθ (T ) = 0, para todo θ ∈ Θ.
Por ser T completo, se tiene que
Pθ (T − E(T /S) = 0) = 1 =⇒ T = E(T /S) casi seguro,
luego T es función de cualquier estadı́stico suficiente S y, por tanto, es minimal.
2
El recı́proco no es cierto, como pone de manifiesto el siguiente ejemplo
(Cristóbal 1992, p. 200).
Ejemplo 23
2
Sean X ∼ N (µ, σX
) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del
2
teorema 11 se sigue que el estadı́stico (X, Y , SX
, SY2 ) es suficiente minimal para
+
+
2
2
θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque
Eθ (X − Y ) = 0 para todo θ
y sin embargo Pθ (X = Y ) = 0, para cualquier θ.
.
.
Teorema 13 (Basu) Si T es un estadı́stico suficiente y completo, y S es un
estadı́stico ancilar, entonces T y S son independientes.
Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201.
2
Acabaremos esta sección dando un resultado que permite encontrar estadı́sticos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14 Sea X variable aleatoria cuya distribución pertenece a la familia
exponencial y viene dada por la función de densidad (o de masa, según el caso)


k
X
f (x|θ) = h(x)c(θ) exp 
θj tj (x) , θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk ,
j=1
parametrizada de forma natural.
Si el espacio paramétrico natural Θ contiene un abierto no vacı́o de IRk ,
entonces el estadı́stico
n
X
T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) =
tj (Xi ),
e
e
e
e
i=1
es estadı́stico suficiente completo (y por lo tanto, minimal).
38
Demostración: La prueba de este resultado requiere técnicas de funciones
analı́ticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garcı́a-Nogales 1998 o 7.3.7 de
Cristóbal 1992.
2
2.2.
Principio de verosimilitud
Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable aleae
toria X y supongamos que se ha observado x . Llamamos función de veroe
similitud de la muestra a la función de densidad conjunta o a la función de
masa de probabilidad conjunta, según sea X continua o discreta, entendida ésta
como función del parámetro:
−→ IR+
−→ L(θ| x ) = f ( x |θ)
e
e
La función de verosimilitud ası́ definida puede entenderse como un estadı́stico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x , la función de verosimilitud le asocia un
e
elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente
L(·| x ), la función de verosimilitud de esa muestra:
e
L(·| x ) :
e
Θ
θ
L:
X
x
e
−→ (IR+ )Θ
−→ L(·| x )
e
Ası́, L( X ) es una función aleatoria de Θ en IR. Por lo tanto, la función de veroe
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X
e
(de dimensión n) a L( X ) (de dimensión igual al cardinal de Θ, normalmente
e
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la función de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expresa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
e
e
L(θ| x ) = C( x , y )L(θ| y ), para todo θ,
e
e e
e
donde C( x , y ) es una función que puede depender de x e y pero no de θ,
e e
e
e
entonces la inferencia que se haga sobre θ será la misma tanto si se observa x
e
como si se observa y .
e
2.2. PRINCIPIO DE VEROSIMILITUD
39
Obsérvese que la verosimilitud de una muestra x en el caso discreto es la
e
colección de las probabilidades de haber observado x bajo los diferentes valores
e
de θ. Ası́, el cociente de dos valores de la verosimilitud
L(θ1 | x )
e
L(θ2 | x )
e
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2 . En el
e
caso continuo esto es aproximadamente válido, si hablamos de la probabilidad
de observar valores en un entorno de x en lugar de la probabilidad de observar
e
x:
e
Pθ1 ( X ∈ B( x , ε))
VolumenB( x , ε)f ( x |θ1 )
f ( x |θ1 )
e
e
e
e
e
≈
=
.
Pθ2 ( X ∈ B( x , ε))
VolumenB( x , ε)f ( x |θ2 )
f ( x |θ2 )
e
e
e
e
e
Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho más
e
e
plausible (mucho más verosimil) que θ2 . Ası́, la verosimilitud indica cómo de
plausible es un valor del parámetro θ1 en términos relativos (comparada esa
plausibilidad con la de otro valor de θ2 ).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,
L(θ1 | x )
C( x , y )L(θ1 | y )
L(θ1 | y )
e =
e e
e =
e ,
L(θ2 | x )
C( x , y )L(θ2 | y )
L(θ2 | y )
e
e e
e
e
y por lo tanto, los valores de θ más verosı́miles serán los mismos si se observa
x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias
e
e
e como afirma el principio
sobre θ,
dee verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimilitud son equivalentes.
Teorema 15 El principio de suficiencia y el principio de verosimilitud son equivalentes.
Demostración: Suficiencia =⇒ Verosimilitud.
Veamos que la función de verosimilitud, vista como estadı́stico L( X ), es un
e
estadı́stico suficiente. En efecto,
f ( x |θ) = g(L( x )|θ)h( x ),
e
e
e
donde h( x ) = 1 y la función g(L( x )|θ) es la que devuelve el valor de L( x )
e
e
e
en el punto θ. Por el teorema de factorización L( X ) es estadı́stico suficiente.
e
Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de
40
la muestra X = (X1 , . . . , Xn ) sólo a través del valor L( X ), lo cuál implica el
e
e
principio de verosimilitud.
Verosimilitud =⇒ Suficiencia.
Consideremos un estadı́stico suficiente T ( X ) y dos valores muestrales x e y
e
e
e
tales que T ( x ) = T ( y ). Veamos que la inferencia sobre θ que se derive de x
e
e
e
e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia).
Ene efecto, se tiene que
L( x |θ) = g(T ( x )|θ)h( x ) = g(T ( y )|θ)h( x ) =
e
e
e
e
e
h( x )
g(T ( y )|θ)h( y ) e = C( x , y )L( y |θ)
e e
e
e h( y )
e
e
de donde se deduce por aplicación del principio de verosimilitud que la inferencia
que se haga sobre θ será la misma tanto si se observa x como si se observa y .
e
e
2
En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más detallado sobre las implicaciones que existen entre estos y otros principios de reducción de los datos. Las conclusiones a las que allı́ se llega implican que el
principio de verosimilitud es cierto también para inferencias hechas sobre un
mismo parámetro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
será la misma.
2.3.
41
Lista de problemas
Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación de una N (0, σ 2 ). ¿Es |X| un
estadı́stico suficiente?
2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f ((x − µ)/σ), donde f (t) es la densidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estadı́stico
bidimensional suficiente para (µ, σ).
3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independendientes con densidades
fi (x) =
1
I(−i(θ−1),i(θ+1)) (x), i = 1, . . . , n,
2iθ
donde θ > 0.
a) Encontrar un estadı́stico suficiente para θ de dimensión 2.
b) Dar un estadı́stico suficiente para θ de dimensión 1.
4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una γ(α, β). Da un
estadı́stico bidimensional suficiente para (α, β).
5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X con función de densidad o de probabilidad f (x; θ). Prueba que los
estadı́sticos de orden X(1) , . . . , X(n) son suficientes para θ.
6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Encontrar estadı́sticos minimales suficientes para el parámetro de
localización θ (−∞ < θ < ∞) en los siguientes casos.
a) Exponencial: f (x; θ) = e−(x−θ) , x > θ.
b) Logı́stica: f (x; θ) = e−(x−θ) /(1 + e−(x−θ) )2 .
c) Cauchy: f (x; θ) = 1/(π(1 + (x − θ)2 )).
d ) Doble exponencial (o Laplace): f (x; θ) = (1/2)e−|x−θ| .
7. (Examen parcial 2001) Se considera el siguiente modelo de regresión:
Yi = α + βxi + εi , i = 1, . . . , n,
donde x1 , . . . , xn son cantidades conocidas y ε1 , . . . , εn son v.a.i.i.d. según
una N (0, σ 2 ).
a) ¿Qué distribución tiene Yi ? Escribe su función de densidad fYi (y).
b) Escribe la función de verosimilitud L(y1 , . . . , yn ; α, β, σ 2 ).
c) Da un estadı́stico tridimensional suficiente para (α, β, σ 2 ).
42
d ) Prueba que la distribución conjunta de (Y1 , . . . , Yn ) pertenece a la
familia exponencial.
Completitud
8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejemplo 19 se establece que el estadı́stico T ( X ) = (X(1) , X(n) ) es estadı́stico
e
minimal suficiente para θ. Prueba ahora que no es completo.
9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (θ, aθ2 ), donde
a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estadı́stico
suficiente para θ pero no es completo.
10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribución geométrica:
Pθ (X = x) = θ(1 − θ)x−1 , x = 1, 2, . . . , 0 < θ < 1.
Pn
a) Probar que T = i=1 Xi es suficiente para θ y encontrar la distribución de T .
b) Prueba que T es completo sin usar el resultado general para familias
exponenciales.
11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d.
según una ley Poisson(λ), λ ≥ 0.
Pn
a) Probar que el estadı́stico T = i=1 Xi es suficiente pera λ.
b) Sin hacer uso del resultado general sobre completitud en familias exPn
ponenciales, probar que la familia de distribuciones de T = i=1 Xi
es completa.
c) Consideremos la siguiente familia de distribuciones:
P = {Pλ (X = x) : Pλ (X = x) = λx e−λ /x!; x = 0, 1, 2, . . . ; λ = 0 o λ = 1}
(Nota: 00 = 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con λ restringido a ser 0 o 1. Probar que la familia P no es completa.
d ) Indicar si la siguiente afirmación es cierta o falsa y decir por qué:
Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa
y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈
Θ2 } es completa.
12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2
con probabilidades dadas por una de las siguientes distribuciones:
Distribución 1
Distribución 2
P (X = 0)
p
p
P (X = 1)
3p
p2
P (X = 2)
1 − 4p
1 − p − p2
0 < p < 1/4
0 < p < 1/2
43
En cada caso, determina si la familia de distribuciones de X es completa.
13. Considera las variables aleatorias descritas en el problema 14 de la lista
1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?
44
Capı́tulo 3
Estimación puntual 1:
Construcción de
estimadores
Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.
DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia
bayesiana. Garthwaite, Jollife y Jones (1995), sección 3.4, presenta
métodos de estimadoción no incluidos aquı́.
3.1.
La función de distribución empı́rica y el
método de los momentos
Sea la variable aleatoria X con función de distribución F . Consideramos una
muestra aleatoria simple de tamaño n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con
distribución dada por F . Sea x1 , . . . , xn una realización de esa m.a.s.
Se llama función de distribución empı́rica a la función
n
Fn (x) =
1
1X
#{xi ≤ x : i = 1 . . . n} =
I(−∞,x] (xi ),
n
n i=1
que a cada número real x le asigna la proporción de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la función Fn ası́ definida es una función de
distribución:
1. Fn (x) ∈ [0, 1] para todo x ∈ IR.
2. Fn es continua por la derecha.
45
46CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
3. Fn es no decreciente.
4. lı́mx−→−∞ Fn (x) = 0.
5. lı́mx−→∞ Fn (x) = 1.
Concretamente, Fn es la función de distribución de una variable aleatoria discreta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos
xi observados:
xi
pi = P(Xe = xi )
x1
1/n
x2
1/n
···
···
xn
1/n
A la distribución de Xe se le llama distribución empı́rica asociada al conjunto
de valores {x1 , . . . , xn }.
Obsérvese que si fijamos el valor de x y dejamos variar la muestra, lo que
obtenemos es una variable aleatoria. En efecto, se tiene entonces que
n
Fn (x) =
1X
I(−∞,x] (Xi ),
n i=1
donde
½
I(−∞,x] (Xi ) =
1,
0,
si Xi ≤ x
si Xi > x
y, por lo tanto, cada término I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli
con probabilidad de éxito
p = P(I(−∞,x] (Xi ) = 1) = P(Xi ≤ x) = F (x).
De ahı́ se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribución
binomial con parámetros n y p = F (x).
De lo anterior se sigue que la función de distribución empı́rica es un proceso estocástico: si consideramos un espacio probabilı́stico (Ω, A, P ) donde están
definidas las sucesiones de variables aleatorias {Xn }n≥1 a partir de las cuales
definiremos la función de distribución empı́rica, tenemos que
Fn :
(Ω, A, P ) × (IR, B) −→ [0, 1]
(ω, x)
−→ Fn (x)(ω) =
1
n
Pn
i=1 I(−∞,x] (Xi (ω))
Fijado x, Fn (x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω,
Fn (·)(ω) : IR −→ [0, 1] es una función de distribución (en la notación usual
se omite la dependencia de ω ∈ Ω). Por lo tanto, la función de distribución
empı́rica es una fucnión de distribución aleatoria.
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS47
3.1.1.
Teorema de Glivenko-Cantelli
El siguiente teorema recoge algunas de las propiedades de la función de
distribución empı́rica.
Teorema 16 Sea {Xn }n≥1 , sucesión de variables aleatorias independientes e
idénticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con
función de distribución común F . Se denota por Fn la función de distribución
empı́rica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x ∈ IR.
Se verifica lo siguiente:
(a) P(Fn (x) =
j
n)
=
¡n¢
j
n−j
, j = 0, . . . , n.
j F (x) (1 − F (x))
(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)).
(c) Fn (x) −→ F (x) casi seguro.
(d)
√
n(F (x) − F (x))
p n
−→D Z,
F (x)(1 − F (x))
donde Z es una variable aleatoria con distribución normal estándar y la
convergencia es convergencia en distribución.
Demostración: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ),
se tiene que Fn (x) = Ȳn , la media aritmética de las variables aleatorias Y1 , . . . , Yn .
Ası́, el apartado (c) es una aplicación inmediata de la ley fuerte de los grandes
números y el apartado (d) es consecuencia del teorema central de lı́mite.
2
El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que
la convergencia de Fn (x) a F (x) se da uniformemente.
Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n≥1 una sucesión
de variables aleatorias independientes e idénticamente distribuidas definidas en
el espacio de probabilidad (Ω, A, P ) con función de distribución común F . Se
denota por Fn la función de distribución empı́rica obtenida de las n primeras
variables aleatorias X1 , . . . , Xn . Entonces,
sup |Fn (x) − F (x)| −→ 0 casi seguro.
x∈IR
Demostración: Presentamos aquı́ la demostración que hacen Vélez y Garcı́a
(1993), p. 36. (otras demostraciones pueden encontrarse en Garcı́a-Nogales 1998,
p. 88, y en Cristóbal 1992, p. 66). En el teorema 16 se probó que, por la ley
fuerte de los grandes números, Fn (x) −→ F (x) casi seguro, es decir, para cada
x ∈ IR existe Ax ∈ A tal que P(Ax ) = 1 y lı́mn Fn (x)(ω) = F (x) si ω ∈ Ax .
Se ha denotado por Fn (x)(ω) a la función de distribución empı́rica obtenida
al observar X1 (ω), . . . , Xn (ω), siendo ω un elemento del espacio Ω. De la ley
fuerte de los grandes números también se sigue (tomando ahora I(−∞,x) en
vez de I(−∞,x] ) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx ) = 1
y lı́mn Fn (x− )(ω) = F (x− ) si ω ∈ Bx , donde g(x− ) denota el lı́mite por la
izquierda de una función g en x.
Para cada número natural k, y cada j = 1, . . . , k, se consideran los puntos
¾
½
j
xjk = mı́n x ∈ IR : F (x− ) ≤ ≤ F (x)
k
y los sucesos de A siguientes:
Ajk = Axjk = {w ∈ Ω : Fn (xjk ) −→ F (xjk )}
−
Bjk = Bxjk = {w ∈ Ω : Fn (x−
jk ) −→ F (xjk )}
Dk =
k
\
(Ajk ∩ Bjk ), D =
j=1
∞
\
Dk .
k=1
Dk es el suceso definido por la condición de que la función de distribución empı́rica converja a la teórica para todos los puntos xjk (y también para los lı́mites por
la izquierda), para un k fijo. D es el suceso en que esto ocurre simultáneamente
para todo k. Según la ley fuerte de los grandes números, P(Ajk ) = P(Bjk ) = 1
para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1.
Obsérvese que si x ∈ [xjk , x(j+1)k ), por ser F y Fn funciones de distribución
se tiene que
−
F (xjk ) ≤ F (x) ≤ F (x−
(j+1)k ), y Fn (xjk ) ≤ Fn (x) ≤ Fn (x(j+1)k ).
Como además F (x−
(j+1)k ) − F (xjk ) ≤ 1/k,
−
−
Fn (x) − F (x) ≤ Fn (x−
(j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) +
y
Fn (x) − F (x) ≥ Fn (xjk ) − F (x−
(j+1)k ) ≥ Fn (xjk ) − F (xjk ) −
1
k
1
k
(k)
con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y
−
|Fn (x−
jk ) − F (xjk )| (para n y k fijos), se tiene que
Fn (x) − F (x) ≤ δn(k) +
1
1
y Fn (x) − F (x) ≥ −δn(k) −
k
k
Ası́, para cualquier k ∈ IN,
1
sup |Fn (x) − F (x)| ≤ δn(k) + .
k
x∈IR
Obsérvese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0,
(k)
se tiene que δn < ε a partir de un cierto n, de forma que
1
sup |Fn (x) − F (x)| < ε +
k
x∈IR
a partir de cierto n. Por lo tanto,
sup |Fn (x) − F (x)| −→n 0
x∈IR
siempre que se verifique D. Como P(D) = 1, se sigue que
sup |Fn (x) − F (x)| −→n 0 casi seguro.
x∈IR
2
Obsérvese que según el apartado (c) del teorema 16, las distribuciones empı́ricas asociadas a muestras de tamaño n convergen débilmente a la distribución de
probabilidad teórica identificada por F , para casi todas las muestras de tamaño
infinito que se extraigan de F . Ésta es una de las consecuencias más importantes
del citado teorema:
la distribución empı́rica converge débilmente con probabilidad 1 a la
poblacional cuando el tamaño de la muestra tiende a infinito:
Fn −→D F, casi seguro.
Esto garantiza la posibilidad de realizar inferencia estadı́stica: los aspectos probabilı́sticos de una caracterı́stica X, medida en una población, se resumen de
forma estilizada en una distribución de probabilidad F , la cual puede ser aproximada mediante las distribuciones empı́ricas Fn obtenidas por muestreo de la
población en estudio. El teorema de Glivenko-Cantelli afirma que esas aproximaciones son uniformes en x. Por esta razón el teorema de Glivenko-Cantelli
se llama a veces Teorema Fundamental de la Estadı́stica Matemática: da una
fundamentación de la inferencia estadı́stica, cuyo objetivo principal consiste en
extraer información sobre F a partir de las observaciones muestrales.
Ejemplo 24
En la figura siguiente se muestra la función de distribución de una variable
aleatoria N (0, 1) y la función de distribución empı́rica de dos muestras de esa
variable aleatoria una de tamaño n = 10 (la más alejada de la teórica) y la
otra de tamaño n = 100. Se aprecia que cuando n crece la proximidad entre la
función de distribución empı́rica y la teórica es cada vez mayor.
F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−3
−2
−1
0
.
3.1.2.
1
2
.
Principio de sustitución
En esta sección presentamos una consecuencia importante de la convergencia
de Fn a F , la definición de estimadores mediante el principio de sustitución.
La convergencia de Fn a F permite construir versiones factibles de caracterı́sticas poblacionales desconocidas. Supongamos que estudiamos una caracterı́stica X en una población y que el resultado de la observación de X puede ser
modelizado como una variable aleatoria con distribución desconocida, digamos
F . Muchas de las preguntas relevantes acerca de la caracterı́stica X podrı́an ser
contestadas si su función de distribución F fuese conocida (por ejemplo el valor
esperado, el número de modas de la distribución o la probabilidad de que X sea
negativa).
Para fijar ideas podemos pensar que nos interesa conocer cantidades numéricas (parámetros) que dependen únicamente de la función de distribución desconocida F :
θ = ψ(F ).
El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que
el tamaño muestral crece. Ası́, podemos esperar que también se verifique que
θ̂n = ψ(Fn ) −→ θ = ψ(F ),
es decir, esperamos que las cantidades numéricas calculadas para la distribución
empı́rica (estimadores) se aproximen a las cantidades desconocidas a medida
que el tamaño muestral crezca. Se puede probar que este resultado es cierto
bajo hipótesis de regularidad bastante generales de las funciones ψ que asignan
números a funciones de distribución.
Esta forma de obtener estimadores de parámetros poblacionales desconocidos
se denomina principio de sustitución (plug-in principle en inglés). Es un
procedimiento muy general de obtención de estimadores.
Ejemplo 25
Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tamaño n para estimar θ. Un
estimador razonable de θ es el máximo de las observaciones, que es estadı́stico
minimal suficiente para θ:
θ̂2 = máx Xi .
i
Éste es un estimador de θ basado en el principio de sustitución. En efecto,
θ = sup{x ∈ IR : F (x) < 1},
y
θ̂2 = máx Xi = sup{x ∈ IR : Fn (x) < 1}.
i
.
3.1.3.
.
El método de los momentos
Una aplicación del principio de sustitución es la definición de los estimadores basados en momentos. El momento no centrado de orden k de una
variable aleatoria X con distribución F se define como
Z
k
µk = EF (X ) = xk dF (x).
Si Xe es una variable aleatoria con función de distribución igual a Fn , la función
de distribución empı́rica de una m.a.s. de tamaño n de X, se tiene que sus
momentos no centrados (a los que llamaremos mk,n ) son de la forma
Z
mk,n =
EFn (Xek )
=
n
xk dFn (x) =
1X k
X ,
n i=1 i
y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1
es la esperanza poblacional y m1,n la media muestral.
La siguiente proposición garantiza que los momentos muestrales convergen
a los poblacionales.
Proposición 2 Sea X variable aleatoria con E(X 2k ) < ∞. Entonces se verifica
que mk,n −→ µk casi seguro. Además,
√
n(mk,n − µk )
p
−→D Z,
µ2k − µ2k
con Z ∼ N (0, 1). Se tiene además la convergencia de la distribución conjunta
de los k primeros momentos muestrales:
¤
√ £
n (m1,n , . . . , mk,n )t − (µ1 , . . . , µk )t −→D Nk ( 0 , Σ),
e
donde Σ es una matriz (k × k) con elemento (i, j) genérico
σij = µi+j − µi µj .
Demostración: La demostración es inmediata. Se basa en la aplicación de la
ley fuerte de los grandes números y el teorema central del lı́mite, dado que si
definimos Yi = Xik entonces mk,n = Ȳn . La última parte se sigue del teorema
central del lı́mite multivariante.
2
Muchas caracterı́sticas poblacionales de interés se pueden expresar como
función de los momentos no centrados de órdenes 1, . . . , k:
θ = h(µ1 , . . . , µk ).
Por ejemplo, la varianza de X se expresa como σ 2 = h(µ1 , µ2 ) = µ2 − µ21 .
El estimador de θ basado en el principio de sustitución se conoce como
estimador de los momentos de θ y será
θ̂n = h(m1,n , . . . , mk,n ).
Obsérvese que el estimador de los momentos de θ puede no ser único, porque
diferentes funciones h pueden conducir al mismo valor θ.
La siguiente proposición establece el comportamiento asintótico del estimador de los momentos de θ.
Proposición 3 Consideremos la variable aleatoria X con E(X 2k ) < ∞. Sea
θ = h(µ1 , . . . , µk ). Si h es continua en (µ1 , . . . , µk ), entonces θ̂n = h(m1,n , . . . , mk,n )
converge a θ casi seguro. Además, si h es derivable en (µ1 , . . . , µk ), entonces la
distribución lı́mite de θ̂n es normal:
√
2
n(θ̂n − θ) −→D N (0, σh,θ
).
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
53
Demostración: La demostración de la convergencia casi segura se sigue directamente de la de continuidad de h y de la convergencia casi segura de los
momentos muestrales a los poblacionales.
La demostración de la normalidad asintótica queda pospuesta hasta que se
haya introducido en la sección 4.3 el método delta.
2
Ejemplo 25, página 51. Continuación. Se toma una m.a.s. de X de tamaño
n de una U (0, θ) para estimar θ. El estimador de momentos θ̂M de θ viene dado
por la sigiente relación:
E(X) =
θ̂M
θ
=⇒ m1,n =
=⇒ θ̂M = 2m1,n = 2X.
2
2
.
.
Ejemplo 26
Otros esimadores basados en el método de los momentos son los siguientes:
1. Para una variable aleatoria X con varianza finita, Vd
(X) = (n − 1)Sn2 /n.
2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ̂ = 1/X.
3. Si X ∼ B(n, p) entonces p̂ = X y Vd
(X) = p̂(1 − p̂).
4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ̂1 = X es estimador
de momentos. Además, λ = V (X) = µ2 − µ21 . Por tanto,
λ̂2 = m2,n − m21,n =
(n − 1)Sn2
n
es también un estimador basado en momentos. Es preferible λ1 porque en
su definición sólo interviene el momento de orden 1.
.
3.2.
.
Estimadores de máxima verosimilitud
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable aleae
toria X con función de densidad (o de masa de probabilidad) f ( x |θ), con
e
θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk . Sea X el espacio muestral, es decir, el conjunto
de todos los posibles valores de X . Hemos definido la función de verosimie
litud para x = (x1 , . . . , xn ) ∈ X como
e
L(·| x ) :
e
Θ
θ
−→ IR+
Qn
−→ L(θ| x ) = f ( x |θ) = i=1 f (xi |θ)
e
e
Para cada muestra x ∈ X , el estimador de máxima verosimilitud θ̂ de θ
e
es el valor de Θ que hace máxima la verosimilitud L(·| x ):
e
L(θ̂| x ) = máx L(θ| x ).
θ∈Θ
e
e
Intuitivamente θ̂ es el valor del parámetro que hace más verosı́mil la muestra
observada. Veremos más adelante que los estimadores de máxima verosimilitud
son muy buenos estimadores y que en general tienen propiedades de optimalidad.
Además, en muchas ocasiones el estimador máximo verosı́mil es el que el sentido
común nos llevarı́a a proponer.
Ejemplo 27
X ∼ exp(λ) =⇒ f (x|λ) = λe−λx I[0,∞) (x), λ > 0.
Se toma una muestra de tamaño n = 1 y se observa x = 3. Estudiamos la
función de verosimilitud L(λ|3) = λe−3λ y buscamos su máximo para λ > 0.
Buscamos los valores de λ que anulan la derivada de L(λ|3):
L0 (λ|3) = e−3λ (1 − 3λ); L0 (λ|3) = 0 =⇒ λ =
1
3
Como L(λ|3) ≥ 0 y
lı́m L(λ|3) = lı́m L(λ|3) = 0
λ−→0
λ−→∞
se sigue que el punto crı́tico de L(λ|3) es un máximo. Ası́,
λ̂ =
.
1
.
3
.
Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporción de caramelos
de cada color es la misma pero no nos dicen de cuántos colores distintos pueden
ser los caramelos. Se trata de estimar por máxima verosimilitud k, el número
de colores, a partir de la observación de n caramelos.
55
Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.
Anotamos x1 = V BV . Si k es el número de colores, la probabilidad de observar
dos colores distintos en los tres caramelos es
P(x1 |k) = L(k|x1 ) =
P(el segundo diferente al primero)P(el tercero es como el primero) =
k−1
k−11
=
.
k k
k2
Esta función de k toma los valores siguientes, y tal como puede apreciarse es
decreciente:
k
(k − 1)/k 2
2
1
= 0,25
4
3
2
= 0,2222
9
4
3
= 0,1875
16
···
(decrece en k)
Ası́, el estimador máximo verosı́mil de k es
k̂(V BV ) = 2.
Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 =
V BV N . La verosimilitud de la muestra es ahora
L(k|x2 ) = P(x2 |k) =
k−11k−2
(k − 1)(k − 2)
=
k k k
k3
cuyos primeros valores son los siguientes:
k
L(k|x2 )
3
2
= ,0741
27
4
3
= ,0938
32
5
12
= ,096
125
6
5
= ,0926
54
7
30
= ,0875
343
Para k ≥ 6 la función L(k|x2 ) es decreciente en k. Por tanto el estimador máximo
verosı́mil de k es
k̂(V BV N ) = 5.
Obsérvese que, pese a haber observado sólo cuatro caramelos y a haber visto
únicamente tres colores distintos, el estimador máximo verosı́mil indica que hay
dos colores que aún no hemos visto.
.
.
El problema de hallar el estimador máximo verosı́mil es un problema de optimización. Por lo tanto, todas las técnicas analı́ticas y numéricas de optimización
que conocemos pueden resultarnos útiles para estimar por máxima verosimilitud. También hay que tener la misma precaución con lo resultados obtenidos:
hay que comprobar las condiciones de segundo orden para asegurarnos de que
un punto crı́tico es efectivamente un máximo, puede haber más de un máximo
global, puede haber varios máximos locales, el óptimo puede estar en la frontera
del espacio paramétrico, podemos tener una función objetivo (la verosimilitud)
que sea prácticamente plana cerca del máximo y esto dificulta la búsqueda por
métodos numéricos.
Como norma general, si la dimensión del espacio paramétrico es 1 o 2, es
conveniente hacer un gráfico de la función de verosimilitud frente a los diferentes
valores de los parámetros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.
3.2.1.
Cálculo del estimador máximo verosı́mil
Si la función de verosimilitud L( θ | x ) es derivable en θi , las soluciones de
e e
las ecuaciones de primer orden,
∂
L( θ |x) = 0, j = 1, . . . , k,
∂θj
e
son candidatas a ser el estimador máximo verosı́mil. Los ceros de las primeras
derivadas no son necesariamente máximos de la función de verosimilitud: pueden
ser máximos locales o globales, mı́nimos locales o globales o puntos de inflexión.
Para asegurar que la solución encontrada es un máximo (local o global) hay que
comprobar que las segundas derivadas sean definidas negativas.
Por otra parte, este procedimientos sólo permite localizar extremos en el
interior del espacio paramétrico Θ. Podrı́a ser que L(θ| x ) alcanzase su valor
e
máximo en la frontera de Θ.
Ejemplo 29
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR:
Pn
2
1
L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ)
e
Calculamos la primera derivada de L respecto a µ:
n
X
d
L(µ| x ) = −
(xi − µ)L(µ| x );
dµ
e
e
i=1
luego
n
X
d
L(µ| x ) = 0 =⇒
(xi − µ) = 0 =⇒ µ̂ = x.
dµ
e
i=1
Ası́ pues, µ̂ = x es un candidato a ser el estimador máximo verosı́mil. Tenemos
que comprobar que es un máximo global de L(µ| x ).
e
En primer lugar, constatamos que x es el único punto crı́tico del interior del
espacio paramétrico Θ = IR. En segundo lugar, calculamos la derivada segunda:
"Ã
!
#
n
X
d2
2
−n + ( (xi − µ)) L(µ| x )
L(µ| x )|µ=x =
= −nL(x| x ) < 0.
dµ2
e
e
e
i=1
µ=x
57
Ası́ pues, x es un máximo y es el único extremo del interior del espacio paramétrico.
Por último, analizamos el comportamiento de L(µ| x ) en la frontera: en este
e
caso ±∞. Vemos que
lı́m L(µ| x ) = 0.
x−→±∞
e
Concluimos entonces que µ̂ = x es el estimador máximo verosı́mil. La última
comprobación (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesae
ria, porque si en +∞ o −∞ hubiese un máximo, forzosamente tendrı́a que haber
un mı́nimo relativo en el interior de Θ = IR (dado que x es máximo relativo) y
eso no ocurre.
.
.
En ocasiones es posible buscar el máximo de L(θ, x ) directamente, usando
e
propiedades especı́ficas de esa función de verosimilitud concreta. Esto puede
ser útil si las ecuaciones obtenidas al igualar a cero las derivadas de L resultan complicadas. No hay una metodologı́a general que seguir y, por tanto, este
procedimiento alternativo requiere más habilidad que el basado en el cálculo de
derivadas. Por ejemplo, se puede probar que hay una cota superior de la verosimilitud y que ésta se alcanza en un valor del parámetro. Ello implica que ese
valor es el estimador máximo verosı́mil.
Ejemplo 29, página 56. Continuación. La verosimilitud es decreciente en
Pn
2
el estimador máximo verosı́mil es equivalente a
i=1 (xi − µ) , luego encontrar
Pn
encontrar el mı́nimo de i=1 (xi − µ)2 . Obsérvese que, por el Teorema 1,
n
X
i=1
(xi − µ)2 =
n
X
(xi − x)2 + (x − µ)2 ≥
i=1
Pn
n
X
(xi − x)2 .
i=1
2
Además, la cota inferior i=1 (xi −x) se alcanza si hacemos µ = x. Se concluye
Pn
que x es mı́nimo absoluto de i=1 (xi −µ)2 y, por tanto, es también el estimador
máximo verosı́mil.
.
.
Muy a menudo es más sencillo trabajar con el logaritmo de la verosimilitud
que hacerlo con la propia función. Dado que el logaritmo es una función estrictamente creciente, los extremos de la función de verosimilitud se alcanzan en
los mismos puntos (y tienen las mismas caracterı́sticas) en los que se alcancen
los extremos de su logaritmo.
Denotaremos por l (θ| x ) al logaritmo de la función de verosimilitud:
e
l (θ| x ) = log L(θ| x ).
e
e
Ejemplo 30
X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1].
e
Pn
Pn
L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒
e
n
n
X
X
l (p| x ) = (
xi ) log p + (n −
xi ) log(1 − p) =⇒
e
i=1
i=1
Pn
Pn
n − i=1 xi
d
i=1 xi
l (p| x ) =
−
.
dp
p
1−p
e
Pn
Distinguiremos tres casos, según sea el valor de
i=1 xi . Si suponemos que
Pn
0 < i=1 xi < n
Pn
n
n
X
X
xi
d
l (p| x ) = 0 =⇒ (1 − p)(
xi ) = (n −
xi )p =⇒ p̂ = i=1
= x ∈ (0, 1).
dp
n
e
i=1
i=1
Pn
xi
p̂ = i=1
= x es el único extremo en el interior de Θ, es decir, en (0, 1). Con
n
la segunda derivada comprobamos que se trata de un máximo:
Pn
· Pn
¸
n − i=1 xi
d2
i=1 xi
l
(p|
x
)|
=
−
−
=
p=p̂
dp2
p2
(1 − p)2
e
p=p̂
−
np̂ n(1 − p̂)
1
−
= −n
< 0.
p̂2
(1 − p̂)2
p̂(1 − p̂)
Concluimos que el único valor posible del estimador máximo verosı́mil en (0, 1)
es p̂, donde la verosimilitud valdrı́a
µ
L(p̂| x ) =
e
p̂
1 − p̂
¶np̂
(1 − p̂)n > 0.
Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1:
e
L(0| x ) = L(1| x ) = 0 < L(p̂| x ).
e
e
e
Concluimos que p̂ es el estimador máximo verosı́mil de p, en el caso de que
Pn
0 < i=1 xi < n.
Pn
En segundo lugar, si i=1 xi = 0,
L(p| x ) = (1 − p)n ,
e
función decreciente en p, luego el estimador máximo verosı́mil de p es 0 = x = p̂.
Pn
Por último, si i=1 xi = n,
L(p| x ) = pn ,
e
función creciente en p, luego el estimador máximo verosı́mil de p es 1 = x = p̂.
59
En resumen, el estimador máximo verosı́mil de p es
Pn
xi
p̂ = i=1 .
n
.
.
Es importante asegurarse que el estimador máximo verosı́mil propuesto pertenece al espacio paramétrico.
Ejemplo 31
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0.
Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador máximo
verosı́mil de µ es µ̂ = x. Por lo tanto éste también será el estimador máximo
verosı́mil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato
probar que L(µ| x ) es función decreciente en µ si µ > x. Por lo tanto, en este
e
caso el estimador máximo verosı́mil de µ es 0. Resumiendo, el estimador máximo
verosı́mil de µ cuando θ = [0, ∞) es
½
µ̂ =
.
0
x
si
si
x<0
x≥0
.
Un caso en el que no es posible realizar la optimización mediante la igualación
de las derivadas a cero es aquél en el que el espacio paramétrico Θ es discreto.
En este caso aún es posible analizar el problema de forma sistemática.
Si es posible considerar un espacio paramétrico ΘA más amplio en el que el
parámetro varı́e de forma continua (por ejemplo, si Θ = IN, ΘA podrı́a ser IR+
o IR) y buscar el estimador máximo verosı́mil cuando θ ∈ ΘA , ese valor puede
ayudarnos a restringir la lista de puntos de Θ que pueden ser estimador máximo
verosı́mil de θ ∈ Θ.
Ejemplo 32
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IN. Como el estimador máximo verosı́mil de µ ∈ IR es x y L(µ| x ) es creciente en (−∞, x) y decreciente en (x, ∞),
e
se deduce que los únicos puntos que pueden ser estimador máximo verosı́mil de
µ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR.
.
.
Cuando razonamientos de este tipo no son posibles pero el espacio paramétrico discreto Θ es IN (o en general, si está totalmente ordenado) es útil analizar
los cocientes
L(k + 1| x )
e
L(k| x )
e
y estudiar para qué valores de k éstos son menores o mayores que 1. El siguiente
ejemplo responde a este modelo.
Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; ¿cuántas veces la hemos lanzado?
En este caso se tiene X1 , . . . , Xn , una m.a.s. de X ∼ B(k, p), con p conocido
y k desconocido. La verosimilitud es
n µ ¶
n
Y
Y
k xi
k!
L(k| x ) =
p (1 − p)k−xi = pnx (1 − p)n(k−x)
.
x
x
!(k
− xi )!
e
i
i=1
i=1 i
El hecho, por un lado, de que el parámetro k sea natural y, por otro, la presencia
de k! y (k − xi )! en la función de verosimilitud, hace difı́cil la maximización de
L.
Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n) , es obvio que k ≥ x(n) porque
los valores de xi oscilan entre 0 y k. Además, el estimador máximo verosı́mil es
un número natural k que satisface
L(k| x )
L(k + 1| x )
e
e <1
≥1y
L(k − 1| x )
L(k| x )
e
e
Desarrollando,
Qn
k!
(1 − p)nk i=1 (k−x
L(k| x )
i )!
e
=
Qn
(k−1)!
L(k − 1| x )
(1 − p)n(k−1) i=1 (k−1−x
i )!
e
Ã n
!
Y k
(k(1 − p))n
n
= Qn
= (1 − p)
≥ 1,
k − xi
i=1 (k − xi )
i=1
y
L(k + 1| x )
((k + 1)(1 − p))n
e = Qn
< 1.
L(k| x )
i=1 (k + 1 − xi )
e
Ası́, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
(k(1 − p))n ≥
n
Y
(k − xi ) y ((k + 1)(1 − p))n <
i=1
n
Y
i=1
(k + 1 − xi ).
61
Dividiendo por k n y (k + 1)n , son equivalentes a
(1 − p)n ≥
n
Y
(1 − (xi /k)) y (1 − p)n <
i=1
n
Y
(1 − (xi /(k + 1)))
i=1
De hecho, queremos encontrar un valor z = 1/k tal que
(1 − p)n =
n
Y
(1 − zxi )
i=1
Qn
con 0 ≤ z ≤ 1/x(n) , porque k ≥ x(n) . La función g(z) = i=1 (1 − zxi ) es
decreciente en z, g(0) = 1, g(1/x(n) ) = 0. Por lo tanto la ecuación
g(z) = (1 − p)n ∈ [0, 1],
tiene solución única ẑ. Este valor ẑ no tiene por qué ser el inverso de un natural
k, pero sı́ nos permite calcular el estimador máximo verosı́mil k̂ de k:
k̂ = máx{k ∈ IN : k ≤ 1/ẑ}.
Este análisis demuestra que el máximo de L(k| x ) es único.
e
Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2
y x3 = 3. Hay que resolver la ecuación
1
1
(1 − )3 = = 0,125 = g(z) = (1 − 4z)(1 − 3z)(1 − 2z) = 1 − 9z + 26z 2 − 24z 3
2
8
en z ∈ [0, 1/x(3) ] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y
k ≥ 4:
k
z = 1/k
g(z)
4
0.25
0
5
0.2
0.048
6
0.1667
0.1111
7
0.1429
0.1749
8
0.125
0.2344
9
0.1111
0.2881
10
0.1
0.336
Obsérvese que g(1/6) < 0,125 < g(1/7). Por lo tanto, ẑ ∈ (1/7, 1/6) y
k̂ = máx{k ∈ IN : k ≤ 1/ẑ} = 6.
.
.
Si L(θ| x ) no puede maximizarse analı́ticamente pueden usarse técnicas nue
méricas de optimización. Nos referiremos más adelante a algunas de estas técnicas.
En estos casos es importante comprobar la estabilidad numérica del estimador máximo verosı́mil encontrado. Es decir, es importante saber si la solución
cambia sólo ligeramente cuando alteramos ligeramente los datos o si, por el
contrario, cambios pequeños en los datos dan lugar a grandes cambios en las
soluciones. Si éste es el caso, podemos deducir que quizás la función de verosimilitud sea prácticamente plana en una zona alrededor del máximo y estamos
obteniendo puntos distintos de esa zona. También puede ocurrir que la función de verosimilitud tenga múltiples máximos locales y al perturbar los datos
estemos pasando de uno a otro.
Ejemplo 33, página 60. Continuación. En el ejemplo anterior supongamos
que p también fuese desconocido. El estimador máximo verosı́mil (k̂, p̂) ∈ IN ×
[0, 1] puede encontrarse por optimización numérica. Supongamos que n = 5 y
que se observa
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27.
Entonces el estimador máximo verosı́mil de k es k̂ = 99. Se vuelve a realizar el
experimento y sólo cambia la última observación:
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28.
En este caso el máximo se encuentra en k̂ = 190. Estamos en un caso de un
estimador k̂ muy inestable. (Véase Casella-Berger, p. 297.)
.
.
Estimador máximo verosimil de un parámetro multidimensional
La forma de proceder en este caso sigue las pautas expuestas anteriormente.
Veamos un ejemplo en el que el parámetro θ es bidimensional.
Ejemplo 34
(µ, σ 2 ).
Pn
2
1
L(µ, σ 2 | x ) = (2πσ 2 )−n/2 e− 2σ2 i=1 (xi −µ) =⇒
e
n
n
n
1 X
l (µ, σ 2 | x ) = − log 2π − log σ 2 − 2
(xi − µ)2
2
2
2σ i=1
e
Pn
∂
1
2
i=1 (xi −
∂µ l (µ, σ | x ) = σ 2
e2
1
∂
n
∂(σ 2 ) l (µ, σ | x ) = − 2σ 2 + 2σ 4
e
µ) = 0
Pn
2
i=1 (xi − µ) = 0
)
½
=⇒
µ̂ = x
Pn
σ̂ 2 = n1 i=1 (xi − x)2 .
Podemos probar que la solución θ̂ = (x, σ̂ 2 ) es máximo global de dos formas.
Pn
Pn
En primer lugar, como para cualquier µ 6= x es i=1 (xi − µ)2 > i=1 (xi −
x)2 , se tiene que
l (x, σ 2 | x ) > l (µ, σ 2 | x ) para todo σ 2 .
e
e
63
Ahora sólo hay que probar que l (x, σ 2 | x ) alcanza su máximo como función unie
variante de σ 2 en σ̂ 2 . De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x, σ̂ 2 ) es máximo de l mediante
el cálculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es definida
negativa, es decir, se ha de verificar lo siguiente:
1.
¯
¯
∂
¯
l ((θ1 , θ2 )| x )¯
∂θj
e ¯
2.
= 0, j = 1, 2.
θ1 =x,θ2 =σ̂ 2
¯
¯
∂2
¯
l
((θ
,
θ
)|
x
)
¯
1
2
∂θj2
e ¯
< 0,
θ1 =x,θ2 =σ̂ 2
al menos para j = 1 o j = 2.
3.
J
(2)
¯
¯
¯
=¯
¯
∂2
l ((θ1 , θ2 )| x )
∂θ12
e
∂2
l ((θ1 , θ2 )| x )
∂θ1 ∂θ22
e
∂2
∂θ1 ∂θ2 l ((θ1 , θ2 )| x )
e
∂2
l ((θ1 , θ2 )| x )
∂θ22
e
¯
¯
¯
¯
¯
>0
θ1 =x,θ2
=σ̂ 2
El primer punto ya se comprobó anteriormente, pues (x, σ̂ 2 ) fueron encontrados precisamente como los valores que anulaban las primeras derivadas.
Calculemos las segundas derivadas:
∂2
n
l ((µ, σ 2 )| x ) = − 2
∂µ2
σ
e
n
∂2
n
1 X
2
(xi − µ)2
l
((µ,
σ
)|
x
)
=
−
∂(σ 2 )2
2σ 4
σ 6 i=1
e
n
∂2
1 X
l ((µ, σ 2 )| x ) = − 4
(xi − µ).
∂µ∂(σ)
σ i=1
e
Observad que cuando se particularizan estas derivadas segundas en θ̂ se obtiene
lo siguiente:
n
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = − 2 < 0
∂µ2
σ̂
e
1
n
∂2
n
l ((µ, σ 2 )| x )|x,σ̂2 =
− 6 nσ̂ 2 = − 4 < 0
∂(σ 2 )2
2σ̂ 4
σ̂
2σ̂
e
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = 0
∂µ∂(σ)
e
Ası́, se verifica también el segundo punto de la lista anterior. Veamos el tercero,
sobre el signo del determinante de la matriz hessiana:
¯
¯
¯ − n2
n2
0 ¯¯
> 0 para todo σ 2
J (2) = ¯¯ σ
n ¯=
− 2σ4
0
2σ 6
Se concluye que (x, σ̂ 2 ) es el máximo de la función de verosimilitud.
Para ser estrictos, aún se deberı́a probar que (x, σ̂ 2 ) es el único punto crı́tico del interior del espacio paramétrico (esto es inmediato, porque es la única
solución de las condiciones de primer orden) y que el máximo no se alcanza en
la frontera (cuando µ = ±∞, σ 2 = 0 o σ 2 = ∞). Esto último obligarı́a a la
existencia de otros puntos crı́ticos en el interior del espacio paramétrico, lo cual
es absurdo.
En general se intenta probar la condición de máximo sin recurrir al cálculo
de las segundas derivadas.
.
.
Estimador máximo verosimil con datos censurados
El siguiente es un ejemplo de estimación máximo verosı́mil que se aparta del
marco clásico de observaciones i.i.d.
Ejemplo 35
Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el
estimador máximo verosı́mil de λ es λ̂ = 1/x.
Supongamos que no observamos todas las variables, sino sólo las m primeras, y que de las restantes (n − m) sólo sabemos que toman valores mayores
que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
m
n
Y
Y
L(λ| x ) =
f (xi |λ)
(1 − F (T |λ)) =
e
i=1
i=m+1
m
Y
i=1
λe−λxi
n
Y
e−λT = λm e−λ
Pm
i=1
xi −λT (n−m)
e
i=,+1
m
X
l (λ| x ) = m log λ − λ
xi − λT (n − m).
e
i=1
Derivando e igualando a 0:
m
d
m X
l (λ| x ) =
−
xi − T (n − m) = 0 =⇒
dλ
λ
e
i=1
m
.
x
+
(n − m)T
i=1 i
λ̂ = Pm
=⇒
65
Comprobamos que es máximo:
d2
m
l (λ| x ) = − 2 < 0 para todo λ.
2
dλ
λ
e
Concluimos que λ̂ es el estimador máximo verosı́mil de λ en el caso de datos
censurados.
La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Obsérvese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
máximo verosı́mil de λ es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el número de muertes (o fallos) observadas.
.
.
3.2.2.
Cálculo numérico de los estimadores de máxima verosimilitud
Como ya se dijo anteriormente, en la práctica el cálculo del estimador máximo verosı́mil se reduce a resolver un problema de optimización de una función
(en general no lineal) de k variables, posiblemente sujeto a restricciones. Recordaremos en esta sección algunas técnicas numéricas para llevar a cabo esa
optimización. Lo expuesto aquı́ está basado en Bertsekas (1999).
Buscaremos el máximo del logaritmo de la verosimilitud, dado que esta función es en general más fácil de tratar numéricamente que la verosimilitud. Los
algoritmos presentados no contemplan la posibilidad de tener restricciones sobre los parámetros. Si los parámetros están sujetos a restricciones del tipo cotas
simples (por ejemplo, α > 0 en una distribución gamma) una transformación
logarı́tmica del parámetro transforma el problema en otro sin restricciones en los
parámetros (por ejemplo, en la distribución gamma se reparametriza mediante
α∗ = log(α) y ası́ el nuevo parámetro α∗ puede tomar cualquier valor real).
El problema es siempre máxθ∈IRk l (θ| x ). Como la muestra x está fija en
e
e
todo el proceso, escribiremos l (θ) en lugar de l (θ| x ). Llamaremos θ∗ al máximo
e
de l (θ).
Método de Newton-Raphson
Se trata (al igual que los métodos siguientes) de un procedimiento iterativo
que proporciona una sucesión {θn }n≥1 que converge al óptimo θ∗ .
Consideremos una estimación inicial θ0 de θ∗ que puede haber sido obtenida,
por ejemplo, por el método de los momentos. El método de Newton-Raphson
aproxima la función l (θ) en un entorno de θ0 por la función cuadrática que en
ese punto θ0 tiene en común con l (θ) el valor de la función y los valores de
las dos primeras derivadas. Llamemos l˜0 (θ) a esa función cuadrática. De hecho,
l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 .
Ejemplo 36
Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el
sistema
 ˜
 l 0 (θ0 ) = l (θ0 )
l˜ 0 (θ ) = l 0 (θ0 )
 ˜0 00 0
l 0 (θ0 ) = l 00 (θ0 )
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :
1
l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ).
2
.
.
El primer punto en la sucesión, θ1 , es el punto donde se alcanza el máximo
de la función cuadrática aproximadora. El proceso se itera y ası́ se construye la
sucesión {θn }n≥1 que, bajo condiciones generales (por ejemplo, si la función de
verosimilitud es cóncava), converge al óptimo θ∗ :
θ0
−→
l˜0 (θ)
l˜1 (θ)
l˜2 (θ)
..
.
l˜m−1 (θ)
..
.
−→ θ1
.
−→ θ2
.
−→ θ3
.
..
..
.
.
.
−→ θm
.
..
..
.
.
↓
θ∗
Veamos que este algoritmo puede resumirse analı́ticamente dando la fórmula
que permite calcular cada punto de la sucesión en función del punto anterior.
Como hemos dicho, l˜m (θ) es el desarrollo en serie de Taylor de orden 2 de
l (θ) alrededor de θm :
1
l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm )
2
67
donde ∇l (θm ) ∈ IRk es el vector gradiente de l en θm , que tiene por componente
j-ésima la derivada parcial de l respecto a la coordenada j-ésima de θ calculada
en el punto θm , y Hl (θm ) es la matriz hessiana de l en θm , una matriz k×k cuyo
elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-ésima y
j-ésima, calculadas en el punto θm .
La maximización de l˜m es factible analı́ticamente. Su gradiente es
∇l˜m (θ) = ∇l (θm ) + Hl (θm )(θ − θm ).
Igualándolo a 0 se obtiene el punto θm+1 :
−1
∇l (θm ) + Hl (θm )(θ − θm ) = 0 =⇒ θm+1 = θm − (Hl (θm ))
∇l (θm ).
Este punto θm+1 es máximo de l (θm ) si Hl (θm ) es definida negativa, ya que
H l˜m (θ) = Hl (θm ).
Pero si θm está suficientemente cerca de θ∗ y l (θ) es una función suave (segundas
derivadas continuas) entonces Hl (θm ) será definida negativa por serlo Hl (θ∗ ).
Ası́,
θm+1 = θm − (Hl (θm ))
−1
∇l (θm )
es la fórmula recursiva que nos da θm+1 en función de θm , m ≥ 0. Aplicaremos
la recursión hasta convergencia, es decir, hasta que
||θm+1 − θm || < ε,
para un ε prefijado. Una condición suficiente, aunque no necesaria, para que el
algoritmo converja es que l sea cóncava.
Método de los scores de Fisher
Se trata de una modificación del método de Newton-Raphson. En la iteración
θm+1 = θm − (Hl (θm ))
−1
∇l (θm )
se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo
tanto, su gradiente y su matriz hessiana) depende de θ y también de la muestra
x observada. Podemos entonces tomar esperanzas:
e
D = Eθm (Hl (θm | X )),
e
que es la matriz de información de Fisher cambiada de signo.
La principal ventaja teórica que se deriva de esta sustitución es que se garantiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad
(que permiten intercambiar los signos de la derivada y de la integral; en la
sección 4.2 se volverá sobre esto) se puede probar que
Eθ (∇l (θ)) = 0, y Vθ (∇l (θ)) = Eθ (∇l (θ)∇l (θ)t ) = −E(Hl (θ| X ))
e
de donde se deduce que D = Eθm (Hl (θm | X )) es definida negativa, lo cual
e
garantiza la convergencia del algoritmo.
No obstante, es posible que la convergencia del algoritmo modificado sea
más lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos
converjan.
Una ventaja práctica de este algoritmo es que en el cálculo de D sólo intervienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)
mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por
contra, ahora hay que calcular una esperanza. En este sentido, será preferible
uno u otro algoritmo según sea la dificultad de calcular
!
Ã
∂l ∂l
dij = −E
∂θi ∂θj
y
hij =
∂ 2l
.
∂θi ∂θj
Al vector gradiente, ∇l (θ), también se le llama vector de scores, lo cual
justifica el nombre del algoritmo.
Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma natural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es


Ã n
!
k
Y
X
h(xi ) c(θ)n exp 
θj Tj ( x ) ,
L(θ| x ) =
e
e
i=1
j=1
donde Tj ( x ) =
e
Pn
i=1 tj (xi ),
y su logaritmo,
k
X
l (θ| x ) = K + n log c(θ) +
θj Tj ( x ),
e
e
j=1
donde K es cierta constante. Ası́,
∂ l (θ)
∂ log c(θ)
=n
+ Tj ( x )
∂θj
∂θj
e
y
∂ 2 l (θ)
∂ 2 log c(θ)
=n
∂θi ∂θj
∂θi ∂θj
que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue
que Hl = E(Hl ) = D.
.
.
69
Método de Nelder-Mead
Es un método de búsqueda directa que no requiere ni primeras ni segundas
derivadas de la función objetivo, sólo es necesario poder evaluar la función que
queremos maximizar.
En cada iteración del algoritmo se parte de un conjunto de (k + 1) puntos
de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no
vacı́o: esos puntos forman un simplex en IRk .
El resultado de cada iteración es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteración en iteración y que el valor de la función
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteración tı́pica del algoritmo de Nelder-Mead es como sigue:
Paso 0 Se parte de θ1 , . . . , θk+1 . Se definen
θmı́n = arg mı́n l (θi ), θmáx = arg máx l (θi ),
i=1...k
i=1...k
Ãk+1
!
1 X
θi − θmı́n
θ̂ =
k i=1
El punto θ̂ es el punto medio de la cara opuesta a θmı́n .
Paso 1 Definir θref = θ̂ + (θ̂ − θmı́n ).
Si l (θref ) > l (θmáx ) =⇒ Paso 2. (θref es mejor que los otros puntos
del simplex).
Si l (θmáx ) > l (θref ) > mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 3.
Si l (θref ) < mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 4.
Paso 2 Intentar expansión.
Sustituir θmı́n
simplex.
θexp = θref + (θref − θ̂)
½
θexp si l (θexp ) > l (θref )
θnew =
θref en otro caso
por θnew en el simplex. Volver al Paso 0 con el nuevo
Paso 3 Usar el punto reflejado.
θnew = θref
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 4 Contraer el simplex.
(
θnew =
1
2 (θmı́n + θ̂) si l (θmı́n ) ≥ l (θref )
1
2 (θref + θ̂) si l (θmı́n ) < l (θref )
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
En la práctica funciona bien si la dimensión del espacio paramétrico es pequeña (k ≤ 10), como suele ser el caso en problemas de estimación por máxima
versimilitud. No hay resultados teóricos sobre la convergencia de este algoritmo. Si l (θ) es estrı́ctamente cóncava, el algoritmo mejora la verosimilitud en
cada iteración. Esto se entiende en el sentido de que ocurre alguna de estas dos
cosas: en cada iteración, o bien l (θmı́n ) crece estrictamente, o bien, la cantidad
de vértices del simplex θi en los que l (θi ) = l (θmı́n ) decrece en al menos una
unidad.
3.2.3.
Principio de invariancia del estimador máximo verosı́mil
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ f (x|θ) y sea θ̂ el estimador
máximo verosı́mil de θ. Si estamos interesados en estimar una función τ (θ) del
parámetro, podemos hacerlo mediante τ (θ̂). Éste es el resultado que garantiza
el siguiente teorema y se conoce como principio de invariancia.
Teorema 18 (Principio de invariancia) Si θ̂ es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ) el estimador máximo verosı́mil
de τ (θ) es τ (θ̂).
Demostración: Supondremos primero que τ es biyectiva. Definimos
η = τ (θ) ⇐⇒ θ = τ −1 (η)
y reparametrizamos la verosimilitud usando el nuevo parámetro η en vez de θ:
n
Y
L∗ (η| x ) =
f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒
e
e
i=1
L∗ (η̂| x ) = sup L∗ (η| x ) = sup L(τ −1 (η)| x ) =
η
η
e
e
e
sup L(θ| x ) = L(θ̂| x ) = L∗ (τ (θ̂)| x ).
e
e
e
θ
Por lo tanto el máximo de L∗ (η| x ) se alcanza cuando η̂ = τ (θ̂), luego el estie
mador máximo verosı́mil de η = τ (θ) es τ (θ̂).
Consideramos ahora el caso en que τ no es biyectiva. En este caso no es
posible definir la verosimilitud L∗ (η| x ) como L(τ −1 (η)| x ) porque τ −1 (η) no
e
e
está definido unı́vocamente. Se define L∗ (η| x ), la verosimilitud inducida
e
por τ , como
L∗ (η| x ) =
sup L(θ| x ).
e
e
{θ:τ (θ)=η}
Con esta definición se verifica que el estimador máximo verosı́mil de τ (θ), τd
(θ),
es τ (θ̂). Efectivamente, sea η̂ el estimador máximo verosı́mil de η = τ (θ), es
3.3. ESTIMACIÓN BAYESIANA
71
decir, el valor que verifica
L∗ (η̂| x ) = sup L∗ (η| x ).
η
e
e
Por definición de L∗ ,
L∗ (η̂| x ) = sup L∗ (η| x ) = sup sup L(θ| x ) =
η
η {θ:τ (θ)=η}
e
e
e
sup L(θ| x ) = L(θ̂| x ) =
sup
L(θ| x ) = L∗ (τ (θ̂)| x ),
e
e
e
e
θ
{θ:τ (θ)=τ (θ̂)}
es decir,
L∗ (η̂| x ) = L∗ (τ (θ̂)| x ),
e
e
luego el máximo de la verosimilitud en η se alcanza si η = τ (θ̂).
2
Ejemplo 38
Si X ∼ N (µ, σ 2 ), el estimador máximo verosı́mil de µ2 es x2 .
Si X ∼ B(n, p), el estimador
máximo
p
p verosı́mil de p es p̂ = X/n y el estimador
máximo verosı́mil de p(1 − p) es p̂(1 − p̂).
.
.
3.3.
3.3.1.
Estimación Bayesiana
Distribuciones a priori y a posteriori
Consideremos un problema de inferencia estadı́stica en el que las observaciones se toman de una variable aleatoria X que sigue una distribución con función
de densidad (o función de masa de probabilidad) f (x|θ), con θ ∈ Θ. En ocasiones se dispone de información sobre el parámetro θ antes de recoger los datos.
Esta información puede ser de tipo histórico (si se han realizado experimentos
similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer
que ciertos valores de θ ∈ Θ son más plausibles que otros).
Una forma de recoger la información previa sobre θ es definir una distribución
de probabilidad sobre Θ, que se llama distribución a priori de θ, de forma que
las regiones de Θ más probables a priori sean aquellas que contienen los valores
de θ más plausibles según la información previa existente, antes de observar
ningún valor de X.
El concepto de distribución a priori es muy controvertido. Algunos estadı́sticos defienden que en cualquier problema estadı́stico se puede definir siempre
una ley a priori para θ. Esta distribución representa la información (histórica o
subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas
de la probabilidad. Por tanto, el parámetro θ es considerado una variable aleatoria como cualquier otra, con la única peculiaridad de que no es observable. Lo
que sı́ se observa es la variable aleatoria X condicionada al valor concreto (no
observable) que toma θ. Ası́ pues, el estudio de las observaciones de X aporta
información sobre el valor de θ, información que debe combinarse con la distribución a priori del parámetro para modificarla. El resultado de esa actualización
de la información se plasma de nuevo en una distribución de probabilidad sobre
Θ: la distribución a posteriori de θ, una vez observada la variable aleatoria
X. Éstos son los planteamientos básicos que conforman el enfoque bayesiano
de la estadı́stica.
Otros estadı́sticos creen que en ocasiones no es apropiado hablar de una distribución de probabilidad sobre Θ porque θ es una cantidad fija desconocida
para el investigador. Otro de los aspectos de la inferencia bayesiana que a menudo recibe crı́ticas es el grado de subjetividad a que está expuesto por el hecho
de que es el experimentador quien define la distribución a priori. En cualquier
caso, en lo que hay coincidencia es en que si hay información sobre θ ésta tiene
que ser utilizada en la inferencia.
Existen distribuciones a priori no informativas (por ejemplo con densidad o función de masa plana en todo Θ) que se construyen sin usar información
a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces
es necesario recurrir a distribuciones a priori impropias (distribuyen una
probabilidad infinita sobre Θ). Pese a su carácter impropio permiten hacer inferencias correctas.
Supondremos aquı́ que existe información previa sobre θ y que ésta se expresa
mediante una distribución a priori sobre Θ, cuya función de densidad o función
de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria
simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribución a
priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma
e
de f (x|θ), que indica cómo se distribuye x, condicionada por valores de θ. Por
el momento, supondremos que tanto X|θ como θ tienen función de densidad.
La ley conjunta de X1 , . . . , Xn se denomina distribución muestral (o
verosimilitud de la muestra) dado el valor del parámetro:
n
Y
f ( x |θ) =
f (xi |θ).
e
i=1
La densidad conjunta de X y θ es
e
f ( x , θ) = f ( x |θ)π(θ).
e
e
Como consecuencia, la marginal de X es
e
Z
m( x ) = f ( x |θ)π(θ)dθ.
e
e
θ
73
Se define la distribución a posteriori de θ como la ley condicional de θ
dadas las observaciones x de X , cuya densidad se puede calcular por simple
e
e
aplicación del Teorema de Bayes:
π(θ| x ) =
e
f ( x |θ)π(θ)
e
, θ ∈ Θ.
m( x )
e
En inferencia bayesiana se usa esta distribución para realizar inferencias sobre
θ. Por ejemplo, un estimador puntual de θ podrı́a ser E(θ| x ).
e
La distribución a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de θ esté en las distintas regiones del espacio paramétrico
Θ después de haber observado X1 , . . . , Xn .
Obsérvese que π(θ| x ) es proporcional al producto de la verosimilitud por la
e
a priori:
π(θ| x ) ∝ f ( x |θ)π(θ).
e
e
Esta relación es suficiente para calcular π(θ| x ) dado que la restricción de que
e
su integral sea 1 permite calcular la constante 1/m( x ).
e
Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lámpara fluorescente.
Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La información histórica
acumulada sobre tiempos de vida de lámparas similares indica que µ tiene media
aproximadamente 5000 horas. De hecho, la distribución que se propone como a
priori para λ es igual a
λ ∼ γ(α0 , β0 ),
con E(λ) = α0 β0 = 1/5000 y V (λ) = α0 β02 = 0,0001, de donde se sigue que
α0 β0 = 0,0002 y α0 β02 = 0,0001 =⇒ α0 = 4, β0 = 1/20000.
Ası́, λ ∼ γ(4, 1/20000) y su función de densidad es
π(λ) =
200004 3 −20000λ
λ e
, λ > 0.
(4 − 1)!
Se hace una prueba de vida en la que se ponen a funcionar 25 lámparas del
nuevo modelo hasta que se funden. Los resultados son éstos:
X1 = x1 , . . . , X25 = x25 ,
25
X
xi = 150000.
i=1
Ası́, la verosimilitud es
f (x1 , . . . , x25 |λ) = λ25 e−λ
P25
i=1
xi
,
y la densidad a posteriori de λ es
f (x1 , . . . , x25 |λ)π(λ)
π(λ|x1 , . . . , x25 ) = R ∞
.
f (x1 , . . . , x25 |λ)π(λ)dλ
o
El numerador es
f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ
25
X
xi }
i=1
200004 3 −20000λ
λ e
=
3!
25
X
200004 28
λ exp{−λ(
xi + 20000)},
6
i=1
y el denominador
Z
m(x1 , . . . , x25 ) =
o
∞
25
X
200004 28
λ exp{−λ(
xi + 20000)}dλ.
6
i=1
P25
Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa
integral es, salvo constantes, la integral de la función de densidad de una variable
aleatoria γ(α, β). Concretamente,
200004
28!
m(x1 , . . . , x25 ) =
P25
6 ( i=1 xi + 20000)29
Z
o
∞
fγ(α,β) (λ)dλ =
200004
28!
.
P
29
6 ( 25
i=1 xi + 20000)
Ası́,
P25
π(λ|x1 , . . . , x25 ) =
xi +20000)
200004 28 −λ(
i=1
λ e
6
28!
200004 P
25
6
(
xi +20000)29
=
i=1
(
P25
i=1
xi + 20000)29 28 −λ(P25 xi +20000)
i=1
λ e
28!
de donde se deduce que
25
X
λ|x1 , . . . , x25 ∼ γ(29, 1/(
xi + 20000)).
i=1
Por lo tanto, un estimador de λ podrı́a ser
λ̂ = E(λ|x1 , . . . , x25 ) = P25
i=1
29
xi + 20000
=
29
,
150000 + 20000
y, como consequencia, una estimación de la vida media de las nuevas lámparas
es
P25
xi + 20000
1
150000 + 20000
µ̂ = = i=1
=
= 5862 horas.
29
29
λ̂
75
Si usásemos x como estimador de µ, obtendrı́amos un valor de
x=
150000
= 6000 horas.
25
Por lo tanto, la información a priori indica que no se debe ser tan optimista
como se desprende del valor x = 6000: a pesar de que el nuevo diseño de lámpara tiene una vida media superior a las anteriores (la estimación de µ es ahora
de 5862 horas, superior a las 5000 horas iniciales) la información a priori rebaja
la vida media desde las 6000 horas observadas hasta las 5862.
.
.
Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clı́nicos) las observaciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciación permite
actualizar progresivamente la información que se tiene sobre el parámetro θ.
En un principio la información a priori sobre θ es π(θ). Se observa X1 = x1 .
Entonces
π(θ|x1 ) ∝ f (x1 |θ)π(θ)
recoge a partir de ese instante la información acumulada sobre θ. Por lo tanto
π(θ|x1 ) actúa como distribución a priori antes de obtener la segunda observación.
Cuando se observa X2 = x2 ,
π(θ|x1 , x2 ) ∝ f (x2 |θ)π(θ|x1 ) ∝ f (x2 |θ)f (x1 |θ)π(θ).
Tras haber observado X1 = x1 , . . . , Xn = xn ,
π(θ|x1 , x2 , . . . , xn ) ∝ f (xn |θ)π(θ|x1 , x2 , . . . , xn−1 ) ∝
f (xn |θ) · · · f (x2 |θ)f (x1 |θ)π(θ) = f ( x |θ)π(θ).
e
Se observa ası́ que la distribución a posteriori tras haber tomado n observaciones
de X es la misma tanto si se toman éstas de forma secuencial como si se toman
simultáneamente.
3.3.2.
Distribuciones conjugadas
Sea F la clase de las funciones de densidad (o de masa de probabilidad) de
un modelo paramétrico f (x|θ) indexadas por θ:
F = {f (x|θ) : θ ∈ Θ}.
Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de
distribuciones conjugadas para F si la distribución a posteriori de θ dada
la muestra x pertenece a Π para toda muestra x ∈ X , para toda a priori π ∈ Π
e
e
y para toda verosimilitud f ∈ F.
Teorema 19 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼
Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una
Ã
!
n
n
X
X
Beta α +
xi , β + n −
xi .
i=1
i=1
Nota: Recordar que U (0, 1) ≡ Beta(1, 1).
Demostración:
Γ(α + β) α−1
θ
(1 − θ)β−1
Γ(α)Γ(β)
Pn
Pn
=⇒ f ( x |θ) = θ i=1 xi (1 − θ)n− i=1 xi = L(θ| x )
e
e
π(θ) =
f (xi |θ) = θxi (1 − θ)1−xi
Ası́,
Pn
Γ(α + β) α−1
θ
(1 − θ)β−1 =
(1 − θ)n− i=1 xi
Γ(α)Γ(β)
Pn
Γ(α + β) Pn xi +α−1
θ i=1
(1 − θ)n− i=1 xi +β−1 ,
Γ(α)Γ(β)
f ( x , θ) = θ
e
y
Z
Pn
i=1
xi
Pn
θ i=1
(1 − θ)n− i=1 xi +β−1 dθ =
Γ(α)Γ(β)
0
Pn
Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
×
Γ(α)Γ(β)
Γ(α + β + n)
Pn
Pn
Γ(α + β + n)
Pn
Pn
θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 dθ =
Γ(α + i=1 xi )Γ(n − i=1 xi + β)
{z
}
∞
m( x ) =
e
Z
|
0
∞
=1
Pn
Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Γ(α)Γ(β)
Γ(α + β + n)
Calculamos ahora la densidad a posteriori:
Γ(α)Γ(β)
Γ(α + β + n)
P
P
π(θ| x ) =
×
Γ(α + β) Γ(α + ni=1 xi )Γ(n − ni=1 xi + β)
e
Pn
θ i=1
(1 − θ)n− i=1 xi +β−1 =
Γ(α)Γ(β)
Pn
Pn
Γ(α + β + n)
Pn
Pn
θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1
Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Pn
Pn
y por lo tanto, θ| x tiene distribución Beta(α + i=1 xi , β + n − i=1 xi ). 2
e
Teorema 20 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼
γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 =
x1 , . . . , Xn = xn es una
Ã
!
n
X
−1
−1
γ α+
xi , (β + n)
.
i=1
77
Demostración: Para ciertas constantes K1 , K2 y K3 , se tiene que
Pn
π(θ) = K1 θα−1 e−θ/β , L(θ| x ) = K2 e−nθ θ i=1 xi =⇒
e
Pn
Pn
−1
π(θ| x ) = K3 e−nθ θ i=1 xi θα−1 e−θ/β = K3 θα+ i=1 xi −1 e−(β +n)θ
e
¢
¡
Pn
que corresponde con la densidad de una γ α + i=1 xi , (β −1 + n)−1 .
2
Los valores de las constantes usadas en la demostración son
Pn
(α + i=1 xi − 1)!
1
1
Pn
Q
K1 =
,
K
=
,
K
=
,
2
3
n
(α − 1)!β α i
i=1 xi !
(n + (1/β))α+ i=1 xi
aunque no es necesario conocerlos para probar el resultado.
Teorema 21 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), −∞ < θ < ∞, σ 2 > 0
conocido. Sea θ ∼ N (µ, ν 2 ). La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una N (µ1 , ν12 ) con
µ1 =
σ 2 µ + nν 2 x
σ2
nν 2
= 2
µ+ 2
x,
2
2
2
σ + nν
σ + nν
σ + nν 2
ν12 =
σ2 ν 2
.
σ 2 + nν 2
Demostración: Ver DeGroot (1988), sección 6.3.
2
Obsérvese que si σ 2 −→ ∞ entonces µ1 = µ, y que si nν 2 −→ ∞ entonces
µ1 = x. Por su parte, la precisión de la distribución a posteriori es la suma de
la precisión a priori y la precisión de X:
1
1
n
= 2 + 2.
2
ν1
ν
σ
Ejemplo 40
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido.
Notémos que en la notación del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcularemos la distribución a posteriori de θ y analizaremos para qué valores de τ
serı́a esta distribución menos informativa.
Del teorema 21 se desprende que
µ Pn
¶
1
i=1 xi
θ| x ∼ N
,
.
n + τ2 n + τ2
e
Esta distribución será tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea τ . El caso lı́mite serı́a τ = 0, que corresponde a
una distribución a priori impropia (normal con varianza infinita) no informativa
(π(θ) es constante en IR). En ese caso obtendrı́amos el mismo resultado que si
realizásemos inferencia fiducial (ver Casella-Berger, sección 6.2.1).
Al inverso de la varianza se le denomina precisión de la distribución. En
este ejemplo, τ 2 es la precisión de la distribución a priori. Si ponemos τ = 0
estamos asumiendo que la precisión de la información a priori es nula. Entonces
el procedimiento de inferencia no la tiene en cuenta.
.
.
Teorema 22 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Sea
θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una

Ã
!−1 
n
X
1
.
γ α + n,
+
xi
β i=1
Demostración: Ver DeGroot (1988), sección 6.3.
2
Ejemplo 28, página 54. Continuación. Consideremos de nuevo el problema
de estimar el número de colores diferente que tienen los caramelos de la bolsa.
Supongamos que basándonos en nuestra experiencia pensamos que el número de
colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad
3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado
(V BV ).
k
5
6
7
8
π(k)
0.1
0.3
0.3
0.3
f (V BV |k) = (k − 1)/k 2
0.160
0.139
0.122
0.109
f (V BV, k)
0.016
0.042
0.037
0.033
P
f
(V
BV,
k) = 0,128
k
π(k|V BV )
0.125
0.328
0.289
0.258
Tomamos otro caramelo y es naranja. Repetimos el análisis:
k
5
6
7
8
π(k)
0.125
0.328
0.289
0.258
f (V BV N |k) = (k − 1)(k − 2)/k 3
0.096
0.093
0.087
0.082
f (V BV N, k)
0.012
0.031
0.025
0.021
P
f
(V
BV
N, k) = 0,089
k
π(k|V BV N )
0.135
0.348
0.281
0.236
Se observa que la distribución de probabilidad sobre {5, 6, 7, 8} no se ha modificado mucho desde π(k) hasta π(k|V BV N ). Esto indica que la observación de
79
sólo cuatro caramelos es poco informativa sobre el número k de colores. Si continuásemos muestreando, la distribución a posteriori se irı́a concentrando cada
vez más en torno al verdadero valor del parámetro k.
.
.
3.3.3.
Funciones de pérdida
Acabamos de ver cómo derivar la distribución a posteriori del parámetro
dados los datos, a partir de la verosimilitud y la distribución a priori. Nos planteamos ahora cómo usar la distribución a posteriori para construir un estimador
puntual del valor del parámetro, es decir, cómo resumir toda la distribución a
posteriori del parámetro en un solo punto de Θ.
Consideremos por un momento que no hemos observado la muestra y que
sobre Θ hay definida una distribución de probabilidad π. En este contexto queremos elegir un punto a ∈ Θ como representante de toda la distribución π sobre
Θ. Una propiedad deseable es que ese valor a esté cerca de los puntos θ ∈ Θ. Para
medir cómo de lejos está a del valor θ del parámetro definiremos una función
de pérdida o función de coste:
C : Θ×A
(θ, a)
−→ R+
−→ C(θ, a),
donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste de
dar a como estimación de un valor concreto θ ∈ Θ. Dado que θ es desconocido
y puede tomar los valores de Θ según indica la distribución π, para tener una
idea global del coste de a se considera la función de pérdida esperada:
Z
Eπ(θ) (C(θ, a)) =
C(θ, a)π(θ)dθ.
Θ
La elección de la función de pérdida es a menudo arbitraria. Las tres más usuales
son éstas:
Función de pérdida cero-uno:
C(θ, θ̂) = αI(β,∞) (|θ̂ − θ|)
donde α > 0 y β ≥ 0 son constantes.
Función de pérdida del error absoluto:
C(θ, θ̂) = α|θ̂ − θ|
donde α > 0 es constante.
Función de pérdida cuadrática:
C(θ, θ̂) = α(θ̂ − θ)2
donde α > 0 es constante.
El parámetro α podrı́a tomarse igual a 1, sin pérdida de generalidad. Estas tres
funciones son decrecientes en |θ̂ − θ| y simétricas alrededor de θ̂ = θ.
Se pueden definir funciones de pérdida asimétricas que reflejen, por ejemplo,
que las consecuencias de estimar un parámetro por defecto sean peores que las
de estimarlo por exceso. Este serı́a el caso de la estimación del grosor de la capa
de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que
subestimar es preferible es el de la estimación del precio futuro de una acción
cuando se quiere decidir si se invierte o no en dicha acción.
3.3.4.
Estimadores de Bayes
Supongamos que tenemos información a priori π(θ) sobre θ ∈ Θ y que observamos una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). La distribución
a posteriori vienen dada por π(θ| x ) ∝ L(θ| x )π(θ). Supongamos que el coste de
e
e
estimar θ por a es C(θ, a). Ası́, el coste esperado de estimar θ mediante a, dado
que hemos observado x , será
e
Z
E(C(θ, a)| x ) =
C(θ, a)π(θ| x )dθ.
e
e
Θ
A esta cantidad se le llama pérdida esperada a posteriori.
Se define un estimador de Bayes de θ como aquel valor a = a( x ) ∈ Θ
e
que minimiza la pérdida esperada a posteriori, es decir,
E(C(θ, a( x ))| x ) = mı́n E(C(θ, a)| x ).
a∈Θ
e e
e
A ese valor a( x ) se le suele denotar por θ∗ ( x ). Obsérvese que este estimador
e
e
de Bayes depende de la muestra a través de la distribución a posteriori.
Teorema 23 Si la función de pérdida es cuadrática, entonces el estimador de
Bayes es la esperanza a posteriori:
θ∗ ( x ) = E(θ| x ).
e
e
Demostración:
h
i
E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x )
e
e
e
e
Derivando respecto a a e igualando a 0:
−2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ),
e
e
que es un mı́nimo porque la segunda derivada es 2 > 0.
2
Teorema 24 Si la función de pérdida es el error absoluto, entonces el estimador de Bayes es la mediana de la distribución a posteriori:
θ∗ ( x ) = mediana(θ| x ).
e
e
81
Demostración: Ver DeGroot (1988), teorema 1 de la sección 4.5.
2
Ejemplo 41
Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn =
xn . Suponemos que la distribución a priori de θ es
θ ∼ Beta(α, β) =⇒ E(θ) =
Tal como vimos en el teorema 19,
Ã
n
X
α
.
α+β
n
X
θ| x ∼ Beta α +
xi , β + n −
xi
e
i=1
i=1
!
.
Por tanto, el estimador de Bayes basado en pérdida cuadrática será
Pn
α + i=1 xi
=
θ̂1 = E(θ| x ) =
α+β+n
e
α+β
n
α
x+
.
α+β+n
α+β+nα+β
Obsérvese que θ̂1 es una media ponderada de la media a priori y de la media
muestral. El peso de cada cantidad depende de los parámetros en la distribución
a priori y del tamaño muestral. A medida que n crece se tiene que θ̂1 tiende
hacia x.
La estimación de θ basada en la pérdida del error absoluto requiere la determinación por métodos numéricos de la mediana de la distribución Beta(α +
Pn
Pn
i=1 xi ).
i=1 xi , β + n −
.
.
Ejemplo 42
Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos
de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribución a
posteriori es θ| x ∼ N (µ1 , ν12 ) con
e
µ1 =
σ 2 µ + nν 2 x 2
σ2 ν 2
, ν1 = 2
.
2
2
σ + nν
σ + nν 2
El estimador de Bayes con pérdida cuadrática es
σ 2 µ + nν 2 x
θ̂1 ( x ) = E(θ| x ) =
=
σ 2 + nν 2
e
e
nν 2
σ2
µ.
x
+
σ 2 + nν 2
σ 2 + nν 2
De nuevo el estimador de Bayes es una media ponderada de la media a priori
y de la media muestral. Si ponemos una a priori poco informativa, es decir, con
varianza ν 2 grande, se tendrá que θ̂1 ( x ) será aproximadamente igual a la media
e
muestral.
En este caso la elección de la función de pérdida del error absoluto conduce
al mismo estimador θ̂1 ( x ) porque la mediana y la media a posteriori coinciden
e
(dado que la distribución a posteriori es simétrica).
.
.
3.4.
83
Lista de problemas
Método de los momentos
1. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador de momentos de µ.
2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,
0 < θ ≤ x < ∞.
a) Da un estadı́stico suficiente para θ.
b) Halla el estimador de momentos de θ.
3. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, λ) = λe−λx+1 , x > 1/λ. Hallar el
estimador de momentos de λ.
4. Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentra
los estimadores de momentos de (k, p).
5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una
B(n, p): (n − 1)Sn2 /n y p̂(1 − p̂). ¿Qué relación hay entre ellos?
Máxima verosimilitud
6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| .
Hallar el estimador máximo verosı́mil de µ.
7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,
0 < θ ≤ x < ∞. Halla el estimador de máxima verosimilitud de θ.
8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de
las dos distribuciones siguientes. Si θ = 0 entonces f (x; θ) = I(0,1) (x). Si
√
θ = 1 entonces f (x; θ) = 1/(2 x)I(0,1) (x). Encontrar el estimador máximo
verosı́mil de θ.
9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn
tiene función de distribución común

si x < 0
 0
F (x; α, β) = P (X ≤ x|α, β) =
(x/β)α si 0 ≤ x ≤ β ,

1
si x > β
donde α > 0, β > 0.
a) Encontrar un estadı́stico suficiente para (α, β) de dimensión 2.
b) Dar el estimador máximo verosı́mil de (α, β).
c) La longitud (en milı́metros) de los huevos de gorrión puede modelizarse con esa distribución. Para los siguientes datos de longitudes de
huevos, estima por máxima verosimilitud α y β:
22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias independientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e
Y no son directamente observables, sino que se observan Z y W definidas
como
½
1 si Z = X
Z = mı́n{X, Y }, W =
.
0 si Z = Y
Se dice entonces que las variables X e Y están censuradas.
a) Da la distribución conjunta de Z y W .
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tamaño n de (Z, W ). Calcula los estimadores
máximo verosı́miles de λ y θ.
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador máximo verosı́mil de θ en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dı́gitos binarios, 0 y 1. Se produce
un error en la transmisión cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmisión en
cada dı́gito transmitido es p, y que los errores en la transmisión de dı́gitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Llamaremos X a la cantidad de diferencias entre las dos cadenas de dı́gitos
leı́das por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdrı́a 2.
a) Calcula la probabilidad de que un dı́gito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de máxima verosimilitud de p cuando la longitud de las cadenas es n y se observa X. ¿Es único este estimador
de máxima verosimilitud?
c) Da la estimación de p en el ejemplo anterior.
d ) ¿Cómo se interpretarı́a un valor de X más grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un año no bisiesto:
Semana
1
2
3
4
5
Número de nacimientos
19
32
28
25
10
85
Como la primera semana de febrero puede empezar en un dia cualquiera
de lunes a domingo, de hecho constan 5 semanas, con la primera y la
quinta incompletas. Definimos el espacio paramétrico Θ = {1, 2, . . . , 7},
donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un
nacimiento tiene la misma probabilidad de ocurrir cualquier dı́a del mes.
Dar el estimador máximo verosı́mil del dı́a de la setmana en que cayó el
primero de febrero de ese año.
Estimadores bayesianos
14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qué distribución sigue
X1 condicionada a que X1 + X2 = x?
15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X −1 tiene
distribución gamma invertida con parámetros (α, β), y se denota como
IG(α, β).
a) Prueba que la densidad de Y es
f (y; α, β) =
1
1 −1/(βy)
e
I(0,∞) (y).
Γ(α)β α y α+1
b) Calcula la esperanza y la varianza de Y .
16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra
de tamaño n de una población normal, sabemos que (n − 1)S 2 /σ 2 se
distribuye como una χ2n−1 . Vamos a probar que la distribución a priori
conjugada para σ 2 es la gamma invertida.
a) Prueba que si la distribución a priori de σ 2 es IG(α, β), entonces la
a posteriori es
Ã
·
¸−1 !
n − 1 (n − 1)S 2
1
IG α +
,
+
.
2
2
β
b) Calcula el estimador de Bayes bajo pérdida cuadrática de σ 2 .
17. (Ex. parcial 2000) Sea X una variable aleatoria con función de densidad
f (x|θ) =
1 −x
e θ,
θ
donde θ es un parámetro que puede tomar valores en el conjunto Θ =
{1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.
a) Calcula el estimador de máxima verosimilitud de θ y llámalo θ̂1 .
b) Calcula el estimador Bayes de θ basado en la función de pérdida
C(θ, a) = I{θ6=a}
(que vale 0 si θ = a y 1 en caso contrario), cuando la distribución a
priori de θ es uniforme en los números {1, 2, . . . , 20} y llámalo θ̂2 .
c) ¿Qué relación hay entre θ̂1 y θ̂2 ? ¿Cómo cambiarı́a esta relación si
cambia la función de verosimilitud? ¿Y si consideramos una distribución a priori que no sea plana, es decir, que no sea constante en θ?
¿Y si consideramos otra función de pérdida?
18. (Ex. parcial 2001) Supongamos que el número de minutos que una persona
tiene que esperar el autobús cada mañana tiene una distribución uniforme
en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que
la función de densidad a priori de θ viene dada por:
½ 192
per θ ≥ 4,
θ4
ξ(θ) =
0
altrament.
Los tiempos esperados en tres mañanas sucesivas son de 5, 3, 8 minutos.
a) Calcular la función de densidad a posteriori de θ. Especificar el dominio de definición de esta función y las constantes que en ella aparecen.
b) Si se quiere estimar el valor de θ usando como función de pérdida
el error cuadrático, ¿qué forma tiene el estimador de Bayes de θ?
Calcular el valor estimado de θ a partir de los tres tiempos esperados
dados.
Capı́tulo 4
Estimación puntual 2:
Evaluación de estimadores
Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.
Bickel y Doksum (1977), sección 4.4, para eficiencia; Arnold 1990,
capı́tulo 6, o Schervish 1995, sección 7.1, para las propiedades
asintóticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2
y 3.3, Cristóbal (1992), sección 8.3; Arnold (1990), sección 7.3;
Schervish (1995), sección 7.3; Vélez y Garcı́a (1993), sección 7.4., para
propiedades del estimador de máxima verosimilitud
Una vez se han presentado diferentes métodos de estimación surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos
criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo
haremos primero para muestras finitas para pasar después a proponer medidas
asintóticas de calidad.
4.1.
Error cuadrático medio
Se define el error cuadrático medio (ECM) de un estimador W de un
parámetro θ como
¡
¢
Eθ (W − θ)2 .
Ésta es una medida intuitiva del comportamiento de un estimador: cuanto menor
sea el error cuadrático medio mejor será el estadı́stico W . De hecho, para cualquier función φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonable
de lo alejadas que estarán, en promedio, las estimaciones de θ que proporcione
W.
En general, se prefiere el error cuadrático medio a otras medidas por ser más
tratable analı́ticamente. Además el error cuadrático medio puede descomponerse
87
88CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
de forma fácilmente interpretable:
¡
¢
¡
¢
¡
¢
Eθ (W − θ)2 = Eθ (W − Eθ (W ))2 + Eθ (Eθ (W ) − θ)2 =
2
Vθ (W ) + (Bθ (W )) .
El término Bθ (W ) = Eθ (W ) − θ se llama sesgo (en ingés bias) de W cuando
se estima θ y es una medida de la desviación sistemática que se tiene cuando
se estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor del
¡
¢
parámetro se dice que es un estimador insesgado. En tal caso, Eθ (W − θ)2 =
Vθ (W ).
Ası́, el error cuadrático medio de un estimador es la suma de su varianza
(una medida de su dispersión) más el cuadrado de su sesgo (medida de la desviación sistemática o de la exactitud del estimador). Es una medida conjunta
de precisión y exactitud del estimador. Por lo tanto, parece sensato buscar estimadores que tengan error cuadrático medio pequeño, porque de esta manera
controlaremos tanto la dispersión como la exactitud de las estimaciones.
Ejemplo 43
En el siguiente gráfico se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadrático medio.
D
E
F
G
4.1. ERROR CUADRÁTICO MEDIO
89
.
.
Ejemplo 44
(µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 :
n
n
1X
1 X
Xi , S 2 =
(Xi − X)2 .
n i=1
n − 1 i=1
X=
También hemos calculado sus esperanzas:
E(X) = µ, E(S 2 ) = σ 2 .
Concluimos que X y S 2 son estimadores insesgados de µ y σ 2 , respectivamente.
Su error cuadrático medio coincide entonces con su varianza:
¡
¢
σ2
Eθ (X − µ)2 = Vθ (X) =
,
n
¡
¢
2σ 4
.
Eθ (S 2 − σ 2 )2 = Vθ (S 2 ) =
n−1
.
.
Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reducción importante de la varianza y, por lo tanto, del error cuadrático
medio. Éste es uno de esos casos.
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos:
θ = (µ, σ 2 ). Sea
n−1 2
σ̂ 2 =
S ,
n
el estimador máximo verosı́mil de σ 2 . Calculemos su error cuadrático medio:
µ
¶
n−1 2
1
1
2
E(σ̂ ) =
σ = 1−
σ 2 =⇒ Bθ (σ̂ 2 ) = − σ 2 ;
n
n
n
µ
2
V (σ̂ ) =
n−1
n
¶2
V (S 2 ) =
2(n − 1) 4
σ .
n2
Ası́, el error cuadrático medio de σ̂ 2 es
E(σ̂ 2 − σ 2 ) =
2(n − 1) 4
1
2n − 1 4
2
σ + 2 σ4 =
σ <
σ4 .
2
2
n
n
n
n−1
Se concluye que σ̂ 2 tiene menor error cuadrático medio que S 2 .
La comparación de los errores cuadráticos medios no nos debe conducir a
pensar que hay que usar siempre σ̂ 2 en vez de S 2 . Aunque es cierto que, en
promedio, σ̂ 2 ofrecerá estimaciones más cercanas a σ 2 que S 2 , también lo es que
en promedio σ 2 estima el parámetro por defecto.
Por otra parte, el criterio del error cuadrático medio es discutible cuando se
estima una varianza porque el error cuadrático medio penaliza las desviaciones
del parámetro de igual forma tanto si son por exceso como si son por defecto.
Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes
porque el valor cero es una cota natural para los estimadores.
.
.
Ejemplo 46
Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador máximo verosı́mil de p y el estimador bayesiano derivado de suponer pérdida cuadrática y una beta como distribución a priori de p:
Pn
Xi + α
p̂ = X, p̂B = i=1
.
α+β+n
Calculamos errores cuadráticos medios:
¢
¡
p(1 − p)
Ep (X − p)2 = V (X) =
,
n
µ Pn
¶ µ µ Pn
¶¶2
¡
¢
i=1 Xi + α
i=1 Xi + α
Ep (p̂B − p)2 = V
+ Bp
=
α+β+n
α+β+n
µ
¶2
np + α
np(1 − p)
+
−
p
=
(α + β + n)2
α+β+n
np(1 − p) + (α(1 − p) + βp)2
.
(α + β + n)2
Supongamos que no tenemos una información a priori suficientemente rica como
para determinar los valores de α y β y que, como consecuencia, decidimos elegir
los valores α y β tales que el error cuadrático medio de p̂B sea constante en p,
¡
¢
si ello es posible: Ep (p̂B − p)2 = K(n). Busquemos esos valores:
si p = 0 =⇒
α2
= K(n),
(α + β + n)2
si p = 1 =⇒
β2
= K(n),
(α + β + n)2
de donde se sigue que α = β y
α2
= K(n).
(2α + n)2
91
Si hacemos ahora p = 1/2:
p=
n 12 + α2 (1 − 12 − 12 )2
1
n/4
=⇒ 2
=
= K(n).
2
(2α + n)2
(2α + n)2
Por lo tanto
√
α=β=
n
2
Con esta elección,
√
Pn
n
i=1 Xi + 2
√
p̂B =
n+n
y su error cuadrático medio es
¡
¢
1
√
Ep (p̂B − p)2 = K(n) =
para todo p ∈ (0, 1).
4(1 + n)2
−4
n= 4
0.06
6
0.05
5
0.04
4
n= 400
x 10
ECM
7
ECM
0.07
0.03
3
0.02
2
0.01
1
0
0
0.2
0.4
0.6
0.8
1
0
0
0.2
0.4
p
K(4) =
0.6
0.8
p
1
1
= 0,028, K(400) =
= 0,000567
36
4(21)2
¡
¢ 1/4
¢ 1/4
¡
1
Ep=1/2 (X − p)2 =
=
= 0,0625, Ep=1/2 (X − p)2 =
= 0,000625
4
16
400
Estas figuras ilustran el comportamiento de p̂ y p̂B : si n es pequeño, el estimador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
está en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p ≈ 0,5.
.
.
4.1.1.
Eficiencia relativa
Un estimador W de θ se denomina inadmisible si existe otro estimador V
de θ tal que
¡
¢
¡
¢
Eθ (V − θ)2 ≤ Eθ (W − θ)2 para todo θ ∈ Θ,
1
y además existe algún θ0 ∈ Θ tal que
¡
¢
¡
¢
Eθ0 (V − θ0 )2 < Eθ0 (W − θ0 )2 .
Es decir, un estimador W es inadmisible si existe otro estimador V que es al
menos igual de bueno que W para todo posible valor del parámetro θ y lo supera
cuando el valor concreto del parámetro es θ0 . Se dice también que V domina a
W uniformemente en θ.
Un estimador es admisible cuando no es inadmisible, es decir, cuando no
existe otro que lo domine uniformemente en θ.
Ejemplo 47
T es inadmisible
S es admisible
1
1
0.9
0.9
0.8
0.8
0.7
0.7
T1
T
0.6
ECM
ECM
0.6
0.5
0.5
0.4
0.4
0.3
0.3
T2
S
0.2
S
0.2
0.1
0.1
0
0
T3 no existe
0
0.2
0.4
θ
0.6
0.8
1
0
0.2
.
0.4
θ
0.6
.
Ejemplo 48
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana
muestral Mn son estimadores insesgados de µ.
Para n = 21, se tiene que
Vµ (X) = 1/n = 0,048 < Vµ (Mn ) ≈ ,075, para todo µ.
Por lo tanto, la mediana muestral es inadmisible como estimador de µ en el
caso de normalidad. (Nota: Se ha usado la expresión asintótica para calcular
0.8
1
93
la varianza de la mediana muestral; véase, por ejemplo, el teorema 7.25 de
Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribución exacta de
la mediana muestral, véase la sección 5.5 de Casella-Berger).
Se puede probar (se verá en el tema 7, sobre teorı́a de la decisión) que la media muestral es admisible. Esto no implica que no existan otros estimadores con
menor error cuadrático medio que X en ciertas regiones del espacio paramétrico.
Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como
3, independientemente de la muestra observada), se tiene que
¢
¡
Eµ (W − µ)2 = (3 − µ)2 .
¢
¡
Como Eµ (X − µ)2 = 1/n, para todo µ, se tiene que W es preferible a X para
los valores de µ que cumplen
1
1
1
⇐⇒ 3 − √ < µ < 3 + √ .
n
n
n
√
√
Fuera del intervalo [3 + (1/ n), 3 − (1/ n)] es preferible X. Por lo tanto, ninguno de estos dos estimadores domina uniformemente al otro.
.
.
(3 − µ)2 <
Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia
relativa de W1 respecto a W2 como
RE(θ, W1 , W2 ) =
Vθ (W2 )
=
Vθ (W1 )
1
Vθ (W1 )
1
Vθ (W2 )
.
Ası́, RE(θ, W1 , W2 ) > 1 si y sólo si Vθ (W2 ) > Vθ (W1 ), si y sólo si W1 usa los
datos de modo más eficiente que W2 .
Ejemplo 49
Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a
la media muestral X para estimar el parámetro de centralidad µ de cuatro
distribuciones simétricas (el parámetro de centralidad es la mediana poblacional
y coincide con la esperanza cuando ésta existe).
Se ofrecen los resultados en función del tamaño muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la fórmula
V (Mn ) ≈
Normal estándar
Logı́stica (β = 1)
Doble exponencial (λ = 1)
Cauchy estándar
1
4f 2 (µ)
V (X)
1/n
π 2 /(3n)
2/n
∞
.
V (Mn )
π/(2n)
4/n
1/n
π 2 /(4n)
RE(θ, Mn , X)
2/π = 0,64
π 2 /12 = 0,82
2
∞
Se concluye que la media muestral es más eficiente que la mediana en las leyes
normal y logı́stica, y lo es menos en la doble exponencial y la Cauchy.
.
.
4.2.
Mejor estimador insesgado
Acabamos de ver que la comparación de estimadores basada en error cuadrático medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos
desechar el estimador constante W ≡ 3 porque ése es el mejor estimador en
el caso de que el parámetro sea igual a 3) o a la imposibilidad de elegir un
único estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero también lo
es W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamos
comparando todos los estimadores posibles de un parámetro: hay estimadores
cuya definición está alejada de toda lógica pero que en determinadas situaciones
muy concretas dan resultados sensatos.
Por lo tanto, para que el criterio de comparación de estimadores mediante
su error cuadrático medio dé lugar a la recomendación de un único estimador,
preferible a los demás, debemos limitar el conjunto de estimadores que se tienen en cuenta. Se debe exigir un mı́nimo de sensatez a un estimador antes de
admitirlo para ser comparado con los restantes estimadores.
Una forma de restringir la clase de estimadores es exigir que sean insesgados. Veremos que si nos restringimos a esta clase de estimadores sı́ llegaremos
a resultados satisfactorios a partir de la comparación de su error cuadrático
medio, que para estos estimadores coincide con su varianza. Se trata de elegir
el estimador insesgado del parámetro θ que tenga la varianza más pequeña.
Además, se caracterizará el mejor estimador insesgado (el de menor varianza).
Dada una transformación τ del parámetro θ, restringimos la clase de estimadores considerados a
Cτ = {W : Eθ (W ) = τ (θ)},
la clase de estimadores insesgados de τ (θ). Dado W ∈ Cτ ,
¡
¢
Eθ (W − τ (θ))2 = Vθ (W )
y la comparación de estimadores con el criterio del error cuadrático medio se
reduce a la comparación de sus varianzas.
Diremos que un estimador W ∗ es el mejor estimador insesgado de τ (θ),
o el UMVUE (estimador insesgado de τ (θ) uniformemente de mı́nima
varianza), si Eθ (W ∗ ) = τ (θ) para todo θ ∈ Θ y si para cualquier otro estimador
W , tal que Eθ (W ) = τ (θ) para todo θ ∈ Θ, se tiene que Vθ (W ∗ ) ≤ Vθ (W ), para
todo θ ∈ Θ.
4.2. MEJOR ESTIMADOR INSESGADO
95
Ejemplo 50
Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) =
λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos
cuál de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) =
V (X)
λ
= .
n
n
Para determinar la varianza de S 2 los cálculos son algo más tediosos. En general,
si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Capı́tulo 1)
µ
¶
1
n−3 2
2
V (S ) =
θ4 −
θ .
n
n−1 2
Concretaremos este resultado para el caso de la distribución de Poisson. Se tiene
que θ1 = θ2 = λ. Calculemos θ3 y θ4 . En primer lugar,
E(X 3 ) =
∞
X
∞
k 3 e−λ
k=1
k=0
λ
∞
X
(h + 1)2 e−λ
h=0
X
λk
λk
=
k 2 e−λ
=
k!
(k − 1)!
λh
= λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) =
h!
λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ.
Ası́,
θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) =
λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ.
Calculemos E(X 4 ):
E(X 4 ) =
∞
X
k 4 e−λ
k=0
λ
∞
X
(h + 1)3 e−λ
h=0
λk
=
k!
λh
= λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) =
h!
λ(λ3 + 3λ2 + λ + 3(λ + λ2 ) + 3λ + 1) = λ(λ3 + 6λ2 + 7λ + 1) = λ4 + 6λ3 + 7λ2 + λ
Ası́,
θ4 = E((X − λ)4 ) = E(X 4 ) − 4λE(X 3 ) + 6λ2 E(X 2 ) − 4λ3 E(X) + λ4 =
λ4 + 6λ3 + 7λ2 + λ − 4λ(λ3 + 3λ2 + λ) + 6λ2 (λ + λ2 ) − 3λ4 =
3λ2 + λ.
Por tanto,
1
V (S ) =
n
2
µ
¶
µ
¶
n−3 2
1
n−3 2
2
θ4 −
θ =
3λ + λ −
λ =
n−1 2
n
n−1
λ
2λ2
λ
+
> = V (X) si n ≥ 2.
n n−1
n
Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a
S2.
.
.
En el ejemplo anterior sólo hemos comparado dos estimadores insesgados
entre sı́. Ahora estudiaremos toda una clase de estimadores insesgados, aunque
esta familia no incluye a todos los estimadores insesgados.
Ejemplo 50, página 95. Continuación. Consideremos la clase de estimadores Wa = aX + (1 − a)S 2 , con a ∈ IR. Se tiene que para toda a,
Eλ (Wa ) = aλ + (1 − a)λ = λ,
luego ésta es una clase de estimadores insesgados para λ. Si buscamos el mejor
de todos estos estimadores podrı́amos llegar a la conclusión de que existe un a∗
tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen la
forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Capı́tulo
1 resultan útiles para el cálculo de Vλ (Wa ).
Esto no proporcionará una respuesta global a la pregunta de cuál de todos
los estimadores insesgados de λ es el que menor varianza tiene.
.
.
4.2.1.
Teorema de Cramér-Rao. Información de Fisher
El último ejemplo muestra que la búsqueda del UMVUE no debe consistir en
repasar todos los estimadores insesgados posibles. El siguiente resultado aborda
el problema de un modo diferente: establece una cota inferior para la varianza
de todos los estimadores insesgados de un parámetro. Ası́, si encontramos un
estimador insesgado cuya varianza iguale esa cota podremos concluir que ese
estimador es el UMVUE.
Teorema 25 (Teorema de Cramér-Rao.) Sea X = (X1 , . . . , Xn ) una vae
riable aleatoria n-dimensional con función de densidad conjunta f ( x |θ), θ ∈
e
Θ ⊆ IR. Sea W ( X ) un estimador insesgado para τ (θ), es decir, Eθ (W ( X )) =
e
e
τ (θ) para todo θ, donde τ es una función de θ que cumple
H1: τ (θ) es diferenciable en θ.
Se supone además que la verosimilitud conjunta f ( x |θ) verifica
e
97
H2: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e
e
·
¸
Z
Z
Z
Z
d
∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x )
f ( x |θ) dx1 . . . dxn .
dθ
e
e
e ∂θ e
Entonces,
¡
Vθ (W ( X )) ≥
e
·³
Eθ
∂
∂θ
¢2
d
dθ τ (θ)
´2 ¸ .
log f ( X |θ)
e
A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota
de Cramér-Rao.
Demostración: Se basa en la desigualdad de Cauchy-Schwarz, que expresada
en términos estadı́sticos establece que para cualquier par de variables aleatorias
X e Y definidas sobre el mismo espacio muestral, se tiene que
2
(Corr(X, Y )) ≤ 1,
o equivalentemente, que dada la variable aleatoria X,
V (X) ≥
(Cov(X, Y ))
V (Y )
2
para toda variable aleatoria Y .
La demostración del teorema es inmediata poniendo W ( X ) en el papel de
e
la variable aleatoria X anterior, haciendo
Y =
∂
log f ( X |θ),
∂θ
e
y viendo que se verifican A y B:
A.
µ
V
B.
"µ
¶
¶2 #
∂
∂
log f ( X |θ) = Eθ
log f ( X |θ)
.
∂θ
∂θ
e
e
µ
¶
∂
d
Cov W ( X ),
log f ( X |θ) =
τ (θ).
∂θ
dθ
e
e
Probemos A. Para ello hay que demostrar que
·
¸
∂
Eθ
log f ( X |θ) = 0.
∂θ
e
En efecto,
·
Eθ
" ∂
#
¸
∂
∂θ f ( X |θ)
e
log f ( X |θ) = Eθ
=
∂θ
e
f ( X |θ)
e
Z
Z
∂
∂θ f ( x |θ)
e f ( x |θ)dx1 . . . dxn =
e
f ( x |θ)
e
Z
Z
(H2,h( x )=1)
∂
f ( x |θ)dx1 . . . dxn
=e
···
∂θ e
Z
Z
d
d
· · · f ( x |θ)dx1 . . . dxn =
1 = 0.
dθ
dθ
e{z
|
}
···
=1
Veamos ahora que también es cierto B:
¶
¸
µ
·
∂
∂
log f ( X |θ) = Eθ W ( X )
log f ( X |θ) =
Cov W ( X ),
e ∂θ
e
e ∂θ
e
"
#
∂
∂θ f ( X |θ)
e
Eθ W ( X )
=
e
f ( X |θ)
e
Z
Z
H2,h( x )=W ( x )
∂
e=
e
· · · W ( x ) f ( x |θ)dx1 . . . dxn
e ∂θ e
Z
Z
d
d
· · · W ( x )f ( x |θ)dx1 . . . dxn =
τ (θ).
dθ
dθ
e {z e
|
}
=Eθ (W ( X ))=τ (θ)
e
2
Nota: El teorema de Cramér-Rao es igualmente válido en el caso discreto.
En este caso la hipótesis H2 afirma que pueden intercambiarse el sumatorio y
la diferenciación.
Un estimador insesgado para τ (θ) se denomina eficiente si su varianza es la
mı́nima posible, es decir, si es igual a la cota de Cramér-Rao. La eficiencia de
un estimador insesgado se define como el cociente entre la cota de Cramér-Rao
y su varianza. Es un valor menor o igual que 1 si se dan las hipótesis del teorema
de Cramér-Rao. A esa cantidad también se la llama eficiencia de Bahadur
del estimador. La eficiencia relativa entre dos estimadores insesgados es el
inverso del cociente de sus varianzas, como ya se definió anteriormente.
A la derivada parcial del logaritmo de la verosimilitad L(θ| x ) = f ( x |θ)
e
e
respecto al parámetro se le llama también función score:
∂
S(θ| x ) =
log L(θ| x ).
∂θ
e
e
En la demostración del teorema de Cramér-Rao se ha probado que
Eθ (S(θ| X )) = 0.
e
Obsérvese que para obtener el estimador máximo verosı́mil de θ lo que se hace
es resolver la ecuación
S(θ| x ) = 0,
e
99
lo que equivale a buscar el valor de θ para el cual el valor de S(θ| x ) coincide
e
con su valor esperado.
Cuando se aplica a las familias exponenciales el resultado general que dice
que la esperanza de la función score es cero, se obtiene el siguiente resultado
(ver también el problema 11 del Capı́tulo 1):
Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponencial parametrizada en forma natural con parámetro η ∈ IR:
f (x|θ) = h(x)c(η) exp (ηt(x))
para ciertas funciones h, c y t. Entonces
Eη (t(X)) = −
d
log c(η).
dη
Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estadı́stico
T (X1 , . . . , Xn ) =
n
X
t(Xi )
i=1
entonces
d
Eη (T ( X )) = −n
log c(η).
dη
e
Demostración: El resultado sobre T ( X ) es trivial a partir del resultado sobre
e
t(X). El logaritmo la verosimilitud de x es
l (θ|x) = log f (x|θ) = log h(x) + log c(η) + ηt(x)
y la función score
S(θ|x) =
∂
d
l (θ|x) =
log c(η) + t(x).
∂η
dη
Como Eη (S(θ|X)) = 0, se sigue el resultado del corolario.
2
A la cantidad que aparece en el denominador de la cota de Cramér-Rao se
le denomina cantidad de información de Fisher que sobre θ contiene el
vector X :
e
"µ
¶2 #
µ
¶
∂
∂
log f ( X |θ)
=V
log f ( X |θ) = V (S(θ| X )).
I (θ) = Eθ
X e
X e
X
∂θ
∂θ
e
e
e
e
Se denomina cantidad de información de Fisher que sobre θ contiene la
variable Xi a
"µ
¶2 #
¶
µ
∂
∂
IXi (θ) = Eθ
log fXi (X|θ)
log fXi (X|θ) = V (S(θ|Xi )).
=V
∂θ
∂θ
Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que
e
la información de Fisher contenida en la muestra es la suma de las informaciones
contenidas en cada una de las observaciones y, dado que éstas son idénticamente
distribuidas, se tiene que
I (θ) = nIX1 (θ).
X
e
Este resultado es consecuencia del siguiente corolario del teorema de CramérRao:
Corolario 3 Bajo las hipótesis del teorema de Cramér-Rao, si X = (X1 , . . . , Xn )
e
es una muestra aleatoria simple de X con distribución dada por f (x|θ) entonces
"µ
"µ
¶2 #
¶2 #
∂
∂
Eθ
log f ( X |θ)
= nEθ
log fX (X|θ)
.
X e
∂θ
∂θ
e
Demostración: Por independencia, la verosimilitud de X es el producto de
e
verosimilitudes, luego
n
n
X
∂
∂ X
∂
log f ( x |θ) =
log fX (xi |θ) =
log fXi (xi |θ).
X e
∂θ
∂θ i=1
∂θ
i=1
e
Por lo tanto,
Ã
!2 
¶2 #
n
X
∂
∂
Eθ
= Eθ 
log f ( X |θ)
log fXi (Xi |θ)  =
X e
∂θ
∂θ
i=1
e
"
"µ
µ
¶2 # X
¶2 #
n
X
∂
∂
∂
Eθ
+
Eθ
.
log fXi (Xi |θ)
log fXi (Xi |θ)
log fXj (Xj |θ)
∂θ
∂θ
∂θ
i=1
"µ
i6=j
Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi
y Xj y dado que las funciones score tienen esperanza 0, según se vio en la
demostración del teorema de Cramér-Rao.
Una demostración alternativa de este resultado se basa en la expresión de la
información de Fisher como varianza de los scores:
Ã n
!
µ
¶
X ∂
∂
V
log f ( X |θ) = V
log fXi (Xi |θ)
X e
∂θ
∂θ
i=1
e
que por independencia es igual a la suma de las varianzas:
µ
¶
∂
nV
log fX (X|θ) .
∂θ
2
El siguiente resultado facilita a veces el cálculo de la cota de Cramér-Rao.
Lema 5 Si la función de verosimilitud satisface
101
H3: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e
e
· 2
¸
Z
Z
Z
2 Z
∂
∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x )
f ( x |θ) dx1 . . . dxn .
∂θ2
e
e
e ∂θ2 e
Entonces,
"µ
IX (θ) = Eθ
¶2 #
· 2
¸
∂
∂
log fX (X|θ)
= −Eθ
log
f
(X|θ)
.
X
∂θ
∂θ2
Demostración:
∂
∂2
log fX (x|θ) =
∂θ2
∂θ
−1
2 (x|θ)
fX
µ
·
¸
1
∂
fX (x|θ) =
fX (x|θ) ∂θ
¶2
∂
1
∂2
fX (x|θ) +
fX (x|θ).
∂θ
fX (x|θ) ∂θ2
Por otro lado,
·
¸ Z
2 Z
1
∂2
∂2
H3 d
Eθ
f
(X|θ)
=
f
(x|θ)dx
=
=
fX (x|θ)dx = 0.
X
X
fX (X|θ) ∂θ2
∂θ2
dθ2
Ası́ pues,
·
Eθ
"
¸
µ
¶2 #
∂2
∂
1
log fX (X|θ) = −Eθ
fX (X|θ)
=
2 (X|θ)
∂θ2
fX
∂θ
"µ
−Eθ
¶2 #
∂
= −IX (θ)
log fX (X|θ)
∂θ
2
Nota 1. Cuando este lema se aplica a la información de Fisher contenida en
una muestra, se tiene que
· 2
¸
· 2
¸
∂
∂
I (θ) = −Eθ
log
f
(
X
|θ)
=
−nE
log
f
(X|θ)
= nIX (θ).
X
θ
X
X
∂θ2
∂θ2
e
e
Nota 2. Las familias exponenciales satisfacen la hipótesis H3.
Ejemplo 51
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası́, E(X) = λ. Consideramos τ (λ) =
λ, luego τ 0 (λ) = 1. Por lo tanto,
Ã
!2 
· 2
¸
n
Y
∂
∂
log
f (Xi |λ)  = −nEλ
log
f
(X|λ)
=
Eλ 
∂λ
∂λ2
i=1
·
−nEλ
∂2
log
∂λ2
µ
e−λ λX
X!
¶¸
·
¸
∂2
= −nEλ
(−λ + X log λ − log X!) =
∂λ2
·
¸
X
n
−nEλ − 2 = .
λ
λ
Por lo tanto, para cualquier W , estimador insesgado de λ, se tendrá que
Vλ (W ) ≥
1
λ
= .
n/λ
n
Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n.
Se deduce de ahı́ que la media muestral es el mejor estimador insesgado (UMVUE) de λ.
.
.
Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). Ası́, f (x|θ) = 1/θ, si 0 < x < θ, y de
ahı́,
¸
·
∂
1
1
∂
2
log f (x|θ) = − =⇒ Eθ (
log f (X|θ)) = 2 .
∂θ
θ
∂θ
θ
Si la cota de Cramér-Rao es aplicable, ésta dice que para cualquier W , estimador
insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n.
Sin embargo, es posible encontrar un estimador insesgado de θ con varianza menor que θ2 /n. En efecto, sea Y = máxi Xi . Su función de densidad es
fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası́,
W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza:
"
µ
¶2 #
(n + 1)2
(n + 1)2
n
2
Vθ (W ) =
Vθ (Y ) =
Eθ (Y ) −
θ
=
n2
n2
n+1
(n + 1)2
n2
"
n 2
θ −
n+2
µ
n
n+1
¶2
#
θ2 =
(n + 1)2 n 2
θ − θ2 =
n2
n+2
(n + 1)2 − n(n + 2) 2
1
1
θ =
θ2 < θ2 .
n(n + 2)
n(n + 2)
n
La contradicción proviene de que
Z θ
Z θ
d
∂
h(x)f (x|θ)dx 6=
h(x) f (x|θ)dx.
dθ 0
∂θ
0
y por lo tanto el teorema de Cramér-Rao no es aplicable.
.
.
103
En general, el teorema de Cramér-Rao no es aplicable si el soporte de f (x|θ)
depende del parámetro θ debido a que la derivada y la integral no son intercambiables si los lı́mites de integración dependen de θ. Véase, por ejemplo en la
sección 2.4 del Casella-Berger, la fórmula de Leibnitz que permite calcular derivadas de integrales en las que los lı́mites de integración dependen de la variable
respecto a la cuál se deriva. Ahı́ se dan también resultados sobre condiciones
que permiten intercambiar los signos de integración y derivación.
Aunque el teorema de Cramér-Rao pueda ser aplicado y la cota de CramérRao sea efectiva, no hay garantı́as de que esta cota sea alcanzada por algún
estimador insesgado del parámetro. En los casos en los que no se encuentra un
estimador insesgado que alcance la cota de Cramér-Rao, el problema es decidir
si dado un estimador insesgado éste es ya el mejor posible.
Ejemplo 53
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con
e
ambos parámetros desconocidos. Consideramos el problema de estimar σ 2 . La
distribución normal satisface las hipótesis del teorema de Cramér-Rao. Calculamos la cota de Cramér-Rao:
·
¸
∂2
IX (σ 2 ) = −E
log
f
(x|θ)
=
∂(σ 2 )2
·
µ
¶¸
(x−µ)2
∂2
1
−
2
2σ
−E
log
e
=
∂(σ 2 )2
(2πσ 2 )1/2
µ
¶¸
·
1
(x − µ)2
∂2
2
log
K
−
log
σ
−
=
−E
∂(σ 2 )2
2
2σ 2
·
µ
¶¸
∂
1
(x − µ)2
−E
− 2+
=
∂σ 2
2σ
2σ 4
¸
·
(x − µ)2
−1
σ2
1
1
−E
−
=
+ 6 =
.
4
6
4
2σ
σ
2σ
σ
2σ 4
Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 =
Pn
e2
e
i=1 (Xi − X) /(n − 1), ha de verificar
1
2σ 4
V (W ( X )) ≥
=
.
nIX (σ 2 )
n
e
En particular, S 2 no alcanza la cota de Cramér-Rao:
V (S 2 ) =
2σ 4
2σ 4
>
.
n−1
n
Surge la pregunta de si existe algún estimador insesgado de σ 2 que alcance la
cota de Cramér-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S 2 el
mejor estimador insesgado de σ 2 ?
.
.
El siguiente resultado ayuda a contestar la primera de las dos preguntas
surgidas en el ejemplo anterior.
Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con
e
distribución dada por f (x|θ), θ ∈ IR, donde f satisface las hipótesis del teorema
Qn
de Cramér-Rao. Sea L(θ| x ) = i=1 f (xi |θ) la función de verosimilitud. Sea
e
W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de τ (θ).
e
Entonces W ( X ) alcanza la cota de Cramér-Rao si y sólo si existe una fune
ción a(θ) tal que se tiene la igualdad
∂
a(θ)(W ( x ) − τ (θ)) =
log L(θ| x )
∂θ
e
e
para todo θ.
que
Además, esto ocurre si y sólo si existen funciones h(θ), k(θ) y u( x ) tales
e
L(θ| x ) = u( x )h(θ) exp(W ( x )k(θ)),
e
e
e
es decir, si y sólo si la distribución de partida pertenece a la familia exponencial.
Demostración: En la demostración del teorema de Cramér-Rao se usa el hecho
de que
µ
µ
¶¶2
∂
Corr W ( X ),
log L(θ| x )
≤ 1,
e ∂θ
e
para probar la desigualdad de Cramér-Rao que se dará con igualdad si y sólo
si la correlación anterior es igual a 1 o -1, lo que equivale a decir que existe una
relación lineal perfecta entre las dos variables, es decir, existen constantes a y b
(que podrı́an depender del valor de θ) tales que
∂
log L(θ| x ) = aW ( X ) + b, con probabilidad 1,
∂θ
e
e
luego,
µ
0=E
∂
log L(θ| x )
∂θ
e
¶
= aE(W ( x )) + b = aτ (θ) + b,
e
de donde se sigue que b = −aτ (θ). Ası́,
³
´
∂
log L(θ| x ) = a W ( x ) − τ (θ) , con probabilidad 1.
∂θ
e
e
Para probar la última parte del corolario, resolvemos la ecuación diferencial
∂
log L(θ| x ) = a(θ)(W ( x ) − τ (θ)) = a(θ)W ( x ) + b(θ).
∂θ
e
e
e
Existirán funciones A(θ) y B(θ) tales que A0 (θ) = a(θ) y B 0 (θ) = b(θ) y por lo
tanto
log L(θ| x ) = A(θ)W ( x )+B(θ)+C( x ) =⇒ L(θ| x ) = exp(A(θ)W ( x )+B(θ)+C( x )),
e
e
e
e
e
e
105
de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) y
u( x ) = exp(C( x )).
2
e
e
Ejemplo 53, página 103. Continuación. La función de verosimilitud es
Pn
1
−(
(xi −µ)2 )/(2σ 2 )
i=1
L(µ, σ 2 | x ) =
e
2
n/2
(2πσ )
e
y la derivada respecto a σ 2 de su logaritmo es
µ Pn
¶
³
´
2
∂
n
2
2
i=1 (xi − µ)
−σ .
log L(µ, σ | x ) =
∂σ 2
2σ 4
n
e
Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzarı́a la cota
de Cramér-Rao serı́a
n
1X
W(X ) =
(xi − µ)2
n i=1
e
que es calculable si y sólo si µ es conocido. Por lo tanto, si µ es desconocido la
cota de Cramér-Rao en la estimación de σ 2 no es alcanzable. Como ya dijimos
antes, queda abierta la cuestión de saber si S 2 es el mejor estimador insesgado
de σ 2 . A esto se dará respuesta más adelante, en la sección 4.2.3.
.
.
4.2.2.
Versión multivariante del teorema de Cramér-Rao.
Consideramos ahora el problema de estimación en el caso de que la familia
paramétrica de distribuciones venga dada por un parámetro multidimensional
θ = (θ1 , . . . , θk ). En este contexto, la extensión natural de la información
e
de Fisher es la matriz de información de Fisher, definida como la matriz
I( θ ) de dimensión k × k cuyo elemento (i, j) es
e
"Ã
!Ã
!#
∂ log f ( x | θ )
∂ log f ( x | θ )
e e
e e
Iij = E
.
∂θi
∂θj
Si definimos S( X , θ ) = ∇
log f ( x | θ ), el vector de scores, es decir, el
θ
e e
e e
e
vector gradiente del logaritmo de la función de verosimilitud (el vector columna
de derivadas parciales respecto a θ1 , . . . , θk ) se tiene que la matriz de información
de Fisher es
I( θ ) = E[S( X , θ )S( X , θ )t ] = Cov(S( X , θ )).
e
e e
e e
e e
También es cierto que si se verifican las hipótesis de regularidad H2 y H3,
entonces
I( θ ) = −E(H
log f ( x | θ ))
θ
e
e e
e
donde H
log f ( x | θ ) es la matriz hessiana de log f ( x | θ ): la matriz k × k
θ
e e
e e
e
cuyo elemento (i, j) es
∂2
log f ( x | θ ).
∂θi θj2
e e
Consideremos ahora una función univariante de θ : τ = τ ( θ ) = τ (θ1 , . . . , θk ).
e
e
Sea ∇τ ( θ ) el gradiente de τ :
e
µ
¶t
∂
∂
∇τ (θ) =
τ( θ ) .
τ ( θ ), . . . ,
∂θ1 e
∂θk e
El siguiente resultado es la versión del teorema de Cramér-Rao aplicable en este
contexto.
Teorema 26 Sea W ( X ) un estimador insesgado de una transformación unie
variante τ ( θ ) del parámetro k-dimensional θ . Si se dan las condiciones de
e
e
regularidad H1 , H2 y H3 , entonces
−1
V (W ( X )) ≥ (∇τ (θ))t I( θ ) (∇τ (θ)),
e
e
con igualdad si y sólo si existe una función a( θ ) univariante tal que
e
t
a( θ )(W ( X ) − τ ( θ )) = (∇τ ( θ )) (I( θ ))−1 S( X , θ ).
e
e
e
e
e
e e
Demostración: Ver, por ejemplo, Arnold (1990), sección 7.3.2, o Vélez y Garcı́a
(1993), páginas 233 y siguientes, para una extensión de este teorema en la que
se estima una función τ r-dimensional.
2
Ejemplo 54
Sea θ̂i un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos
e
por I ij al elemento (i, j) de (I( θ ))−1 . Según el teorema anterior, será
e
V (θ̂i ) ≥ I ii .
El teorema de Cramér-Rao univariante nos decı́a que
V (θ̂i ) ≥ Iii−1 .
Sabemos que en general se cumple que
I ii ≥ Iii−1 ,
con igualdad si y sólo si la matriz I( θ ) es diagonal. (Véase, por ejemplo, Vélez
e
y Garcı́a 1993, p. 235). Por lo tanto la versión multivariante del teorema de
Cramér-Rao mejora la cota de Cramér-Rao univariante.
Se puede probar también que si c
θ es un estimador insesgado de θ entonces
e
e
ˆ
−1
Cov( θ ) − I( θ ) es una matriz definida positiva.
e
e
.
.
107
Ejemplo 55
Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n
y que θ1 + θ2 + θ3 = 1, luego hay dos parámetros efectivos, θ1 y θ2 por ejemplo,
pues θ3 = 1 − θ1 − θ2 . La función de verosimilitud es ésta:
L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) =
n!
θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 .
x1 !x2 !x3 ! 1 2
| {z }
K
Su logaritmo es
log L = log K + x1 log θ1 + x2 log θ2 + (n − x1 − x2 ) log(1 − θ1 − θ2 ).
Calculamos el vector de scores y la matriz hessiana:
Sj =
Hjj =
∂
xj
n − x1 − x2
log L =
−
, j = 1, 2.
∂θj
θj
1 − θ1 − θ2
−xj
n − x1 − x2
∂2
log L = 2 −
, j = 1, 2.
∂θj2
θj
(1 − θ1 − θ2 )2
n − x1 − x2
∂2
log L = −
.
∂θj
(1 − θ1 − θ2 )2
H12 =
Ası́, la matriz de información de Fisher es
Ã −X
!
n−X1 −X2
n−X1 −X2
1
− (1−θ
− (1−θ
2
2
θ12
1 −θ2 )
1 −θ2 )
I(θ1 , θ2 ) = −E(H) = −E
=
n−X1 −X2
−X2
n−X1 −X2
− (1−θ
− (1−θ
2
2
θ22
1 −θ2 )
1 −θ2 )
Ã
!
n
n
n
+
θ1
1−θ1−th2
1−θ1−th2
n
n
n
1−θ1−th2
θ2 + 1−θ1−th2
Ası́,
Ã
−1
I(θ1 , θ2 )
=
θ1 (1−θ1 )
n
θ1 θ2
n
θ1 θ2
n
θ2 (1−θ2 )
n
!
.
Por el teorema de Cramér-Rao multivariante, θ1 (1 − θ1 )/n es la cota para la
varianza de cualquier estimador insesgado de θ1 . Si tomamos θ̂1 = X1 /n, tendremos un estimador insesgado cuya varianza es V (θ̂1 ) = θ1 (1 − θ2 )/n. Por lo
tanto θ̂1 es eficiente.
Si hacemos sólo el estudio univariante de la cota de Cramér-Rao para esti−1
madores de θ, tendremos que esa cota es I11
:
µ
¶−1
1 1
1
θ1 (1 − θ1 − θ2 )
θ1 (1 − θ1 )
−1
I11
=
+
=
≤
= I 11 .
n θ1
1 − θ1 − θ2
(1 − θ2 )n
n
La cota de Cramér-Rao multivariante es más precisa que la cota de Cramér-Rao
univariante, en el sentido de que es una cota inferior mayor.
.
.
4.2.3.
Teorema de Rao-Blackwell. Teorema de LehmannScheffé
En esta sección veremos qué papel juegan los estadı́sticos suficientes en la
búsqueda del mejor estimador insesgado de un parámetro. En muchos casos
los resultados que veremos aquı́ permiten escoger un estimador insesgado y
garantizar que es el mejor posible aunque su varianza no alcance la cota de
Cramér-Rao.
Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de
X, con densidad (o masa de probabilidad) f (x|θ). Sea T ( X ) un estadı́stico
e
suficiente para θ y sea W ( X ) un estimador insesgado de τ (θ). Definimos
e
WT = Eθ (W |T ).
Entonces,
i. WT es función únicamente de T ( X ) (es decir, no depende de θ y depende
e
de la muestra X sólo a través del valor de T ( X )).
e
e
ii. Eθ (WT ) = τ (θ).
iii. Vθ (WT ) ≤ Vθ (W ) para todo θ ∈ Θ.
Demostración:
i. Como T es suficiente para θ la distribución de X condicionada a T no
e
depende del parámetro θ. Por lo tanto, la distribución condicionada de
W ( X ) dado T ( X ) tampoco depende de θ. Por otra parte, E(W |T ) es
e
e
función de T .
ii. Por la ley de la esperanza iterada,
Eθ (WT ) = Eθ (E(W |T )) = Eθ (W ) = τ (θ).
iii. Por la ley de la esperanza iterada,
Vθ (W ) = Vθ (E(W |T ))+Eθ (Vθ (W |T )) = Vθ (WT )+Eθ (Vθ (W |T )) ≥ Vθ (WT ).
2
La consecuencia fundamental de este teorema es que en la búsqueda del
estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados
que son función de un estadı́stico suficiente: si trabajamos con un estadı́stico
insesgado que no es función de uno suficiente, tomando esperanzas condicionadas
podemos conseguir otro que es al menos tan bueno como el anterior y es función
del estadı́stico suficiente. Este proceso se llama a veces Rao-Blackwellización.
109
Ejemplo 56
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ .
Pn
Sabemos que T ( X ) =
i=1 Xi es estadı́stico suficiente para λ. Observemos
e
además que P (X1 = 0) = e−λ y por tanto el estimador W ( X ) = I{X1 = 0} es
e
un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo
Pn
n
X
P (X1 = 0, i=1 Xi = t)
Pn
θ̂ = E(W ( X )|T ( X ) = t) = P (X1 = 0|
=
Xi = t) =
P ( i=1 Xi = t)
e
e
i=1
Pn
Pn
P (X1 = 0, i=2 Xi = t)
P (X1 = 0)P ( i=2 Xi = t)
Pn
Pn
=
=
P ( i=1 Xi = t)
P ( i=1 Xi = t)
Pn
(recordar que i=1 Xi ∼ Poisson(nλ))
µ
t
e−λ e−(n−1)λ [(n−1)λ]
t!
e−nλ [nλ]
t!
Por lo tanto
µ
θ̂ =
t
n−1
n
=
¶Pn
i=1
n−1
n
¶t
.
Xi
es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} .
e
.
.
El siguiente resultado es consecuencia del teorema de Rao-Blackwell y garantiza la unicidad del estimador UMVUE en caso de que éste exista.
Teorema 28 Si W es el mejor estimador insesgado de τ (θ) (es el UMVUE) y
su varianza es finita, entonces W es único.
Demostración: Supongamos que existe otro estimador W0 insesgado que tiene
también varianza mı́nima. Entonces ha de ser igual a la de W :
Vθ (W ) = Vθ (W0 ), para todo θ
(observar que esta varianza mı́nima no tiene por qué coincidir con la cota de
Cramér-Rao). Definimos W ∗ = (W +W0 )/2, que es también estimador insesgado
de τ (θ). Calculemos su varianza:
1
1
1
V (W ) + V (W0 ) + Cov(W, W0 ) ≤
4
4
2
¶
µ
1
1
1p
1 1 1
V (W ) + V (W0 ) +
+ +
V (W ) = V (W ).
V (W )V (W0 ) =
4
4
2
4 4 2
V (W ∗ ) =
La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.
Pero la igualdad se da si y sólo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y
sólo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso,
E(W0 ) = a(θ)τ (θ) + b(θ) = τ (θ)
Por otra parte,
V (W ) =
p
V (W )V (W0 ) = Cov(W, W0 ) =
Cov(W, a(θ)W + b(θ)) = Cov(W, a(θ)W ) = a(θ)V (W ),
de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que
b(θ) = 0, luego W = W0 .
2
Nos planteamos ahora estudiar cuándo es posible mejorar un estimador que
ya es insesgado. Ello nos ayudará a saber si un estimador insesgado es el mejor:
como mı́nimo debemos estar seguros de que no puede ser mejorado.
Sea U un estadı́stico tal que Eθ (U ) = 0 para todo θ. Diremos que U es un
estimador insesgado de 0, o que U es un ruido blanco. Consideremos
además W un estimador insesgado de τ (θ). Definimos ahora WU = W + aU ,
que es también un estimador insesgado de τ (θ). Calculemos su varianza:
Vθ (WU ) = Vθ (W + aU ) = Vθ (W ) + a2 Vθ (U ) + 2aCovθ (W, U ).
Intentaremos elegir a de forma que WU sea mejor que W al menos para algún
valor del parámetro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir
0<a<−
2Covθ0 (W, U )
.
Vθ0 (U )
De esta manera
Vθ0 (WU ) < Vθ0 (W )
lo cuál implica que W no puede ser el mejor estimador insesgado (UMVUE) de
τ (θ). Del mismo modo puede procederse si Covθ0 (W, U ) > 0 para algún valor
θ0 del parámetro.
El siguiente resultado establece que las covarianzas de los estimadores insesgado con los estimadores insesgados de 0 caracterizan los mejores estimadores
insesgados.
Teorema 29 Sea W estimador insesgado de τ (θ) para todo θ. W es el mejor
estimador insesgado de τ (θ) (UMVUE) si y sólo si W está incorrelacionado con
todos los estimadores insesgados de 0, para todo θ.
Demostración: Sea W1 estimador insesgado de τ (θ) incorrelacionado con los
estimadores insesgados de 0. Sea W2 otro estimador insesgado de τ (θ). Entonces
W2 − W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 − W1 ). Ası́,
Vθ (W2 ) = Vθ (W1 ) + 2 Covθ (W1 , W2 − W1 ) +Vθ (W2 − W1 ) ≥ Vθ (W1 ).
|
{z
}
=0
Por lo tanto W1 es UMVUE.
111
El recı́proco se prueba por reducción al absurdo siguiendo el argumento
desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U ,
un estimador insesgado del 0 con Covθ0 (W, U ) 6= 0 entonces serı́a posible mejorar
a W en θ0 , lo cuál contradice el hecho de que W1 es UMVUE.
2
Los estimadores insesgados de 0 son simplemente ruidos que no aportan
información alguna sobre el parámetro. Es razonable pensar que un buen estimador de τ (θ) no pueda ser mejorado añadiéndole uno de estos ruidos.
En la definición de estadı́sticos completos aparece también el concepto de
estimador insesgado de 0. Se dice que la familia de distribuciones {fT (t|θ), θ ∈
Θ} de un estadı́stico T es completa si se verifica la siguiente implicación:
si Eθ (g(T )) = 0 para todo θ ∈ Θ entonces Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ.
Es decir, el estadı́stico T es completo si la única función suya que es estimador
insesgado de 0 es precisamente la función idénticamente 0.
El teorema de Rao-Blackwell establece que basta con buscar el estimador
UMVUE entre aquellos estimadores que son función de un estadı́stico suficiente. Si este estadı́stico suficiente es además completo se tiene que no habrá estimadores de 0 que sean función suya y, por tanto, no debemos esperar que un
estimador sea mejorado al sumarle un estimador insesgado de 0 (pues éste no
será función del estadı́stico suficiente). Bajo ciertas condiciones (existencia de
estadı́sticos suficientes y completos y de estimadores insesgados), esta combinación de los conceptos de estadı́stico completo y de estadı́stico suficiente garantiza
la existencia de estimadores UMVUE de una función τ (θ) del parámetro y da un
método para construirlos. El siguiente teorema establece este resultado. Podemos decir que este teorema resuelve teóricamente el problema de la estimación
puntual, entendida ésta como la búsqueda del UMVUE.
Teorema 30 (Teorema de Lehmann-Scheffé) Si T ( X ) es un estadı́stico
e
suficiente y completo para θ y W ( X ) es un estimador insesgado cualquiera de
e
τ (θ), entonces
WT ( X ) = Eθ (W |T )
e
es el mejor estimador insesgado (UMVUE) de τ (θ). Si, además, V (WT ) < ∞
para todo θ, entonces WT es único.
Demostración: Como ya se vio anteriormente, WT ( X ) es insesgado: por la
e
ley de la esperanza iterada,
Eθ (WT ( X )) = Eθ (Eθ (W |T )) = Eθ (W ) = τ (θ).
e
Veamos ahora que sea cual sea el estimador insesgado W que se use en la
definición de WT ( X ), se obtiene siempre el mismo estimador WT ( X ). Sea W 0
e
e
otro estimador insesgado de τ (θ) y sea WT0 = Eθ (W 0 |T ). Definimos g(T ) =
Eθ (W |T ) − Eθ (W 0 |T ). Ası́, Eθ (g(T )) = τ (θ) − τ (θ) = 0 y por ser T completo
se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con
probabilidad 1.
Concluimos que existe un único estimador insesgado de τ (θ) función del
estadı́stico suficiente y completo. Veamos que este estimador es el UMVUE. Sea
W 0 un estimador insesgado de τ (θ) cualquiera. Por el teorema de Rao-Blackwell,
Vθ (E(W 0 |T )) ≤ Vθ (W 0 ), para todo θ,
pero acabamos de ver que WT = E(W 0 |T ), luego
Vθ (WT ) ≤ Vθ (W 0 ), para todo θ,
y WT es UMVUE.
La unicidad de WT está garantizada por el teorema 28.
2
La demostración del teorema de Lehmann-Scheffé se basa en el hecho de que,
si existen estimadores insesgados, esencialmente sólo existe uno que sea función
del estadı́stico suficiente y completo, pues condicionando cualquiera de los insesgados al estadı́stico suficiente y completo se obtiene siempre el mismo resultado.
El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas
se ha reducido la varianza, llegando ası́ al UMVUE.
La principal conclusión del teorema de Lehmann-Scheffé es que si existe
un estimador insesgado de τ (θ) que sea función de un estadı́stico suficiente y
completo, entonces es el único UMVUE de τ (θ).
El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffé:
Corolario 5 Si T ( X ) es un estadı́stico suficiente y completo, cualquier función
e
suya que tenga esperanza finita es el UMVUE de su esperanza.
Ejemplo 56, página 109. Continuación. Sea X1 , . . . , Xn m.a.s. de X ∼
Pn
Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Sabemos que T ( X ) = i=1 Xi
e
es estadı́stico suficiente para λ y además es completo, por ser la Poisson una
familia exponencial. Hemos visto que
µ
¶Pn Xi
i=1
n−1
θ̂ =
n
es un estimador insesgado de θ. Como es una función del estadı́stico suficiente y
completo, es el UMVUE de θ = e−λ . Veamos que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos. El corolario 4
nos permite probarlo. Puesto que X es eficiente para λ (ver ejemplo 50) por
el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede
escribirse ası́:
∂
log L(λ| x ) = a(λ)(X − λ)
∂λ
e
113
para todo λ y cierta función a(λ). Podemos transformar esa expresión ası́:
∂
log L(λ| x ) = (a(λ)λeλ )
∂λ
e
µ
e−λ
X − e−λ
λ
¶
de donde se deduce que no existe ningún estimador eficiente de e−λ puesto que
−λ
de haberlo tendrı́a que ser e λ X y esa cantidad no es un estadı́stico al depender
del parámetro desconocido λ. Concluimos que θ̂ no alcanza la cota de CramérRao.
.
.
Ejemplo 57
Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad de
obtener exactamente un éxito, es decir,
τ (θ) = Pθ (X = 1) = kθ(1 − θ)k−1 .
El estadı́stico
T =
n
X
Xi ∼ B(nk, θ)
i=1
es suficiente y completo para θ. El estimador
W = I{X1 =1}
es insesgado para τ (θ). Por lo tanto, el estimador
"
#
Ã n
!
n
X
X
WT = E IX1 =1 |
Xi = φ
Xi
i=1
i=1
es el mejor estimador insesgado de τ (θ) = P (X = 1). Calculemos WT :
"
#
Ã
!
n
n
X
X
φ(t) = E IX1 =1 |
Xi = t = P X1 = 1|
Xi = t =
i=1
i=1
¡
¢ t−1
Pn
θ (1 − θ)k(n−1)−(t−1)
kθ(1 − θ)k−1 k(n−1)
P (X1 = 1)P ( i=2 Xi = t − 1)
t−1
Pn
=
=
¡kn¢
t
kn−t
P ( i=1 Xi = t)
t θ (1 − θ)
µ
k
¡k(n−1)¢
t−1
¡kn
¢
t
.
k
=⇒ WT =
k(n − 1)
Pn
i=1 Xi − 1
µ
¶
kn
Pn
i=1 Xi
¶
.
.
El teorema de Lehmann-Scheffé resuelve el problema de la búsqueda del UMVUE cuando existen simultáneamente un estimador insesgado y un estadı́stico
suficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen.
Es posible encontrar ejemplos en los que no existen estimadores insesgados del
parámetro de interés (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,
donde se prueba que no existe estimador insesgado del cociente p/(1−p) –odds en
inglés; podrı́a traducirse como ventajas, aunque no existe una traducción unánimemente aceptada– en un experimento binomial). Además, no está garantizada
la existencia de estadı́sticos suficientes completos (ver el ejemplo 6.9 de Vélez y
Garcı́a 1993, donde se prueba la imposibilidad de encontrar un estimador UMVUE en el muestreo de la U (θ, θ + 1), donde no existe un estadı́stico suficiente
completo). En el caso de familias exponenciales el teorema 14 sı́ garantiza la
existencia de estadı́sticos suficientes y completos.
Incluso en el caso de que exista un estimador insesgado y un estadı́stico
suficiente y completo, la aplicación del teorema de Lehmann-Scheffé puede dar
lugar a un estimador UMVUE poco sensato. Ası́, Cristóbal (1992) (p. 202) cita
el siguiente ejemplo. En el muestreo de la N (µ, 1), el UMVUE de µ2 es (X)2 −
(1/n), que no es un estimador recomendable pues puede tomar valores negativos.
Además el estimador máx{0, (X)2 − (1/n)} tiene menor error cuadrático medio,
lo cuál hace inadmisible al estimador UMVUE. Véanse también los ejemplos
2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).
La existencia de estos ejemplos patológicos se debe a que la condición de
insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar únicamente estimadores con propiedades poco deseables. Pagar el precio de cierto
sesgo puede permitir considerar otros estimadores con mejores propiedades (en
términos de error cuadrático medio, por ejemplo, o en comportamiento asintótico).
4.3.
4.3.1.
Comportamiento asintótico
Consistencia
Una sucesión de estimadores Wn = Wn (X1 , . . . , Xn ) es una sucesión de
estimadores consistentes para el parámetro θ si para cada ε > 0 y
para cada θ ∈ Θ, se tiene que
lı́m Pθ (|Wn − θ| < ε) = 1,
n−→∞
o equivalentemente, si
lı́m Wn = θ en probabilidad para todo θ ∈ Θ.
n−→∞
Obsérvese que en esta definición las distribuciones de probabilidad de las sucesiones de variables aleatorias {Wn }n varı́an con θ.
4.3. COMPORTAMIENTO ASINTÓTICO
115
La propiedad de consistencia es un requerimiento mı́nimo que debe verificar
cualquier sucesión de estimadores, puesto que equivale a pedir que el parámetro pueda estimarse con una precisión prefijada a base de aumentar el tamaño
muestral tanto como sea necesario.
El siguiente resultado establece una condición suficiente para que una sucesión de estimadores sea consistente. Denotamos por B(W ) el sesgo de un
estimador W de θ: B(W ) = E(W ) − θ.
Teorema 31 Si la sucesión Wn de estimadores de θ verifica que
a) lı́mn−→∞ Vθ (Wn ) = 0 para todo θ,
b) lı́mn−→∞ Bθ (Wn ) = 0 para todo θ,
entonces Wn es una sucesión de estimadores consistentes de θ.
Demostración: Obsérvese que
Eθ ((Wn − θ)2 ) = Vθ (Wn ) + Bθ2 (Wn ).
Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0
y todo θ ∈ Θ,
Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤
Eθ ((Wn − θ)2 )
=
ε2
1
(Vθ (Wn ) + Bθ2 (Wn )) −→n 0,
ε2
lo que equivale a decir que
lı́m Pθ (|Wn − θ| < ε) = 1.
n−→∞
2
Los siguientes resultados se derivan de propiedades de la convergencia en
probabilidad de variables aleatorias y son útiles para determinar la consistencia
de transformaciones de estimadores consistentes.
Teorema 32 Sea {Wn }n una sucesión consistente para θ.
1. Si {an }n y {bn }n son sucesiones de números reales tales que lı́mn an = 1
y lı́mn bn = 0, entonces, {an Wn + bn }n es consistente para θ.
2. Si g es una función continua definida en Θ, entonces {g(Wn )}n es una
sucesión consistente para g(θ).
3. Si {Vn }n es una sucesión de estimadores consistentes para δ y g(θ, δ)
es una función continua para todo (θ, δ), entonces {g(Wn , Vn )}n es una
sucesión consistente para g(θ, δ).
Demostración: Los dos primeros apartados se deducen del tercero. La prueba
de éste, basada en las definiciones de convergencia en probabilidad y de continuidad de una función, puede verse, por ejemplo, en Arnold (1990) (teorema
6-8).
2
Ejemplo 58
Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se
define el odds ratio (podrı́a traducirse como tasa de ventajas, aunque no existe
una traducción unánimemente aceptada)
ψ = ψ(p1 , p2 ) =
p2
1−p2
p1
1−p1
=
p2 1 − p1
.
1 − p2 p1
Podemos estimar pj mediante p̂j = Xj /nj , que por la ley débil de los grandes
números es estimador consistente de pj , j = 1, 2. Usando entonces el estimador
basado en el principio de sustitución, tenemos el siguiente estimador de ψ:
ψ̂ = ψ(p̂1 , p̂2 ) =
X2 /n2 (1 − X1 /n1 )
X2 (n1 − X1 )
=
.
(1 − X2 /n2 )X1 /n1
(n2 − X2 )X1
Si n1 y n2 tienden simultáneamente a ∞ (es decir, si lı́m nj /(n1 + n2 ) = aj > 0,
j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ̂:
ψ̂ = ψ(p̂1 , p̂2 ) −→ ψ(p1 , p2 ) = ψ en probabilidad,
es decir, ψ̂ es estimador consistente de ψ.
.
4.3.2.
.
Normalidad asintótica
El estudio de la distribución de un estimador para un tamaño muestral
n finito es a menudo complejo y en ocasiones involucra cálculos prácticamente
imposibles de llevar a cabo. Por otra parte, la comparación de medias y varianzas
de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador
de pj /(1−pj ) visto en el ejemplo 58 no estará definido con probabilidad positiva,
puesto que P (Xj = nj ) > 0).
En muchas ocasiones sólo es posible realizar estudios del comportamiento
asintótico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado
una propiedad asintótica: la consistencia. Veremos ahora que es posible medir la
velocidad de convergencia de estimadores consistentes y ası́ seleccionar los que
convergen al verdadero valor del parámetro más rápidamente.
Ejemplo 59
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este
117
modelo, el estimador de momentos de λ coincide con el máximo verosı́mil: λ̂n =
X n . La distribución exacta de λ̂ es conocida: es la de una Poisson(nλ) dividida
por n. Sin embargo ésta es poco manejable y resulta mucho más útil aproximarla
por una distribución más sencilla a la que se acerca asintóticamente.
La versión del teorema central del lı́mite para variables aleatorias independientes e idénticamente distribuidas puede aplicarse porque V (X) = λ < ∞.
Ası́,
√
n(λ̂n − λ)
√
−→ N (0, 1) débilmente,
λ
es decir, para todo λ ∈ Θ y para todo w ∈ IR,
µ√
¶
n(w − λ)
√
Pλ (λ̂ ≤ w) ≈ φ
λ
donde φ es la función de distribución de la normal estándar. La aproximación
es tanto mejor cuanto mayores son n o λ.
Obsérvese que λ̂n es consistente pues, por las leyes de los grandes números,
λ̂n = X n −→P E(X) = λ. Ası́, λ̂n − λ −→ 0 en probabilidad y también en
distribución. Esta convergencia a la distribución degenerada en 0 no nos informa
de la velocidad a la que λ̂n se acerca a λ ni de cómo lo hace (¿se distribuyen las
observaciones de λ̂n simétricamente alrededor de λ?, por ejemplo).
√
El hecho de que V ( n(λ̂n − λ)) = λ para todo n indica que la velocidad a
√
la que λ̂n se acerca a λ es la misma con la que 1/ n se acerca a 0: multiplicar
√
por n es la forma de estabilizar las diferencias (λ̂n − λ), es la estandarización
adecuada.
El resultado derivado del teorema central del lı́mite, la distribución asintóti√
ca de n(λ̂n − λ) es N (0, λ), responde a la pregunta de cómo es la aproximación
λ̂n a λ: los valores del estimador se distribuyen alrededor del verdadero valor del
parámetro igual que los valores de una variable aleatoria N (0, λ) se distribuyen
alrededor de 0.
.
.
Ejemplo 60
En la estimación del parámetro θ de una U (0, θ), los siguientes son estimadores consistentes: Tn = 2X n , Wn = máxi=1...n Xi . De ellos, el primero converge a θ más lentamente que el segundo: por el teorema central del lı́mite
√
Tn0 = n(Tn − θ) converge débilmente a una distribución no degenerada (con√
cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en
probabilidad a la distribución degenerada en 0 (la varianza de Wn0 y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es
estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la
√
misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor
velocidad.
.
.
A menudo será posible también comparar estimadores que convergen a la
misma velocidad mediante lo que llamaremos varianza asintótica.
Ejemplo 60, página 117. Continuación. El estadı́stico basado en la mediana, Sn = 2 · mediana{X1 , . . . , Xn }, también es estimador consistente de θ y
además se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que
√
Sn0 = n(Sn − θ) −→ N (0, θ2 ) débilmente.
√
Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/ n va a 0),
pero la varianza de la distribución a la que converge Tn0 (la versión centrada y
normalizada de Tn ) es menor que la varianza de la distribución lı́mite de Sn0 .
Se dirá entonces que Tn tiene menor varianza asintótica que Sn y, por lo tanto,
será Tn será preferible a Sn .
.
.
En la práctica la gran mayorı́a de los estimadores usuales, convenientemente
centrados y normalizados, tienen distribución asintótica normal. Se dice que
presentan normalidad asintótica y se denota
θ̂n ∼ AN(θ, vn )
cuando
1
√ (θ̂n − θ) −→D N (0, 1).
vn
A la cantidad vn se la llama varianza asintótica de θ̂n . El teorema central
del lı́mite es el responsable de la normalidad asintótica de muchos estimadores.
La normalidad asintótica no sólo aparece en estimadores univariantes, sino
también en estimadores multivariantes, como muestra el siguiente ejemplo.
Ejemplo 61
Sean {(Xn , Yn )t }n∈IN una sucesión de variables aleatorias bivariantes independientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se
supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t =
(E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t ,
i = 1, . . . , n.
La distribución de una variable aleatoria bivariante está caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes
119
(esto se debe a que el cálculo de la función generatriz de momentos bivariante de
(X, Y )t en el punto (s, t)t equivale a calcular la función generatriz de momentos
de sX + tY en el punto 1). Del mismo modo, para encontrar la distribución
asintótica de una sucesión de variables aleatorias bivariantes sólo es necesario
encontrar la distribución asintótica de combinaciones lineales arbitrarias de sus
componentes. Ası́ se reduce el problema bivariante a problemas univariantes.
Calculemos la distribución asintótica de
µµ ¶ µ ¶¶
√
Xn
µX
n
−
.
Yn
µY
Sean a, b números reales arbitrarios. Las variables aleatorias aXi + bYi , i =
1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y
por el teorema central del lı́mite
Ã n
!
√
1X
n
(aXi + bYi ) − E(aX + bY ) −→D N (0, V (aX + bY )),
n i=1
que puede reescribirse ası́:
´
³ √
√
a n(X n − µX) + b n((Y )n − µY ) −→D
N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y ))
Consideremos la variable aleatoria normal bivariante
µ ¶
µµ ¶ µ
¶¶
U
0
V (X)
Cov(X, Y )
∼ N2
,
.
Cov(X, Y )
V (Y )
V
0
√
La distribución de aU + bV es la misma que la distribución lı́mite de a n(X n −
√
µX) + b n(Y n − µY ), de donde se sigue que
√
√
a n(X n − µX) + b n(Y n − µY ) −→D aU + bV,
y como a y b son arbitrarios se sigue que
√
µµ
n
normal bivariante.
.
4.3.3.
Xn
Yn
¶
µ ¶¶
µ ¶
µX
U
−
−→D
,
µY
V
.
Método delta
En muchos casos, sólo será de interés el comportamiento del estimador alrededor del verdadero valor del parámetro. Si además el estimador es una función
suave de un estadı́stico cuyo comportamiento asintótico es conocido, esa función podrá linealizarse en un entorno del verdadero valor del parámetro, lo cuál
facilitará enormemente el estudio asintótico del estimador.
Ejemplo 59, página 116. Continuación. Queremos estimar θ = P (X =
0) = e−λ . Por el principio de invariancia, el estimador máximo verosı́mil de θ es
θ̂n = e−X n , dado que X n es el estimador máximo verosı́mil de λ.
El teorema 32 garantiza la consistencia de θ̂n , porque X n es consistente para
λ y g(λ) = e−λ es una función continua. Estamos interesados ahora en encontrar
la distribución asintótica de
√
n(θ̂n − θ) =
√
n(e−X n − e−λ ).
La herramienta en la que nos basaremos para hallar esa distribución asintótica
es el método delta.
.
.
Presentaremos en primer lugar el método delta univariante y, más adelante, se generalizará al caso multivariante. En ambos casos, el fundamento
teórico que sustenta el método delta es el desarrollo en serie de Taylor de una
función.
Sea f una función con derivada en el punto a ∈ IR. El desarrollo de primer
orden en serie de Taylor de f alrededor del punto a es
f (x) ≈ f (a) + f 0 (a)(x − a),
es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden
2 en serie de Taylor de f alrededor de a es
1
f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 ,
2
aproximación cuadrática de f (x). El siguiente teorema justifica la aproximación
de una función mediante sus desarrollos de Taylor.
Teorema 33 (Fórmula de Taylor) Si f (x) es una función con r + 1 derivadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene
que
1
f (x) = f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + . . . +
2
1 (r)
1
f (a)(x − a)r +
f (r+1) (α(x, a))(x − a)r+1 ,
r!
(r + 1)!
donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a) − a| ≤ |x − a|.
Demostración: Véase, por ejemplo, Spivak (1970), teorema 19.4.
121
2
El uso que haremos de este teorema será para desarrollos de primer y segundo
orden.
El siguiente resultado será útil a la hora de establecer la distribución asintótica de algunos estimadores. En particular, se usa en la demostración del método
delta.
Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de variables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X
e Yn −→P a, entonces
Xn + Yn −→D X + a,
Xn Yn −→D aX,
si g(x, y) es una función de IR2 en IR continua en (x, a) para todo x del
soporte de X, entonces
g(Xn , Yn ) −→D g(x, y).
Demostración: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del
teorema de la aplicación continua para variables aleatorias definidas en espacios
métricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la
definición de convergencia en distribución (ver, por ejemplo, Schervish 1995,
definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa
cuando se tratan variables aleatorias definidas en IR.
En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostración
de los apartados 1 y 2 en la que se usa la definición de convergencia en distribución basada en la convergencia de las funciones de distribución.
2
Pasamos ahora a enunciar y probar el resultado conocido como método delta.
Teorema 35 (Método delta) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θ̂n una sucesión de estimadores
de θ tales que
an (θ̂n − θ) −→D N (0, σθ2 )
y sea g(x) una función con primera derivada continua en un intervalo que contiene a θ. Entonces
an (g(θ̂n ) − g(θ)) −→D N (0, (g 0 (θ))2 σθ2 ).
Demostración: Por el desarrollo de Taylor de primer orden,
g(θ̂n ) = g(θ)+g 0 (α(θ, θ̂n ))(θ̂n −θ) =⇒ an (g(θ̂n )−g(θ)) = g 0 (α(θ, θ̂n ))an (θ̂n −θ),
donde |α(θ, θ̂n ) − θ| ≤ |θ̂n − θ|. Obsérvese que θ̂n −→P θ. En efecto,
θ̂n − θ =
1
an (θ̂n − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒
an
θ̂n − θ −→P 0 =⇒ α(θ, θ̂n ) −→P θ.
Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 y
Xn = an (θ̂n − θ). Ahora, aplicando el teorema 32, por ser g 0 continua en θ se
tiene que g 0 (α(θ, θ̂n )) −→P g 0 (θ). Aplicando de nuevo el teorema de Slutzky se
obtiene el resultado deseado:
an (g(θ̂n ) − g(θ)) =
g 0 (α(θ, θ̂n )) 0
g (θ)an (θ̂n − θ) −→D
g 0 (θ)
|
{z
}
−→P 1
g 0 (θ)N (0, σθ2 ) =D N (0, (g 0 (θ))2 σθ2 ).
2
La sucesión an que habitualmente aparece es an =
√
n.
Ejemplo 59, página 116. Continuación. Estimamos θ = P (X = 0) = e−λ
√
mediante θ̂n = e−X n . Por otra parte, n(λ̂n − λ) −→D N (0, λ). Además g(λ) =
e−λ es derivable con derivada continua: g 0 (λ) = −e−λ .
Aplicamos el método delta para determinar la distribución asintótica de θ̂n :
√
√
n(θ̂n − θ) = n(e−X n − e−λ ) −→D N (0, e−2λ λ).
.
.
Veremos ahora el método delta multivariante, aplicable cuando el espacio paramétrico es multidimensional y se desea estimar una función real del
parámetro.
Sea f : IRk −→ IR una función con segundas derivadas parciales en el punto
a = (a1 , a2 , . . . , ak ). La versión multivariante del teorema de Taylor garantie
za que esa función puede aproximarse por su desarrollo en serie de Taylor de
segundo orden alrededor de a :
e
2
k
X
∂f( a )
1 ∂ f( a )
e (xi − ai ) +
e (xi − ai )(xj − aj )
f (x1 , . . . , xk ) ≈ f ( a ) +
∂xi
2 ∂xi xj
e
i=1
si x = (x1 , . . . , xk )t está en un entorno de a . La aproximación anterior se puede
e
e
escribir en forma vectorial y matricial:
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ),
e
e
e
e
e
e
e
e e
e
123
donde ∇f ( a ) es el gradiente de f en a , el vector de derivadas parciales
e
e
Ã
!t
∂f( a )
∂f( a )
e ,...,
e
∇f ( a ) =
,
∂x1
∂xk
e
y Hf ( a ) es la matriz hessiana de f en a :
e
e
Ã 2
!
∂ f( a )
e
Hf ( a ) =
∂xi xj
e
1≤i≤k, 1≤j≤k
La aproximación de primer orden se expresa ası́,
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ),
e
e
e
e
e
y es útil para probar el siguiente resultado.
Teorema 36 (Método delta multivariante) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea ˆθ = (θ̂n1 , . . . , θ̂nk )
en
una sucesión de estimadores de θ tales que
e
ˆ
an ( θ − θ ) −→D Nk ( 0 , V ),
en
e
e
y sea g( x ) una función con primeras derivadas parciales continuas en una bola
e
abierta que contiene a θ. Entonces
an (g( ˆθ ) − g( θ )) −→D Nk ( 0 , (∇g(θ))t V (∇g(θ))).
e
e
en
Demostración: Ver, por ejemplo, Arnold (1990), teorema 6-16.
Lo más usual es que la sucesión an sea an =
√
2
n.
Ejemplo 58, página 116. Continuación. Buscaremos la distribución asintótica del estimador del odds-ratio ψ = ψ(p1 , p2 ) = (p2 /(1 − p2 ))((1 − p1 )/p1 ):
µ
¶
X1 X2
X2 (n1 − X1 )
ψ̂n = ψ
,
=
.
n1 n2
(n2 − X2 )X1
En primer lugar, de lo visto en el ejemplo 61 se sigue que
Ãµ ¶ Ã p (1−p )
¶
µ
1
1
√
X2
0
X1
γ1
− p1 ,
− p2 −→D N2
,
n
n1
n2
0
0
0
p2 (1−p2 )
γ2
!!
,
donde γj = lı́m(nj /(n1 + n2 )) > 0, j = 1, 2.
El gradiente de la función ψ(x, y) = (y(1 − x))/(x(1 − y)) tiene por componentes
−y
∂ ψ(x, y)
1−x
∂ ψ(x, y)
=
,
=
.
∂x
(1 − y)x2
∂y
(1 − y)2 x
Ası́,
√
n(ψ̂n − ψ) −→D N (0, σ 2 ),
donde la varianza σ 2 es
µ
¶Ã
−p2
1 − p1
2
σ =
,
(1 − p2 )p21 (1 − p2 )2 p1
µ
p1 (1−p1 )
γ1
0
0
!Ã
p2 (1−p2 )
γ2
−p2
(1−p2 )p21
1−p1
(1−p2 )2 p1
!
=
¶2
µ
¶2
−p2
p1 (1 − p1 )
1 − p1
p2 (1 − p2 )
+
=
2
2
(1 − p2 )p1
γ1
(1 − p2 ) p1
γ2
µ
¶2 µ
¶
p2 (1 − p1 )
1
1
+
=
(1 − p2 )p1
p1 (1 − p1 )γ1
p2 (1 − p2 )γ2
µ
¶
1
1
ψ2
+
.
p1 (1 − p1 )γ1
p2 (1 − p2 )γ2
Por lo tanto, la varianza asintótica de ψ̂n es
µ
¶
σ2
1
1
2
≈ψ
+
.
n
p1 (1 − p1 )n1
p2 (1 − p2 )n2
.
.
4.3.4.
Eficiencia relativa asintótica
Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesión de estimadores de una función
e
τ (θ) que verifica lo siguiente:
√
n(Tn ( X ) − τ (θ)) −→D N (b(θ), σ 2 (θ)).
e
Si b(θ) = 0 diremos que Tn ( X ) es asintóticamente insesgado (en econometrı́a
√
e
se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es
e
asintóticamente sesgado.
Ejemplo 62
Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e idénticamente dis√
tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una
e
constante a 6= 0. Se tiene que
√
√
n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1),
e
luego Tn es asintóticamente sesgado: la diferencia entre la esperanza del esti√
mador y el parámetro estimado, multiplicada por n, no tiende a 0. Obsérvese
que, no obstante, Tn es un estimador consistente de µ:
√
Tn ( X ) = X n + a/ n −→P µ + 0 = µ.
e
.
.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL125
Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de τ (θ) asintóticamente
e
e
normales:
´
√ ³
n Tn ( X ) − τ (θ) −→D N (0, σT2 (θ)),
e
´
√ ³
n Sn ( X ) − τ (θ) −→D N (0, σS2 (θ)).
e
Se define la eficiencia relativa asintótica de Sn respecto a Tn como
ARE(θ, Sn , Tn ) =
1/σS2 (θ)
σT2 (θ)
=
.
1/σT2 (θ)
σS2 (θ)
El valor de la eficiencia relativa asintótica puede interpretarse como el cociente de los tamaños de muestra necesarios para obtener la misma precisión asintótica (o la misma varianza asintótica) mediante los dos estimadores en la estimación de τ (θ). En efecto, si elegimos tamaño muestral m para T y n para S, las
varianzas asintóticas son, respectivamente, σT2 (θ)/m y σS2 (θ)/n. Si forzamos a
que ambas sean iguales, se tiene que
σT2 (θ)
σ 2 (θ)
m
σ 2 (θ)
= S
⇐⇒
= T2
= ARE(θ, Sn , Tn ).
m
n
n
σS (θ)
Es decir, si ARE(θ, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asintóticamente: para tener la misma precisión con el estimador S hace falta una muestra
el doble de grande que si utilizásemos T (ARE = 0,5 = m/n =⇒ n = 2m).
4.4.
Teorı́a asintótica para el estimador máximo
verosı́mil
Sea X una variable aleatoria con función de densidad (o de masa) f (x|θ),
Qn
θ ∈ Θ. Sea L(θ| x n ) = i=1 f (xi |θ) la función de verosimilitud de una muestra
e
de tamaño n de X: X1 , . . . , Xn .
Teorema 37 Supongamos que se verifican las siguientes condiciones:
C1: El parámetro θ es identificable, en el sentido de que distintos valores de θ
dan lugar a distintas distribuciones de probabilidad para X.
C2: El conjunto {x : f (x|θ) > 0} es el mismo para todo θ ∈ Θ.
C3: La cantidad
·
e(θ0 , θ) = Eθ0 log
existe para todo par θ, θ0 en Θ.
Entonces, para todo θ 6= θ0 se verifica que
µ
f (X|θ)
f (X|θ0 )
¶¸
a)
"
Eθ0 log
Ã
L(θ| X n )
e
L(θ0 | X n )
e
!#
< 0.
b)
lı́m Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1.
e
e
n−→∞
Demostración: Probemos a). Si f (x|θ) es una función de densidad, se tiene
que
¸ Z
·
f (x|θ)
f (X|θ)
=
f (x|θ0 )dx = 1.
Eθ0
f (X|θ0 )
f (x|θ0 )
Análogo resultado se obtiene si f (x|θ) es función de masa.
Como log u < u − 1, para todo u ∈ IR − {1}, se tiene que
µ
¶ µ
¶
f (x|θ)
f (x|θ)
log
<
−1
f (x|θ0 )
f (x|θ0 )
salvo si f (x|θ) = f (x|θ0 ). Por la hipótesis C1 eso no puede ocurrir en un conjunto
de x’s de medida 1, luego
" Ã
!#
· µ
¶¸
·
¸
L(θ| X n )
f (x|θ)
f (x|θ)
e
Eθ0 log
= nEθ0 log
< nEθ0
− 1 = 0,
f (x|θ0 )
f (x|θ0 )
L(θ0 | X n )
e
y a) queda probado.
Veamos ahora b). Por la ley débil de los grandes números,
!
Ã
µ
¶
n
L(θ| X n )
1X
1
f (Xi |θ)
e
=
log
log
−→n e(θ0 , θ) en probabilidad.
n
n i=1
f (Xi |θ0 )
L(θ0 | X n )
e
Por a), el lı́mite e(θ0 , θ) es estrictamente menor que 0. Por tanto, si se toma ε,
con 0 < ε < −e(θ0 , θ), se tiene que
¯
(
Ã
!
)
(¯
Ã
!
)
¯
¯1
L(θ| X n )
L(θ| X n )
1
¯
¯
e
e
Pθ0
log
> 0 < Pθ0 ¯ log
− e(θ0 , θ)¯ > ε −→n 0,
¯n
¯
n
L(θ0 | X n )
L(θ0 | X n )
e
e
porque si x > 0, e < 0 y ε < −e, entonces |x − e| = x − e > −e > ε. Pero
(
)
L(θ| X n )
e
Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1 − Pθ0
>1 =
e
e
L(θ0 | X n )
e
!
)
(
Ã
L(θ| X n )
1
e
> 0 −→n 1,
1 − Pθ0
log
n
L(θ0 | X n )
e
lo que completa la prueba.
2
Observar que el apartado b) del teorema puede interpretarse ası́: la verosimilitud es máxima en el verdadero valor θ0 del parámetro, si la muestra es
suficientemente grande.
Teorema 38 Supongamos que además de C1, C2 y C3, se verifican también
C4: Θ es un conjunto abierto.
C5: ∂f (x|θ)/∂θ es continua en θ.
Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una
sucesión {θ̂n }n de raı́ces de la ecuación del score
∂
log L(θ| X n ) = 0
∂θ
e
(la que se resuelve para hallar el estimador de máxima verosimilitud de θ) que
converge al verdadero valor del parámetro θ0 en probabilidad.
Demostración: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definen
los conjuntos
Sn = { x n ∈ X : L(θ0 | x n ) > L(θ0 − ε| x n ) y L(θ0 | x n ) > L(θ0 + ε| x n )}.
e
e
e
e
e
Por el teorema 37,
Pθ0 ( X n ∈ Sn ) −→n 1.
e
La condición C5 implica la continuidad de L(θ| x n ) y de su derivada parcial
e
respecto a θ. Ası́, para todo x n ∈ Sn , debe existir θ̃n = θ̃n ( x n ) ∈ (θ0 −ε, θ0 +ε),
e
e
máximo local de L(θ| x n ). Ese máximo local ha de satisfacer
e
¯
¯
∂
log L(θ| X n )¯¯
= 0.
∂θ
e
θ=θ̃n
Puede haber más de un máximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, más
de una solución de la ecuación del score (también puede haber mı́nimos locales
entre las soluciones). Llamemos θ̂n = θ̂n ( x n ) a la solución más cercana a θ0 que
e
sea máximo local. Entonces |θ̂n − θ0 | < ε y esto es cierto para todo x n ∈ Sn .
e
Por lo tanto
Pθ0 {Xn : |θ̂n ( X n ) − θ0 | < ε} ≥ Pθ0 {Xn ∈ Sn } −→ 1
e
de donde se sigue que
θ̂n −→P θ.
2
El teorema 38 demuestra que siempre existe una raı́z de la ecuación de score
(que además es máximo local) que es consistente. Sin embargo, cuando la raı́z no
es única (cuando no es el único máximo local) la determinación de θ̂n depende
del verdadero valor θ0 , lo cuál hace que θ̂n no sea un estimador del parámetro.
El teorema 38 es realmente interesante cuando la ecuación del score tiene raı́z
única, porque en este caso esa raı́z es el estimador máximo verosı́mil de θ y el
teorema garantiza su consistencia. Si la función de verosimilitud es estrictamente
cóncava, entonces se tiene la unicidad, y como consecuencia la consistencia del
estimador máximo verosı́mil.
El siguiente teorema establece la normalidad asintótica de las sucesiones consistentes de raı́ces de la ecuación del score, cuya existencia garantiza el teorema
38.
Teorema 39 Supongamos que además de verificarse C1, C2, C3, C4 y C5, se
verifican también las hipótesis H1 y H2 del teorema de Cramér-Rao (teorema
25) y la siguiente hipótesis:
3
∂
C6: Existe ∂θ
3 log fθ (x), cuyo valor absoluto está acotado por una función
K(x) tal que Eθ [K(X)] ≤ k.
Sea {θ̂n }n una sucesión consistente de raı́ces de la ecuación del score: θ̂n −→P
θ0 , si θ0 es el verdadero valor del parámetro. Entonces
µ
¶
√
1
n(θ̂n − θ0 ) −→D N 0,
,
I(θ0 )
donde
I(θ0 ) = lı́m
n−→∞
1
I
(θ0 ) = IX (θ0 ).
n Xn
e
Demostración: Hacemos el desarrollo de Taylor de segundo orden de la función
score
∂
S(θ| X n ) =
log L(θ| X n )
∂θ
e
e
en torno a θ0 y la evaluamos en θ̂n :
0 = S(θ̂n | X n ) = S(θ0 | X n )+
e
e
∂
1
∂2
(θ̂n − θ0 ) S(θ0 | X n ) + (θ̂n − θ0 )2 2 S(θ∗ (θ̂n , θ0 )| X n )
∂θ
2
∂θ
e
e
√
donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. Dividiendo la expresión anterior por n se
obtiene la siguiente:
1
0 = √ S(θ0 | X n )+
n
e
¸
·
2
√
1 ∂
1 ∂
∗
S(θ0 | X n ) +
S(θ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) .
n(θ̂n − θ0 )
n ∂θ
2n ∂θ2
e
e
Por otra parte, el teorema central del lı́mite implica que
¯
n
1
1 X ∂ log f (Xi |θ) ¯¯
√ S(θ0 | X n ) = √
−→D N (0, IX (θ0 )),
¯
∂θ
n
n i=1
e
θ=θ0
puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e idénticamente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞.
Además, por la ley débil de los grandes números,
−
¯
n
1 ∂
1 X ∂ 2 log f (Xi |θ) ¯¯
S(θ0 | X n ) = −
−→P
¯
n ∂θ
n i=1
∂θ2
e
θ=θ0
"
#
¯
∂ 2 log f (X|θ) ¯¯
IX (θ0 ) = E −
.
¯
∂θ2
θ=θ0
Usando de nuevo la ley de los grandes números, se tiene que
¯
n ¯
1 X ¯¯ ∂ 3 log f (Xi |θ) ¯¯
1 ∂2
∗
|
S(θ (θ̂n , θ0 )| X n )| ≤
¯ ∗≤
n ∂θ2
n i=1 ¯
∂θ3
e
θ=θ
n
1X
K(Xi ) −→P E(K(X)) ≤ k,
n i=1
2
∂
∗
de donde se sigue que n1 | ∂θ
2 S(θ (θ̂n , θ0 )| X n )| está acotado en probabilidad por
e
k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε
tiende a 1. En definitiva, y dado que θ̂n −→P θ0 , se tiene que
1 ∂2
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) −→P 0.
2n ∂θ2
e
Combinado los resultados anteriores, podemos escribir
√
n(θ̂n − θ0 ) =

−1
 1 ∂

1 ∂2
−
S(θ
|
X
)
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 )
−
0
n
 n ∂θ

2
|
{z e } |2n ∂θ
{z e
}
−→P 0
−→P IX (θ0 )
1
√ S(θ0 | X n )
n
e
|
{z
}
−→D N (0,IX (θ0 ))
y, por el teorema de Slutzky, concluir que
√
n(θ̂n − θ0 ) −→D N
µ
0,
1
IX (θ0 )
¶
.
2
El enunciado del teorema 39 puede generalizarse al caso de variables aleatorias no idénticamente distribuidas. Por eso se expresa la varianza lı́mite del
estimador máximo verosı́mil en términos de I(θ0 ) en lugar de hacerlo directamente en términos de la información de Fisher de X.
El resultado del teorema 39 puede expresarse diciendo que el estimador máximo verosı́mil θ̂n de θ0 es asintóticamente normal:
θ̂n ∼ AN(θ0 , (nIX (θ0 ))−1 ).
Obsérvese que el estimador máximo verosı́mil es asintóticamente insesgado y
asintóticamente eficiente, puesto que su varianza lı́mite coincide con la
cota de Cramér-Rao.
Para basar la inferencia sobre el parámetro θ en ese resultado es preciso
estimar la información de Fisher I (θ0 ) = nIX (θ0 ). El siguiente resultado
X
e
proporciona dos estimadores de esa cantidad.
Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los estadı́sticos On y En definidos como
¯
∂ 2 log L(θ| X n ) ¯¯
e
,
On = −
¯
¯
∂θ2
θ=θ̂n
En = I
(θ̂ ),
Xn n
e
divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la
información observada evaluada en el máximo, como En , la información
esperada evaluada en el máximo, estiman consistentemente la información de
Fisher contenida en la muestra acerca del parámetro.
Demostración:
¯
2
On
1 ∂ log L(θ| X n ) ¯¯
e
=−
=
¯
¯
n
n
∂θ2
θ=θ̂n
¯
¯
2
3
¯
1 ∂ log L(θ| X n ) ¯
1 ∂ log L(θ| X n ) ¯¯
e
e
−
−
¯
¯
¯
¯ ∗
n
∂θ2
n
∂θ3
θ=θ0
(θ̂n − θ0 )
θ=θ (θ0 ,θ̂n )
donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. El término de las derivadas terceras tiende
a 0 en probabilidad mientras que el primer término converge en probabilidad a
IX (θ0 ), por la ley de los grandes números (ver la demostración del teorema 39).
Por otra parte,
1
En
= I
(θ̂n ) = IX (θ̂n ) −→P IX (θ0 )
n
n Xn
e
por la consistencia de θ̂n y la continuidad de IX (θ), (garantizada por la condición
C6).
2
Podemos escribir entonces que el estimador máximo verosı́mil θ̂n de θ es
¶
µ
¶
µ
1
1
o θ̂n ∼ AN θ0 ,
.
θ̂n ∼ AN θ0 ,
On
En
En general, si se está estimando una transformación suave del parámetro
τ (θ) por máxima verosimilitud se tiene que
µ
¶
√
(τ 0 (θ0 ))2
n(τ (θ̂n ) − τ (θ0 )) −→D N 0,
.
IX (θ0 )
Ejemplo 63
Estimación máximo verosı́mil de un parámetro de la distribución de
Weibull.
Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β):
2 −x2 /β
xe
, 0 ≤ x ≤ ∞, β > 0.
β
Ã n !
Pn
2
2n Y
L(β| x n ) = n
xi e−( i=1 Xi )/β
β
e
i=1
f (x, β) =
n
1X 2
l (β| x n ) = K − n log β −
X
β i=1 i
e
n
n
1 X 2
∂
S(β| x n ) =
l (β| x n ) = − + 2
X
∂β
β
β i=1 i
e
e
n
1X 2
X
S(β| X n ) = 0 =⇒ β̂n =
n i=1 i
e
Ã
!¯
n
¯
¯
X
n
2
n
¯
2 ¯
S 0 (β| X n )¯
=
<0
−
X
=−
¯
i
2
3
¯
β
β
β=
β̂
n
e
β̂n2
i=1
β=β̂n
Por lo tanto la verosimilitud es estrictamente cóncava y β̂n es la única solución de
la ecuación del score, ası́ que es un máximo (es el estimador máximo verosı́mil)
y es estimador consistente de β.
La información observada es
−
n
∂ 2 l (β|Xn )
n
2 X 2
0
X
=
−S
(β|
X
)
=
−
+
n
∂β 2
β2
β 3 i=1 i
e
que evaluada en el estimador máximo verosı́mil vale
Ã
!¯
n
¯
n
2 X 2 ¯¯
¯
0
On = −S (β| X n )¯
= − 2+ 3
X ¯
β
β i=1 i ¯
β=β̂n
e
=
β=β̂n
n
β̂n2
n3
= Pn
i=1
Xi2
.
Por su parte, la información esperada (la información de Fisher, de hecho) es
n
2n
n
2n
n
(β) = −E(S 0 (β| X n )) = − 2 + 3 E(X 2 ) = − 2 + 3 β = 2 ,
Xn
β
β
β
β
β
e
e
que evaluada en el estimador máximo verosı́mil vale
I
En = I
X
e
n
(β̂n ) =
n
β̂n2
n3
= Pn
i=1
Xi2
= On .
Ası́ pues, en este ejemplo, tanto la información observada como la esperada valen
lo mismo al ser evaluadas en el estimador máximo verosı́mil y, por lo tanto, sólo
tenemos un estimador consistente de la información de Fisher.
Volvamos a la expresión del logaritmo de la verosimilitud para deducir (por
el corolario 4) que el estimador máximo verosı́mil también es el UMVUE en este
problema:
n
∂
1X 2
X =⇒
l (β| x n ) =
l (β| x n ) = K − n log β −
β i=1 i
∂β
e
e
µ Pn
¶
n
2
1 X 2
n
n
i=1 Xi
−β .
− + 2
Xi = 2
β
β i=1
β
n
Por otra parte,
1
β0
l (β| X n ) −→P − log β −
= Eβ0 [log f (X|β)]
n
β
e
y si derivamos respecto a β,
∂
β0 − β
Eβ0 [log f (X|β)] =
∂β
β2
de donde se sigue que Eβ0 [log f (X|β)] alcanza su máximo en β = β0 .
Tenemos ası́ que l (β| X n )/n se maximiza en β̂n y que Eβ0 [log f (X|β)] se
e
maximiza en β0 . Además, la diferencia entre l (β| X n )/n y Eβ0 [log f (X|β)] es
e
pequeña y va a 0 cuando n crece, y las dos funciones varı́an suavemente en β.
De ello se desprende que la diferencia entre los puntos que las maximizan, β0 y
β̂n , han de ser también pequeñas y deben ir a 0 cuando n crece, por lo tanto
β̂n −→P β0 .
Eβ(log f(X|β))
l(β|Xn,1)/n
β
.
β
β
l(β|Xn,2)/n
β
.
Ejemplo 64
En este ejemplo extendemos los resultados uniparamétricos al caso multiparamétrico.
Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi ),
i = 1, . . . , n, que siguen el modelo de regresión logı́stico, es decir, existen covariantes Z1 , . . . , Zn y parámetros desconocidos α y β tales que
¶
µ
pi
= α + βZi , i = 1, . . . , n.
log
1 − pi
Es posible despejar pi :
pi =
exp(α + βZi )
.
1 + exp(α + βZi )
Ello permite escribir la verosimilitud de la muestra:
¶yi
n
n µ
Y
Y
pi
L(α, β) =
pyi i (1 − pi )1−yi =
(1 − pi ).
1 − pi
i=1
i=1
El logaritmo de la verosimilitud es
µ
¶
¶
n µ
X
pi
l (α, β) =
yi log
+ log(1 − pi ) =
1 − pi
i=1
µ
n µ
X
yi (α + βZi ) + log
i=1
1
1 + exp(α + βZi )
¶¶
Las ecuaciones de los scores son éstas:
¶ X
n µ
n
∂ l (α, β) X
exp(α + βZi )
=
=
Yi −
(Yi − pi ),
∂α
1 + exp(α + βZi )
i=1
i=1
¶ X
n µ
n
Zi exp(α + βZi )
∂ l (α, β) X
=
Yi Zi −
=
Zi (Yi − pi ).
∂β
1 + exp(α + βZi )
i=1
i=1
Estas ecuaciones se resuelven por métodos numéricos genéricos o bien aplicando
algoritmos especı́ficos para este problema que consisten en la iteración de estimaciones por mı́nimos cuadrados ponderados. Sobre este tema pueden verse,
por ejemplo, la sección 10.3 de Garthwaite, Jollife y Jones (1995), o la sección
14.5.2 de Peña (1995).
Las componentes de la matriz de información observada son
n
−
∂ 2 l (α, β) X
=
pi (1 − pi ),
∂α2
i=1
n
−
∂ 2 l (α, β) X
=
Zi pi (1 − pi ),
∂αβ
i=1
n
−
∂ 2 l (α, β) X 2
=
Zi pi (1 − pi ).
∂β 2
i=1
Como la matriz de información observada no depende de las variables aleatorias
Yi , esta matriz coincide con su esperanza: la matriz de información de Fisher.
La matriz de información asintótica tiene por componente (l, m), l = 1, 2,
m = 1, 2,
n
1 X l+m−2
Ilm (α, β) = n lı́m
Zi
pi (1 − pi )
n−→∞ n
i=1
y son necesarias condiciones sobre la sucesión de covariantes Zi que garantizen
la existencia de estos lı́mites. Una posibilidad es suponer que las Zi son variables
aleatorias independientes e idénticamente distribuidas, con lo cual el problema
se convierte en uno de variables aleatorias independientes e idénticamente distribuidas puro.
.
.
Ejemplo 56, página 109. Continuación. Veremos ahora que el método de
máxima verosimilitud no es el único que da lugar a estimadores asintóticamente
eficientes.
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) =
e−λ . Sabemos que
µ
¶Pn Xi
i=1
n−1
θ̂n =
n
es el UMVUE de θ = e−λ . Sabemos también que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos.
Estudiaremos su distribución asintótica tomando logaritmos y usando el
método delta:
log(θ̂n ) =
n
X
i=1
Sabemos que
ejemplo,
√
Xi log
n−1
= X n (n log(1 − 1/n)) .
n
n(X n − λ) −→D N (0, λ) y que, como veremos al final de este
n log(1 − 1/n) −→n −1 y
√
n [1 + n log(1 − 1/n)] −→n 0.
Ası́,
√
n(log θ̂n − log θ) =
√
n(log θ̂n + λ) =
¢
√ ¡
n X n n log(1 − 1/n) + λ =
√
√
[n log(1 − 1/n)] n(X n − λ) + λ n [1 + n log(1 − 1/n)] −→D N (0, λ).
Por lo tanto, aplicando el método delta para τ (λ) = e−λ ,
√
n(θ̂n − e−λ ) −→D N (0, e−2λ λ).
Ya habı́amos visto que la cota de Cramér-Rao es
(τ 0 (λ))2
= λe−2λ ,
I(λ)
Luego se tiene que θ̂n es asintóticamente eficiente, al igual que lo era el estimador
de máxima verosimilitud e−X n tal como se vio en el ejemplo 59, página 116.
√
Falta por comprobar que se da la convergencia n [1 + n log(1 − 1/n)] −→n
0. Para probarlo, llamemos l al lı́mite y observemos que
¡
¢x
1 + log 1 − x1
√
l = lı́m
.
x−→∞
1/ x
Aplicando la regla de l’Hôpital y operando se llega a que
"
#
¡
¢x
x
1 − x−1
1 + log 1 − x1
√
√
= −2l − 2 · 0 = −2l,
l = 2 − lı́m
− lı́m
x−→∞
x−→∞ 1/ x
1/ x
de donde se sigue que l = 0.
.
.
4.5.
Lista de problemas
Error cuadrático medio. Estimadores insesgados. Optimalidad
1. Sea X ∼ N (0, σ 2 ). Se toma una m.a.s. de X de tamaño n.
a) Construye a partir de ella dos estimadores insesgados de σ, uno dependiente de la suma de los cuadrados de las observaciones y otro de
la suma de sus valores absolutos.
b) Compara sus varianzas.
2. Considera los tres estimadores máximo verosı́miles de θ correspondientes a
los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema
11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una
de las tres situaciones descritas en esos problemas y calcula la varianza de
cada estimador en cada situación.
3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1 , . . . , Yn variables aleatorias
independientes que satisfacen
Yi = βxi + εi , i = 1, . . . , n,
donde x1 , . . . , xn son constantes conocidas, ε1 , . . . , εn son v.a.i.i.d. según
N (0, σ 2 ), σ 2 desconocido.
a) Da un estadı́stico bidimensional suficiente para (β, σ 2 ).
b) Halla el estadı́stico máximo verosı́mil de β (llámalo β̂1 ), prueba que
es centrado y da su distribución.
c) Comprueba que
Pn
Yi
β̂2 = Pi=1
n
i=1 xi
es estimador insesgado de β.
d ) Comprueba que
n
β̂3 =
1 X Yi
n i=1 xi
es estimador insesgado de β.
e) Compara las varianzas de los tres estimadores de β.
4. (Casella-Berger, 7.39) Sea X1 , . . . , Xn una muestra de una población con
esperanza µ ∈ IR y varianza σ 2 > 0.
Pn
a) Prueba que un estimador de la forma i=1 ai Xi es insesgado para µ
Pn
si y sólo si i=1 ai = 1.
b) Entre todos los estimadores de esta forma (llamados estimadores lineales insesgados) encuentra aquél que tenga varianza mı́nima.
137
5. (Casella-Berger, 7.40) Sean W1 , . . . , Wk estimadores insesgados de un parámetro θ con varianzas V (Wi ) = σi2 , y Cov(Wi , Wj ) = 0 si i 6= j.
P
a) Prueba que entre todos los estimadores de θ de la forma
ai Wi con
P
a1 , . . . , ak constantes y E( ai Wi ) = θ, el que menor varianza tiene
es
P
Wi /σi2
∗
.
W = P
1/σi2
b) Calcula la varianza de W ∗ .
6. (Casella-Berger, 7.41) Sea X1 , . . . , Xn una muestra de X ∼ N (θ, σ 2 = 1).
a) Comprueba que la cota de Cramér-Rao para la estimación de θ2 es
4θ2 /n.
2
b) Muestra que el mejor estimador insesgado de θ2 es X − (1/n).
c) Calcula su varianza (Indicación: Usa la identidad de Stein, que puedes encontrar en Casella-Berger, sección 4.7).
d ) Comprueba que este estimador no alcanza la cota de Cramér-Rao
para la estimación de θ2 .
7. (Casella-Berger, 7.42) Sean X1 , X2 y X3 una m.a.s. de una U (θ, 2θ), θ > 0.
a) Dar el estimador de los momentos de θ y llámalo θ̂1 .
b) Dar el estimador máximo verosı́mil de θ, al que llamaremos θ̂2 , y
encontrar una constante k tal que k θ̂2 sea insesgado para θ.
c) ¿Cuál de esos dos estimadores puede ser mejorado mediante el uso
de un estadı́stico suficiente? ¿Cómo se mejora? Llama θ̂3 al etimador
mejorado.
d ) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una
U (θ, 2θ). Utiliza los tres estimadores propuestos en los apartados anteriores para estimar θ a partir de esos datos.
8. (Casella-Berger, 7.43) Se mide el radio de un cı́rculo con un error aleatorio
distribuido como una N (0, σ 2 ). Se toman n medidas independientes del
radio.
a) Proponer un estimador insesgado del área del cı́rculo.
b) ¿Es el mejor estimador insesgado?
c) ¿Alcanza la cota de Cramér-Rao?
9. En cada una de las tres situaciones descritas en los problemas 14, 15 y
16 de la lista 1.6, ¿alcanza el estimador máximo verosı́mil correspondiente
la cota de Cramér-Rao? (Nota: los estimadores fueron calculados en el
problema 11 de la lista 3.4.)
10. (Casella-Berger, 7.51) Sean X1 , . . . , Xn v.a.i.i.d. según una Bern(p).
a) Muestra que el estimador máximo verosı́mil de p es insesgado y alcanza la cota de Cramér-Rao.
b) Para n ≥ 4, prueba que el producto X1 X2 X3 X4 es un estimador
insesgado de p4 .
c) Utiliza el apartado anterior para encontrar el mejor estimador insesgado de p4 .
11. (Casella-Berger, 7.44) Sean X1 , . . . , Xn v.a.i.i.d. con función de distribución F (x; θ) y sean Y1 , . . . , Ym v.a.i.i.d. con función de distribución G(x; µ).
Se supone que ambos grupos de variables son independientes. Se supone
que los estadı́sticos T = T (X1 , . . . , Xn ) y W = W (X1 , . . . , Xn ) son estadı́sticos suficientes y completos para θ y µ, respectivamente, y que
Eθ (T ) = θ, Vθ (T ) < ∞, Eµ (W ) = µ, Vµ (W ) < ∞.
Encuentra el mejor estimador insesgado de θµ.
12. (Ex. junio 2000) Sea X ∼ N (µ, 1). Queremos estimar θ = µ2 a partir de
una observación de X.
a) Indica si los tres estimadores de θ siguientes,
θ̂1 = X 2 − 1, θ̂2 = X 2 , θ̂3 = X 2 + 1,
se pueden obtener como resultado de buscar los siguientes estimadores de θ:
1) el estimador máximo verosı́mil,
2) el estimador insesgado uniformemente de mı́nima varianza (UMVUE),
3) el estimador Bayes si la función de pérdida es cuadrática y la
distribución a priori de µ es plana (es decir, π(µ) es constante).
b) Calcula el error cuadrático medio de los estimadores θ̂i , i = 1, 2, 3.
¿Hay algún estimador inadmisible?
c) Da un estimador que sea mejor que los tres anteriores en términos
de error cuadrático medio. (Indicación: Recuerda que θ = µ2 > 0.
¿Con qué probabilidad será negativo θ̂1 ?).
d ) ¿El estimador UMVUE alcanza la cota de Cramér-Rao?
Comportamiento asintótico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que
Eθ (Xi ) = θ + b, Vθ (Xi ) = σ 2 < ∞,
con b 6= 0 conocida.
139
a) Prueba que X no es un estimador consistente de θ.
b) Define un estimador insesgado de θ que sea consistente.
14. (Casella-Berger, 7.62) Sea la m.a.s. X1 , . . . , Xn de X ∼ f (x; θ) = 0,5(1 +
θx)I(−1,1) (x), donde −1 < θ < 1. Dar un estimador consistente de θ y
probar que lo es.
15. (Casella-Berger, 7.63) Se toma una m.a.s. X1 , . . . , Xn de X ∼ N (θ, θ), con
V (X) = θ > 0.
a) Prueba que el estimador máximo verosı́mil de θ, θ̂, es una raı́z de la
Pn
ecuación de segundo grado θ2 +θ−W = 0, donde W = (1/n) i=1 Xi2 ,
y determina cuál de las dos raı́ces es el estimador máximo verosı́mil.
b) Da una aproximación de la varianza de θ̂ utilizando las propiedades
asintóticas del estimador máximo verosı́mil.
c) Da una aproximación de la varianza de θ̂ utilizando aproximaciones
por series de Taylor.
16. (Casella-Berger, 7.64) Una variación del modelo propuesto en el ejercicio
3 consiste en permitir que los regresores sean variables aleatorias independientes e idénticamente distribuidas: se tienen n variables aleatorias
Y1 , . . . , Yn que satisfacen
Yi = βXi + εi , i = 1, . . . , n,
donde X1 , . . . , Xn son v.a.i.i.d. según una N (µ, τ 2 ), µ 6= 0, y ε1 , . . . , εn son
v.a.i.i.d. según una N (0, σ 2 ), y las variables X’s y las ε’s son independientes. La varianza de los tres estimadores que se proponı́an en aquel ejercicio
es difı́cil de calcular exactamente, por lo que es conveniente encontrar sus
valores aproximados.
Aproxima en términos de µ, σ 2 y τ 2 las esperanzas y varianzas de los
estimadores siguientes:
Pn
Xi Yi / i=1 Xi2 .
Pn
b)
Yi / i=1 Xi .
Pn
c) (1/n) i=1 (Yi /Xi ).
a)
Pn
i=1
Pn
i=1
17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p̂ el
estimador máximo verosı́mil de p construido a partir de X. La varianza
de p̂ es p(1 − p)/n, que puede estimarse mediante p̂(1 − p̂)/n.
a) Calcula la esperanza de p̂(1 − p̂).
b) Usa un desarrollo de Taylor para aproximar la varianza de p̂(1 − p̂).
c) ¿Presenta la aproximación anterior algún problema?
18. (Examen junio 2000) Consideremos muestras de tamaño n de X ∼ N (µ, 1)
y el problema de estimar γ = eµ . Tomamos como estimador de γ
γ̂ = eX .
Da su distribución asintótica y usa el método delta para aproximar su
sesgo.
19. (Examen julio 2000) Sea X una variable aleatoria con función de densidad
f (x; a, λ) = λe−λ(x−a) I[a,∞) (x)
con a ∈ R y λ > 0.
a) Calcula los estimadores de máxima verosimilitud de a y λ.
A partir de ahora supondremos que a es conocido.
b) Da la expresión del estimador máximo verosı́mil de λ, λ̂, e indica cuál
es su distribución asintótica.
c) Queremos estimar σ 2 = V (X) = 1/λ2 . ¿Qué estimador es asintóticamente más recomendable, σ̂12 o σ̂22 , donde
σ̂12 =
1
λ̂2
n
, σ̂22 = S 2 =
1 X
(Xi − X)2 ?
n − 1 i=1
Indicaciones:
El coeficiente de apuntamiento de una v.a. Y se define como
CAp(Y ) = E[(Y − E(Y ))4 ]/V (Y )2 .
Si Y ∼ Exp(λ) entonces CAp(Y ) = 9.
Si θ4 = E[(Y − E(Y ))4 ] y θ2 = V (Y ), entonces
µ
¶
1
n−3 2
V (S 2 ) =
θ4 −
θ2
n
n−1
Si Y es la media aritmética de una m.a.s. de tamaño n de Y ∼
Exp(λ), entonces
4
E(Y ) =
6n2 + 3n + 14
1
+
λ4
n 3 λ4
d ) Usa el método delta para dar la expresión aproximada del sesgo de
e1/(X−a) como estimador de eλ .
Capı́tulo 5
Contrastes de hipótesis
Referencias: Casella-Berger, capı́tulo 8 y Garthwaite, Jollife y
Jones (1995), capı́tulo 4, referencias generales; Garthwaite, Jollife y
Jones (1995), sección 7.4., para contrastes bayesianos;
Una hipótesis estadı́stica es una conjetura o una afirmación sobre la
distribución de una o más variables aleatorias. Un contraste de hipótesis
(o un test de hipótesis o una prueba de hipótesis) es un procedimiento
para decidir si se acepta o se rechaza una hipótesis.
5.1.
Definiciones básicas. Contraste de hipótesis
simples
Usualmente se dispone de una muestra X1 , . . . , Xn de una variable aleatoria
X con distribución F y función de densidad (o función de masa) f . Sobre la
distribución de X se realizan dos afirmaciones entre las que se debe decidir. En
general esas dos afirmaciones serán excluyentes. El tratamiento que se da a las
dos hipótesis no es simétrico y esto se refleja en el nombre que reciben: una se
llama hipótesis nula y la otra hipótesis alternativa. Se denotan por H0 y
H1 , respectivamente. Se dice que en un test de hipótesis se contrasta H0 frente
a H1 .
La hipótesis nula es más conservadora en el sentido de que no será rechazada
a menos que la evidencia muestral en su contra sea muy clara. Esta hipótesis
suele establecer un modelo sencillo para la distribución de X (por ejemplo, si
F pertenece a una familia paramétrica, H0 fija el valor del parámetro) o bien
propone como distribución de X aquella que es comúnmente aceptada como una
buena descripción del fenómeno que modeliza X.
La hipótesis alternativa especifica el tipo de alejamiento de la hipótesis nula
que podrı́a presentar la distribución de X. Puede expresar un modelo gene141
142
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
ral que incluya a H0 como caso particular. Si un investigador considera que un
fenómeno aleatorio no ha estado adecuadamente modelizado hasta ese momento
y cree tener una explicación más satisfactoria, propondrá ésta como hipótesis alternativa y el modelo vigente como hipótesis nula. Sólo si hay evidencia muestral
suficiente para rechazar la hipótesis nula, será aceptada la hipótesis alternativa.
Podemos distinguir tres tipos de pruebas de hipótesis:
A. Suponemos que F (y f ) pertenecen a una cierta familia paramétrica indexada por un parámetro θ ∈ Θ y planteamos el contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
B. Contrastes de bondad de ajuste (goodness-of-fit tests, en inglés):
½
H0 : f = f 0
H1 : f 6= f0
C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a la
misma familia paramétrica, se plantea el contraste
½
H0 : f = f 0
H1 : f = f 1
Una hipótesis simple es aquella que especifica completamente la distribución de X. En otro caso, se dice que la afirmación es una hipótesis compuesta.
Por ejemplo, si f ∈ {fθ : θ ∈ Θ ⊆ IR}, la hipótesis H : θ = θ0 es una hipótesis
simple. La hipótesis H : θ > θ0 es compuesta.
Supongamos que se contrasta H0 frente a H1 . Cuando se observa la muestra
x = (x1 , . . . , xn ) se debe decidir si ésta presenta o no evidencia suficiente para
e
rechazar H0 . El subconjunto C del espacio muestral X n de muestras para las
cuáles se decide rechazar la hipótesis nula en favor de la alternativa se llama
región crı́tica o región de rechazo del contraste. El complementario de C
se llama región de aceptación. Un contraste queda definido por su región
crı́tica C.
5.1.1.
Tipos de errores
Al realizar un contraste de hipótesis se pueden cometer dos tipos de errores:
rechazar la hipótesis nula siendo ésta cierta (error de tipo I), o no rechazarla
cuando es falsa (error de tipo II). El error de tipo I se considera más grave
que el error de tipo II, dado que la hipótesis nula es siempre la más conservadora.
El siguiente esquema ilustra las diversas situaciones.
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES143
REALIDAD
H0
cierta
H0
falsa
DECISIÓN
Aceptar H0 Rechazar H0
Decisión
Error de
correcta
TIPO I
Error de
Decisión
TIPO II
correcta
Las probabilidades de cometer un error son
P ( X ∈ C|H0 cierta) y P ( X 6∈ C|H0 falsa).
e
e
Es deseable disponer de contrastes que tengan probabilidades de errores bajas.
Pero en general no es posible diseñar contrastes que tengan ambas probabilidades pequeñas: cuando un contraste se modifica para reducir su probabilidad
de error de tipo I, esta modificación conlleva un aumento de la probabilidad de
error de tipo II, y viceversa. Obsérvese que si se desea reducir la probabilidad
del error de tipo I, α = PF ( X ∈ C|H0 ), se habrán de reducir los puntos de
e
la región crı́tica C, pero ello implica que el conjunto C, complementario de C,
aumenta y ası́ la probabilidad de error de tipo II, β = PF ( X ∈ C|H1 ), también
e
crecerá en general.
Dado que el error de tipo I se ha considerado más grave que el error de tipo II,
la práctica habitual en el contraste de hipótesis es considerar únicamente pruebas
que garantizan que la probabilidad de cometer un error de tipo I será inferior
a un valor dado α suficientemente pequeño (por ejemplo, α = 0,01, 0.05 o 0.1)
y buscar entre todas ellas aquélla que hace mı́nima la probabilidad de cometer
un error de tipo II. Al valor α se le llama nivel de significación del test.
Si el menor valor obtenido β para la probabilidad de error de tipo II es
inaceptablemente grande, pueden tomarse dos medidas para reducirlo:
aumentar la probabilidad de error de tipo I α permitida, o
aumentar el tamaño de la muestra.
Supongamos que la distribución de X pertenece a una familia paramétrica
{fθ : θ ∈ Θ} y se contrasta
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Se define la función de potencia η(θ) del
contraste como
½
probabilidad de error de tipo I
si θ ∈ Θ0
η(θ) = Pθ ( X ∈ C) =
1
−
probabilidad
de
error
de
tipo
II
si
θ ∈ Θ1
e
Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene
tamaño α si
sup η(θ) = α.
θ∈Θ0
144
Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene
nivel de significación α si
sup η(θ) ≤ α.
θ∈Θ0
El conjunto de contrastes con nivel de significación α contiene las pruebas de
tamaño α.
Un contraste que minimiza β = Pθ ( X ∈ C|H1 ) entre aquellos que tienen
e
tamaño α se dice que es el contraste más potente de tamaño α o el mejor
contraste de tamaño α.
5.1.2.
Lema de Neyman-Pearson
El siguiente resultado determina cuál es el contraste más potente cuando se
contrasta una hipótesis nula simple frente a una alternativa simple.
Teorema 41 (Lema de Neyman-Pearson) Sea X1 , . . . , Xn una muestra aleatoria simple de X con función de densidad (o función de masa de probabilidad)
f (x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1 . Si L(θ| x ) es la
e
función de verosimilitud, el mejor contraste de tamaño α tiene región crı́tica de
la forma
(
)
L(θ1 | x )
n
e ≥A
C= x ∈X :
e
L(θ0 | x )
e
para algún A > 0.
Demostración: Haremos la demostración sólo en el caso de distribución absolutamente continua. La prueba en el caso discreto es análoga (basta cambiar
integrales por sumatorios y funciones de densidad por funciones de masa de
probabilidad) si el nivel α puede alcanzarse exactamente con los valores de la
función de masa bajo H0 (en caso contrario hay que recurrir a un contraste
aleatorizado; sobre este tema se darán referencias cuando se presente el ejemplo
66). En Vélez y Garcı́a (1993), páginas 338-339, puede verse una demostración
válida para el caso discreto y el absolutamente continuo.
Sea A tal que Pθ0 ( x ∈ C) = α, donde C = { x ∈ X n : L(θ1 | x )/L(θ0 | x ) ≥
e
e
e
e
A}. Sea C ∗ la región crı́tica de otro test de tamaño α. Queremos probar que
β = Pθ1 ( x ∈ C) ≤ β ∗ = Pθ1 ( x ∈ C ∗ ).
e
e
Calculemos la diferencia β ∗ − β:
Z
Z
β∗ − β =
L(θ1 | x )d x −
L(θ1 | x )d x =
e e
e e
x ∈C ∗
x ∈C
e
e
Z
Z
L(θ1 | x )d x +
L(θ1 | x )d x −
e e
e e
x ∈C ∗ ∩C
x ∈C ∗ ∩C
e
e
Z
Z
L(θ1 | x )d x −
L(θ1 | x )d x =
e e
e e
x ∈C∩C ∗
x ∈C∩C ∗
Ze
Ze
L(θ1 | x )d x −
L(θ1 | x )d x ≥
e e
e e
x ∈C ∗ ∩C
x ∈C∩C ∗
Ze
Z e
A L(θ0 | x )d x =
A L(θ0 | x )d x −
e e
e e
x ∈C∩C ∗
x ∈C ∗ ∩C
e
e"
Z
Z
A
Z
"Z
x ∈C ∗ ∩C
e
x ∈C∩C ∗
e
L(θ0 | x )d x +
e e
L(θ0 | x )d x −
e e
L(θ0 | x )d x −
e e
x ∈C ∗
e
A
Z
Z
x ∈C ∗ ∩C
e
L(θ0 | x )d x −
e e
#
L(θ0 | x )d x
e e
x ∈C∩C ∗
e
#
x ∈C
e
=
L(θ0 | x ) = A(α − α) = 0.
e
2
El contraste que se propone en el Lema de Neyman-Pearson se denomina
también test de la razón de verosimilitudes.
Ejemplo 65
Test Z.
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido.
Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 .
Nuestra intuición nos dice que se debe rechazar H0 si se observan valores
grandes de x. Veamos que la aplicación del Lema de Neyman-Pearson conduce
a esta solución.
La función de verosimilitud de una muestra es
½
¾
1
L(µ| x ) = (2πσ 2 )−n/2 exp − 2 Σni=1 (xi − µ)2
2σ
e
y el cociente de verosimilitudes
ª
©
L(µ1 | x )
(2πσ 2 )−n/2 exp − 2σ1 2 Σni=1 (xi − µ1 )2
© 1 n
ª=
e =
(2πσ 2 )−n/2 exp − 2σ2 Σi=1 (xi − µ0 )2
L(µ0 | x )
e
¾
½
¢
1 n ¡
2
2
=
Σ
(xi − µ0 ) − (xi − µ1 )
exp
2σ 2 i=1
½
¾
¢
1 ¡
2
2
2
exp
n
2x(µ
−
µ
)
+
(µ
−
µ
)
1
0
0
1
2σ 2
Ası́, la región crı́tica del test de Neyman-Pearson tiene la forma
C = { x : exp{n(2x(µ1 − µ0 )2 + (µ20 − µ21 ))/2σ 2 } ≥ A}.
e
146
Vemos que el cociente de verosimilitudes es función creciente del estadı́stico
minimal suficiente x porque µ1 − µ0 > 0, y por tanto la región crı́tica puede
escribirse ası́:
C = { x : x ≥ B}.
e
En este caso las constantes A y B se relacionan de este modo:
B=
µ1 + µ0
σ 2 log(A)
+
.
n(µ1 − µ0 )
2
Sin embargo no es necesario calcular B a partir de A, sino que es posible determinar su valor teniendo en cuenta que el contraste que se propone tiene tamaño
α:
P (C|H0 ) = P (X ≥ B|H0 ) = α
Bajo H0 la distribución de la media muestral es X ∼ N (µ0 , σ 2 /n), de donde se
deduce que el valor de B debe ser
σ
B = µ0 + zα √ .
n
Supongamos que µ0 = 5, µ1 = 6, σ 2 = 1 y α = 0,05 y se toman muestras
de tamaño n = 4. Acabamos de ver que rechazaremos H0 : µ = 5 en favor de
√
H1 : µ = 6 si X ≥ µ0 + zα σ/ n = 5,8225, o equivalentemente si
Z=
X n − µ0
Xn − 5
√
√ ≥ 1,645.
=
σ/ n
1/ 4
Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media
e
muestral vale x = 5,2. Como
z=
x−5
√ = 0,4 6≥ 1,645
1/ 4
no se rechaza H0 .
Este contraste se denomina test Z porque usa el estadı́stico Z =
µ0 )/σ, que tiene distribución N (0, 1) bajo H0 .
.
√
n(X n −
.
Ejemplo 66
Sean Y1 , . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar
½
H0 : p = p0
H1 : p = p1
Pn
con p1 > p0 . Sea X = i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es
µ ¶
n x
L(p|x) =
p (1 − p)n−x .
x
Calculamos el logaritmo del cociente de verosimilitudes:
µ
¶
µ x
¶
L(p1 |x)
p1 (1 − p1 )n−x
log
= log
=
L(p0 |x)
px0 (1 − p0 )n−x
x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 ))
Ası́, la región crı́tica del test de Neyman-Pearson será
C = {x : x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 )) ≥ log A} =
{x : x[log(p1 /p0 ) − log((1 − p1 )/(1 − p0 ))] ≥ −n log((1 − p1 )/(1 − p0 )) + log A} =



log(A) − n log((1 − p1 )/(1 − p0 )) 
³
´
x:x≥B=


log p1 (1−p0 )
p0 (1−p1 )
Para determinar el valor de B usaremos el hecho de que la distribución de X es
conocida bajo H0 y que se desea definir un test con tamaño α.
Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B
se obtienen contrastes con diferentes tamaños α y potencias β:
B
α
β
0
1.000
0.000
3
0.945
<0.001
7
0.172
0.121
8
0.055
0.322
9
0.011
0.624
Vemos que no es posible construir un contraste de tamaño α para todos los
valores α ∈ [0, 1]. Si por ejemplo queremos tener un contraste de tamaño α =
0,05 hay tres formas de actuar:
considerar que α = 0,055 es suficientemente próximo a 0,05 y rechazar H0
si x ≥ 8,
Pensar que 0.05 es la máxima probabilidad de error de tipo I aceptable y,
por tanto, rechazar H0 si x ≥ 9, dando lugar a α = 0,011,
Rechazar H0 si x ≥ 9, aceptar H0 si x ≤ 7 y en el caso de que x = 8
aleatorizar la decisión: rechazar H0 con probabilidad τ y aceptarla con
probabilidad (1 − τ ), eligiendo τ de forma que se consiga un tamaño exactamente igual a α = 0,05. En este ejemplo τ es 0,8864. Este tipo de
contrastes se denominan tests aleatorizados.
En este curso no consideraremos los tests aleatorizados. En el capı́tulo 18
de Cristóbal (1992), por ejemplo, se desarrolla la teorı́a de los contrastes de
hipótesis incluyendo la posibilidad de que éstos sean aleatorizados.
.
.
148
En los dos ejemplos anteriores hemos visto que el mejor test de tamaño
α depende de las observaciones sólo a través del valor que en ellas toma el
estadı́stico minimal suficiente del parámetro de interés. El siguiente corolario
establece esto como resultado general.
Corolario 6 En las hipótesis del Lema de Neyman-Pearson, si T es un estadı́stico suficiente del parámetro de interés θ con función de densidad (o de
probabilidad) g(t|θ), el mejor test para el contraste
½
H0 : θ = θ0
H1 : θ = θ1
tiene región crı́tica de la forma
½
¾
g(t|θ1 )
C = t = T(x) :
≥A
g(t|θ0 )
e
para algún A ≥ 0.
Demostración: Trivial a partir del Lema de Neyman-Pearson y del Teorema
de Factorización (teorema 10).
2
5.1.3.
Conclusiones de un contraste: el p-valor
Una forma de informar de los resultados de un contraste de hipótesis es
mediante el tamaño α del test usado y la decisión tomada sobre si se rechazó o
no H0 . Si α es pequeño la decisión de rechazar H0 es muy convincente, pero si α
es grande la probabilidad de cometer un error de tipo I es grande, lo cuál resta
fuerza al test si la decisión adoptada es la de rechazar H0 . Por otro lado, para
α muy pequeño, el hecho de no rechazar H0 no se interpretará como un apoyo
indiscutible a esta hipótesis sino como que no fue posible encontrar evidencia
suficiente en su contra como para superar la barrera tan restrictiva impuesta
por ese valor de α.
Una forma alternativa de presentar los resultados de un contraste de hipótesis
es dar el p-valor o valor de probabilidad del test, definido éste como el
supremo de los valores α para los cuáles se rechazarı́a la hipótesis nula si ésta
se contrastase a nivel α. El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos
tan poco favorable a la hipótesis nula como la que se ha observado. A partir del
p-valor se puede tomar la decisión de rechazar (respectivamente, aceptar) H0 si
el p-valor es pequeño (respectivamente, grande).
es
Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson
(
)
L(θ1 | X )
L(θ1 | x )
e ≥
e
p = Pθ0
.
L(θ0 | X )
L(θ0 | x )
e
e
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES
149
En general, cuando la región crı́tica de un contraste de tamaño α es tal que
se rechaza H0 si y sólo si W ( x ) ≥ cα , donde W ( X ) es un estadı́stico y cα se
e
e
elige para que el test tenga tamaño α, entonces el p-valor del contraste para una
muestra observada x es
e
p( x ) = sup Pθ (W ( X ) ≥ W ( x )).
e
e
e
θ∈Θ0
Ejemplo 65, página 145. Continuación. En el ejemplo del test Z el p-valor
es
µ
¶
µ
¶
xn − µ0
xn − µ0
√
√
P (X n ≥ xn |µ = µ0 ) = P Z ≥
=1−Φ
σ/ n
σ/ n
donde Φ es la función de distribución de Z ∼ N (0, 1).
En el caso concreto de que σ = 1, µ0 = 5, n = 4 y x = 5,2 se tiene que el
p-valor es
µ
p( x ) = P
e
X4 − 5
5,2 − 5
√ ≥
√
1/ 4
1/ 4
¶
= P (Z ≥ 0,4) = 0,3446
y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta
hipótesis.
.
.
5.2.
Contrastes uniformemente más potentes
Nos ocuparemos ahora de los contrastes de hipótesis en los que la hipótesis
alternativa es compuesta.
Queremos contrastar
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
Por ejemplo, si Θ = [0, ∞) podemos contrastar
½
H0 : θ = θ 0
H1 : θ > θ 0
Diremos que se trata de un contraste unilateral.
Si Θ = IR, los contrastes
½
H0 : θ ≤ θ 0
H1 : θ > θ 0
½
y
H0 : θ ≥ θ0
H1 : θ < θ0
150
son también unilaterales y el contraste
½
H0 : θ = θ0
H1 : θ 6= θ0
se dice que es bilateral.
Diremos que un contraste de hipótesis es uniformemente más potente
(UMP) de tamaño α para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si su
función de potencia η(θ) verifica que
sup η(θ) = α
θ∈Θ0
y para cualquier otro contraste con función de potencia η ∗ que sea también de
tamaño α, es decir, que cumpla
sup η ∗ (θ) = α,
θ∈Θ0
se tiene que
η(θ) ≥ η ∗ (θ), para todo θ ∈ Θ1 .
5.2.1.
Lema de Neyman-Pearson para alternativas compuestas
El siguiente resultado es una extensión del Lema de Neyman-Pearson al caso
de hipótesis alternativa compuesta.
Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)
Se desea contrastar
½
H0 : θ = θ 0
H1 : θ ∈ Θ1 = Θ − {θ0 }
Para cada θ1 ∈ Θ1 , se consideran los conjuntos
(
)
L(θ1 | x )
e ≥ A(θ1 ) ,
C(θ1 ) = x :
e L(θ0 | x )
e
las regiones crı́ticas de los contrastes más potentes de tamaño α para contrastar
½
H0 : θ = θ0
H1 : θ = θ1
dadas por el Lema de Neyman-Pearson.
Si esas regiones crı́ticas no dependen de θ1 , es decir, si C(θ1 ) = C para todo
θ1 ∈ Θ1 , entonces la prueba estadı́stica que tiene región crı́tica C es UMP de
tamaño α.
151
Demostración: Sea η(θ) la función de potencia del test que tiene región crı́tica
C. Por la definición de C se tiene que este test tiene tamaño α. Sea η ∗ la función
de potencia de cualquier otro test de tamaño α.
Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson el test con región
crı́tica C es el mejor para contrastar
½
H0 : θ = θ 0
H1 : θ = θ 1
y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que
η(θ1 ) ≥ η ∗ (θ1 )
para todo θ1 ∈ Θ1 , luego el test C es UMP de tamaño α.
2
Ejemplo 67
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar
½
H0 : µ = µ 0
H1 : µ > µ 0
En el ejemplo 65 se vió que para cualquier µ1 > µ0 el mejor test para contrastar
H0 : µ = µ0 frente a H10 : µ = µ1 tiene por región crı́tica
σ
C = { x : x ≥ B}, con B = µ0 + zα √ .
n
e
Por lo tanto, la región crı́tica es la misma para todos los posibles valores µ1 ∈
Θ1 = (µ0 , ∞). Se sigue que el contraste con región crı́tica C es UMP de tamaño
α para contrastar H0 frente a H1 .
La función de potencia del test UMP es
σ
η(µ) = P ( X ∈ C|µ) = P (X n ≥ µ0 + zα √ |µ) =
n
e
¶
µ
¶
µ
Xn − µ
µ0 − µ
µ0 − µ
√ ≥
√ + zα |µ = P Z ≥
√ + zα ,
P
σ/ n
σ/ n
σ/ n
siendo Z ∼ N (0, 1).
.
.
El siguiente resultado extiende el anterior al caso en el que la hipótesis nula
es también compuesta.
Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:
½
H0 : θ ∈ Θ 0
.
H1 : θ ∈ Θ 1
Supongamos que existe un procedimiento de contraste basado en un estadı́stico
suficiente T con región crı́tica C que satisface las hipótesis siguientes:
152
1. el test tiene tamaño α,
2. existe θ0 ∈ Θ0 tal que Pθ0 (T ∈ C) = α,
3. si g(t|θ) denota la función de densidad (o de probabilidad) de T , para el
valor θ0 cuya existencia garantiza la hipótesis anterior y para cada θ1 ∈ Θ1
existe un A(θ1 ) ≥ 0 tal que
si
g(t|θ1 )
> A(θ1 ) =⇒ t ∈ C, y
g(t|θ0 )
si
g(t|θ1 )
< A(θ1 ) =⇒ t ∈ C.
g(t|θ0 )
Entonces esta prueba es UMP de tamaño α para contrastar H0 frente a H1 .
Demostración: Sea η(θ) la función de potencia del contraste que tiene región
crı́tica C y sea η ∗ (θ) la función de potencia de otro contraste que tiene tamaño
α. Se verificará pues que η ∗ (θ0 ) ≤ α.
Fijamos un θ1 ∈ Θ1 y contrastamos H00 : θ = θ0 frente a H10 : θ = θ1 . Por el
corolario al Lema de Neyman-Pearson, la región crı́tica C corresponde al mejor
test, luego η(θ1 ) ≤ η ∗ (θ1 ). Esto es válido para todo θ1 ∈ Θ1 , luego el test con
región crı́tica C es UMP.
2
5.2.2.
Razón de verosimilitud monótona. Teorema de KarlinRubin
En esta sección veremos que bajo determinadas condiciones es posible encontrar tests UMP para contrastes unilaterales cuyas regiones crı́ticas son fácilmente
expresables en función de un estadı́stico suficiente. Las condiciones necesarias
hacen referencia a la monotonı́a de la razón de verosimilitudes como función del
estadı́stico suficiente.
Una familia de funciones de densidad o de probabilidad {g(t|θ) : θ ∈ Θ} para
una variable aleatoria T tiene razón de verosimilitudes monótona (RVM)
si para cada θ2 > θ1 el cociente g(t|θ2 )/g(t|θ1 ) es una función no decreciente de
t para los valores t tales que g(t|θ2 ) > 0 o g(t|θ1 ) > 0.
Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : θ ≤ θ0
frente a H1 : θ > θ0 . Supongamos que T es un estadı́stico suficiente para θ y que
la familia {g(t|θ) : θ ∈ Θ} de funciones de densidad de T tiene RVM. Entonces
para cada t0 el test que rechaza H0 si y sólo si T > t0 es UMP de tamaño
α = Pθ0 (T > t0 ).
Demostración: Veamos en primer lugar que la función de potencia η(θ) =
P (T > t0 |θ) es creciente. Sea θ1 < θ2 . Queremos comprobar que η(θ1 ) ≤ η(θ2 ).
153
El Lema de Neyman-Pearson para contrastar H00 : θ = θ1 frente a H10 : θ = θ2
establece que el mejor test tiene región crı́tica C = { x : (L(θ2 | x )/L(θ1 | x )) ≥
e
e
e
A}. Como T es suficiente para θ, será L(θ| x ) = g(T ( x )|θ)h( x ). Dado que T
e
e
e
tiene RVM el conjunto C es
(
)
g(T ( x )|θ2 )
e
C= x :
≥ A = { x : T ( x ) ≥ t0 }.
e g(T ( x )|θ1 )
e
e
e
Este contraste tiene tamaño α0 = P (T > t0 |θ1 ) = η(θ1 ). Consideremos un
contraste que rechaza H00 con probabilidad α0 sea cuál sea el valor x observado.
e
Su función de potencia es η ∗ (θ) = α0 y se trata de un test de tamaño α0 . Por el
Lema de Neyman-Pearson se tiene que
η(θ2 ) = P (T > t0 |θ2 ) ≥ η ∗ (θ) = α0 = η(θ1 )
y se concluye que la función de potencia η(θ) es creciente.
Para demostrar que el test con región crı́tica { x : T ( x ) > t0 } es UMP
e
e
para contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay que
comprobar que se cumplen sus tres hipótesis:
1. El test tiene tamaño α. Como η(θ) es no decreciente, se tiene que
sup η(θ) = η(θ0 ) = α = P (T > t0 |θ0 ).
θ≤θ0
2. Existe θ0 tal que Pθ0 (T ∈ C) = P (T > t0 |θ0 ) = α. Esto es cierto por
definición de t0 .
3. Para cada θ1 ∈ Θ1 , existe A(θ1 ) tal que t ∈ C si y sólo si (g(t|θ1 )/g(t|θ0 )) >
A(θ1 ). Esto se verifica si definimos
A(θ1 ) = ı́nf
t∈T
g(t|θ1 )
,
g(t|θ0 )
donde T = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si g(t|θ1 )/g(t|θ0 ) >
A(θ1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces
g(t|θ1 )/g(t|θ0 ) > ı́nf t g(t|θ1 )/g(t|θ0 ) = A(θ1 ).
2
Acabamos de ver que frecuentemente se encontrarán pruebas UMP para
pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para
pruebas bilaterales, como pone de manifiesto el siguiente ejemplo.
Ejemplo 68
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 .
154
Si contrastamos H0 frente a H10 : µ0 > µ1 , la región crı́tica del test UMP
es C1 = { x : xn ≤ A1 }. Si contrastamos H0 frente a H10 : µ0 < µ1 , la región
e
crı́tica del test UMP es C2 = { x : xn ≥ A2 }.
e
Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan
valores de la media muestral mucho mayores o mucho menores que µ0 :
C = { x : xn ≤ A1 o xn ≥ A1 },
e
donde A1 y A2 se eligen para que el test tenga tamaño α:
P (X n ≤ A1 |µ = µ0 ) + P (X n ≥ A2 |µ = µ0 ) = α.
La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidad
es elegir A1 y A2 de forma que
P (X n ≤ A1 |µ = µ0 ) = P (X n ≥ A2 |µ = µ0 ) =
α
,
2
√
√
es decir, A1 = µ0 − zα/2 σ/ n, A2 = µ0 + zα/2 σ/ n.
√
Entonces se rechazará H0 si |X n − µ0 | ≥ zα/2 σ/ n. La función de potencia
es tal como se refleja en la figura siguiente (curva de trazo continuo).
µ0=0, σ=1
1
Funciones de potencia
0.8
0.6
0.4
0.2
α
0
−4
−3
−2
−1
0
µ
1
2
3
4
Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuando
√
X n ≥ µ0 + zα σ/ n este contraste tiene potencia superior para µ > µ0 , como
puede verse en la figura anterior (curva de trazo discontinuo).
.
.
5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MÁS POTENTES155
Vemos en el ejemplo anterior que no es posible atender las desviaciones
bilaterales de la hipótesis nula y, a la vez, superar en potencia a los contrastes
que han sido diseñados para detectar desviaciones en una sola dirección.
En los casos en los que no existen tests UMP es posible aún elegir contrastes
que tengan propiedades deseables. Una posibilidad (que será desarrollada en
la sección 5.5) es construir pruebas que sean válidas en muchas situaciones,
fácilmente aplicables y con buenas propiedades teóricas.
Otra posibilidad es restringir la clase de contrastes considerada y buscar el
test UMP dentro de esa clase. La sección 5.3 se ocupa de esta alternativa.
5.3.
Contrastes insesgados. Contrastes localmente más potentes
Un contraste de hipótesis para H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 de tamaño
α y con función de potencia η(θ) es un contraste insesgado si η(θ) ≥ α para
todo θ ∈ Θ1 .
Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipótesis alternativa que bajo la nula: siempre
es más probable rechazar la hipótesis nula si ésta es falsa que si no lo es. Es
entonces lógico restringir la clase de contrastes que se consideran a aquella que
contiene sólo contrastes insesgados. Entre éstos se buscarán los tests UMP.
Si se adopta este enfoque, puede probarse que en el muestreo de la normal
con σ 2 conocida (ver ejemplo 68) el contraste que rechaza H0 : µ = µ0 si
√
|X n − µ0 | ≥ zα/2 σ/ n es insesgado y es UMP en la clase de los contrastes
insesgados. Para una demostración de este hecho, véase por ejemplo CasellaBerger, ejemplo 8.3.9.
En la búsqueda de contrastes UMP, un planteamiento alternativo al de reducir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests
insesgados UMP) consiste en reducir las hipótesis alternativas que se tienen en
cuenta. En este sentido, es lógico buscar procedimientos que sean uniformemente más potentes sólo para las hipótesis alternativas cercanas a la hipótesis nula.
Serán estos contrastes los más potentes para detectar pequeñas desviaciones de
la hipótesis nula. En cada caso concreto se ha de especificar qué se entiende por
hipótesis cercanas a la nula.
Supongamos que el parámetro θ es real. Se dice que un test con función de
potencia η(θ) es el más potente localmente para contrastar H0 : θ ≤ θ0 (o
H0 : θ = θ0 ) frente a H1 : θ > θ0 si, para cualquier otro contraste con función
de potencia η 0 (θ) tal que η(θ0 ) = η 0 (θ0 ), existe un δ > 0 tal que η(θ) ≥ η 0 (θ)
para todo θ ∈ (θ0 , θ0 + δ].
156
Veamos cómo podemos encontrar el test más potente localmente en este
caso. Restringimos la hipótesis alternativa del siguiente modo:
½
H0 : θ = θ0
H1 : θ = θ0 + δ
para δ > 0 cercano a 0.
Por el lema de Neyman-Pearson el mejor test tiene región crı́tica de la forma
L(θ0 + δ; x )
e ≥ A ⇐⇒ log L(θ0 + δ; x ) − log L(θ0 ; x ) ≥ log A.
e
e
L(θ0 ; x )
e
Desarrollando por Taylor alrededor de δ = 0, se tiene que
¯
∂ log L ¯¯
log L(θ0 + δ; x ) ≈ log L(θ0 ; x ) + δ
∂θ ¯θ=θ0
e
e
y por tanto el test localmente más potente se basa en la función score
¯
∂ log L ¯¯
S(θ0 ; x ) =
∂θ ¯θ=θ0
e
y tiene por región crı́tica, aproximadamente,
S(θ0 ; x ) ≥ B = zα
e
p
Iθ0
ya que, bajo H0 , E[S(θ0 ; x )] = 0, V [S(θ0 ; x )] = Iθ0 y S(θ0 ; x ) es aproximadae
e
e
mente normal.
Ejemplo 69
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con función de
densidad
1
f (x|θ) =
.
π(1 + (x − θ)2 )
Se desea contrastar
½
H0 : θ = θ 0
.
H1 : θ > θ 0
La verosimilitud y su logaritmo son
n
n
Y
X
¡
¢
1
L(θ; x ) =
,
l
(θ;
x
)
=
−
log π + log(1 + (xi − θ)2 ) .
2
π(1 + (xi − θ) )
e
e
i=1
i=1
La función score es
S(θ; x ) =
e
n
X
i=1
y la información de Fisher
Iθ =
2(xi − θ)
1 + (xi − θ)2
n
.
2
5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES
157
Asintóticamente la prueba localmente más potente rechaza H0 : θ = θ0 en favor
de H1 : θ > θ0 si y sólo si
r
n
X
2(xi − θ0 )
n
≥ zα/2
.
2
1 + (xi − θ0 )
2
i=1
.
.
Observemos que las pruebas localmente más potentes son útiles sólo para
alternativas unilaterales. Si θ es un vector, serán útiles cuando nos preocupa
una dirección especı́fica en la que el parámetro pueda alejarse de θ0 .
5.4.
Consistencia y eficiencia para contrastes
Las propiedades deseables de los contrastes no se limitan a ser UMP o ser
localmente más potente. La siguiente es también una propiedad que cualquier
test razonable deberı́a cumplir.
Supongamos que un contraste depende del tamaño n de la muestra y que su
función de potencia se denota por ηn (θ). Diremos que un contraste es consistente si
lı́m ηn (θ) = 1
n−→∞
para todo θ ∈ Θ1 . Las pruebas derivadas del Lema de Neyman-Pearson son
consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).
Esta definición lleva aparejado un concepto de eficiencia relativa entre contrastes. Sean H0 y H1 dos hipótesis simples. Dados dos contrastes T1 y T2 ,
ambos de tamaño α y consistentes para contrastar H0 frente a H1 , se consideran respectivamente los tamaños muestrales n1 y n2 más pequeños necesarios
para obtener potencia mayor o igual que η, un valor fijo. Se define la eficiencia
relativa de T1 comparado con T2 como
n2
.
n1
Se define la eficiencia relativa asintótica de T1 comparado con T2 como
n2
lı́m
,
η−→1 n1
es decir, es el lı́mite del cociente n2 /n1 cuando ambos tamaños muestrales tienden a infinito conjuntamente, en el sentido de que ambos garantizan potencia η
y η tiende a 1.
Existen otros conceptos de eficiencia relativa entre contrastes que contemplan
la posibilidad de que la hipótesis alternativa tienda hacia la nula cuando n tiende
a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).
158
5.5.
Test de la razón de verosimilitudes
Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con función
de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea hacer el
contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Se define el estadı́stico de la razón de
verosimilitudes como
máxθ∈Θ0 L(θ| x )
e .
λ = λ( x ) =
e
máxθ∈Θ L(θ| x )
e
El test de la razón de verosimilitudes (también llamado test de la
razón de verosimilitudes generalizado, para distinguirlo del test de NeymanPearson, o test de la razón de las máximas verosimilitudes) establece
una región crı́tica de la forma
C = { x : λ( x ) ≤ A}
e
e
para alguna constante A que se determinará para que el test tenga el tamaño α
deseado.
La idea intuitiva que sustenta este método de contraste es simple. Obsérvese
que 0 ≤ λ ≤ 1 y que cuanto más cercano a 1 sea el valor de λ, más verosı́mil
es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creı́ble será la
hipótesis alternativa θ ∈ Θ1 .
Ejemplo 70
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ), µ y σ 2 desconocidos:
el parámetro es θ = (µ, σ 2 ). Se desea contrastar
½
H0 : µ = µ0
H1 : µ 6= µ0
La verosimilitud es:
(
2 −n/2
L(θ| x ) = (2πσ )
e
n
2 X
exp − 2
(xi − µ)2
2σ i=1
)
.
El estimador de máxima verosimilitud (MV) bajo H0 es θ̃ = (µ0 , σ̃ 2 ), donde
n
σ̃ 2 =
1X
(xi − µ0 )2
n i=1
y el valor de la verosimilitud en ese punto es
n no
máx L(θ| x ) = (2πσ̃ 2 )−n/2 exp −
.
θ∈Θ0
2
e
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES
159
El estimador MV en general es θ̂ = (x, σ̂ 2 ), donde
n
n−1 2
1X
σ̃ =
S =
(xi − x)2 ,
n
n i=1
2
y el máximo de la verosimilitud es
n no
máx L(θ| x ) = (2πσ̂ 2 )−n/2 exp −
.
θ∈Θ
2
e
Por lo tanto,
µ Pn
¶−n/2
(xi − µ0 )2
i=1
λ = λ( x ) =
= Pn
=
2
e
i=1 (xi − x)
µ Pn
¶
µ
¶−n/2
2
2 −n/2
t2
i − x) + n(x − µ0 )
i=1 (x
P
=
1
+
,
n
2
n−1
i=1 (xi − x)
√
H
donde t = n(x − µ0 )/S ∼0 . Por lo tanto, el estadı́stico λ es decreciente en |t|.
µ
σ̃ 2
σ̂ 2
¶−n/2
La prueba de razón de verosimilitudes rechaza H0 si λ < A para algún A, lo
cuál ocurrirá si y sólo si |t| > B para algún B. Por lo tanto, la prueba de razón
de verosimilitudes rechaza H0 si
|x − µ0 |
√ >B
S/ n
y B se elige para que el tamaño del test sea α. Por lo tanto, este test coincide
con el test t bilateral clásico en el muestreo de la normal.
.
.
5.5.1.
Relación con el Lema de Neyman-Pearson.
Cuando H0 y H1 son hipótesis simples, el estadı́stico λ( x ) vale lo siguiente:
e
(
)
L(θ0 | x )
L(θ0 | x )
e
e
λ( x ) =
= mı́n 1,
.
e
máx{L(θ0 | x ), L(θ1 | x )}
L(θ1 | x )
e
e
e
El test que rechaza H0 cuando λ ≤ A tiene la misma región crı́tica (y, por tanto,
es el mismo contraste) que el que la rechaza cuando L(θ1 | x )/L(θ0 | x ) ≥ (1/A),
e
e
que es la región crı́tica dada por el test de Neyman-Pearson.
La única distorsión es que no se pueden construir pruebas de la razón de
verosimilitudes con niveles α ∈ (1 − p, 1), donde p es
¯ !
Ã
¯
L(θ0 | x )
e > 1¯¯ H0 ,
p=P
¯
L(θ1 | x )
e
ya que si rechazamos H0 cuando λ( x ) ≤ A < 1, entonces
¯ !e
¯ !
Ã
Ã
¯
¯
L(θ0 | x )
L(θ0 | x )
¯
e ≤ A¯ H0 ≤ P
e ≤ 1¯¯ H0 = 1 − p
α=P
¯
¯
L(θ1 | x )
L(θ1 | x )
e
e
y si tomamos A = 1 entonces el tamaño es α = 1.
160
5.5.2.
Propiedades de los contrastes de razón de verosimilitudes
El estadı́stico λ( x ) del test de la razón de verosimilitudes depende de x
e
e
sólo a través del estadı́stico minimal suficiente para θ. Las propiedades de estos
contrastes para muestras pequeñas dependen de la modelización paramétrica
concreta de que se trate. La siguiente es una propiedad común a todos los
contrastes de razón de verosimilitudes:
Si H0 es simple y existe una prueba UMP para contrastar H0 frente a
H1 , entonces el test de razón de verosimilitudes coincide con el test UMP.
(Véase Garthwaite, Jollife y Jones 1995, página 84, y las referencias allı́ citadas para una demostración de esta propiedad.)
Muchas de las propiedades asintóticas de los contrastes de la razón de verosimilitudes son comunes a todos ellos. Citemos las siguientes:
Bajo las condiciones de regularidad que garantizan que el estimador de
máxima verosimilitud es consistente, se tiene que el test de razón de verosimilitudes es un test consistente. (Véase Cristóbal 1992, página 589).
El test razón de verosimilitudes es asintóticamente la prueba insesgada
más potente. (Véase Garthwaite, Jollife y Jones 1995, página 84.)
El test razón de verosimilitudes es asintóticamente eficiente, en el sentido
de la eficiencia relativa asintótica definida al final de la sección 5.3. (Véase
Garthwaite, Jollife y Jones 1995, página 85.)
Probaremos el siguiente resultado asintótico, que es útil para determinar el
valor crı́tico A de la definición del test de la razón de verosimilitudes.
Teorema 44 Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria
con función de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea
hacer el contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Bajo las condiciones H1, H2, C1, C2, C3,
C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintótico
del estimador MV (esas hipótesis aseguran la existencia y continuidad de las
derivadas respecto al parámetro de la función de verosimilitud, y que el soporte
de las distribuciones no depende del parámetro) se tiene que el estadı́stico
Qn = −2 log λ( X n ) −→n χ2d
e
bajo la hipótesis nula, donde d = dim(Θ) − dim(Θ0 ).
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES
161
Demostración: Haremos la prueba para el caso dim(Θ) = 1, dim(Θ0 ) = 0
(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristóbal (1992),
Teorema 1.2, página 596.
Consideramos el modelo X ∼ f ∈ {fθ : θ ∈ Θ ⊆ IR} y el contraste
½
H0 : θ = θ 0
H1 : θ 6= θ0
Ası́, d = 1 − 0 = 1. Obsérvese que
³
´
Qn = −2 log λ( X n ) = 2 log L(θ̂n | x n ) − log L(θ0 | x n ) ,
e
e
e
donde θ̂n es el estimador máximo verosı́mil de θ. Desarrollamos l (θ0 | x n ) =
e
log L(θ0 | x n ) en serie de Taylor alrededor de θ̂n :
e
l (θ0 | x n ) = l (θ̂n | x n ) +
e
e
2
∂ l (θ̂n | x n )
1 ∂ l (θ̃| x n )
e (θ0 − θ̂n )2
e (θ0 − θ̂n ) +
∂θ
2
∂θ2
donde θ̃ es un valor entre θ̂n y θ0 .
Ası́,


2
 ∂ l (θ̂n | x n )

1 ∂ l (θ̃| x n )
e (θ0 − θ̂n )2 
e (θ0 − θ̂n ) −
Qn = 2 
−
=
2
2
∂θ
| ∂θ
{z
}
=0
−
∂ 2 l (θ̃| x n )
e (θ0 − θ̂n )2 .
∂θ2
En el teorema 39 se probó que el estimador máximo verosı́mil θ̂n es consistente.
Como además |θ̃ − θ0 | ≤ |θ̂n − θ0 | se tendrá que bajo H0
θ̃ −→P
H0 θ0 .
En el teorema 39 se probó que bajo H0
2
1 ∂ l (θ̃| x n )
e
−
−→P IX (θ0 ),
n
∂θ2
y que
√
n(θ̂n − θ0 ) −→D N (0, 1T overIX (θ0 )) ,
De donde se sigue, por el Teorema de Slutzky, que
Qn = −
2
´2
1 ∂ l (θ̃| x n ) ³√
e
n(
θ̂
−
θ
)
−→D χ21 .
n
0
n
∂θ2
2
El cálculo de d, la diferencia entre las dimensiones de Θ y Θ0 , suele hacerse
como
d = ν1 − ν0 ,
162
donde νi es el número de parámetros estimados bajo Hi menos las restricciones
que relacionan unos parámetros con otros, para i = 1, 2.
Ejemplo 71
P5
Modelos log-lineales. Sea θ ∈ Θ = {(p1 , p2 , p3 , p4 , p5 ) ∈ IR5 :
j=1 pj =
1, y pj ≥ 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas independientes e idénticamente distribuidas tales que
Pθ (Xi = j) = pj = f (j|θ)
es la función de probabilidad de Xi . La verosimilitud asociada a una muestra
de tamaño n es
n
Y
L(θ| x ) =
f (xi |θ) = py11 py22 py33 py44 py55
e
i=1
donde yj = #{xi , i = 1, . . . , n : xi = j}, j = 1, . . . , 5.
Se desea contrastar
½
H0 : p1 = p2 = p3 , p4 = p5
H1 : H0 es falsa
El espacio paramétrico Θ tiene dimensión 4, porque los parámetros tienen una
P5
ligadura lineal: j=1 pj = 1.
Para definir Θ0 , observemos que bajo H0 se cumple que p1 + p2 + p3 =
3p1 ≤ 1, luego 0 ≤ p1 ≤ 1/3. Además, como los pj deben sumar 1, se tiene que
3p1 + 2p4 = 1, luego p4 = (1 − 3p1 )/2. Ası́, Θ0 es
Θ0 = {(p1 , p1 , p1 , p4 , p4 ) : 0 ≤ p1 ≤ 1/3, y p4 = (1 − 3p1 )/2}
luego Θ0 tiene dimensión 1. Ası́ d = dim(Θ) − dim(Θ0 ) = 4 − 1 = 3.
Es sencillo verificar que el EMV global de pj es p̂j = yj /n. Calculemos ahora
el EMV bajo H0 . La verosimilitud es
µ
L(p1 | x ) =
e
p1y1 +y2 +y3
1 − 3p1
2
¶y4 +y5
de donde se sigue que el EMV de p1 bajo H0 es
p̂10 =
y1 + y2 + y3
,
3n
que
p̂20 = p̂30 = p̂10 =
y que
p̂40 = p̂50 =
y1 + y2 + y3
3n
1 − 3p̂10
y4 + y5
=
.
2
2
,
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD163
El estadı́stico λ( x ) es entonces
e
λ( x ) =
e
µ
y1 + y2 + y3
3y1
¶y1 µ
³
´y4 +y5
1−3p̂10
2
pˆ1 y1 pˆ2 y2 pˆ3 y3 pˆ4 y4 pˆ5 y5
y1 +y2 +y3
p̂10
y1 + y2 + y3
3y2
¶y2 µ
y1 + y2 + y3
3y3
=
¶y3 µ
y4 + y5
2y4
¶y4 µ
y4 + y5
2y5
¶ y5
El estadı́stico Qn = −2 log λ( x ) es
e
µ
¶
5
X
yj
Qn = −2 log λ( x ) = 2
yj log
,
mj
e
j=1
donde yj = np̂j , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una
de las categorı́as j = 1, . . . , 5 y mj = np̂j0 , j = 1, . . . , 5 son las estimaciones bajo
la hipótesis nula. El test de razón de verosimilitudes rechaza H0 si −2 log λ( x ) ≥
e
χ23,α .
Este es un ejemplo de una familia de modelos conocidos como modelos loglineales. En esta familia el estadı́stico Qn del test de razón de verosimilitudes
tiene siempre la forma que acabamos de ver.
.
.
5.6.
Contrastes relacionados con el de máxima
verosimilitud
El contraste basado en la razón de verosimilitudes no es el único procedimiento general para realizar contrastes de hipótesis. En esta sección veremos
otros dos métodos válidos para contrastar una hipótesis nula simple frente a
una alternativa compuesta.
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f
Se desea contrastar
5.6.1.
(
H0 : θ =
e
H1 : θ =
6
e
θ
e
θ
e
θ
e
, θ ∈ Θ ⊆ Rk .
e
0
0
Test del score.
Cuando en la sección 5.3 buscábamos procedimientos localmente más potentes, llegamos a un test basado en la función score:
Sn (θ; x n ) =
e
∂ log L(θ; x n )
e
∂θ
.
164
si θ ∈ IR, o
Ã
Sn ( θ ; x n ) =
e e
∂ log L( θ ; x n )
∂ log L( θ ; x n )
e e ,...,
e e
∂θ1
∂θk
!t
si θ = (θ1 , . . . , θk ) ∈ IRk .
e
Para contrastar H0 : θ = θ 0 frente a H1 : θ 6= θ 0 se propone el
e
e
e
e
estadı́stico
S
t
−1
Tn = (Sn ( θ 0 ; x n )) (In ( θ 0 )) Sn ( θ 0 ; x n ),
e e
e
e e
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regularidad, se distribuye asintóticamente como una χ2k dado que
Sn ( θ ; x n ) ≈ Nk (0, In ( θ 0 )).
e e
e
Para el caso k = 1 se tiene que bajo H0
Ã
!2
∂ log L(θ; x n )
−1
S
e
≈ χ21 .
Tn = (In ( θ 0 ))
∂θ
e
El test del score rechaza H0 si TnS ( x n ) > χ2k,α .
e
Cualquier estimador consistente de la matriz de información asintótica podrı́a
ser usado en lugar de In (θ0 ). Por ejemplo, pueden usarse la información observada On que se definió en el teorema 40.
Los tests del score se conocen en econometrı́a como tests de los multiplicadores de Lagrange.
5.6.2.
Test de Wald.
El contraste de H0 : θ = θ 0 frente a H1 : θ 6= θ 0 puede basarse también
e
e
e
e
en alguna distancia entre θ 0 y el estimador de máxima verosimilitud de θ ,
e
e
ˆθ . Dado que bajo H la distribución aproximada de ˆθ es
0
en
en
ˆθ ≈ N ( θ , (I ( θ ))−1 ),
k
0
n
0
en
e
e
el estadı́stico
Wn = ( ˆθ − θ 0 )t In ( θ 0 )( ˆθ − θ 0 )
en
e
e
en
e
ˆ
mide la distancia de Mahalanobish entre θ 0 y θ . El test de Wald se basa
e
en
en este estadı́stico. Bajo H0 ,
Wn ≈ χ2k .
Se rechaza H0 si Wn ( x n ) > χ2k,α .
e
Aquı́, al igual que ocurrı́a con el test del score, la matriz In ( θ 0 ) puede
e
ser sustituida por otro estimador consistente de la matriz de información. Por
ˆ
ejemplo, puede usarse In ( θ ) o la matriz de información observada On .
en
Obsérvese que para calcular el estadı́stico Wn sólo es necesario calcular el
estimador máximo verosı́mil global. Por este motivo se le llama a veces test
de la máxima verosimilitud.
Obsérvese que la expresión del test de la razón de verosimilitudes es completamente diferente de las expresiones de los test del score o de Wald. Sin
embargo, es fácil ver (usando desarrollos de Taylor) que los tres contrastes son
asintóticamente equivalentes en el sentido siguiente:
TnS + 2 log λ( x n ) −→P 0, Wn + 2 log λ( x n ) −→P 0.
e
e
En muestras finitas los tres tests pueden presentar diferencias.
Ejemplo 72
En un experimento de Bernoulli con probabilidad de éxito p que se repite n
veces, se llama X al número de éxitos observados: X ∼ B(n, p). Se trata de
contrastar las hipótesis
½
H0 : p = p 0
H1 : p 6= p0
mediante los contrastes de la razón de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,
µ ¶
n
l (p, x ) = log
+ x log p + (n − x) log(1 − p),
x
e
y sus primeras derivadas respecto al parámetro,
∂ l (p, x )
x n−x
x − np
e = −
=
,
∂p
p
1−p
p(1 − p)
∂ 2 l (p, x )
x
n−x
x(2p − 1) − np2
e
=
−
+
=
.
∂p2
p2
(1 − p)2
p2 (1 − p)2
Ası́, el EMV es
p̂ =
x
.
n
y la información de Fisher es
Ã
In (p) = E
∂ 2 l (p, x )
e
−
∂p2
!
=
n
.
p(1 − p)
El estadı́stico del test del score es
Ã
TnS = (In (p0 ))−1
p0 (1 − p0 )
n
µ
∂ l (p, x )
e
−
∂p
x − np0
p0 (1 − p0 )
¶2
=
!2
=
(x − np0 )2
,
np0 (1 − p0 )
166
y el del test de Wald
Wn = (p̂ − p0 )2
n
(x − np0 )2
=
.
p̂(1 − p̂)
np̂(1 − p̂)
Por su parte, el estadı́stico del test de la razón de verosimilitudes es
λ(x) =
máxp=p0 L(p|x)
L(p0 |x)
=
,
máxp∈(0,1) L(p|x)
L(p̂|x)
y
Qn = −2 log λ(x) = 2 (log L(p̂|x) − log L(p0 |x)) = 2 (l (p̂|x) − l (p0 |x)) =
2 (x log p̂ + (n − x) log(1 − p̂) − x log p0 − (n − x) log(1 − p0 )) =
2x (log p̂ − log(1 − p̂) − log p0 + log(1 − p0 )) + 2n (log(1 − p̂) − log(1 − p0 )) =
2x log
1 − p0
p0
1 − p0
− 2x log
− 2 log
.
1 − p̂
p̂
1 − p̂
Desarrollando la función log en serie de Taylor hasta el orden 2 alrededor del 1,
se obtiene que la expresión aproximada de Qn coincide con Wn .
.
.
5.6.3.
Contrastes en presencia de parámetros secundarios.
Acabamos de ver dos métodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipótesis nula es simple. Hemos visto que
están relacionados con el contraste de la razón de verosimilitudes. Sin embargo
éste último test es aplicable aun cuando la hipótesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald también pueden aplicarse
aunque no todos los parámetros del modelo queden fijados en la hipótesis nula.
Aquellos parámetros a los que H0 no hace referencia se denominan parámetros
secundarios o parámetros nuisance, en inglés.
Suponemos que el vector de parámetros θ puede subdividirse en dos subconjuntos, θt = (αt , β t ), con dimensión de α igual a p < k, y que se desean
contrastar las hipótesis
½
H0 : α = α 0
H1 : α 6= α0
Sea (α̂n , β̂n ) el EMV de (α, β) construido a partir de una muestra de tamaño
n. Entonces se tiene que
¶
µ ¶
µµ ¶
α̂n
α
−1
.
≈ Nk
, (In (α, β))
β
β̂n
Se trata ahora de derivar contrastes basados en la distribución asintótica de
√
n(α̂n − α).
Escribimos la matriz de información de Fisher en bloques,
µ
¶
In,αα (α, β) In,αβ (α, β)
In (α, β) =
In,βα (α, β) In,ββ (α, β)
de forma que In,αα (α, β) es la matriz de varianzas-covarianzas de las componentes α de la función score. Afirmaciones análogas son ciertas para los restantes
bloques. Obsérvese que In,βα (α, β) = In,αβ (α, β)t . Para facilitar la notación,
llamaremos Iij al bloque (i, j) de In (α, β), para i = 1, 2 y j = 1, 2.
Invertimos la matriz In (α, β) mediante las fórmulas de una matriz dividida
en bloques y obtenemos que el bloque correspondiente a la varianza de α̂n es
¡
¢−1
−1
I11 − I12 I22
I21
.
Ası́, definimos la información sobre α ajustada después de haber estimado β como el inverso de esa matriz:
−1
In,αα|β (α, β) = I11 − I12 I22
I21 .
La distribución marginal aproximada de α̂n es
³ £
¤−1 ´
α̂n ≈ Np α, In,αα|β (α, β)
.
El estadı́stico del test de Wald es
t
Wn = (α̂n − α0 ) In,αα|β (α̂n , β̂n ) (α̂n − α0 ) ,
que bajo H0 tiene distribución aproximada χ2p . Se rechazará H0 a nivel τ ∈ (0, 1)
si Wn > χ2p,τ .
Vamos ahora a deducir la expresión del test del score apropiado para
esta situación. Se estima β mediante β̂0 , el EMV de β calculado suponiendo que
α = α0 , es decir, resolviendo en β el sistema de ecuaciones Sn,β (α0 , β) = 0. De
las propiedades usuales de los estimadores máximo verosı́miles se deduce que
bajo H0
¡
¢
Sn,α (α0 , β̂0 ) ≈ Np 0, In,αα|β (α0 , β) .
Por tanto, el estadı́stico del test del score es
£
¤−1
TnS = [Sn,α (α0 , β̂0 )]t In,αα|β (α0 , β0 )
[Sn,α (α0 , β̂0 )]
que bajo H0 es aproximadamente χ2p (de hecho, es asintóticamente equivalente
a Wn ). Se rechazará H0 a nivel τ ∈ (0, 1) si TnS > χ2p,τ .
Para deducir la prueba de la razón de verosimilitudes hay que ajustar
tanto el modelo global como el reducido:
Qn = −2 log λ( x n ) = 2[l (α̂n , β̂n ) − l (α0 , β̂0 )],
e
que bajo H0 es aproximadamente χ2p y asintóticamente equivalente a Wn y a
TnS .
168
Ejemplo 73
Modelo de regresión exponencial. Supongamos que en n individuos independientes se mide el valor de una covariable xi y el de una variable respuesta
Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de
fallo 1/E[Yi ] = exp(α + βxi ), donde α, β ∈ IR.
Interesa saber si la covariable está asociada con la respuesta, ası́ que se
plantea el contraste
½
H0 : β = 0
H1 : β 6= 0
Buscaremos el test de Wald, el del score y el de máxima verosimilitud. Calculamos la verosimilitud:
L(α, β|(yi , xi ), 1 ≤ i ≤ n) =
n
Y
exp(α + βxi ) exp(−yi exp(α + βxi )) =⇒
i=1
l (α, β|(yi , xi ), 1 ≤ i ≤ n) =
n
X
{α + βxi − yi exp(α + βxi )} =
i=1
nα + β
n
X
xi −
i=1
n
X
yi exp(α + βxi )
i=1
Calculamos las funciones score:
Sα (α, β) =
n
X
∂l
=n−
yi exp(α + βxi ),
∂α
i=1
n
n
X
X
∂l
Sβ (α, β) =
=
xi −
yi xi exp(α + βxi ).
∂β
i=1
i=1
Los componentes de la matriz de información observada vienen dados por las
derivadas de los scores:
n
X
∂ l
yi exp(α + βxi ),
2 =
∂α
i=1
2
−
n
−
X
∂ 2l
=
yi xi exp(α + βxi ),
∂α∂β
i=1
n
−
X
∂2l
=
yi x2i exp(α + βxi ).
∂β 2
i=1
Como E(Yi ) = 1/ exp(α + βxi ) para cada i, tomando esperanzas de las expresiones anteriores se obtiene la matriz de información:
µ
¶
Pn
n
x
Pn
Pni=1 2i
In (α, β) =
i=1 xi
i=1 xi
La información para β ajustada por α es
−1
Iββ|α = Iββ − Iβα Iαα
Iαβ =
n
X
n
n
X
X
1
x2i − (
xi )2 =
(xi − x)2
n
i=1
i=1
i=1
El estimador de máxima verosimilitud conjunto (α̂n , β̂n ) se calcula resolviendo numéricamente el sistema de ecuaciones
½
½
Pn
Sα (α, β) = 0
n = i=1 yi exp(α + βxi )
Pn
Pn
⇐⇒
Sβ (α, β) = 0
i=1 xi =
i=1 xi yi exp(α + βxi )
Por su parte, el estimador de máxima verosimilitud de α bajo la hipótesis nula
de que β = 0 puede calcularse explı́citamente, pues en ese caso Yi son una m.a.s.
de Y ∼ exp(exp(α)), y sabemos que en este caso el EMV es
α̂0 = log(n/
n
X
yi ).
i=1
Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular los
estadı́sticos de los trest contrastes:
Test de Wald.
Wn = (β̂n − β0 )t Iββ|α (β̂n − β0 ) = β̂n2
n
X
H0
(xi − x)2 ≈ χ21 .
i=1
Test del score. El score calculado en el EMV bajo H0 es
Sβ (α̂0 , 0) =
n
X
xi −
i=1
n
X
n
yi xi Pn
i=1
i=1
yi
=
µ
¶
yi
xi 1 −
y
i=1
n
X
y tiene varianza aproximadamente igual a
Iββ|α =
n
X
(xi − x)2 ,
i=1
ası́ que
´
³
yi
x
1
−
i=1 i
y
Sβ (α̂0 , 0)
p
= pPn
≈H0 N (0, 1),
2
Iββ|α
i=1 (xi − x)
Pn
luego
Ã
TnS
=
µ
¶!2 X
n
H0
yi
xi 1 −
(xi − x)2 ≈ χ21 .
y
i=1
i=1
n
X
Test de la razón de verosimilitudes.
−2 log λ =
"
2 nα̂n + β̂n
n
X
i=1
xi −
n
X
yi exp(α̂n + β̂n xi ) − n log(n/
i=1
n
X
#
yi ) − n
i=1
que bajo H0 es aproximadamente χ21 .
.
.
170
5.7.
Contrastes bayesianos
El enfoque bayesiano de los contrastes de hipótesis es conceptualmente diferente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 y
H1 las hipótesis que se van a contrastar, que en un modelo paramétrico serán
afirmaciones sobre el parámetro θ de la forma θ ∈ Θ0 y θ 6∈ Θ0 , respectivamente.
En un marco frecuentista las hipótesis son siempre ciertas o estrictamente
falsas, dado que si θ ∈ Θ0 entonces H0 es cierta y por tanto
P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x,
mientras que si θ 6∈ Θ0 esas probabilidades son, respectivamente, 0 y 1 sea cual
sea el valor de x observado.
En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de
P (H0 es cierta|x) y P (H1 es cierta|x),
las probabilidades de que cada una de las hipótesis sean ciertas después de haber
observado los datos x. Estas probabilidades proporcionan información útil sobre
la veracidad de H0 y H1 .
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f (x|θ) y θ una variable
aleatoria con función de densidad (o de probabilidad) a priori π(θ). El contraste
de H0 frente a H1 se basará en la distribución a posteriori π(θ| x ), donde x es
e
e
la m.a.s. de X observada. El contraste planteado es
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ1 = Θc0
Las probabilidades a posteriori de cada una de las hipótesis son
Z
P (H0 es cierta| x ) = P (θ ∈ Θ0 | x ) =
π(θ| x )dθ,
e
e
e
Θ0
Z
P (H1 es cierta| x ) = P (θ ∈ Θ1 | x ) =
π(θ| x )dθ.
e
e
e
Θ1
El procedimiento para aceptar o rechazar H0 podrı́a ser, por ejemplo, rechazar H0 si
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x )
e
e
y aceptarla en caso contrario. Con la terminologı́a introducida en las secciones
anteriores, el estadı́stico del contraste serı́a
T ( X ) = P (θ 6∈ Θ0 | X )
e
e
y la región crı́tica
{ x : P (θ 6∈ Θ0 | x ) > 1/2}.
e
e
Un procedimiento más conservador consiste en rechazar H0 sólo si la probabilidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo,
e
puede tomarse c = 0,95 o c = 0,99).
5.7. CONTRASTES BAYESIANOS
171
Ejemplo 74
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribución a
priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos
½
H0 : θ ≤ θ 0
H1 : θ > θ 0
Tal como se vió en la sección 3.3, la distribución a posteriori de θ es N (µp , τp2 ),
donde
τ 2 σ2
nτ 2 x + σ 2 µ
,
τ
=
.
µp =
p
nτ 2 + σ 2
nτ 2 + σ 2
Rechazar H0 si y sólo si
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ),
e
e
es equivalente a hacerlo si y sólo si
1
P (θ ≤ θ0 | x ) < ,
2
e
y como π(θ| x ) es simétrica y centrada en µp , esto es cierto si y sólo si
e
µp =
nτ 2 x + σ 2 µ
σ 2 (θ0 − µ)
> θ0 ⇐⇒ x > θ0 +
.
2
2
nτ + σ
nτ 2
.
.
5.7.1.
Ventaja a priori y a posteriori. Factor de Bayes
En el marco de la inferencia bayesiana, la forma de proceder es determinar
la ventaja a posteriori de H0 (en inglés, posterior odds),
Q∗ =
P (H0 | x )
e
P (H1 | x )
e
y la conclusión del contraste se expresa diciendo que H0 es Q∗ veces más probable
que H1 , dados los datos.
Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que
e
e
1
Q∗
= P (H0 | x ), y
= P (H1 | x )
1 + Q∗
1 + Q∗
e
e
son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas.
Obsérvese que en el enfoque bayesiano se tratan las dos hipótesis, la nula y la
alternativa, de forma simétrica.
172
Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente:
x |H0 )P (H0 )
e
h( x )
P (H0 | x )
P (H0 ) f ( x |H0 )
∗
e =
e
e
Q =
=
= Q · B,
P (H1 ) f ( x |H1 )
P (H1 | x )
f ( x |H1 )P (H1 )
e
e
e
h( x )
e
f(
donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la
creencia del investigador sobre qué hipótesis es cierta antes de realizar el experimento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina cómo
e
e
los datos observados han cambiado esas creencias sobre qué hipótesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipótesis. El interés se centra entonces en el factor de Bayes, pues este valor
es el que determina cómo los datos modifican las creencias sobre qué hipótesis
es cierta.
En general H0 especifica el modelo muestral f0 (x|θ) y una distribución a
priori para θ, mientras que H1 especifica otro modelo paramétrico f1 (x|φ) y
una distribución a priori sobre φ. Con esta formulación, los contrastes bayesianos permiten comparar modelos paramétricos diferentes. Por ejemplo, en un
problema de regresión lineal se podrı́an comparar dos conjuntos de regresores
diferentes.
Veremos ahora cómo se concretan los contrastes bayesianos en tres situaciones en las que el modelo paramétrico bajo ambas hipótesis es el mismo: el
contraste de dos hipótesis simples, el de dos compuestas y el de una simple frente
a una compuesta.
5.7.2.
Contraste de dos hipótesis simples.
Se trata de contrastar
½
H0 : θ = θ0
H1 : θ = θ1
Dar una distribución a priori para el parámetro consiste en fijar valores para
P (H0 ) y P (H1 ).
En este caso el factor de Bayes es
B=
f ( x |θ0 )
e
,
f ( x |θ1 )
e
que es el cociente de verosimilitudes que sirve de estadı́stico al test derivado del
Lema de Neyman-Pearson.
173
Ejemplo 75
Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). Ası́,
(
n
X
n
)
f ( x |θ) = θ exp −θ
xi
e
i=1
y
µ
B=
θ0
θ1
(
¶n
exp (θ1 − θ0 )
n
X
)
xi
.
i=1
La ventaja a posteriori de H0 es
P (H0 )
Q∗ =
P (H1 )
µ
θ0
θ1
¶n
(
exp (θ1 − θ0 )
n
X
)
xi
.
i=1
.
.
5.7.3.
Contraste de dos hipótesis compuestas.
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θc0
Para cada hipótesis se debe determinar una distribución a priori del parámetro
θ (éstas podrı́an coincidir). Sean
π0 (θ|H0 ) y π1 (θ|H1 ),
la distribuciones a priori de θ bajo H0 y bajo H1 , respectivamente. Ası́,
Z
Z
f ( x |H0 ) =
f (x, θ|H0 )dθ =
f (x|θ)π0 (θ|H0 )dθ,
e
Θ0
Θ0
y
Z
f ( x |H1 ) =
e
Z
f (x, θ|H1 )dθ =
Θ1
Por lo tanto, el factor de Bayes es
R
B = RΘ0
Θ1
5.7.4.
f (x|θ)π1 (θ|H1 )dθ,
Θ1
f (x|θ)π0 (θ|H0 )dθ
f (x|θ)π1 (θ|H1 )dθ
.
Contraste de hipótesis nula simple frente a alternativa compuesta.
½
H0 : θ = θ 0
H1 : θ 6= θ0
174
Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
f (x|θ0 )
B=R
.
f
(x|θ)π
1 (θ|H1 )dθ
θ6=θ0
Obsérvese que si la distribución a priori de θ es absolutamente continua
entonces la probabilidad a posteriori de H0 será igual a 0, lo cuál implica que
Q∗ será siempre 0, sean cuales sean los datos observados, y H0 será rechazada
siempre. Sin embargo el factor de Bayes B sı́ es calculable y recoge la información
esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es
posible establecer a priori un valor para Q y definir Q∗ como el producto de Q
por B.
Ejemplo 76
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar
½
H0 : θ = θ0
H1 : θ 6= θ0
La verosimilitud es
Pn
xi
i=1
θ
.
f ( x |θ) = e−nθ Qn
e
i=1 xi !
Se considera la distribución a priori de θ bajo H1 como la distribución conjugada,
una γ(α1 , α2 ):
1
1
π1 (θ|H1 ) =
θα1 e−θ/α2 .
Γ(α1 + 1) α2α1 +1
El numerador del factor de Bayes es f ( x |θ0 ) y el denominador
e
Z
f (x|θ)π1 (θ|H1 )dθ =
θ6=θ0
Pn
Z
θ i=1 xi
1
1
α1 −θ/α2
e−nθ Qn
dθ =
α1 +1 θ e
Γ(α
+
1)
x
!
α2
1
θ6=θ0
i=1 i
Pn
Γ(α1 + i=1 xi + 1)
Pn
×
Qn
α1 +
xi +1
α1 +1
i=1
x
!Γ(α
+
1)α
(n
+
1/α
)
i
1
2
2
i=1
Pn
Pn
Z ∞
α1 +
xi +1 α1 +
xi (n+1/α2 )θ
i=1
i=1
(n + 1/α2 )
θ
e
Pn
dθ =
Γ(α1 + i=1 xi + 1)
0
Pn
Γ(α1 + i=1 xi + 1)
Pn
.
Qn
α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Ası́,
Pn
e
B=
Qn
α1 +1
α2
i=1
−nθ0 θQ
0
Γ(α1 +
i=1
n
Pn i=1
i=1
xi
xi !
=
xi +1)
α1 +
xi !Γ(α1 +1)(n+1/α2 )
Pn
i=1
xi +1
175
Pn
Pn
xi
α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Pn
.
Γ(α1 + i=1 xi + 1)
Supongamos que se observan seis datos,
x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,
de donde
P
xi = 19, y que se quieren contrastar
½
H0 : θ = 2
H1 : θ 6= 2
con
π1 (θ|Θ1 ) ∼ γ(α1 = 2,6, α2 = 1/0,6).
La esperanza y la varianza a priori son, respectivamente,
E=
2,6 + 1
2,6 + 1
= 6, V =
= 10.
0,6
0,62
Ası́, el factor de bayes es
B=
219 e−6·2 Γ(2,6 + 1)(6 + 0,6)2,6+19+1
= 0,77.
0,62,6+1 Γ(2,6 + 19 + 1)
Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a
posteriori es
Q∗ = Q · B = 0,5 · 0,77 = 0,385
y se concluirı́a que H1 es la hipótesis cierta.
Supongamos que la distribución a priori tuviese parámetros α1 = 35 y α2 =
1/6. Entonces E = 6 y V = 1. En este caso se llegarı́a a que
B = 3,16 y Q∗ = 1,58,
luego se seguirı́a que H0 es la hipótesis correcta. El siguiente gráfico ilustra las
diferencias entre las dos situcaiones que acabamos de considerar.
176
Distribuciones a priori
0.5
0.45
0.4
0.35
p(θ|H1,α1=35, α2=6)
p(θ|H1)
0.3
0.25
0.2
0.15
p(θ|H1,α1=2.6, α2=0.6)
0.1
0.05
0
0
θ Media de x ,...,x 5
1
n
θ
10
15
.
.
En el contraste de una hipótesis nula simple frente a una alternativa compuesta el factor de bayes puede calcularse de un modo alternativo, tal y como
especifica por el siguiente teorema.
Teorema 45 Si f (x|θ) es continua en θ = θ0 , entonces
B = lı́m
θ−→θ0
π(θ| x , H1 )
e
π(θ|H1 )
donde π(θ| x , H1 ) es la densidad a posteriori de θ y π(θ|H1 ) es la a priori.
e
Demostración: Por la hipótesis de continuidad se tiene que
f ( x |H0 ) = lı́m f ( x |θ, H1 ).
θ−→θ0
e
e
Como f ( x |θ, H1 ) = f ( x |H1 )π(θ| x , H1 )/π(θ|H1 ), se tiene que
e
e
e
f ( x |H0 ) = f ( x |H1 ) lı́m
θ−→θ0
e
e
π(θ| x , H1 )
π(θ| x , H1 )
f ( x |H0 )
e
e
e
= lı́m
=⇒ B =
.
θ−→θ
π(θ|H1 )
π(θ|H1 )
0
f ( x |H1 )
e
2
5.8.
177
Lista de problemas
Definiciones básicas. Contrastes más potentes
1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson
para encontrar la región crı́tica del test más potente para contrastar H0
frente a H1 en las siguientes situaciones.
a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 ,
θ1 > θ 0 .
b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 ,
H1 : θ = θ 1 , θ 1 > θ 0 .
c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼
N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas.
H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos.
2. (Garthwaite, Jollife y Jones 1995, 4.2) En el último apartado del ejercicio
anterior, supongamos que σ 2 = τ 2 = δ = 1, que n = m y que hacemos el
contraste óptimo a nivel α = 0,01.
a) Calcula la potencia del test si n = 10.
b) Calcula el menor valor de n tal que la potencia sea mayor o igual que
0,95.
3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una
distribución gamma de parámetros (3, θ) con densidad
f (x; θ) =
1 2 −x/θ
x e
I(0,∞) (x).
2θ3
a) Encuentra el test más potente para contrastar H0 : θ = θ0 frente a
H1 : θ = θ1 , donde θ1 > θ0 .
b) Utiliza los resultados obtenidos para dar el test uniformemente más
potente para contrastar H0 frente a H10 : θ > θ0 .
distribución lognormal de parámetros (µ, 1). Prueba que existe un test
uniformemente más potente para contrastar H0 : µ = µ0 frente a H1 : µ >
µ0 e indica qué forma tiene.
variable aleatoria X. Se considera el contraste
½
H0 : X ∼ U (0, 1)
H1 : X ∼ f (x; θ) = θeθx /(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido
Prueba que hay un test uniformemente más potente y da la región crı́tica
aproximada para n suficientemente grande.
178
6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f (x), una función de
densidad desconocida. Se toma una muestra de tamaño n para contrastar
H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades
conocidas con el mismo soporte.
a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1],
para expresar H0 y H1 como hipótesis paramétricas.
b) Considera
x2
1
1
f0 (x) = √ e− 2 , f1 (x) = e−|x| ,
2
2π
y prueba que entonces la región crı́tica del test más potente para
contrastar H0 frente a H1 es de la forma
R = { x ∈ IRn :
e
n
X
(|xi | − 1)2 ≥ k}
i=1
para algún k.
c) Evalúa esa región crı́tica para n = 1 y k = 1. ¿Es el test insesgado?
d ) Evalúa esa región crı́tica para n = 1 y k = 1/4.¿Es el test insesgado?
Contrastes de la razón de verosimilitudes, scores y Wald
7. Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ) con ambos parámetros desconocidos.
a) Considera el contraste
½
H0 : µ = µ0
H1 : µ 6= µ0
Comprueba que el test de la razón de verosimilitudes conduce al test
t usual, que tiene región crı́tica
√
n(x − µ0 )
n
Rα = { x ∈ IR : −tn−1,α/2 ≤
≤ tn−1,α/2 }c ,
S
e
donde Ac denota el complementario del conjunto A.
b) Considera el contraste
½
H0 : σ 2 = σ02
H1 : σ 2 6= σ02
Comprueba que el test de la razón de verosimilitudes tiene región
crı́tica
(n − 1)S 2
Rα = { x ∈ IRn : C1 ≤
≤ C2 }c ,
σ02
e
para constantes C1 y C2 elegidas convenientemente.
179
8. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ) y Y1 , . . . , Ym m.a.s. de Y ∼
N (θ, τ 2 ). Las dos muestras son independientes. Los cuatro parámetros
son desconocidos.
a) Suponiendo que σ 2 = τ 2 , comprueba que el test de la razón de verosimilitudes para contrastar
½
H0 : µ = θ
H1 : µ 6= θ
conduce al contraste usual para la diferencia de medias.
b) Da la región crı́tica del test de la razón de verosimilitudes para contrastar
½
H0 : σ 2 = τ 2
H1 : σ 2 6= τ 2
c) En el caso especial de n = m, comprueba que el test anterior se
reduce al test F usual para contrastar igualdad de varianzas.
9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X ∼ Exp(λ1 ), e
Y1 , . . . , Yn m.a.s. de Y ∼ Exp(λ2 ) (los parámetros son las inversas de las
esperanzas). Sean X m e Y n las respectivas medias muestrales. Consideramos el test
½
H0 : λ 1 = λ 2
H1 : λ 1 < λ 2
a) Probar que bajo H0
Xm
∼ F2m,2n
Yn
(indicación: Probar que si X es exponencial con esperanza 2, entonces X es también χ2 con dos grados de libertad. Probar que si X e Y
son variables aleatorias independientes e idénticamente distribuides
según una Exp(λ), entonces (X/Y ) ∼ F2,2 ).
b) Probar que la región crı́tica del test de la razón de verosimilitudes para contrastar H0 frenta a H1 puede expresarse en función del cociente
X m /Y n y de cuantiles de una distribución F con grados de libertad
convenientes.
c) Los siguientes datos corresponden a tiempos de llegada a un incidente
de dos servicios de urgencia: guardia urbana y bomberos.
Tiempo (minutos) de llegada de
la guardia urbana a un accidente
de tráfico urbano
Tiempo (minutos) de llegada de
los bomberos a un incendio en el
casco urbano.
2,65 2,98 5,61 6,61 2,50 0,65 3,74
1,12 5,34 0,40 1,93 4,87
6,89 3,48 4,91 5,04 9,17 2,20 1,05
6,09
180
Se supone que los tiempos de llegada se distribuyen según una ley
exponencial. Usar el test de razón de verosimilitudes para contrastar
si los tiempos medios de llegada de ambos servicios son iguales frente
a que la guardia urbana llega en promedio antes que los bomberos.
Hacerlo a un nivel de significación α = 0,05.
10. Se toma una muestra de tamaño n de una variable aleatoria Poisson(θ)
para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0 . Encontrar el estadı́stico
de los siguientes tests.
a) Test de razón de verosimilitudes.
b) Test del score.
c) Test de Wald.
11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una población,
el número de muertes en una región con población igual a P (es decir, con
un número de habitantes igual a P ) se modela con una ley de Poisson de
media µP , µ ∈ [0, 1].
a) Suponemos que el número de muertes observadas en n regiones con
poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresión
para el estimador de máxima verosimilitud de µ. Llámalo µ̂.
La siguiente tabla da el número de muertos por cáncer de hı́gado (el cáncer
de hı́gado se puede considerar una enfermedad rara) durante 4 años en las
regiones de Ontario (Canadá).
Regionses
Región 1
Región 2
Región 3
Región 4
Región 5
Región 6
Región 7
Región 8
Región 9
Región 10
Pi
423.447
175.685
1.245.379
413.465
216.476
242.810
213.591
166.045
265.880
116.371
Muertes
37
11
72
40
12
14
16
9
15
12
b) Encuentra µ̂ para estos datos y calcula el número de muertes esperadas en cada región.
c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Poisson de medias λ1 , λ2 , . . . , λn y sean P1 , P2 , . . . , Pn constantes positivas conocidas. Considera la hipótesis:
H0 : λ1 = µP1 , λ2 = µP2 , . . . , λn = µPn
181
donde µ es desconocido. Demuestra que el estadı́stico del test de la
razón de verosimilitudes para contrastar esta hipótesis es
−2 log Λ = 2
n
X
Yi log(Yi /λ̂i )
i=1
donde λ̂i = µ̂Pi y µ̂ es el estimador de máxima verosimilitud encontrado en el apartado (a).
d ) Aplica este último resultado para concluir si las tasas de muerte (proporción de muertos en cada población) de las 10 regions son proporcionales a las poblaciones de las regiones.
12. (Examen julio 2000) Sea X v.a. con densidad
f (x; β) =
β
I[1,∞) (x), β > 0.
xβ+1
a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )).
b) Se observa una muestra de tamaño n de X. Contrasta a nivel α
½
H0 : β = 1
H1 : β 6= 1
usando el test de la razón de verosimilitudes, el test de Wald y el test
del score.
c) Aplica los tests anteriores para α = 0,05 al caso de haber observado
los siguientes datos:
2,2263, 1,6464, 1,1788, 1,5014, 3,1677,
1,3762, 5,0698, 1,7471, 1,8849, 16,0879
(Suma de los datos= 35.8865; producto de los datos= 7595.66).
Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido.
Una de las dos hipótesis siguientes es cierta:
H0 : θ =
1
3
o H1 : θ = .
2
4
Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que
su probabilidad a priori si y sólo si x log 3 < n log 2.
distribución exponencial de esperanza 1/θ, θ > 0. Se desea contrastar
H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipótesis tienen probabilidades
182
a priori P (H0 ) = p y P (H1 ) = 1 − p. Si la distribución a priori de θ es
γ(α, β), con α y β conocidos, determina la ventaja a posteriori
P (H0 | x )
e = Q · B,
P (H1 | x )
e
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la definición del factor de Bayes
y, después, calculando B como lı́mite de cocientes entre probabilidades a
posteriori y a priori bajo H1 .
Q∗ =
N (θ, 1). Se consideran dos hipótesis: H0 : θ = 1 y H1 , con P (H0 ) = p y
P (H1 ) = 1 − p.
a) Suponiendo que H1 especifica que θ = −1, prueba que
Pn
pe i=1 xi
Pn
.
P (H0 | x ) = Pn
e
pe i=1 xi + (1 − p)e− i=1 xi
b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribución
a priori de θ es N (0, 1), determina P (H0 | x ) en el caso especial de
Pn
e
que i=1 xi = n.
Capı́tulo 6
Estimación por intervalos
Referencias: Casella-Berger, capı́tulo 9 y Cristóbal (1992), capı́tulo
15.
En los capı́tulos 3 y 4 se han estudiado los estimadores puntuales. Estos
estimadores ofrecen un único valor como estimación del parámetro desconocido
θ. En este capı́tulo se aborda el problema de la estimación por conjuntos,
donde se estudian estimadores que proporcionan un conjunto como estimación
de θ. El resultado de una estimación por conjuntos es una afirmación del tipo
“θ ∈ C”, donde C = C( x ) es un subconjunto del espacio paramétrico Θ que
e
depende de los datos observados x . En el caso de que Θ ⊆ IR los conjuntos que
e
se suelen usar para realizar inferencias sobre θ son intervalos.
6.1.
Intervalos de confianza
Un estimador por intervalos de un parámetro θ ∈ Θ ⊆ IR es cualquier
par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales
e
e
que L( x ) ≤ U ( x ) para todo x = (x1 , . . . , xn ) ∈ X . Si se observa el valor
e
e
e
X = x , mediante este estimador se hace la inferencia “L( x ) ≤ θ ≤ U ( x )”.
e
e
e
e
Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos
e
e
de θ (o intervalo estimador de θ), mientras que al valor que ha tomado en
la muestra observada [L( x ), U ( x )] se le llama estimación por intervalos
e
e
de θ (o intervalo estimación de θ).
Ejemplo 77
Sea X1 , X2 , X3 , X4 una muestra de tamaño 4 de X ∼ N (µ, 1). Un estimador
por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 ,
la estimación por intervalos de µ es [x − 1, x + 1].
.
.
183
184
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Obsérvese que si se estima un parámetro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos
limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que
antes dábamos un valor concreto como estimación suya. Dado que se pierde en
precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un
intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se
gana en confianza: en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea estimar es 0, mientras que la probabilidad
de que un estimador por intervalos cubra al parámetro será positiva.
Ejemplo 77, página 183. Continuación. Si se estima µ por X, se tiene que
P (X = µ) = 0, porque X ∼ N (µ, 1/4). Sin embargo,
P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) =
µ
¶
X −µ
√ ≤ 2 = 0,9544.
P −2 ≤
1/ 4
A costa de algo de precisión, el paso de un estimador puntual a uno por intervalos ha permitido aumentar la confianza que tenemos en que sea correcta la
afirmación hecha en la inferencia.
.
.
Se llama probabilidad de cobertura de un estimador por intervalos
[L( X ), U ( X )] del parámetro θ a la probabilidad de que ese intervalo aleatorio
e
e
cubra al verdadero valor del parámetro θ:
Pθ (θ ∈ [L( X ), U ( X )]).
e
e
Obsérvese que esa probabilidad de cobertura puede variar con θ.
Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como
e
e
estimador del parámetro θ al ı́nfimo de las probabilidades de cobertura:
ı́nf Pθ (θ ∈ [L( X ), U ( X )]).
e
e
θ∈Θ
Intervalo de confianza es el nombre que recibe usualmente un estimador
por intervalos junto con su coeficiente de confianza. También se nombra ası́ a
veces a la estimación a que da lugar el estimador por intervalos aplicado a una
muestra concreta. Además de C( x ), se usará también la notación IC1−α (θ) se
e
usará para referirse a un intervalo de confianza (1 − α) para θ.
Si se desea construir un intervalo para una transformación invertible τ (θ) del
parámetro y [L( x ), U ( x )] es un intervalo de confianza (1 − α) para θ, entonces
e
e
el intervalo
[τ (L( x )), τ (U ( x ))]
e
e
es un intervalo de confianza (1 − α) para τ (θ).
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185
Obsérvese que en las expresiones del tipo Pθ (θ ∈ [L( X ), U ( X )]), el valor
e
e
del parámetro está fijo y lo que son variables aleatorias son los extremos del
intervalo:
Pθ (θ ∈ [L( X ), U ( X )]) = Pθ ({L( X ) ≤ θ} ∩ {U ( X ) ≥ θ}).
e
e
e
e
6.2.
Métodos para construir intervalos de confianza
En esta sección veremos cuatro métodos para construir estimadores por intervalos de un parámetro θ ∈ Θ ⊆ IR.
6.2.1.
Inversión de un contraste de hipótesis
Como veremos a continuación, hay una estrecha relación entre la estimación
por intervalos y los contrastes de hipótesis. En general, se puede decir que cada
método de construcción de un intervalo de confianza corresponde a un método
de contraste de un hipótesis, y viceversa.
Ejemplo 78
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido.
Consideramos el contraste
½
H0 : µ = µ0
.
H1 : µ 6= µ0
Para hacer el contraste a nivel α el test insesgado uniformemente de máxima
√
potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la región del espacio
muestral X en donde se acepta H0 es el conjunto de x tales que
e
σ
σ
x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ .
n
n
Dado que el test tiene tamaño α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α.
Por lo tanto, para todo µ0
¯
µ
¶
σ
σ ¯
P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α,
n
n
¶
µ
σ
σ
=1−α
Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √
n
n
√
√
para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por intervalos de confianza 1 − α para µ.
.
.
186
La correspondencia entre intervalos de confianza y contrastes de hipótesis
se debe a que ambos procedimientos persiguen la consistencia entre los valores
observados en la muestra y los parámetros de la distribución poblacional, aunque
desde perspectiva distintas. En un contraste de hipótesis se fijan los parámetros
y se buscan qué valores muestrales son acordes con ellos (esto es, se busca la
región de aceptación), mientras que en la estimación por intervalos se toma
como fija la muestra observada y se buscan los valores de los parámetros que
hacen esta muestra plausible (esto es, se busca el intervalo de confianza).
El siguiente resultado prueba la relación existente entre contrastes e intervalos.
Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0 ) a la región de aceptación a nivel α de un test que contrasta H0 : θ = θ0 . Para cada x ∈ X se
e
define el conjunto C( x ) ⊆ Θ como
e
C( x ) = {θ0 ∈ Θ : x ∈ A(θ0 )}.
e
e
Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confiane
za 1 − α para θ.
Recı́procamente, sea C( X ) un estimador por conjuntos de confianza 1 − α
e
para θ. Para cada θ0 ∈ Θ se define
A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}.
e
e
Entonces A(θ0 ) es la región de aceptación a nivel α de un test que contrasta
H0 : θ = θ 0 .
Demostración: Veamos la primera parte. Por ser A(θ0 ) el complementario de
la región de rechazo de un test de nivel α se tiene que
Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α.
e
Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar
de θ0 . Como x ∈ A(θ) si y sólo si θ ∈ C( x ), se tiene que
e
e
Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α,
e
e
y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α.
e
Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
región de aceptación es A(θ0 ) es
Pθ0 ( X 6∈ A(θ0 )) = Pθ0 (θ0 6∈ C( X )) ≤ α,
e
e
ası́ que este es un test de nivel α.
2
El procedimiento de construcción de intervalos de confianza (o de conjuntos
de confianza, en general) a partir de la inversión de contrastes de hipótesis es muy
útil en la práctica porque en general es más sencillo un problema de contraste
de hipótesis que uno de estimación: el hecho de poder trabajar suponiendo la
hipótesis nula cierta facilita la tarea. Cualquiera de los métodos de contraste
de hipótesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de
confianza.
Obsérvese que, aunque sea θ ∈ IR, este mecanismo de inversión no garantiza
que los conjuntos de confianza obtenidos sean intervalos.
Ejemplo 79
Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a
partir de una observación x de X. Para ello se invierte el test de tamaño α que
contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por región de aceptación los
valores x que son más probables bajo H0 hasta completar una probabilidad de
(1 − α).
Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla
da las regiones de aceptación A(p) para los distintos valores de p especificados
en H0 :
p
[0, ,238]
(,238, ,305)
[,305, ,362]
(,362, ,366)
[,366, ,634]
(,634, ,638)
[,638, ,695]
(,695, ,762)
[,7,621]
A(p)
0
0,1
1
0,1
1,2
2,3
2
2,3
3
Invirtiendo estas regiones de aceptación se obtienen los siguientes conjuntos de
confianza C(x):
x
0
1
2
3
C(x)
[0, ,305) ∪ (,362, ,366)
(,238, ,634]
[,366, ,762)
(,634, ,638) ∪ (,695, 1]
Observar que no todos los conjuntos de confianza que pueden aparecer son intervalos.
.
.
En la práctica, sin embargo, con frecuencia sı́ encontraremos intervalos. Por
otra parte, el tipo de intervalo encontrado dependerá de la hipótesis alternativa
188
que se consideró para definir el contraste. Si la hipótesis alternativa es bilateral,
en general se obtendrá un intervalo de longitud finita, mientras que si la alternativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos
en −∞ o ∞.
Ejemplo 80
Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ
e
mediante la inversión de un test de tamaño α. Se toma una muestra de tamaño
n de X. El test de la razón de verosimilitudes para contrastar
½
H0 : λ = λ 0
H1 : λ 6= λ0
tiene por estadı́stico
1 −
e
λn
0
supλ
Pn
i=1
1 −
λn e
xi /λ0
Pn
i=1
µ Pn
i=1
nλ0
xi /λ
xi
=
1 −
e
λn
0
Pn
(
¶n
en e−
Pn
i=1
xi /λ0
1
e−n
xi /n)n
=
i=1
Pn
i=1
xi /λ0
.
Para un valor λ0 fijo, la región de aceptación del test es
½
µ Pn
¶n Pn
¾
i=1 xi
A(λ0 ) = x :
e− i=1 xi /λ0 ≥ k ∗ ,
λ0
e
donde la constante k ∗ se elige para que el test tenga tamaño α, o lo que es lo
mismo, para que
Pλ0 ( X ∈ A(λ0 )) = 1 − α.
e
Obsérvese que la expresión de la región de aceptación depende de la muestra
P
y del parámetro sólo a través de v =
xi /λ0 . Además, la distribución de
Pn
Pn
V = i=1 Xi /λ0 no depende del parámetro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 ,
luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 .
Invirtiendo la región de aceptación se obtiene el conjunto de confianza 1 − α:
½ µ Pn
¾
¶n Pn
−
xi /λ
∗
i=1 xi
i=1
C( x ) = λ :
≥k .
e
λ
e
La función g(v) = v n e−v es positiva en todo IR+ , vale 0 en v = 0 y tiende
a 0 si v tiende a infinito. Además, tiene un único punto crı́tico en v = n. Se
sigue que tiene un único máximo en v = n y que los conjuntos de la forma
{v ≥ 0 : g(v) ≤ k ∗ }, con k ∗ ≤ g(n) = nn e−n , son intervalos de la forma [l, u],
con l ≥ n ≥ u y g(l) = g(u) = k ∗ .
De ello se deduce que A(λ0 ) es un intervalo para cualquier valor de λ0 , y que
los conjuntos de confianza C( x ) también son intervalos para cualquier valor de
Pn
e
i=1 xi .
Ası́ pues, el intervalo de confianza obtenido será de la forma
(
)
n
n
n
X
X
X
C(
xi ) = λ : L(
xi ) ≤ λ ≤ U (
xi ) ,
i=1
con
i=1
i=1
Pn
Pn
n
n
X
X
xi
i=1 xi
L(
xi ) =
, U(
xi ) = i=1 .
u
l
i=1
i=1
Los valores l y u son las soluciones del sistema de ecuaciones no lineales
½
g(l) = g(u)
P (l ≤ V ≤ u) = 1 − α
Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en éste:
½ 2 −l
l e = u2 e−u
e−l (l + 1) − e−u (u + 1) = 1 − α
Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =
5,4945, luego el intervalo de confianza 0.90 para λ es
X
X
[0,182
Xi , 2,28
Xi ] ≡ [0,364X 2 , 4,56X 2 ].
.
6.2.2.
.
Cantidades pivotales
Uno de los métodos más comunes de construcción de intervalos de confianza
es el uso de cantidades pivotales.
Sea X = (X1 , . . . , Xn ) una m.a.s. de X ∼ F (x; θ). Una función Q( X , θ)
e
e
de la muestra y del parámetro es una cantidad pivotal si la distribución de
probabilidad de Q( X , θ) no depende del parámetro θ, es decir, Q( X , θ) tiene
e
e
la misma distribución para cualquier valor de θ.
Dada una cantidad pivotal Q( X , θ), para cualquier conjunto A del espacio
e
imagen de Q se tiene que Pθ (Q( X , θ) ∈ A) no depende de θ. Por lo tanto si se
e
elige un conjunto Aα tal que
Pθ (Q( X , θ) ∈ A) = 1 − α, para todo θ,
e
y se observa la muestra X = x , entonces el conjunto
e
e
C( x ) = {θ : Q( x , θ) ∈ A}
e
e
es un conjunto de confianza 1 − α para θ.
En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza en
general que el conjunto de confianza sea un intervalo.
190
Ejemplo 81
Si X tiene distribución perteneciente a una familia de localización y escala, entonces es posible definir diferentes cantidades pivotales. Entre ellas señalaremos
las siguientes:
Familia de localización:
fµ (x) = f (x − µ)
Q( x , µ) = X − µ
e
Familia de escala:
fσ (x) = (1/σ)f (µ/σ)
Q( x , σ) = X/σ
e
Familia de localización
y escala:
fµ,σ (x) =
(1/σ)f ((x − µ)/σ)
Q1 ( x , µ, σ) = (X − µ)/σ,
e
Q2 ( x , µ, σ) = (X − µ)/S
e
Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi ,
con Yi ∼ f , y comprobar que las funciones Q sólo dependen de Y1 , . . . , Yn .
.
.
Ejemplo 80, página 188. Continuación. En el ejemplo 80 el intervalo de
confianza construido se basó en
Pn
Xi
V = i=1 ,
λ
cuya distribución es γ(n, 1) para cualquier valor de λ, ası́ que V es una cantidad
pivotal y el intervalo de confianza construido allı́ es un ejemplo de intervalo
basado en una cantidad pivotal.
Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n . Es más fácil
encontrar tabulada la distribución χ22n que la distribución gamma, por lo que T
resultará más útil en la práctica.
.
.
En la práctica, la forma en la que se construye un intervalo de confianza a
partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , θ) ∈ IR y
e
θ ∈ IR. Para un valor α dado, se buscan números a y b tales que
Pθ (a ≤ Q( X , θ) ≤ b) = 1 − α.
e
Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que la
elección de a y b no será única en general.
Para cada θ0 , el conjunto
A(θ0 ) = { x : a ≤ Q( x , θ) ≤ b}
e
e
es la región de aceptación de un test de tamaño α para contrastar H0 : θ = θ0
basado en el estadı́stico T ( X ) = Q( X , θ0 ). Invirtiendo este contraste obtenee
e
mos el conjunto de confianza 1 − α para θ:
C( x ) = {θ : a ≤ Q( x , θ) ≤ b}.
e
e
Si g
(θ) = Q( x , θ) es una función monótona de θ para cada x fijo, entonces
x
e
e
e
se tiene garantı́a de que C( x ) sea un intervalo. Si g (θ) es creciente, entonx
e
e
ces C( x ) = [L( x , a), U ( x , b)], mientras que si g (θ) es decreciente, entonces
x
e
e
e
e
C( x ) = [L( x , b), U ( x , a)]. Si g (θ) es invertible, entonces
x
e
e
e
e
C( x ) = [mı́n{g −1 (a), g −1 (b)}, máx{g −1 (a), g −1 (b)}].
x
x
x
x
e
e
e
e
e
Ejemplo 80, página 188. Continuación. En este ejemplo Q( X , λ) =
Pn
e
2 i=1 Xi /λ ∼ χ22n . Ası́, podemos elegir a = χ22n,1−α/2 y b = χ22n,α/2 , donde P (Y ≥ χ22n,p ) = p para p ∈ (0, 1), y la variable Y es una χ22n .
En este caso
2
i=1 xi
(λ) = Q( x , λ) =
,
x
λ
e
e
es invertible y decreciente, luego el intervalo de confianza (1 − α)
g
es decir g
x
e
para λ será
Pn
#
" P
Pn
n
2 i=1 xi 2 i=1 xi
C( x ) = [g (b), g (a)] =
,
.
χ2n,1−α/2
χ2n,α/2
x
x
e
e
e
−1
−1
En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ24,,95 = ,71, luego el intervalo de
confianza 0.90 es
·
¸
4x 4x
C( x ) =
,
= [0,4215x, 5,63x].
9,49 ,71
e
.
.
Obsérvese que el intervalo que se acaba de calcular difiere del construido en
el ejemplo 80, pese a que ambos se basan (en la práctica) en la misma cantidad
pivotal. Ello se debe a que, como se señaló antes, la forma de elegir los valores a
y b no es única. Aquı́ se han tomado de forma que el intervalo fuese simétrico
en probabilidad, es decir, la probabilidad α que queda fuera del intervalo
C( X ) se reparte a partes iguales entre valores menores y mayores que los del
e
intervalo. Esta forma de elegir a y b es la más usada en la práctica, aunque
veremos más adelante que no da lugar, en general, a los intervalos más cortos
posibles.
Ejemplo 82
Intervalos de confianza para la media y la varianza de la distribución
normal.
192
Si X ∼ N (µ, σ) con σ conocida, entonces la distribución de X es de una familia
de localización y, por tanto, Q( X , µ) = (X − µ)/σ es una cantidad pivotal.
e
Además,
√
√
n(X − µ)
Z = nQ( X , µ) =
∼ N (0, 1).
σ
e
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
σ
σ
IC1−α (µ) = C( x ) = [x − zα/2 √ , x + zα/2 √ ].
n
n
e
Si σ es desconocido, una cantidad pivotal es Q( X , µ) = (X − µ)/S. Además,
e
√
√
n(X − µ)
∼ tn−1 .
t = nQ( X , µ) =
S
e
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
S
S
IC1−α (µ) = C( x ) = [x − tn−1,α/2 √ , x + tn−1,α/2 √ ].
n
n
e
Si se desea dar un intervalo de confianza para σ 2 o para σ, puede usarse la
cantidad pivotal
Q( x , σ) = (n − 1)S 2 /σ 2 ∼ χ2n−1 .
e
Si se eligen a y b para que el intervalo sea simétrico en probabilidad se obtienen
"
#
2
2
(n
−
1)S
(n
−
1)S
IC1−α (σ 2 ) =
,
,
χ2n−1,α/2 χ2n−1,1−α/2
"s
IC1−α (σ) =
(n − 1)S 2
,
χ2n−1,α/2
s
#
(n − 1)S 2
.
χ2n−1,1−α/2
.
.
Uno de los casos en los que la cantidad pivotal es monótona en el parámetro
para una muestra fija es aquél en que existe un estadı́stico T = T ( X ) (es
e
deseable que sea un estadı́stico suficiente para el parámetro) con distribución
absolutamente continua y tal que su función de distribución sea monótona en
el parámetro. En este caso, se toma como cantidad pivotal
Q( x , θ) = FT (T ( x ); θ).
e
e
Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es
e
e
cantidad pivotal, y por otra g (θ) = Q( x , θ) es monótona en θ. Este método
x
e
es útil para construir intervalose de confianza para parámetros de posición.
Veamos ahora una forma genérica de definir una cantidad pivotal que es válida para cualquier distribución poblacional absolutamente continua y que siempre da lugar a un intervalo de confianza si el parámetro es real. Supongamos que
X es una variable aleatoria absolutamente continua con función de distribución
F (x; θ) y que esta función es continua y monótona en θ. Sea X1 , . . . , Xn m.a.s.
de X. Entonces
Ui = F (Xi ; θ) ∼ U (0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1).
Por lo tanto,
n
X
Yi ∼ γ(n, 1) y 2
i=1
n
X
Yi ∼ χ22n .
i=1
Ası́, se tiene que
n
n
X
X
Q( x , θ) = 2
Yi = −2
log F (Xi ; θ)
e
i=1
i=1
es cantidad pivotal y g
(θ) = Q( x , θ) es monótona en θ.
x
e
e
Obsérvese que Ui = 1 − F (Xi ; θ) ∼ U (0, 1), por lo que también se puede
definir Q a partir de los logaritmos de la función (1 − F (Xi ; θ)).
Ejemplo 80, página 188. Continuación. Sea Xi es exponencial con media
λ. En este caso es más cómodo trabajar con Ui = 1 − F (Xi ; λ) = e−Xi /λ . Ası́,
Pn
n
X
2 i=1 Xi
Q( x , λ) = −2
log(1 − F (Xi ; θ)) =
∼ χ22n ,
λ
e
i=1
que es la misma cantidad pivotal que habı́amos encontrado en el ejemplo 80.
.
.
6.2.3.
Intervalos bayesianos
En el marco bayesiano el parámetro θ es una variable aleatoria cuya distribución a priori es π(θ). Las observaciones tienen distribución condicionada
con densidad (o función de masa) f (x|θ). Tras la observación de una muestra
X = x , la distribución de probabilidad de θ se modifica con la información ree
e
cibida y pasa a tener la distribución a posteriori π(θ| x ). Ası́, cualquier intervalo
e
(o en general, cualquier conjunto) A ⊂ Θ tal que
Z
P (θ ∈ A| x ) =
π(θ| x )dθ = 1 − α
e
e
A
será un intervalo bayesiano de probabilidad 1 − α. El conjunto A depende de la
muestra observada a través de π(θ| x ).
e
194
Obsérvese que ahora ya no se habla de coeficiente de confianza, como en el
enfoque clásico: ahora (1 − α) es realmente la probabilidad de que el parámetro
pertenezca al intervalo A y ahora el parámetro es la variable aleatoria, mientras
que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido observada. Por este motivo, a los intervalos bayesianos se les denomina intervalos
de credibilidad (o más en general, conjuntos de credibilidad).
De los infinitos intervalos A que podemos elegir de forma que
P (θ ∈ A| x ) = 1 − α
e
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simétrico en probabilidad, es decir, aquél que deja a su izquierda una probabilidad de α/2 y otra tanta a su derecha.
También puede buscarse el intervalo de credibilidad (1−α) que tenga mayor
densidad a posteriori. Es decir,
{λ : π(λ| x ) ≥ cα },
e
donde cα se elige de forma que
Z
{λ:π(λ|
x )≥cα }
e
π(λ| x )dλ = 1 − α.
e
Ejemplo 83
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0,
β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn
es una
!
Ã
n
X
γ α+
xi , (β −1 + n)−1 ,
i=1
según se vio en el teorema 20.
Si tomamos como distribución a priori la γ de parámetros α = β = 1,
Pn
entonces la a posteriori de λ es γ(1 + i=1 xi , (n + 1)−1 ), luego
(2(n + 1)λ| x ) ∼ χ22(P x +1) .
i
e
Si tomamos intervalos simétricos en probabilidad, obtenemos el intervalo de
credibilidad (1 − α)
 2

χ2(P x +1),1−α/2 χ22(P x +1),α/2
i
i

.
,
2(n + 1)
2(n + 1)
Pn
Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene
el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077].
Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor
densidad a posteriori para λ siguiente: [,253, 1,005]. Obsérvese que este intervalo
es más corto que el intervalo que deja fuera dos colas con la misma probabilidad.
En la siguiente figura se representan ambos.
Intervalos de credibilidad (1−α)=0.9 para λ
1.8
1.6
Densidad a posteriori de λ
1.4
1.2
1
0.8
0.6
cα=0.44
0.4
IC1−α(λ) de mayor densidad
0.2
IC1−α(λ) simétrico en probabilidad
0
0
0.2
0.4
0.6
0.8
λ
.
6.2.4.
1
1.2
1.4
1.6
.
Intervalos de verosimilitud
A partir de la función de verosimilitud se puede estimar un parámetro mediante un intervalo (o, más en general, mediante un conjunto) de una forma
alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores
alternativos se conocen como intervalos de verosimilitud.
Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x; θ). La función de verosimilitud de
una muestra observada x es
e
n
Y
L(θ; x ) =
f (xi ; θ).
e
i=1
Esta función, para x fijo, representa cómo de verosı́mil es la muestra x para
e
e
cada uno de los posibles valores de θ.
El estimador máximo verosı́mil de θ es el valor θ̂ que hace máxima la verosimilitud y es un buen estimador de θ, como vimos en la sección 4.4. Si se desea
196
estimar θ mediante un conjunto, parece lógico considerar el de los valores θ que
hagan más verosı́mil la muestra observada x .
e
Para un valor cualquiera de θ se define la verosimilitud relativa de la
muestra x según θ como
e
L(θ; x )
e .
R(θ; x ) =
e
L(θ̂; x )
e
Dada una proporción p ∈ (0, 1), se define el conjunto de verosimilitud al
100p % para θ al conjunto
V ( X ) = {θ : R(θ; x ) ≥ p}.
e
e
Si θ ∈ IR, estos conjuntos de verosimilitud serán intervalos si la función de
verosimilitud es cóncava para cualquier x ∈ X .
e
Obsérvese que hay una equivalencia clara entre los conjuntos de verosimilitud
al 100p % y los intervalos de confianza (1−α) construidos a partir de la inversión
del test de razón de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 :
θ 6= θ0 , donde entre p y α existe una relación biyectiva.
Ejemplo 80, página 188. Continuación. Sea X ∼ exp(λ), λ = E(X).
e
Los cálculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud
relativa como
Pn
xi /λ
1 −
i=1
e
λn
Pn
R(λ; x ) =
=
e
supλ λ1n e− i=1 xi /λ
µ Pn
¶n
Pn
i=1 xi
en e− i=1 xi /λ .
nλ
Ası́, el intervalo de verosimilitud al 100p % será
¾
½ µ Pn
¶n
Pn
i=1 xi
V (x) = λ :
en e− i=1 xi /λ ≥ p .
nλ
e
Este intervalo tiene una confianza (1 − α) que depende de p.
Del mismo modo, el intervalo de confianza 0.9 que se calculó en la página
188 para n = 2, [0,364X 2 , 4,56X 2 ], es también un intervalo de verosimilitud
al 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este caso
p = 0,23.
.
.
6.3.
Evaluación de estimadores por intervalos
Los intervalos de confianza (1 − α) posibles para un parámetro dada una
muestra x son múltiples. Se plantea la cuestión de cómo evaluar la calidad de
e
cada intervalo y, si es posible, elegir el mejor.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS
197
En estimación por intervalos (o por conjuntos) hay dos cantidades que indican la calidad de un estimador: la longitud (o tamaño) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precisión) con
alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la
precisión hay que disminuir la confianza y viceversa.
6.3.1.
Intervalos de longitud mı́nima
Una práctica habitual es fijar la confianza deseada para los intervalos y
buscar qué intervalo con esa confianza es el que tiene longitud mı́nima. Se trata
de un problema de optimización con la restricción de que la confianza sea una
dada. La siguiente proposición da la solución bajo ciertas condiciones.
Proposición 4 Supongamos que se construye un intervalo de confianza (1 − α)
para un parámetro θ ∈ IR a partir de la cantidad pivotal Q( x , θ) ∈ IR y que
e
la distribución de Q( X , θ) es absolutamente continua con función de densidad
e
fQ . Se supone además que la función g (θ) = Q( x , θ) es creciente, derivable
x
e
e h : IR −→ Θ ⊆ IR.
e invertible y que su inversa es la función
Si la función fQ /h0 es unimodal, entonces el intervalo de confianza (1 − α)
de longitud mı́nima para θ es
C( x ) = [h(a∗ ), h(b∗ )]
e
donde a∗ y b∗ son los valores de IR que verifican
fQ (a∗ )
fQ (b∗ )
=
h0 (a∗ )
h0 (b∗ )
y
Z
b∗
a∗
fQ (q)dq = 1 − α.
Demostración: Sea FQ la función de distribución de Q( X , θ). Tal como vimos
e
en el apartado de la sección 6.2 dedicado a las cantidades pivotales, los intervalos
de la forma
[h(a), h(b)],
con FQ (b) − FQ (a) = 1 − α, son intervalos de confianza (1 − α) para θ. Ası́ que
b depende de a de forma que
FQ (b(a)) − FQ (a) = 1 − α.
Derivando respecto a a obtenemos
fQ (b(a))b0 (a) = fQ (a).
198
Si buscamos el valor de a que minimiza la longitud del intervalo, hay que minimizar
h(b(a)) − h(a).
Los puntos crı́ticos a∗ de esta función son los que cumplen
h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒
fQ (b∗ )
fQ (a∗ )
=
,
h0 (a∗ )
h0 (b∗ )
donde b∗ = b(a∗ ). Además sólo hay un punto a∗ que cumpla simultáneamente
esa condición y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o
bien está estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente.
En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α).
Veamos ahora que la solución única (a∗ , b(a∗ )) es un mı́nimo. Calculamos la
segunda derivada de h(b(a)) − h(a):
h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) − h00 (a) =
Ã
!
0
0
fQ
(a)fQ (b(a)) − fQ
(b(a))b0 (a)fQ (a)
fQ (a)
00
0
0
h (b(a))b (a)
−h00 (a).
+h (b(a))
2 (b(a))
fQ (b(a))
fQ
Si tenemos en cuenta que en (a∗ , b(a∗ )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b),
la expresión anterior se transforma en ésta:
0
0
h0 (a)fQ
(a) − h00 (a)fQ (a) h0 (b(a))fQ
(b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a)
−
+
=
2
2 (b(a))
fQ (a)
fQ (b(a))
fQ
(h0 (a))2
fQ (a)
µ
0
0
h0 (a)fQ
(a) − h00 (a)fQ (a) h0 (b(a))fQ
(b(a)) − h00 (b(a))fQ (b(a)) 0
−
b (a)
0
2
(h (a))
(h0 (b(a)))2
Ã
¯
¯ !
(h0 (a))2 ∂ (fQ (q)/h0 (q)) ¯¯
∂ (fQ (q)/h0 (q)) ¯¯
−
¯
¯
fQ (a)
∂q
∂q
q=a
0
y esta cantidad es positiva por ser fQ /h unimodal.
q=b
2
Las modificaciones necesarias para que este resultado sea aplicable a transformaciones g decrecientes son inmediatas.
x
e
Un caso particular importante es aquél en que la transformación g (θ) =
x
e
Q( x , θ) es lineal. En este caso h es también lineal y su derivada es constante, de
e
donde se sigue que la condición para que el intervalo tenga longitud mı́nima es
que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, además, la
distribución de Q es simétrica, entonces los intervalos de menor longitud serán
también simétricos en probabilidad. Esto ocurre, por ejemplo, en la estimación
por intervalos de la media poblacional de la normal.
Obsérvese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de mı́nima
e
e
longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza
e
e
(1 − α) para τ (θ), pero éste no tiene por qué ser el de mı́nima longitud.
¶
=
199
En la estimación por intervalos de un parámetro de escala a veces interesa
más tener el intervalo [L, U ] de mı́nima escala, es decir, el que tiene el menor
valor de U/L posible, en lugar del intervalo de mı́nima longitud. El resultado
anterior se puede usar tomando la reparametrización λ = log θ. El intervalo de
mı́nima longitud para λ será de la forma [h̃(a∗ ), h̃(b∗ )], donde h̃ = log h y h
es la inversa de g (θ) = Q( x , θ). Ası́ que el intervalo [h(a∗ ), h(b∗ )] es el de
x
e
e
menor escala para θ. La condición fQ (a)/h̃0 (a) = fQ (b)/h̃0 (b) se puede expresar
en términos de h como
fQ (b)h(b)
fQ (a)h(a)
=
.
h0 (a)
h0 (b)
Ejemplo 84
Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de
confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal
(n − 1)S 2
Q( X , σ 2 ) =
∼ χ2n−1 .
2
σ
e
En este caso la transformación g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es
x
e
(n − 1)S 2
.
h(q) =
q
La condición que deben cumplir los cuantiles a y b de la distribución χ2n−1 para
dar lugar al intervalo más corto es
fQ (a)a2 = fQ (b)b2 ,
además de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es fácil encontrar valores de n y
α para los que este intervalo no es simétrico en probabilidad.
Si se desea el intervalo más corto para σ, entonces
s
p
(n − 1)S 2
1
h(q) =
=⇒ h0 (q) = − (n − 1)S 2 p .
q
2 q3
La condición que deben cumplir a y b es
fQ (a)a3/2 = fQ (b)b3/2 .
Si se desea el intervalo de menor escala para σ 2 la condición que deben
cumplir a y b es
fQ (a)a = fQ (b)b.
y si se quiere el de mı́nima escala para σ, entonces
fQ (a)a2 = fQ (b)b2 .
.
.
200
6.3.2.
Relación con contrastes de hipótesis y optimalidad
El criterio de la longitud no es el único con el que se puede evaluar un
intervalo. Un concepto alternativo nace a partir de la estrecha relación existente
entre intervalos de confianza y contrastes de hipótesis. Se trata de la probabilidad
de falso cubrimiento que fue introducida por Neyman.
Sea X ∼ f ( x ; θ) y C( x ) un intervalo de confianza (1 − α) para θ basado
e
e
e
en la inversión de un test con región de aceptación A(θ). La probabilidad de
verdadera cobertura es la función de θ definida como Pθ (θ ∈ C( X )). La
e
probabilidad de falsa cobertura es la probabilidad de que un intervalo
0
cubra θ cuando θ es el verdadero valor del parámetro. Es una función que
depende de dos valores del parámetro θ y θ0 . Formalmente se define como
Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), U ( X )] y θ0 6= θ,
e
e
e
e
Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), ∞) y θ0 < θ,
e
e
e
Pθ (θ0 ∈ C( X )), si C( X ) = (∞, U ( X )] y θ0 > θ.
e
e
e
Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubrimiento para todos los valores de θ y θ0 sobre una clase de intervalos de confianza
(1 − α) se denomina intervalo uniformemente más acurado (UMA). Estos
intervalos de confianza se consiguen invirtiendo contrastes uniformemente más
potentes, como pone de manifiesto el siguiente resultado.
Teorema 47 Sea X ∼ f ( x ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗ (θ0 )
e
e
la región de aceptación del contraste UMP para contrastar H0 : θ = θ0 frente
a H1 : θ > θ0 a nivel α. Sea C ∗ ( x ) el intervalo de confianza (1 − α) construie
do invirtiendo las regiones de aceptación UMP. Entonces para cualquier otro
intervalo C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e
e
para todo θ0 < θ. En particular, el intervalo C ∗ ( x ) es UMA entre los que son
e
de la forma C( x ) = [L( X ), ∞).
e
e
Demostración: Sea θ0 < θ y A(θ0 ) la región de aceptación del test conseguido
al invertir los intervalos C( x ). Como A∗ (θ0 ) es UMP para contrastar H0 : θ = θ0
e
frente a H1 : θ > θ0 , y θ > θ0 se tiene que
Pθ (θ0 ∈ C ∗ ( X )) = Pθ ( X ∈ A∗ (θ0 )) ≤ Pθ ( X ∈ A(θ0 )) = Pθ (θ0 ∈ C( X )).
e
e
e
e
2
Para intervalos de la forma (−∞, U ( X )] se puede establecer un resultado
e
análogo. Obsérvese que los intervalos UMA no siempre existen, dado que en la
sección 5.2 vimos que no está garantizada la existencia de tests UMP.
201
Cuando se estudiaron los contrastes UMP se puso de manifiesto la conveniencia de restringir la atención sólo a los contrastes insesgados a la hora
de buscar el contraste UMP para contrates bilaterales. En el estudio de los intervalos de confianza UMA existe un concepto análogo de insesgadez: se dice
que C( x ) es conjunto insesgado de confianza (1 − α) si
e
Pθ (θ0 ∈ C( X )) ≤ 1 − α para todo θ 6= θ0 .
e
Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubrimiento es siempre menor o igual que la probabilidad de cubrimiento verdadero.
Se dice que un conjunto C ∗ ( x ) de confianza (1 − α) es insesgado y unie
formemente más acurado si es UMA entre la clase de conjuntos insesgados
de confianza (1 − α).
El siguiente teorema establece la correspondencia entre conjuntos insesgados
UMA y contrastes insesgados UMP.
Teorema 48 Sea X ∼ f ( x ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) la región
e
e
de aceptación del contraste insesgado UMP para contrastar H0 : θ = θ0 frente
a H1 : θ 6= θ0 a nivel α. Sea C ∗ ( x ) el conjunto de confianza (1 − α) construido
e
invirtiendo las regiones de aceptación del test insesgado UMP. Entonces para
cualquier otro conjunto insesgado C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e
e
para todo θ0 6= θ, es decir, el intervalo C ∗ ( x ) es insesgado UMA.
e
Demostración: La demostración es análoga a la del teorema 47 y puede dejarse
como ejercicio.
2
Para terminar esta sección, se establecerá la relación existente entre la longitud de un intervalo de confianza y su probabilidad de cobertura.
Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribución
paramétrica dada por la función de densidad (o función de masa) f ( x ; θ), θ ∈
e
Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y
U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor
θ∗ se tiene que
Z
Eθ∗ (U (X) − L(X)) =
Pθ∗ (θ ∈ C( X ))dθ.
e
θ6=θ ∗
Demostración:
Z ÃZ
Z
∗
Eθ∗ (U (X) − L(X)) =
U (x)
(U (x) − L(x))f (x; θ )dx =
X
X
L(x)
!
dθ f (x; θ∗ )dx
202
Obsérvese que
θ ∈ {θ : L(X) ≤ θ ≤ U (x)} ⇐⇒ x ∈ {x : U −1 (θ) ≤ x ≤ L−1 (θ)},
puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integración la integral anterior puede calcularse como
!
Z ÃZ −1
Z
L
Θ
(θ)
f (x; θ∗ )dx dθ =
U −1 (θ)
Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ =
Θ
Z
Z
P (θ ∈ C(X))dθ =
θ∗
Θ
θ6=θ ∗
Pθ∗ (θ ∈ C(X))dθ.
2
El teorema anterior justifica que a los intervalos que minimizan la probabilidad de falsa cobertura se les llame también intervalos más cortos en el
sentido de Neyman.
6.4.
Intervalos de confianza asintóticos
Estudiaremos en esta sección técnicas que proporcionan intervalos de confianza aproximada (1 − α). Se basan en propiedades asintóticas de algunos estadı́sticos.
Sea X n = (X1 , . . . , Xn ) una m.a.s. de tamaño n de X ∼ f (x; θ). Se dice
e
que Qn ( x n , θ) es una cantidad pivotal asintótica si para todo θ
e
Qn ( X n , θ) −→D Q,
e
donde Q es una variable aleatoria de distribución conocida que no depende de
θ.
Si se construyen intervalos de confianza (1 − α) a partir de Qn sustituyendo
su distribución por la de Q, diremos que los intervalos resultantes tienen aproximadamente confianza (1 − α). En general, cuanto mayor sea n mejor será la
aproximación.
Un caso particular importante lo constituyen las cantidades pivotales asintóticas de la forma
T ( X n ) − EθA (T ( X n ))
e
eq
Qn =
VθA (T ( X n ))
e
que son asintóticamente normales, donde T ( X n ) es algún estadı́stico de la muese
tra tal que
Vθ (T ( X n ))
e
−→P 1.
T ( X n ) − EθA (T ( X n )) −→P 0, A
e
e
Vθ (T ( X n ))
e
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS
6.4.1.
203
Intervalos basados en el estimador de máxima verosimilitud
Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de
e
X ∼ f (x, θ). Sea θ̂n el estimador de máxima verosimilitud de θ, y sea
¶
µ 2
∂
log
L(θ;
X
)
,
In (θ) = −Eθ
n
∂θ2
e
la información de Fisher que sobre θ contiene una muestra de tamaño n. Entonces
θ̂n − θ
V
=p
QEM
−→D Z ∼ N (0, 1),
n
(In (θ))−1
V
luego QEM
es una cantidad pivotal derivada del estimador máximo verosı́mil.
n
Un conjunto de confianza aproximadamente (1 − α) para θ es
V
{θ : −zα/2 ≤ QEM
≤ zα/2 }.
n
No siempre podrá derivarse de ahı́ un intervalo de confianza.
Una forma de garantizar un intervalo de confianza aproximadamente (1 − α)
para θ es construirlo como
q
q
−1
ˆ
[θ̂n − zα/2 (In (θ)) , θ̂n + zα/2 (Iˆn (θ))−1 ],
donde Iˆn (θ) es algún estimador consistente de la información de Fisher.
Ejemplo 85
Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada
(1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tamaño n es
Pn
√
x2
log L(σ, x n ) = −n log 2π − n log σ − i=12 i .
2σ
e
La función score es
∂ log L(σ, x n )
n
e
=− +
∂σ
σ
Pn
i=1
σ3
x2i
,
por lo que el estimador máximo verosı́mil es
v
u n
u1 X
σ̂n = t
X 2,
n i=1 i
!
Ã 2
∂ log L(σ, x n )
n
3n
2n
e
= − 2 + 4 Eσ (X 2 ) = 2 .
In (σ) = −Eσ
2
∂σ
σ
σ
σ
204
Ası́, la cantidad pivotal asintótica es
q P
n
1
V
QEM
n
n
( x n , σ) =
e
i=1
x2i − σ
√
σ/ 2n
,
que, fijada la muestra, es una función invertible de σ. El intervalo de confianza
para σ es
q P


n
1
2


i=1 xi − σ
n
√
≤ zα/2 =
σ : −zα/2 ≤


σ/ 2n
q P
n
1

n
i=1
x2i
1 + zα/2
q P
n
1
n
,
i=1
x2i
1 − zα/2

.
Si se construye el intervalo de confianza para σ 2 basado en su estimador de
máxima verosimilitud se observa que los extremos de este intervalo no son los
cuadrados de los extremos del intervalo construido para σ.
.
.
V
Hay una relación estrecha entre los intervalos de confianza basado en QEM
n
y los intervalos de verosimilitud definidos en la página 195. El logaritmo
de la verosimilitud relativa es
r(θ; x ) = log R(θ; x ) = log L(θ; x ) − log L(θ̂; x ),
e
e
e
e
que bajo condiciones de regularidad puede ser aproximada en torno a θ̂n como
1
r(θ; x ) ≈ − (θ − θ̂n )2 In (θ̂n ).
2
e
El conjunto de verosimilitud al 100p % para θ es
V ( X ) = {θ : R(θ; x ) ≥ p} = {θ : r(θ; x ) ≥ log p} ≈
e
e
e
q
q
{θ : (θ̂n −θ)2 In (θ̂n ) ≤ −2 log p} = [θ̂n −
−2 log p/In (θ̂n ), θ̂n +
−2 log p/In (θ̂n )].
Este intervalo de verosimilitud coincide con el intervalo de confianza construido
a partir del EMV si hacemos
zα/2 =
p
−2 log p.
Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente a
fijar p = 0,2585.
6.4.2.
205
Intervalos basados en la función score.
Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de
e
X ∼ f (x, θ). Sea Sn ( X n , θ) la función score:
e
∂
log L(θ; X n ).
Sn ( X n , θ) =
∂θ
e
e
Recordemos que
Eθ (Sn ) = 0, Vθ (Sn ) = In (θ),
donde In (θ) es la información de Fisher. Además,
QSn =
Sn ( X n , θ)
pe
−→D Z ∼ N (0, 1),
In (θ)
luego QSn es cantidad pivotal asintótica. El conjunto
C( x ) = {θ : −zα/2 ≤ QSn ( x , θ) ≤ zα/2 }
e
e
es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn ( x , θ) es
e
función invertible de θ para x fijo, entonces ese conjuntos será un intervalo.
e
El método de construcción de intervalos de confianza basado en la función
score tiene la particularidad de que si se utiliza para dar un intervalo para θ y se
obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para τ (θ) el intervalo
e
e
que se obtiene es justamente [τ (L( x )), τ (U ( x ))]. Esto se debe a que
e
e
∂
∂τ
∂τ
Sn ( x , τ ) =
log L(θ; X n )
= Sn ( x , θ) ,
∂θ
∂θ
∂θ
e
e
e
"
#
µ
¶
2
∂2
∂θ
∂
∂2τ
In (τ ) = −Eτ
log L(θ; X n )
+
log L(θ; X n ) 2 =
∂θ2
∂τ θ
∂θ
∂θ
e
e
µ ¶2
∂τ
In (θ)
,
∂θ
QSn ( x , θ) = QSn (τ (θ)).
e
Esta propiedad no la verifican todos los métodos de construcción de intervalos
de confianza, tal y como se señaló en el ejemplo 85, página 203.
Ejemplo 85, página 203. Continuación. La función score es
Pn
x2
n
Sn = − + i=13 i
σ
σ
In =
2n
.
σ2
206
Ası́, el conjunto de confianza basado en el score es
Pn 2


xi


− nσ + i=1
3
q σ
≤ zα/2 =
σ : −zα/2 ≤


2n
σ2

v
u
u
t
1
n
Pn
v
u
u
q ,t
2
i=1 xi
1 + zα/2
2
n
1
n
Pn

2
i=1 xi
1 − zα/2

q .
2
n
Este intervalo es diferente del que se encontró en la página 203.
Obsérvese que si se construye el intervalos basado en la función score para
σ 2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos
del intervalo para σ.
.
.
El siguiente teorema establece que entre una amplia familia de intervalos
basado en cantidades pivotales asintóticamente normales, los más cortos son los
basado en la función score.
Teorema 50 Sea X ∼ f (x; θ). Se suponen las condiciones de regularidad H1,
H2 y H3 introducidas en el Teorema de Cramér-Rao. Sea h(X, θ) una función
tal que Eθ (h(X, θ)) = 0 y 0 < Vθ (h) = Vθ (h(X, θ)) < ∞. Se define
Pn
i=1 h(Xi , θ)
Qh ( X , θ) = p
e
nVθ (h)
Se define
h0 (X, θ) =
∂
log f (x, θ).
∂θ
Entonces se verifica lo siguiente:
1. Qh ( X , θ) es asintóticamente N (0, 1).
e
2. QSn = Qh0 .
3. La cantidad
¯ µ
¶¯
¯
¯
¯Eθ ∂ Qh ¯
¯
∂θ ¯
se hace máxima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con
k 6= 0.
4. Los intervalos de confianza basados en la función score son los más cortos
asintóticamente, entre los basados en las cantidades pivotales asintóticas
Qh .
207
Demostración: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos
que se cumple 3. La derivada parcial de Ah respecto a θ es
Ã n
!
n
X ∂ h(Xi , θ)
∂ Qh (X, θ)
1
1 ∂ Vθ (h) X
=p
−
h(Xi , θ) .
∂θ
∂θ
2Vθ (h) ∂θ i=1
nVθ (h) i=1
Como Eθ (h(X, θ)) = 0, su esperanza será
·
¸ r
·
¸
∂ Qh (X, θ)
n
∂ h(X, θ)
Eθ
=
E
.
∂θ
Vθ (h)
∂θ
Obsérvese además que
¸
·
1
∂θ
1
∂ h(Xi , θ)
√
−→P p
,
E
∂θ
n ∂Qh (X, θ)
Vθ (h)
lo cuál implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en probabilidad. Este hecho será necesario para probar el punto 4.
Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se
obtiene lo siguiente:
Z
Z
Z
∂
∂ h(x, θ)
∂ f (x; θ)
0=
h(x, θ)f (x; θ)dx =
f (x; θ)dx +
h(x, θ)dx,
∂θ
∂θ
∂θ
·
¸
Z
∂ h(Xi , θ)
∂ f (x; θ)
E
=−
h(x, θ)dx =
∂θ
∂θ
Z
−
h(x, θ)
∂ log f (x; θ)
f (x; θ)dx = −Cov(h(X, θ), h0 (X, θ)).
∂θ
De ahı́ se deduce, por una parte, que
·
¸
p
∂ Qh0 (X, θ)
Eθ
= − nVθ (h0 ) < 0,
∂θ
y por otra que
·
Eθ
¸
√ Cov(h(X, θ), h0 (X, θ))
∂ Qh (X, θ)
p
=− n
,
∂θ
Vθ (h)
luego,
h
Eθ
Eθ
y por lo tanto
h
∂ Qh (X,θ)
∂θ
i
∂ Qh0 (X,θ)
∂θ
i = Corr(h(X, θ), h0 (X, θ)),
¯ ·
¸¯ ¯ ·
¸¯
¯ ¯
¯
¯
¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ .
¯ ¯
¯
¯
∂θ
∂θ
Esto concluye la demostración de 3.
208
Probemos ahora 4. Sea θ0 el verdadero valor del parámetro. Si θ es suficientemente próximo a θ0 ,
¯
∂ Qh ¯¯
Qh ( X , θ) ≈ Qh ( X , θ0 ) + (θ − θ0 )
,
∂θ ¯θ0
e
e
El intervalo de confianza basado en Qh es entonces
)
(
¯
∂ Qh ¯¯
≤ zα/2 ,
θ : −zα/2 ≤ Qh ( X , θ0 ) + (θ − θ0 )
∂θ ¯θ0
e
cuya longitud tiende a 0 porque, según vimos más arriba, el valor absoluto de
(∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ
que están dentro del intervalo sean cada vez más próximos a θ0 , con lo que la
anterior aproximación de Qh ( X , θ) por su desarrollo de Taylor de primer orden
e
será cada vez más precisa, cuando n crece.
La longitud asintótica del intervalo es
2z
¯ µ α/2¯ ¶¯ .
¯
¯
¯E ∂ Qh ¯¯
¯
∂θ
¯
θ0 ¯
Basta entonces aplicar el punto 3 del teorema para obtener 4.
2
Podemos dar las siguientes reglas prácticas para calcular intervalos de confianza asintóticos. En primer lugar, es recomendable que éstos se basen en la
función score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitución de cantidades que dependen
del parámetro por estimadores consistentes de éstas.
Ejemplo 86
Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asintótico para
p que se deriva de la función score. La verosimilitud es
µ ¶
n x
L(θ; x) =
p (1 − p)n−x
x
y el score,
S(θ, x) =
∂ log L(θ; x)
x − np
=
.
∂p
p(1 − p)
La información de Fisher es
·
¸
∂ 2 log L(θ; x)
n
I(p) = −E
=
.
∂p2
p(1 − p)
Ası́, la cantidad pivotal asintótica derivada de la función score es
√
n(p̂ − p)
S(θ, x)
=p
,
QS (x, p) = p
I(p)
p(1 − p)
209
donde p̂ = x/n. El intervalo de confianza que da lugar es
(
)
√
n(p̂ − p)
C1 = p : −zα/2 ≤ p
≤ zα/2
p(1 − p)
El siguiente es también un intervalo de confianza (1 − α) asintóticos para el
parámetro p de X ∼ B(n, p):
(
) "
#
p
√
p̂(1 − p̂)
n(p̂ − p)
√
C2 = p : −zα/2 ≤ p
≤ zα/2 = p̂ ∓ zα/2
n
p̂(1 − p̂)
El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar
expresado
explı́citamente como un intervalo. Definimos la función g(p) = (p −
p
p̂) n/(p(1 − p)). Es fácil comprobar que esa función es estrictamente creciente
en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que
³

p
´
2
p̂(1−p̂)+(zα/2
/4n)
√
n
2
 p̂ + (zα/2 /2n) ∓ zα/2
³
´
C1 = 

2 /n)
1 + (zα/2

.

El premio por este trabajo extra es que la longitud de C1 será, en general, menor
que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la
de C2 es
q
2 /4np̂(1 − p̂))
1 + (zα/2
,
2 /n)
1 + (zα/2
que para valores de p̂ cercanos a 0.5 es aproximadamente igual a
1
q
2 /n)
1 + (zα/2
< 1.
Cuando n crece los intervalos C1 y C2 son prácticamente coincidentes.
.
.
210
6.5.
Lista de problemas
Métodos de construcción
1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn
de X se puede contruir un intervalo de confianza 0.95 para µ de la forma
√
x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observación Xn+1
independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor,
igual o mayor que 0.95?
2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para construir intervalos de confianza para la media y la varianza de una distribución
normal.
3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para construir intervalos de confianza para la diferencia de medias y el cociente de
varianzas de dos distribuciones normales.
4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para construir intervalos de confianza de la forma [c, ∞) para el cociente de las
medias de dos exponenciales.
5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼
B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de confianza 0.95 a partir de la inversión del test de la razón de verosimilitudes
para contrastar H0 : p = p0 frente a H1 : p 6= p0 .
6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tamaño
n de una exponencial con densidad
f (x; θ) =
a) Prueba que Y = 2
Pn
i=1
1 −x/θ
e
I(0,∞) (x).
θ
Xi /θ es cantidad pivotal.
b) Construye un intervalode confianza (1 − α) para θ a partir de Y .
7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias
independientes X1 , . . . , Xn tales que
Xi ∼ N (θai , bi ), i = 1, . . . , n,
donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n.
a) Encuentra un estadı́stico suficiente para θ y a partir de él construye
un intervalo bilateral de confianza (1 − α) para θ.
b) Si ai = bi = i, i = 1, . . . , n, ¿cuál es el menor valor de n tal que
longitud de ese intervalo es menor o igual que 0,5?
211
8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada en
una m.a.s. de tamaño n de una N (θ, θ), donde θ > 0 es la varianza de la
distribución. A partir de esa cantidad pivotal, construye un intervalo de
confianza (1 − α) para θ.
9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X ∼ beta(θ, 1) y
supongamos que θ tiene distribución a priori γ(r, λ). Dar un conjunto de
credibilidad (1 − α) para θ.
10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X ∼ Bern(p). Dar
un intervalo de credibilidad (1 − α) para p usando la a priori conjugada
beta(a, b).
Evaluación de los métodos de construcción de intervalos de confianza
11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Compara las longitudes esperadas de los intervalos de confianza (1 − α) para
µ calculados bajo los supuestos siguientes.
a) σ 2 conocida.
b) σ 2 desconocida.
12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes
con funciones de densidad
fXi (x; θ) = eiθ−x I[iθ,∞) (x).
a) Prueba que T = mı́ni (Xi /i) es un estadı́stico suficiente para θ.
b) Encontrar el intervalo de confianza (1 − α) de la forma [T + a, T + b]
de longitud mı́nima.
13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X ∼ U (0, θ). Sea
Y = X(n) el máximo de las observaciones.
a) Prueba que Y /θ es una cantidad pivotal.
b) Prueba que [y, y/α1/n ] es el más corto de cuantos intervalos de confianza (1 − α) se pueden derivar de la cantidad pivotal Y .
14. (Casella-Berger, 9.42) Se tiene una observación de una γ(k, β) con parámetro de forma k conocido. Encontrar el intervalo de confianza (1 − α) más
corto entre los que tienen la forma [x/b, x/a].
15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribución logı́stica:
ex−θ
f (x; θ) =
.
(1 + ex−θ )2
Basándote en una observación de X, construye el intervalo de confianza
(1 − α) uniformemente más acurado de la forma (−∞, U (x)].
212
16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) =
λ).
a) Construye el contraste UMP de tamaño α para contrastar H0 : λ =
λ0 rente a H1 : λ < λ0 .
b) Da el intervalo de confianza (1 − α) uniformemente más acurado
basado en el contraste del apartado anterior y prueba que puede
expresarse como
#
" P
n
i=1 xi
.
C( x ) = 0, 2
χ2n,α
e
c) Calcula la longitud esperada de C( X ).
e
Intervalos de confianza asintóticos
17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribución
binomial negativa de parámetros (r, p), r conocido. Calcula un intervalo
de confianza aproximada (1 − α) para p basado en la función score.
18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribución binomial negativa de parámetros (r, p), r conocido.
Pn
a) ¿Qué distribución tiene Y = i=1 Xi ?
b) Prueba que si p tiende a 0, entonces 2pY tiende en distribución a una
χ22nr . (Indicación: Utiliza las funciones generadores de momentos).
c) Usa este hecho para probar que
" 2
#
χ2nr,1−α/2 χ22nr,α/2
Pn
, Pn
2 i=1 xi 2 i=1 xi
es un intervalo de confianza aproximada (1 − α) para p.
d ) ¿Cómo habrı́a que escoger los extremos del intervalo para obtener el
intervalo de longitud mı́nima con confianza aproximada (1 − α)?
19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribución de Poisson(θ). Usa el hecho de que para valores grandes
de θ la distribución de X es aproximadamente N (θ, θ) para obtener una
ecuación cuadrática en θ cuyas raı́ces dan los extremos de un intervalo de
confianza aproximado para la media de X, θ.
20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmética se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
qué proporción θ de hombres de un grupo de edad comprarán ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.
213
Cada enuestado lanza un dado sin que el encuestador vea el resultado.
Según el resultado obtenido, habrá de codificar su respuesta (“Sı́, compraré el nuevo producto” o “No, no compraré el nuevo producto”) como
A, B o C, según la siguiente tabla:
Verdadera
respuesta
Sı́
No
Resultado
1 2 3
C C C
C A A
en el
4
A
B
dado
5 6
B A
A B
En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.
a) Prueba que el logaritmo de la verosimilitud de θ es
440 log(3 − θ) + 310 log(2 − θ) + 250 log(1 − 2θ) + constante.
b) Da el estimador máximo verosı́mil de θ.
c) Construye un intervalo de confianza aproximada 95 % para θ.
d ) Supongamos ahora que se tiene acceso a la verdadera respuesta Sı́-No
de los hombres de otra muestra de tamaño n. ¿Qué tamaño muestral
n es necesario para que el intervalo de confianza 95 % en este caso
tenga la misma longitud que el calculado previamente?
214
Capı́tulo 7
Introducción a la Teorı́a de
la Decisión
Referencias: Casella-Berger, capı́tulo 10, Garthwaite, Jollife y Jones
(1995), capı́tulo 6.
Todos los métodos de inferencia estadı́stica (estimación puntual, contrastes
de hipótesis, estimación por intervalos) involucran la toma de una decisión: hay
que decidir qué punto o qué intervalo se toma como estimador de un parámetro;
hay que decidir si se rechaza o no la hipótesis nula.
La teorı́a de la decisión es el marco teórico que permite estudiar globalmente los problemas de inferencia estadı́stica como un único tipo de problema:
la toma de una decisión. Todas los elementos del proceso de decisión están
formalmente definidos, incluyendo el criterio que la decisión final habrá de optimizar.
7.1.
Elementos básicos en un problema de decisión
Los elementos necesarios para plantear un problema de inferencia estadı́stica
desde la perspectiva de la teorı́a de la decisión son los siguientes:
Datos. Los datos se describen mediante un vector aleatorio X cuyos valores
e
están en el espacio muestral X .
Modelo. Es el conjunto de posibles distribuciones de probabilidad de los datos X . Se supone que es una familia paramétrica de distribuciones {fθ :
e
θ ∈ Θ}, donde fθ es una función de densidad o una función de masa de
215
216
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
probabilidad. El conjunto Θ es el espacio de parámetros. El parámetro θ (que puede ser un escalar o un vector) es el valor verdadero, pero
desconocido, del estado de la naturaleza.
Espacio de acciones. Después de observar X = x se toma una decisión
e
e
que afecta a θ. El conjunto de posibles acciones permitidas es el espacio
de acciones. Este conjunto se denotará por A y sus elementos por a.
El espacio de acciones determina si un problema de decisión es uno de
estimación puntual (si A = Θ), uno de estimación por intervalos (si A es
el conjunto de intervalos contenidos en Θ) o uno de contraste de hipótesis
(si A = {“aceptar H0 ”, “rechazar H0 ”}).
Función de pérdida. Para evaluar el coste de tomar la decisión a cuando
el verdadero estado de la naturaleza es θ, se utiliza una función de
pérdida:
L : Θ × A −→ IR
(θ, a) −→ L(θ, a)
Cuanto mayor es el valor de L(θ, a) menos apropiada es la decisión a
si el verdadero estado de la naturaleza es θ. En economı́a y en análisis
bayesiano se valora la adecuación de a a θ con una función de utilidad
U (θ, a) que da valores altos a pares acordes y valores bajos a pares poco
adecuados. Una función de pérdida cambiada de signo es una función de
utilidad y viceversa.
Reglas de decisión. Una regla de decisión es una función
δ
:
X
x
e
−→ A
−→ δ( x ) = a
e
que, para cada posible valor x de X , indica qué acción a se ha de tomar
e
si X toma el valor x . El conjunto de reglas de decisión aceptables
e
e
en un problema se denota por D.
Función de riesgo. Para evaluar la calidad de las reglas de decisión δ ∈ D se
define la función de riesgo
R
: Θ×D
(θ, δ)
−→ IR
−→ R(θ, δ) = Eθ [L(θ, δ( X ))]
e
que mide la pérdida esperada si se usa la regla δ y el verdadero estado de
la naturaleza es θ.
Como el valor que toma el parámetro θ no es conocido, es deseable usar una
regla de decisión que tenga valores bajos de la función de riesgo para todos los
posibles valores θ ∈ Θ.
7.1. ELEMENTOS BÁSICOS EN UN PROBLEMA DE DECISIÓN
7.1.1.
217
Comparación de reglas de decisión.
Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )
y R(θ, δ2 ).
Comparar δ1 y δ2 mediante la función de riesgo es fácil si se verifica que
R(θ0 , δ1 ) < R(θ0 , δ2 ) para todo θ ∈ Θ.
Al comparar δ1 y δ2 diremos que:
δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.
δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un
θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).
δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.
Una regla δ1 es inadmisible si existe otra regla δ2 tal que
R(θ, δ2 ) ≤ R(θ, δ1 ) para todo θ ∈ Θ
y además existe un θ0 tal que
R(θ0 , δ2 ) < R(θ0 , δ1 ).
En ese caso diremos que δ2 es preferible a δ1 , o simplemente que δ2 es mejor
que δ1 .
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de
D que sean admisibles.
En la comparación de dos reglas de decisión lo habitual será que ninguna de
ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra
para determinados valores de θ y ocurra lo contrario para otros valores de θ. Para
realizar una valoración global (considerando todos los posibles valores de θ) de
una regla de decisión δ, a veces se define una distribución de probabilidad
a priori π(θ) en Θ que refleja cómo son de plausibles las diferentes zonas del
espacio de parámetros. A partir de esta distribución sobre Θ se define el riesgo
Bayes de las reglas de decisión como
B
:
A −→ IR
δ −→ B(δ) = Eπ [R(θ, δ)]
218
En ocasiones escribiremos el riesgo Bayes como B(π, δ) para señalar explı́citamente que su definición depende de la distribución a priori π considerada.
El riesgo Bayes de δ resume en un solo número el comportamiento de δ
sobre todo el espacio Θ. Valores pequeños de B(π, δ) indican que δ tiene un
buen comportamiento en las zonas de Θ a las que π asigna más probabilidad.
A una regla de decisión δ que hace mı́nimo el riesgo Bayes se le llama regla
Bayes. En la sección 7.4 veremos que estas reglas tiene ciertas propiedades de
optimalidad.
7.2.
Teorı́a de la decisión e inferencia estadı́stica
En esta sección veremos cómo plantear los problemas de estimación puntual,
estimación por intervalos y contraste de hipótesis como problemas de teorı́a de
la decisión.
7.2.1.
Estimación puntual.
Supongamos que X es un vector aleatorio con distribución fθ , θ ∈ Θ. Sue
pongamos que Θ ⊆ IR y se desea estimar el parámetro θ. Determinaremos todos
los elementos del problemas de decisión asociado. Las ideas que se desarrollarán
ahora son también válidas si θ es un vector de parámetros. Los datos y el modelo
son los que se acaban de especificar: X , {fθ : θ ∈ Θ}.
e
El espacio de acciones A se corresponde con los posibles valores de θ, es decir
A = Θ. A veces puede interesar que A sea más grande que Θ, por ejemplo, si θ
es la probabilidad de éxito de un experimento de Bernoulli y Θ = (0, 1) podrı́a
ser que nos interesase tomar A = [0, 1].
La función de pérdida L debe reflejar el hecho de que si una acción a es
cercana a θ entonces la decisión es correcta, es decir, la pérdida es pequeña.
En general las funciones de pérdidas consideradas son funciones crecientes en la
distancia entre θ y a. Las funciones de pérdida más usuales son éstas:
Pérdida del valor absoluto: L(θ, a) = |θ − a|.
Pérdida cuadrática: L(θ, a) = (θ − a)2 .
Pérdida 0-1: L(θ, a) = 1{|θ−a|>c} , con c ≥ 0.
La función de pérdida puede reflejar que es menos deseable, por ejemplo, sobrestimar θ que subestimarlo. Ası́ lo hace esta función de pérdida:
½
L(θ, a) =
(θ − a)2
10(θ − a)2
si
si
a<θ
a≥θ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA
219
También es posible penalizar más los errores de estimación cuando θ es próximo
a 0 que cuando θ es grande:
L(θ, a) =
(θ − a)2
.
|θ| + 1
Obsérvese que en este contexto las reglas de decisión son los estimadores de θ.
La función de riesgo de una regla de decisión depende de la función de pérdida
definida. Por ejemplo, si la pérdida es cuadrática, la función de riesgo es el error
cuadrático medio:
R(θ, δ) = Eθ [(δ( X ) − θ)2 ] = Vθ (δ( X )) + (Sesgoθ (δ( X )))2 .
e
e
e
Los estimadores (las reglas de decisión) deseables según esta definición de la
función de riesgo son aquellos que simultáneamente tienen poco sesgo y poca
varianza. Obsérvese que desde el punto de vista de la teorı́a de la decisión
no está justificado el restringir la clase de estimadores D a aquéllos que son
insesgados.
Ejemplo 87
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ). Consideremos el
problema de estimar σ 2 usando la función de pérdida cuadrática
L(θ, a) = (θ − a)2 .
Consideremos reglas de decisión (estimadores) del tipo δb ( X ) = bS 2 , donde S 2
e
es la varianza muestral, y b > 0.
Recordemos que E(S 2 ) = σ 2 y V (S 2 ) = 2σ 4 /(n − 1). El riesgo de δb es
R((µ, σ 2 ), δb ) = V (bS 2 ) + (E(bS 2 ) − σ 2 )2 =
2σ 4
b
+ (bσ 2 − σ 2 )2 = σ 4
n−1
2
µ
2b2
+ (b − 1)2
n−1
¶
= σ 4 c(b).
Ası́, la función de riesgo no depende de µ y es cuadrática en σ 2 .
Obsérvese que si c(b) < c(b0 ) entonces R((µ, σ 2 ), δb ) < R((µ, σ 2 ), δb0 ). Por
lo tanto, buscar la mejor regla de decisión equivale a minimizar c(b) en b. El
mı́nimo de esa expresión se alcanza en b = (n − 1)/(n + 1) y, por lo tanto, para
cada valor del parámetro (µ, σ 2 ) el estimador
n
S̃ 2 =
1 X
n−1 2
S =
(Xi − X)2
n+1
n + 1 i=1
tiene el riesgo menor entre todos los estimadores de la forma bS 2 .
El siguiente gráfico compara los riesgos de S 2 , σ̂ 2 y S̃ 2 para diferentes valores
de σ 2 , donde σ̂ 2 = (n − 1)S 2 /n es el estimador máximo verosı́mil de σ 2 .
220
35
30
R(σ2,S2)
25
2
2
R(σ ,(n−1)S /n)
Riesgo
20
15
R(σ2,(n−1)S2/(n+1))
10
5
0
0
1
2
3
4
5
6
7
8
9
10
σ2
.
.
Ejemplo 88
Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con
V (X) = σ 2 positiva y finita. Consideramos el problema de la estimación de σ 2
y la función de pérdida
LS (σ 2 , a) =
a
a
− 1 − log 2 ,
σ2
σ
conocida como pérdida de Stein. Obsérvese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) =
0 si y sólo si a = σ 2 . Además, para σ 2 fijo, se tiene que
lı́m LS (σ 2 , a) = ∞, y
a−→0
lı́m LS (σ 2 , a) = ∞.
a−→∞
Es decir, LS penaliza tanto la subestimación como la sobrestimación. Recuérdese
que con la pérdida cuadrática la subestimación tiene pérdida acotada, mientras
que la penalización de la sobrestimación es no acotada.
Consideremos, como en el ejemplo anterior, la clase de estimadores de la
forma δb = bS 2 . Su riesgo es
· 2
¸
µ
¶
bS
bS 2
S2
2
R(σ , δb ) = E
− 1 − log 2 = b − 1 − log b − E log 2 .
σ2
σ
σ
Obsérvese que el último sumando es función de σ 2 y posiblemente de otros
parámetros, pero no es función de b. Ası́, R(σ 2 , δb ) se minimiza en aquel valor
221
b que hace mı́nima la función b − log b, es decir, en b = 1. Ası́, de todos los
estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor σ 2
es δ1 = S 2 .
.
.
7.2.2.
Contrastes de hipótesis.
En un problema de contraste de hipótesis el espacio de acciones consiste
únicamente en dos elementos: A = {a0 , a1 }, donde la acción a0 consiste en
aceptar H0 : θ ∈ Θ0 y la acción a1 en rechazarla o, equivalentemente, aceptar
H1 : θ ∈ Θ 1 .
Una regla de decisión δ es una función del espacio muestral X que sólo toma
e
dos valores: a0 o a1 . El conjunto { x : δ( x ) = a0 } es la región de aceptación del
e
e
test y el conjunto { x : δ( x ) = a1 } es la región de rechazo o región crı́tica.
e
e
La función de pérdida ha de reflejar que se comete un error si se decide a0
cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros
casos se actúa correctamente. En este contexto la función de pérdida 0-1 es la
más utilizada:
L(θ, a0 ) = 1{θ6∈Θ0 } , L(θ, a1 ) = 1{θ∈Θ0 } .
Esta función penaliza de igual forma los errores de tipo I que los errores de tipo
II. Si se desea penalizarlos de forma diferente puede usarse la función de pérdida
0-1 generalizada:
L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } ,
donde cI es el coste de un error de tipo I, y cII el de uno de tipo II.
Se pueden definir otras funciones de pérdida que recojan aspectos propios
del problema que se esté tratando. Por ejemplo, la función de pérdida puede
recoger el hecho de que es más grave cometer un error de tipo I cuanto más
lejos de Θ0 esté θ.
La función de potencia de un contraste está relacionada con la función de
riesgo de ese contraste. Sea β(θ) la función de potencia de un test basado en la
regla de decisión δ. Sea C = { x : δ( x ) = a1 } la región crı́tica. Entonces
e
e
β(θ) = P ( X ∈ C|θ) = P (δ( X ) = a1 |θ).
e
e
Por su parte, la función de riesgo asociada a una pérdida 0-1 generalizada es,
para θ ∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
0 · P (δ( X ) = a0 |θ) + cI · P (δ( X ) = a1 |θ) = cI β(θ),
e
e
y para θ 6∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
222
cII · P (δ( X ) = a0 |θ) + 0 · P (δ( X ) = a1 |θ) = cII (1 − β(θ)).
e
e
Esta relación entre la función de riesgo y la de potencia viene dada por la elección
de la función de pérdida 0-1 generalizada. Sin embargo, aunque se trabaje con
otras funciones de pérdida, en general la función de potencia juega un papel
importante en cualquier contraste de hipótesis. En efecto,
R(θ, δ) = Eθ (L(θ, δ( X ))) = L(θ, a0 )(1 − β(θ)) + L(θ, a1 )β(θ).
e
Ejemplo 89
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El
contraste uniformemente más potente de nivel α para contrastar
½
H0 : µ ≥ µ0
H1 : µ < µ 0
rechaza H0 si
X − µ0
√ < −zα
σ/ n
y tiene función de potencia
µ
¶
µ
¶
µ − µ0
µ − µ0
√
√
β(µ) = Pµ Z < −zα −
= φ −zα −
.
σ/ n
σ/ n
Para α = 0,1 y tomando cI = 8 y cII = 3 en la función de pérdida 0-1 generalizada, se tiene que
µ
¶
µ − µ0
√
R(µ, δ) = 8φ −zα −
si µ ≥ µ0 ,
σ/ n
µ
µ
¶¶
µ − µ0
√
R(µ, δ) = 3 1 − φ −zα −
si µ < µ0 .
σ/ n
3
2.5
R(µ,δ)
2
1.5
1
0.5
0
−3
µ<µ0
−2
µ ≥ µ0
−1
0
n1/2(µ−µ0)/σ
1
2
3
.
223
.
A veces es conveniente aprovechar la función de pérdida para reflejar el hecho
de que algunas decisiones incorrectas son más graves que otras. Por ejemplo, en
el contraste
½
H0 : µ ≥ µ 0
H1 : µ < µ 0
se comete un error de tipo I si se rechaza H0 cuando de hecho µ ≥ µ0 . Sin
embargo, las consecuencias de rechazar erróneamente H0 son mucho peores si
µ es mucho mayor que µ0 que si µ es ligeramente mayor que µ0 . La siguiente
función de potencia refleja esto:
L(µ, a0 ) = b(µ0 − µ)1{µ<µ0 } , L(µ, a1 ) = c(µ − µ0 )2 1{µ≥µ0 } ,
donde b y c son constantes positivas. Un contexto en el que esta función de
pérdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina
ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol máximo
aceptable en µ0 . Se contrasta
½
H0 : µ ≥ µ 0
H1 : µ < µ 0
donde µ es el nivel de colesterol de un paciente que ha tomado la medicina
(se supone que µ no es directamente observable, sino sólo a partir de diversos
análisis). Debido a la asociación entre niveles altos de colesterol y enfermedades
de corazón, las consecuencias de rechazar H0 cuando µ es grande son mucho
peores que si µ toma valores moderados, aunque superiores a µ0 . Por eso es
conveniente usar la función cuadrática (µ − µ0 )2 .
7.2.3.
Estimación por intervalos.
En estimación por conjuntos el espacio de acciones A consiste en todos los
subconjuntos del espacio paramétrico Θ. Nos limitaremos a considerar el caso
de que Θ ⊂ IR y únicamente consideraremos como acciones los subconjuntos de
Θ que sean intervalos. Esta limitación es arbitraria y responde únicamente a
consideraciones prácticas.
Sea C un elemento de A. Cuando se toma la acción C, se está haciendo la
estimación “θ ∈ C”. Una regla de decisión δ( x ) especifica para cada x ∈ X
e
e
qué intervalo C ∈ A será usado como estimador si se observa X = x . Usaremos
e
e
la notación C( x ) para denotar a C = δ( x ).
e
e
En estimación por intervalos las funciones de pérdida tienen en cuenta dos
aspectos: si el verdadero valor del parámetro está o no en el intervalo estimador,
y una medida del tamaño de éste. Para medir el tamaño se usa la longitud del
224
intervalo, Long(C), mientras que la función IC (θ) suele usarse para indicar si θ
está o no en C.
La forma en que se combinan esas dos cantidades para formar la función de
pérdida es habitualmente ésta:
L(θ, C) = b Long(C) − IC (θ),
donde la constante b determina el peso relativo del tamaño y la corrección de
C. La función de riesgo asociada será
R(θ, C) = bEθ (Long(C( X ))) − Eθ (IC ( X )) =
e
e
bEθ (Long(C( X ))) − Pθ (θ ∈ C( X )).
e
e
Esta función de riesgo tiene dos componentes: la longitud esperada del intervalo
y su probabilidad de cubrimiento. Ası́, cuando se busca el estimador C( x )
e
que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre
longitud y confianza. Ésta es una diferencia considerable con respecto al enfoque
adoptado en la sección 6, dedicada a la estimación por intervalos: allı́ se fijaba
un valor de la confianza y se buscaba el intervalo más corto que tuviese dicha
confianza. Desde la óptica de la teorı́a de la decisión es posible perder algo
de confianza si a cambio se consigue reducir notablemente la longitud de los
estimadores.
Ejemplo 90
Sea X ∼ N (µ, σ 2 ), con σ 2 conocida. Consideremos las reglas de decisión
Cc (x) = [x − cσ, x + cσ], c ∈ IR, c ≥ 0.
Compararemos estos estimadores usando la función de pérdida
L(µ, Cc ) = bLong(Cc ) − ICc (µ) = 2bσc − ICc (µ).
Ası́, la primera parte de la función de riesgo es constante, mientras que la segunda vale
Pµ (µ ∈ Cc (X)) = Pµ (X − cσ ≤ µ ≤ X + cσ) =
¶
µ
X −µ
≤ c = 2P (Z ≤ c) − 1,
Pµ −c ≤
σ
donde Z ∼ N (0, 1). Por lo tanto, la función de riesgo es
R(µ, Cc ) = 2bσc − 2P (Z ≤ c) + 1.
Es una función de riesgo constante en µ. Ası́, la mejor regla de decisión corresponderá al valor c donde la función
g(c) = 2bσc − 2P (Z ≤ c) + 1
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO
225
tenga su mı́nimo. La derivada de g(c) se anula en el punto c que verifica
c2
1
1
bσ = fZ (c) = √ e− 2 ⇐⇒ c2 = log
.
2πb2 σ 2
2π
√
Esa ecuación tiene solución si y sólo si bσ ≤ 1/ 2π. Cuando hay solución ésta
vale
r
1
∗
c = log
.
2πb2 σ 2
La segunda derivada de g en c∗ es g 00 (c∗ ) = 2b − 2fZ0 (c∗ ) > 0, porque c∗ ≥ 0
implica
que fZ0 (c∗ ) ≤ 0, luego c∗ es un mı́nimo de g. En el caso de que bσ >
√
1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el mı́nimo
riesgo se alcanza en c = 0.
√
En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al
tamaño del intervalo en la función de riesgo)
√ entonces el intervalo óptimo es
[x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del intervalo pesa mucho en la función de riesgo) entonces el mejor intervalo para µ
es [x, x], es decir, un estimador puntual de µ.
.
.
7.3.
El problema de decisión bayesiano
Hemos visto en la sección 7.1 que a veces se define una distribución de probabilidad π(θ) sobre el espacio paramétrico Θ, que refleja el conocimiento que
el investigador tiene sobre los posibles valores del parámetro a priori, es decir,
antes de observar los datos X . En general cualquier función de pesos que pone
dere de cierta forma las diferentes regiones de Θ será válida como distribución
π(θ), aunque esta distribución no refleje ningún conocimiento previo subjetivo
sobre Θ.
Se definió el riesgo Bayes de la regla de decisión δ respecto de la distribución
a priori π como
B(π, δ) = Eπ [R(θ, δ)].
Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası́, si no
se dispone de información previa que permita definir π, una forma razonable
de elegir esta distribución a priori es hacerlo de forma que los valores de θ a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo pequeño, y los valores de θ con peso
pequeño sean aquellos cuyo riesgo no le preocupa.
Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes:
B(π, δ π ) = mı́n B(π, δ).
δ∈D
226
Esta regla puede no existir, o bien puede haber más de una regla Bayes, aunque
en general sólo existe una regla Bayes.
Los siguientes resultados indican cómo encontrar las reglas Bayes, si éstas
existen.
Teorema 51 Para cada x ∈ X se define
e
r( x , a) = E
(L(θ, a)),
π(θ| x )
e
e
donde la esperanza se toma con respecto a la distribución a posteriori de π, dado
que se ha observado X = x . Para cada x ∈ X se supone que existe una acción
e
e
e
a( x ) ∈ A tal que
e
r( x , a( x )) = mı́n r( x , b).
b∈A
e
e
e
Sea la regla de decisión
δπ
:
X −→ A
x −→ a( x )
e
e
π
π
Si δ ∈ D entonces δ es la regla Bayes respecto a π.
Demostración: Sea f ( x , θ) = f ( x |θ)π(θ) la distribución conjunta de ( X , θ)
e
e
e
y sea m( x ) la marginal de X . Ası́,
e
e
h
i
B(π, δ) = Eπ (R(θ, δ)) = Eπ Eθ (L(θ, δ( X ))) =
e
·
¸
Eθ (L(θ, δ( X ))) = E
E
(L(θ, δ( X ))) =
m( x )
π(θ| X )
e
e
e
e
E
(r( X , δ( X ))).
m( x )
e
e
e
π
Para cada x ∈ X , r( x , δ ( x )) ≤ r( x , δ( x )) para todo δ ∈ D, de donde se
e
e
e
e
e
sigue que
E
(r( X , δ π ( X ))) ≤ E
(r( X , δ( X )))
m( x )
m( x )
e
e
e
e
e
e
para todo δ ∈ D y, en consecuencia, que
B(π, δ π ) ≤ B(π, δ)
para todo δ ∈ D, luego δ π es la regla Bayes.
2
Obsérvese que la función r( x , a) que se define en el anterior teorema es la
e
esperanza a posteriori de la función de pérdida, dado que se ha observado X =
e
x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza
e
a posteriori de la función de pérdida, ya sea analı́tica o numéricamente.
El siguiente resultado se sigue directamente del teorema anterior y da la
expresión explı́cita para la regla de Bayes en dos casos importantes referidos a
la estimación de parámetros.
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO
227
Corolario 8 Consideremos un problema de estimación de un parámetro real
θ ∈ IR. Se tiene lo siguiente:
1. Si L(θ, a) = (θ − a)2 la regla Bayes es δ π ( x ) = E(θ| x ), si δ π ∈ D.
e
e
π
2. Si L(θ, a) = |θ−a| la regla Bayes es δ ( x ) que asocia a cada x la mediana
e
e
a de la distribución a posteriori π(θ| x ), si δ π ∈ D.
e
Obsérvese que si el conjunto de acciones A = Θ es finito (o discreto) podrı́a
pasar que E(θ| x ) 6∈ A y entonces δ π ( x ) = E(θ| x ) no serı́a una función de X
e
e
e
e
en A, es decir, δ π no serı́a una regla de decisión legı́tima. Si A = Θ es convexo se
puede probar que E(θ| x ) ∈ A para cualquier distribución a posteriori π(θ| x ).
e
e
El siguiente resultado hace referencia al problema de contrastes de hipótesis
desde la perspectiva de la teorı́a de la decisión bayesiana. Concreta en este
contexto lo establecido por el teorema 51 sobre cómo determinar la regla Bayes.
Teorema 52 Consideremos un problema de contraste de la hipótesis H0 : θ ∈
Θ0 frente a H1 : θ 6∈ Θ0 , con función de pérdida 0-1 generalizada. Cualquier
test que
cII
rechaza H0 si P (θ ∈ Θ0 | x ) <
cI + cII
e
y
cII
acepta H0 si P (θ ∈ Θ0 | x ) >
cI + cII
e
es una regla de Bayes (también llamada test de Bayes o regla Bayes).
Demostración: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que comparar r( x , a0 ) y r( x , a1 ) y escoger como acción a( x ) aquella de las dos que
e
e
e
dé valor menor de r( x , a).
e
Recordemos que
L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } .
Calculamos r( x , a0 ) y r( x , a1 ):
e
e
r( x , a0 ) = E
(L(θ, a0 )) = cII P (θ 6∈ Θ0 | x )
π(θ| x )
e
e
e
r( x , a1 ) = E
(L(θ, a1 )) = cI P (θ ∈ Θ0 | x ).
π(θ| x )
e
e
e
Ası́, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son
e
aquellos para los cuales
r( x , a1 ) < r( x , a0 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) < cII P (θ 6∈ Θ0 | x ) ⇐⇒
e
e
e
e
cII
P (θ ∈ Θ0 | x ) <
.
cI + cII
e
228
Análogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir,
aquellos para los cuales la acción a0 tiene menor riesgo esperado a posterior que
la acción a1 , son aquellos que cumplen
r( x , a0 ) < r( x , a1 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) > cII P (θ 6∈ Θ0 | x ) ⇐⇒
e
e
e
e
cII
.
P (θ ∈ Θ0 | x ) >
cI + cII
e
Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cuale
e
quiera de ellas sin que la regla resultante deje de ser la regla Bayes.
2
Ejemplo 91
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ),
con σ 2 , µ y τ 2 conocidos. Sea
η=
σ2
.
nτ 2 + σ 2
La distribución a posteriori de θ dado que X = x es normal con parámetros
e
e
E(θ| x ) = (1 − η)x + ηµ, V (θ| x ) = ητ 2 .
e
e
Consideremos el test
½
H0 : θ ≥ θ0
H1 : θ < θ0
con función de pérdida 0-1 generalizada. Calculemos P (θ ∈ Θ0 | x ):
e
¯ ¶
µ
θ0 − (1 − η)x − ηµ ¯¯
P (θ ∈ Θ0 | x ) = P (θ ≥ θ0 |x) = P Z ≥
√
¯x .
τ η
e
Ası́, el test de Bayes rechaza H0 si
P (θ ∈ Θ0 | x ) < α0
e
donde α0 = cII /(cI + cII ), y eso ocurre si y sólo si
√
η(µ − θ0 ) + zα0 τ η
θ0 − (1 − η)x − ηµ
> zα0 ⇐⇒ x < θ0 −
.
√
τ η
1−η
Por lo tanto, el test de Bayes rechaza H0 para valores pequeños de x y el valor
crı́tico depende de las pérdidas para los dos tipos de errores (a través del valor
α0 ) y de la distribución a priori. Recordemos que el test uniformemente más
potente de nivel α rechaza H0 si
σ
x < θ0 − zα √ .
n
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN
229
En el caso particular de que tomásemos cI = 1 − α y cII = α, entonces
α = α. Si además consideramos la distribución a priori de θ centrada en θ0
tendremos que el test de Bayes rechaza H0 si
√
zα0 τ η
x < θ0 −
.
1−η
0
Recordando la definición de η se llega a que se rechaza H0 si y sólo si
r
σ
σ2
x < θ0 − zα0 √
1 + 2,
nτ
n
p
expresión que sólo difiere del test UMP en el factor 1 + (σ 2 /nτ 2 ). Ambos
contrasten coincidirán si σ 2 /nτ 2 = 0, es decir, si n −→ ∞, o si τ 2 −→ ∞ o si
σ 2 −→ 0.
.
.
7.4.
Admisibilidad de las reglas de decisión
La clase D de todas las reglas de decisión posibles quizás sea excesivamente
grande: podrı́a estar formada por todas las funciones de X en A. La elección de
la regla δ en un determinado problema se simplifica si restringimos la búsqueda
a una subclase de reglas C ⊆ D de la que formen parte únicamente las reglas
que tengan alguna buena propiedad. Una de estas propiedades deseables es la
de ser admisible.
7.4.1.
Comparación de reglas de decisión.
Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )
y R(θ, δ2 ). Al comparar δ1 y δ2 diremos que:
δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.
δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un
θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).
δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
230
razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de
D que sean admisibles.
Sea una clase C ⊆ D. Se dice que C es una clase completa si para cada
δ 6∈ C existe δ ∈ C que es mejor que δ 0 . C es una clase esencialmente
completa si para cada δ 0 6∈ C existe δ ∈ C que es tan buena como δ 0 .
0
Teorema 53 Sea C una clase de reglas de decisión completa. Entonces la clase
de reglas de decisión admisibles está contenida en C.
Demostración: Sea δ 0 una regla admisible. Si δ 0 6∈ C, entonces existe δ ∈ C
mejor que δ 0 , y eso contradice el supuesto de que δ 0 es admisible, luego δ 0 ∈ C.
2
7.4.2.
Búsqueda de reglas admisibles y clases completas.
Teorema 54 Consideremos un problema de decisión en el que Θ ⊆ IR. Supongamos que para cada regla de decisión δ ∈ D, la función de riesgo R(θ, δ) es
continua en θ.
Sea π(θ) una distribución a priori sobre Θ tal que para todo ε > 0 y todo
θ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva.
Sea δ π la regla Bayes respecto a π. Si −∞ < B(π, δ π ) < ∞ entonces δ π es
admisible.
Demostración: Supongamos que δ π es inadmisible. Entonces existe una regla
δ ∈ D tal que
R(θ, δ) ≤ R(θ, δ π ) para todo θ ∈ Θ
y existe un θ0 ∈ Θ con
R(θ0 , δ) < R(θ0 , δ π ).
Sea ν = R(θ0 , δ π ) − R(θ0 , δ) > 0. Por continuidad de R(θ, δ) y R(θ, δ π ) se tiene
que existe ε > 0 tal que
ν
R(θ, δ π ) − R(θ, δ) >
2
para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces
B(π, δ π ) − B(π, δ) = Eπ [R(θ, δ π ) − R(θ, δ)] ≥
ν
Pπ [(θ0 − ε, θ0 + ε)] > 0.
2
Esto contradice el supuesto de que δ π es regla Bayes. Por lo tanto δ π es admisible.
2
Eπ [1(θ0 −ε,θ0 +ε) (R(θ, δ π ) − R(θ, δ))] ≥
El teorema anterior proporciona un conjunto de condiciones bajo las cuales
las reglas Bayes son admisibles. Hay otros conjuntos de hipótesis que también
231
lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es ası́ razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decisión consideradas
a aquellas que dependen de estadı́sticos suficientes, dado que hacerlo no tiene
coste en términos de las funciones de riesgo. Este resultado es una generalización
del teorema de Rao-Blackwell (teorema 27, página 108).
Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no
acotado. Supongamos que la función de pérdida L(θ, a) es una función convexa
de la acción a, para todo θ ∈ Θ. Sea T ( X ) un estadı́stico suficiente de θ con
e
espacio muestral T .
Si δ( x ) ∈ D es una regla de decisión, entonces la regla de decisión
e
δ 0 ( x ) = δT0 (T ( x )),
e
e
donde
δT0
:
T
t
−→ A
−→ δT0 (t) = Eθ (δ( X )|T ( X ) = t),
e
e
es tan buena como δ, siempre y cuando la esperanza condicionada exista para
todo t ∈ T .
Demostración: Veamos en primer lugar que δ 0 ( x ) es regla de decisión, es decir,
e
es una función de X en A. Por una parte, como T es estadı́stico suficiente,
Eθ (δ( X )|T ( X ) = T ( x )) no depende de θ, sino sólo de x . Además, como δ
e
e
e
e
es regla de decisión se tiene que δ( x ) ∈ A para todo x ∈ X y por ser A un
e
e
conjunto convexo se sigue que Eθ (δ( X )|T ( X ) = T ( x )) ∈ A.
e
e
e
Veamos ahora que δ 0 es tan buena como δ. Para todo θ ∈ Θ, se tiene que
R(θ, δ) = Eθ [L(θ, δ( X ))] = Eθ [Eθ L(θ, δ( X ))|T ( X )]
e
e
e
y por ser L convexa,
Eθ [Eθ L(θ, δ( X ))|T ( X ))] ≥ Eθ [L(θ, Eθ (δ( X )|T ( X )))] =
e
e
e
e
Eθ [L(θ, δ 0 ( X ))] = R(θ, δ 0 ).
e
2
El siguiente corolario se sigue directamente del teorema.
Corolario 9 La clase de reglas de decisión que dependen de los datos X sólo
e
a través de un estadı́stico suficiente T es una clase esencialmente completa.
Estos resultados tienen especial importancia en el problema de estimación
puntual cuando el espacio A es un intervalo.
232
7.4.3.
Admisibilidad de la media muestral bajo normalidad.
Sean X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ). Nos planteamos el problema de
estimación de θ ∈ Θ = IR con función de pérdida cuadrática. Veremos que en
este caso la media muestral es admisible como estimador de θ.
Teorema 56 La media muestral X es un estimador admisible de θ.
Demostración: Distinguiremos dos situaciones, según σ 2 sea conocida o no.
(i) σ 2 conocida.
Supongamos que δ( x ) = x es inadmisible. Entonces existe δ 0 ( x ) tal que R(θ, δ 0 ) ≤
e
e
R(θ, x) para todo θ ∈ IR y para algún θ0 se tiene que R(θ, x) − R(θ, δ 0 ) = ν > 0.
De la continuidad en θ de la función de pérdida cuadrática y la continuidad
de la función de densidad de la normal de esperanza θ, se sigue que R(θ, δ) es
función continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0
tal que R(θ, x) − R(θ, δ 0 ) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε).
Consideramos sobre IR la distribución a priori π ∼ N (0, τ 2 ) y definimos
η=
σ2
.
nτ 2 + σ 2
Ası́,
Z
∞
B(π, x) − B(π, δ 0 ) =
[R(θ, x) − R(θ, δ 0 )] √
−∞
Z
θ0 +ε
[R(θ, x) − R(θ, δ 0 )] √
θ0 −ε
θ2
1
e− 2τ 2 dθ ≥
2πτ
θ2
1
e− 2τ 2 dθ >
2πτ
0 2
−(θ )
0
ν
ν
ν
1
P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √
e 2τ 2
2
2
2
2πτ
donde Y ∼ N (0, τ 2 ) y θ00 es el más cercano a 0 de los dos puntos θ0 − ε y θ0 + ε.
Si llamamos K(τ ) a
0 2
ν
1 −(θ0 )
K(τ ) = 2ε √ e 2τ 2
2
2π
se tiene que
τ (B(π, x) − B(π, δ 0 )) > K(τ )
y que
ν/2
lı́m K(τ ) = √ 2ε > 0.
2π
τ −→∞
Por otra parte, el riesgo Bayes de la media muestral es
Z
σ2
R(θ, X)π(θ)dθ =
B(π, x) =
,
n
Θ
233
porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto además ocurre
para cualquier a priori π.
Sea δ π la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario,
la regla Bayes δ π ( x ) es la que asigna a cada x la esperanza a posteriori de θ
e
e
dado x , y su riesgo Bayes es la varianza a posteriori:
e
B(π, δ π ) = τ 2 η =
τ 2 σ2
.
nτ 2 + σ 2
Por lo tanto,
τ (B(π, δ π ) − B(π, x)) = τ
σ2 ³
n´
σ2
− τ 1 − τ 2η 2 = − τ
n
σ
n
−
¶
µ
σ2
=
τ 2η −
n
µ
1 − τ2
σ2
n
2
2
nτ + σ σ 2
¶
=
σ2
τ η.
n
Finalmente,
0 ≥ τ (B(π, δ π ) − B(π, δ 0 )) = τ (B(π, δ π ) − B(π, x)) + τ (B(π, x)) − B(π, δ 0 )) >
−
σ2
σ2 τ σ2
τ →∞ ν/2
τ η + K(τ ) = −
+ K(τ ) −→ √ 2ε > 0,
2
2
n
n nτ + σ
2π
lo cual es una contradicción, que nace de suponer que x no es admisible.
(ii) σ 2 desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que
R((θ, σ 2 ), δ 0 ) ≤ R((θ, σ 2 ), x), para todo (θ, σ 2 ),
R((θ0 , σ02 ), δ 0 ) < R((θ, σ 2 ), x), para algún (θ0 , σ02 ).
Como δ 0 es una función de X en IR, δ 0 también es un estimador de θ si σ 2 se
fija en el valor σ02 . Para cualquier regla de decisión, el riesgo R(θ, δ) cuando σ 2
es conocida y vale σ02 es igual al riesgo en el caso de σ 2 desconocida evaluado
en el valor σ02 : R((θ, σ02 ), δ). Ası́,
R(θ, δ 0 ) = R((θ, σ02 ), δ 0 ) ≤ R((θ, σ02 ), x), para todo θ,
R(θ0 , δ 0 ) = R((θ0 , σ02 ), δ 0 ) < R((θ, σ02 ), x), para algún θ0 .
De aquı́ se sigue que δ 0 es mejor que x para estimar θ cuando σ 2 es conocido
y vale σ02 , lo que contradice el hecho de que x es admisible si σ 2 es conocida.
Ası́ x ha de ser admisible también si σ 2 es desconocida.
2
234
7.5.
Reglas minimax
El riesgo Bayes definido en la sección 7.3 permite resumir el comportamiento
de la función de riesgo de una regla de decisión δ sobre todo el espacio Θ en
un solo número, el riesgo Bayes de esa regla, que es el valor medio (según la a
priori π) de la función de riesgo. Este resumen es útil porque permite comparar
cualquier par de reglas de decisión mediante la comparación de sus respectivos
riesgos Bayes.
Otro resumen numérico de la función de riesgo usado habitualmente es el
valor máximo (o el supremo) que toma esta función cuando θ recorre Θ.
Se dice que una regla de decisión δ 0 es una regla minimax si
sup R(θ, δ 0 ) = ı́nf sup R(θ, δ).
θ∈Θ
δ∈D θ∈Θ
Una regla minimax protege de la mejor forma posible (ı́nf δ∈D ) contra la situación
más adversa que podrı́a presentarse (supθ∈Θ ).
El criterio minimax para elegir una regla de decisión es muy conservador,
pues sólo tiene en cuenta para cada regla δ cuál es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de θ) es un
adversario del decisor, y lleva a éste a actuar de forma estratégica. Este supuesto
es exagerado en muchos problemas estadı́sticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibilidad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de θ, aunque tenga un riesgo altı́simo para los restantes valores. Si además
de admisible una regla es minimax se puede estar seguro de que el riesgo no
será extremadamente alto en ningún valor de θ. Ası́ pues, una regla que sea
minimax y admisible será una buena regla. De hecho, las reglas minimax están
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de manifiesto los resultados siguientes.
Teorema 57 Supongamos que una regla de decisión δ π es regla Bayes para
cierta distribución a priori π y que, además,
R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ.
Entonces δ π es minimax.
Demostración: Supongamos que δ π no fuese minimax. Entonces existirı́a alguna regla δ 0 tal que
sup R(θ, δ 0 ) < sup R(θ, δ π ).
θ∈Θ
θ∈Θ
El riesgo Bayes de esta regla serı́a
B(π, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ π ) ≤ B(π, δ π ),
θ∈Θ
θ∈Θ
7.5. REGLAS MINIMAX
235
entrando en contradicción con el hecho de que δ π es regla Bayes respecto a π.
2
Obsérvese que la hipótesis
R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ,
es muy restrictiva. Al definirse el riesgo Bayes como
B(π, δ π ) = Eπ (R(θ, δ π ))
se tiene que en general
B(π, δ π ) ≤ sup R(θ, δ π ).
θ∈Θ
De esto se sigue que la hipótesis del problema es equivalente a que
B(π, δ π ) = sup R(θ, δ π ),
θ∈Θ
y eso ocurre si y sólo si π pone toda la probabilidad en el conjunto de puntos θ
en los que R(θ, δ π ) es máxima. En cierto modo lo que se pide en el teorema es
que la regla R(θ, δ π ) sea constante con probabilidad 1, según π.
La distribución a priori π cuya regla Bayes es minimax es la distribución a
priori menos favorable. Tiene la propiedad de que si π 0 es otra distribución
0
a priori y δ π es la regla Bayes asociada, entonces
0
B(π 0 , δ π ) ≤ B(π, δ π ).
En efecto,
0
B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ).
Si una regla de decisión δ tiene función de riesgo constante en θ entonces
se dice que es una regla igualadora. En muchos caso las reglas igualadoras
son minimax, como muestra el siguiente resultado, que se sigue directamente
del teorema anterior.
Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna distribución a priori π. Entonces δ es minimax.
Este corolario es útil cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori π respecto de la cual la regla igualadora sea regla Bayes. El siguiente resultado prueba que en ese caso también
basta con probar que la regla igualadora es admisible.
Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es minimax.
236
Demostración: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Si
δ no es minimax, entonces existe una regla δ 0 tal que
sup R(θ, δ 0 ) < sup R(θ, δ) = c.
θ∈Θ
θ∈Θ
Para todo θ ∈ Θ se tiene entonces que
R(θ, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ) = c = R(θ, δ),
θ∈Θ
θ∈Θ
lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no es
minimax.
2
Ejemplo 92
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 muestra que la media muestral X es un estimador admisible de θ cuando se usa
pérdida cuadrática, tanto si σ 2 es conocido como si no lo es.
En el caso de σ 2 conocida, se tiene que X es una regla igualadora:
R(θ, x) = V (X) =
σ2
.
n
Ası́, por el teorema anterior se sigue que la media muestral X es estimador
minimax.
Sin embargo, si σ 2 es desconocido, este teorema no es aplicable porque X ya
no es una regla igualadora: el riesgo
R((θ, σ 2 ), x) = V (X) =
σ2
,
n
depende de σ 2 . De hecho cualquier estimador tiene
sup R((θ, σ 2 ), δ) = ∞,
θ,σ 2
y por lo tanto cualquier estimador es minimax.
Se puede probar que si se define la pérdida L((θ, σ 2 ), a) = (a − θ)2 /σ 2 entonces X es admisible y minimax, con riesgo máximo finito.
.
.
El siguiente resultado muestra que bajo ciertas situaciones una regla minimax es admisible.
Teorema 59 Supongamos que δ es la única regla minimax en el sentido de que
cualquier otra regla minimax es equivalente a δ. Entonces δ es admisible.
7.5. REGLAS MINIMAX
237
Demostración: Sea δ 0 otra regla de decisión. Si la función de riesgo de δ 0
coincide con la de δ, entonces δ 0 no es mejor que δ. Si no coinciden, entonces δ 0
no es minimax, mientras que δ sı́ lo es, ası́ que
sup R(θ, δ 0 ) > sup R(θ, δ).
θ∈Θ
θ∈Θ
De ahı́ se sigue que para algún θ0 ∈ Θ,
R(θ0 , δ 0 ) > sup R(θ, δ) ≥ R(θ0 , δ),
θ∈Θ
por lo que δ 0 no es mejor que δ. Como δ 0 podrı́a ser cualquier regla de decisión,
se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2
238
7.6.
Lista de problemas
Teorı́a de la Decisión e inferencia estadı́stica. Reglas
Bayes
1. (Casella-Berger, 10.1) Sea X ∼ N (θ, 1) y considera el contraste de H0 :
θ ≥ θ0 frente a H0 : θ < θ0 . Usa la función de pérdida
L(θ, a0 ) = b(θ0 − θ)1{θ<θ0 } , L(θ, a1 ) = c(θ − θ0 )2 1{θ≥θ0 } ,
donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente.
a) Para b = c = 1, diguja y compara las tres funciones de riesgo.
b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.
c) Dibuja las funciones de potencia de los tres contrastes y compáralas
con las funciones de riesgo halladas en los dos apartados anteriores.
2. (Casella-Berger, 10.2) Sea X ∼ B(5, p). Consideramos el contraste H0 :
p ≤ 1/3 frente a H0 : p > 1/3 con pérdida 0-1. Dibuja y compara las
funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0
si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.
3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funciones
de riesgo de dos estimadores de p, δ1 (x) = 1/3 y δ2 (x) = x/10, bajo
función de pérdida dada por el valor absoluto.
4. (Casella-Berger, 10.6) Sea X ∼ N (µ, σ 2 ), σ 2 desconocida. Para cada c ≥ 0
se define el estimador por intervalos para µ
C(x) = [x − cs, x + cs],
donde s2 es un estimador de σ 2 independiente de X, tal que νS 2 /σ 2 ∼ χ2ν .
Se considera la función de pérdida
L((µ, σ), C) =
b
Long(C) − IC (µ).
σ
a) Prueba que la función de riesgo, R((µ, σ), C), está dada por
R((µ, σ), C) = b(2cM ) − [2P (T ≤ c) − 1],
donde T ∼ tν y M = E(S)/σ.
√
b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface
que
µ
¶ ν+1
2
ν
1
b= √
.
2
2π ν + c
239
c) Relaciona estos resultados con los análogos obtenidos en el caso de
que σ 2 sea conocida (ver ejemplo desarrollado en teorı́a), en el sentido
siguiente: prueba que si ν −→ ∞, entonces la solución encontrada
aquı́ converge a la que se tiene si σ 2 es conocida.
5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con
σ 2 conocida. Se desea estimar θ usando pérdida cuadrática. Sea la distribución a priori de θ, π(θ), una N (µ, τ 2 ) y sea δ π el estimador Bayes de θ.
Prueba las siguientes fórmulas para la función de riesgo y el riesgo Bayes.
a) Para cualesquiera constantes a y b, el estimador δ( X ) = aX +b tiene
e
función de riesgo
R(θ, δ) = a2
σ2
+ (b − (1 − a)θ)2 .
n
b) Sea η = σ 2 /(nτ 2 + σ 2 ). La función de riesgo del estimador de Bayes
es
σ2
R(θ, δ π ) = (1 − η)2
+ η 2 (θ − µ)2 .
n
c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η.
6. (Casella-Berger, 10.9) Sea X ∼ N (µ, 1). Sea δ π el estimador de Bayes de µ
bajo pérdida cuadrática. Calcula y dibuja las funciones de riesgo, R(µ, δ π ),
para π(θ) ∼ N (0, 1) y π(θ) ∼ N (0, 10). Indica cómo la distribución a priori
afecta la función de riesgo del estimador de Bayes.
7. (Casella-Berger, 10.11) Se define la función de pérdida LINEX (LINearEXponential) como
L(θ, a) = ec(a−θ) − c(a − θ) − 1,
con c > 0. Es una función suave que permite ponderar de forma asimétrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde pérdidas muy asimétricas hasta otras casi simétricas.
a) Dibuja L(θ, a) como función de a − θ cuando c = 0,2, 0,5 y 1.
b) Sea X ∼ f (x|θ). Prueba que el estimador de Bayes de θ, usando
pérdida LINEX y distribución a priori π, es
1
δ π = − log E(e−cθ |X).
c
c) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida y distribución a priori sobre θ no informativa: π(θ) = 1. Prueba que el
estimador de Bayes de θ bajo pérdida LINEX es
δ B (X) = X −
cσ 2
.
2n
d ) Compara los riesgos Bayes de δ B (X) y de X usando pérdida LINEX.
240
e) Compara los riesgos Bayes de δ B (X) y de X usando pérdida cuadrática.
Admisibilidad. Reglas minimax
8. (Casella-Berger, 10.12) Sea X ∼ N (µ, 1) y consideremos el contraste de
H0 : µ ≤ 0 frente a H1 : µ > 0 usando pérdida 0-1. Sea δc el test que
rechaza H0 si X > c. Se puede probar que la clase de contrastes {δc :
−∞ ≤ c ≤ ∞} es esencialmente completa para este problema. Sea δ el
test que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor que
δ.
9. (Casella-Berger, 10.13) Sea X ∼ N (µ, 1) y consideremos el contraste de
H0 : µ = 0 frente a H1 : µ 6= 0 usando pérdida 0-1. Sea δc,d el test
que acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastes
{δc,d : −∞ ≤ c ≤ d ≤ ∞} es esencialmente completa para este problema.
Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra un
test δc,d que sea mejor que δ.
10. (Casella-Berger, 10.14) Supongamos un problema de decisión con espacio
paramétrico finito, Θ = {θ1 , . . . , θm }. Supongamos que δ π es la regla Bayes
con respecto a una distribución a priori π que da probabilidad positiva a
cada posible valor de θ ∈ Θ. Prueba que δ π es admisible.
11. (Casella-Berger, 10.15) Supongamos que para una cierta distribución a
priori π, cada regla Bayes con respecto a π (si es que hay más de una) tiene
la misma función de riesgo. Prueba que estas reglas Bayes son admisibles.
En otras palabras, si una regla Bayes es única entonces es admisible.
12. (Casella-Berger, 10.16) Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Se desea estimar
µ con pérdida cuadrática. Prueba que la regla δ(x) = 17, que estima µ
como 17 para cualquier valor x observado, es admisible.
13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decisión C es
completa minimal si es completa y ningún subconjunto propio de C es
clase completa. Prueba que si existe una clase de reglas completa minimal,
entonces es la clase de reglas admisibles.
14. (Casella-Berger, 10.20) Sea C una clase de reglas de decisión esencialmente
completa. Prueba que si δ 0 6∈ C es admisible, entonces existe una regla
δ ∈ C tal que δ y δ 0 son equivalentes.
15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera la
estimación de p con pérdida del error absoluto. Sea δ(x) = 1/3 la regla
que estima p como 1/3, sea cual sea la observación x.
a) Prueba que δ(x) es admisible.
241
b) Prueba que δ(x) es la regla Bayes para alguna distribución a priori
π(p).
16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una población con
esperanza θ y varianza desconocida σ 2 , 0 < σ 2 < ∞. Se desea estimar θ
con pérdida cuadrática.
a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y
b son constantes, es inadmisible.
b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible.
c) Supongamos ahora que σ 2 es conocida. Prueba que un estimador de
esa forma es admisible si a < 1.
17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los
naturales que van de 1 a θ ∈ IN. Sea el espacio paramétrico Θ = {1, 2, . . .}.
Se estima θ considerando pérdida cuadrática.
a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribuciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayes
de θ.
b) Supongamos ahora que el espacio de acciones es A = [1, ∞) y que
la esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es el
estimador Bayes de θ.
c) Prueba que δ0 (x) = x es admisible, independientemente de cuál de los
dos espacios de acciones anteriores sea considerado. (Nota: Prueba
que R(1, δ) es mı́nimo si δ = δ0 y después usa inducción en θ.)
d ) El estimador δ0 (x) = x es el estimador de Bayes con respecto a alguna
distribución a priori. ¿Con respecto a cuál?
e) Prueba que existen otras reglas Bayes respecto a esa misma distribución a priori que tienen funciones de riesgo diferentes a la de δ0 .
18. (Casella-Berger, 10.26) Sea X ∼ N (µ, 1). Se desea contrastar H0 : µ ≥ µ0
frente a H1 : µ < µ0 con función de pérdida 0-1 generalizada mediante
un test que rechace H0 si X < −zα + µ0 . Encuentra el valor de α que da
lugar a un test minimax.
19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼
N (θ, σ 2 ) con σ 2 desconocida. Se desea estimar θ con la función de pérdida
L((θ, σ 2 ), a) =
(a − θ)2
.
σ2
a) Prueba que X es un estimador admisible de θ.
b) Prueba que X es minimax.
20. (Casella-Berger, 10.30, 10.31) Sea πn , n ∈ IN, una sucesión de distribuciones a priori. Sea δn la regla Bayes respecto a πn .
242
a) Prueba que si B(πn , δn ) converge a un número c y δ es una regla de
decisión tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax.
b) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2
conocida. Se desea estimar θ con pérdida cuadrática. Utiliza el resultado del apartado anterior para probar que X es minimax.
21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼
Bern(p). Se desea estimar p con pérdida cuadrática. Sea
p
Pn
Xi + n/4
√
p̂B = i=1
.
n+ n
a) Prueba que p̂B es una regla igualadora.
b) Prueba que p̂B es minimax.
c) Prueba que p̂B es admisible.
22. (Examen junio 2000) Sea la variable aleatoria X con distribución uniforme
en el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el parámetro
θ basándose sólo en una única observación de X y se plantea este problema
como un problema de decisión. La distribución a priori sobre θ tiene como
función de densidad
π(θ) = θe−θ I(0,∞) .
a) Consideramos sólo las reglas de decisión que son funciones de la observación x de la forma dk (x) = kx, con k ≥ 1. Si la función de
pérdida es
L(θ, a) = |a − θ|
calcula la función de riesgo R(θ, dk ). ¿Es posible encontrar una regla
dk∗ que haga mı́nimo el riesgo para cualquier valor de θ?
b) Encuentra la regla Bayes. (Indicación: Usa directamente la definición de regla Bayes como aquella que hace mı́nimo el error Bayes.)
c) Consideremos ahora pérdida cuadrática. Encuentra la regla Bayes.
d ) Si ahora se permite que cualquier función d(x) sea una regla de decisión y se considera pérdida cuadrática, encuentra la regla Bayes.
23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de una
observación de X si el parámetro p es 1/4 o 1/2. La función de pérdida es
0-1.
a) Da la lista de las ocho posibles reglas de decisión e indica los correspondientes valores de la función de riesgo.
b) Indica cuáles de las ocho reglas son inadmisibles.
c) Encuentra la regla Bayes correspondiente a una distribución a priori
con función de probabilidad
2
1
π(1/4) = , π(1/2) = .
3
3
d ) Encuentra la regla minimax para este problema.
Referencias
Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.
Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scientific.
Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and
selected topics. Prentice Hall.
Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.
Cristóbal, J.A (1992). Inferencia Estadı́stica. Universidad de Zaragoza.
DeGroot, M. H. (1988). Probabilidad y Estadı́stica. Addison-Wesley.
Garcı́a-Nogales, A. (1998). Estadı́stica Matemática. Universidad de Extremadura.
Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. PrenticeHall.
Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.
Peña, D. (1995). Estadı́stica: Modelos y Métodos, Volumen 2: Modelos lineales y
series temporales. Alianza Universidad, Madrid. Segunda edición revisada.
Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).
Duxbury Press.
Sanz, M. (1999). Probabilitats. Barcelona: EUB.
Schervish, M.J. (1995). Theory of Statistics. Springer.
Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to
Statistics. John Wiley & Sons.
Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.
Spivak, M. (1970). Cálculo infinitesimal. Barcelona: Reverté.
Vélez, R. y A. Garcı́a (1993). Principios de Inferencia Estadı́stica. UNED.
243

Apuntes de la asignatura. - Departament d`Estadística i Investigació

Transcripción

Documentos relacionados