Apuntes de la asignatura. - Departament d`Estadística i Investigació

Transcripción

Apuntes de la asignatura. - Departament d`Estadística i Investigació
Curso de Inferencia y Decisión
Guadalupe Gómez y Pedro Delicado
Departament d’Estadı́stica i Investigació Operativa
Universitat Politècnica de Catalunya
Enero de 2006
Índice abreviado
Capı́tulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Capı́tulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25
Capı́tulo 3. Estimación puntual 1: Construcción de estimadores . 45
Capı́tulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 87
Capı́tulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Capı́tulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183
Capı́tulo 7. Introducción a la Teorı́a de la Decisión . . . . . . . . . . . . . 215
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
i
Índice general
Índice abreviado
I
Índice general
II
Prólogo
VII
1. Introducción
1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . .
3
1.2.2. Distribución de una variable aleatoria. Funciones de distribución, de probabilidad y de densidad . . . . . . . . . .
4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . .
5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . .
6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . .
7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . .
8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . .
12
1.3.1. Familias de localización y escala . . . . . . . . . . . . . .
12
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . .
13
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . .
13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . .
16
1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite . .
18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . .
18
1.5.2. Teorema central del lı́mite . . . . . . . . . . . . . . . . . .
19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . .
20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .
21
iii
iv
ÍNDICE GENERAL
2. Principios para reducir los datos
25
2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Estadı́sticos suficientes r-dimensionales
26
. . . . . . . . . .
31
2.1.2. Estadı́sticos suficientes minimales . . . . . . . . . . . . . .
32
2.1.3. Estadı́sticos ancilares . . . . . . . . . . . . . . . . . . . . .
35
2.1.4. Estadı́sticos completos . . . . . . . . . . . . . . . . . . . .
36
2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .
38
2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3. Estimación puntual 1: Construcción de estimadores
45
3.1. La función de distribución empı́rica y el método de los momentos
45
3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . .
47
3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . .
50
3.1.3. El método de los momentos . . . . . . . . . . . . . . . . .
51
3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . .
53
3.2.1. Cálculo del estimador máximo verosı́mil . . . . . . . . . .
56
3.2.2. Cálculo numérico de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.2.3. Principio de invariancia del estimador máximo verosı́mil .
70
3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . .
71
3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . .
71
3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . .
75
3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . .
79
3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . .
80
3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . .
83
4. Estimación puntual 2: Evaluación de estimadores
87
4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . .
87
4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . .
91
4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . .
94
4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . .
96
4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 105
4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 108
ÍNDICE GENERAL
v
4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 114
4.3.1. Consistencia
. . . . . . . . . . . . . . . . . . . . . . . . . 114
4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 116
4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 124
4.4. Teorı́a asintótica para el estimador máximo verosı́mil . . . . . . . 125
4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5. Contrastes de hipótesis
141
5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 141
5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142
5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144
5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148
5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 149
5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150
5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin152
5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 155
5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157
5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 158
5.5.1. Relación con el Lema de Neyman-Pearson.
. . . . . . . . 159
5.5.2. Propiedades de los contrastes de razón de verosimilitudes 160
5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 163
5.6.1. Test del score.
. . . . . . . . . . . . . . . . . . . . . . . . 163
5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164
5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 166
5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170
5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171
5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 172
5.7.3. Contraste de dos hipótesis compuestas.
. . . . . . . . . . 173
5.7.4. Contraste de hipótesis nula simple frente a alternativa
compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177
vi
ÍNDICE GENERAL
6. Estimación por intervalos
183
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183
6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 185
6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 185
6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189
6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193
6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195
6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 196
6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 197
6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 200
6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 202
6.4.1. Intervalos basados en el estimador de máxima verosimilitud203
6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 205
6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210
7. Introducción a la Teorı́a de la Decisión
215
7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 215
7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 217
7.2. Teorı́a de la decisión e inferencia estadı́stica . . . . . . . . . . . . 218
7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 218
7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 221
7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 223
7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 225
7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 229
7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 229
7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 230
7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232
7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Referencias
243
Prólogo
Este documento es el fruto de nuestra experiencia como docentes de la asignatura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estadı́sticas,
Universitat Politècnica de Catalunya) durante los cursos 99-03.
Cuando se preparó por primera vez la docencia de Inferencia y Decisión se
pensó en seguir lo más fielmente posible algún libro de texto que por contenidos
y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexistencia de libros en castellano o catalán dirigidos especı́ficamente para alumnos
de Inferencia y Decisión, se optó por usar como texto de referencia el libro de
Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasiones la necesidad de completarlo con otros libros. Ante esta situación (ausencia
de textos en castellano y cierta insatisfacción con el libro elegido) consideramos
conveniente escribir este documento. En él se recogen y amplı́an los apuntes preparados para las clases teóricas y las listas de problemas resueltas en las clases
prácticas.
El objetivo principal de la asignatura Inferencia y Decisión es proporcionar
una sólida base teórica de los fundamentos de la Inferencia Estadı́stica y de la
Teorı́a de la Decisión. Confiamos en que este Curso de Inferencia y Decisión
contribuya a lograrlo.
vii
Capı́tulo 1
Introducción
Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, capı́tulo 3, 5.1, 5.2,
5.4.
En este curso de Inferencia y Decisión se desarrollan ideas y herramientas
matemáticas que la estadı́stica utiliza para analizar datos. Se estudiarán técnicas
para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante
no perder de vista que en la aplicación de la estadı́stica se necesita mucho más
que el conocimiento matemático. La recogida y la interpretación de los datos es
un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas.
Ejemplo 1
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos dı́as o más. Supongamos que podemos entrevistar a 20 estudiantes.
¿Qué se entiende por estudiante?
¿Cómo se puede asegurar que la muestra sea aleatoria?
¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing
data).
¿Dirán la verdad? Problema de error de medida (measurement error).
Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos
satisfechos con el estimador que obtengamos?
Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p?
En este caso el problema se plantea en términos de la variable aleatoria
X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p)
1
2
CAPÍTULO 1. INTRODUCCIÓN
y es un ejemplo de estimación en un contexto de inferencia paramétrica.
.
.
Ejemplo 2
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
cardı́acos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:
Aspirina
Placebo
Sufren ataques
cardı́acos
104
189
No sufren
ataques cardı́acos
10933
10845
Ataques por
cada 1000 personas
9.42
17.13
¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aquı́ un problema de decisión o el contraste de
una hipótesis.
.
.
1.1.
Datos y modelos
Los datos que aparecen en los problemas estadı́sticos pueden suponerse provenientes de un experimento, es decir, son valores en un espacio muestral.
Experimento: Término de acepción muy amplia que incluye cualquier procedimiento que produce datos.
Espacio muestral: Conjunto de todos los posibles resultados de un experimento.
Ejemplo 3
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podrı́a pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tratados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difı́cil obtener resultados extrapolables a toda la población. Serı́a más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA
3
nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población
relevante con la nueva medicina.
En los dos casos el espacio muestral es una secuencia de responde/no responde. En el primer caso el número de pacientes es variable y el espacio muestral
deberı́a incluir las secuencias de todas las posibles longitudes (tantas como posibles números de pacientes), mientras que en el segundo caso el espacio muestral
consistirá en las secuencias de longitud n.
.
.
Definimos un modelo para un experimento como una colección de distribuciones de probabilidad sobre el espacio muestral.
Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que
responden positivamente a la nueva terapia. Hay una probabilidad p de observar
una respuesta positiva en cada caso muestreado. Si el tamaño de la población
de referencia es mucho más grande que el de la muestra, n, es razonable suponer
que las respuestas de los individuos son independientes. Entonces el modelo es
P = {P (X1 = x1 , . . . , Xn = xn ) =
n
Y
pxi (1 − p)1−xi , 0 < p < 1}.
i=1
Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico
es {p : 0 < p < 1} ⊂ IR.
Los problemas de inferencia en este modelo consistirán en hacer afirmaciones (en forma de estimación puntual, estimación por intervalos o contrastes de
hipótesis) sobre cuán verosı́miles son los posibles valores del parámetro p.
.
.
1.2.
1.2.1.
Variable aleatoria
Variables y vectores aleatorios
Consideramos un experimento aleatorio cuyos resultados pertenecen al espacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna
(Ω, A, P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω,
A ⊆ P(Ω) es una σ-álgebra, y P : A −→ [0, 1] es una medida de probabilidad
que refleja las caracterı́sticas aleatorias del experimento realizado. A esa terna
se le llama espacio de probabilidad.
Los resultados de un experimento aleatorio no son analizados en bruto, sino
que se les da una representación numérica que facilita su tratamiento. Esto se
4
CAPÍTULO 1. INTRODUCCIÓN
hace mediante la definición de variables aleatorias. Dado un espacio de
probabilidad (Ω, A, P) y el espacio medible (IR, B), donde B es la σ-álgebra de
Borel definida sobre la recta real IR, una variable aleatoria es una función
X : Ω −→ IR
medible, es decir, X −1 (B) ∈ A para todo B ∈ B.
Si el espacio muestral Ω es finito o numerable, diremos que es un espacio
discreto y las variables aleatorias asociadas al experimento normalmente estarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que
es un espacio continuo y X : Ω −→ IR.
A partir de un mismo experimento se pueden definir diferentes variables
aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio
muestral asociado a este experimento es Ω = {CC, C+, +C, ++}. Se pueden
definir diversas variables aleatorias:
X1 = número de caras, X2 = número de cruces,
X3 = cuadrado del número de caras = X12 , etc.
Usualmente los datos están modelizados por un vector de variables aleatorias
X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamaree
e
mos vector aleatorio o también variable aleatoria multidimensional.
1.2.2.
Distribución de una variable aleatoria. Funciones de
distribución, de probabilidad y de densidad
La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω
que es aleatorio. Por lo tanto X(ω) es un valor de IR también aleatorio. Es decir,
la variable aleatoria X induce una medida de probabilidad en IR. A esa medida
de probabilidad se le llama distribución de X o ley de X. Una de las formas
de caracterizar la distribución de una variable aleatoria es dar su función de
distribución FX , que está definida ası́:
FX (x) = P(X ≤ x) = P({ω ∈ Ω : X(ω) ≤ x}) = P(X −1 (−∞, x]).
En el caso de que X sea una variable aleatoria discreta, es decir, en el
caso de que X sólo tome una cantidad finita o numerable de valores de IR, su
distribución también puede caracterizarse por su función de probabilidad
(o función de masa de probabilidad) fX , definida como
fX : IR −→ [0, 1], fX (x) = P(X = x).
Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en
adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A
1.2. VARIABLE ALEATORIA
5
partir de la función de masa de probabilidad se puede calcular la probabilidad
de que la variable aleatoria X tome valores en cualquier elemento A de B:
X
P(X ∈ A) =
fX (x).
x∈A
La función de distribución y la función de masa de probabilidad se relacionan
de la siguiente forma:
X
FX (x) =
fX (u), fX (x) = FX (x) − FX (x− ),
u≤x
donde FX (x− ) = lı́mh−→0+ F (x − h).
Una clase relevante de variables aleatorias no discretas son las que poseen
función de densidad, es decir, aquellas cuya distribución de probabilidad
puede caracterizarse por una función fX (x) ≥ 0 que cumple que
Z
P(X ∈ A) =
fX (x)dx, para todo A ∈ B.
x∈A
La relación entre FX y fX es la siguiente:
Z x
d
FX (x)
FX (x) =
fX (u)du, fX (x) =
dx
−∞
salvo quizás en un número finito de puntos x ∈ IR. Las variables aleatorias que
poseen función de densidad se llaman variables aleatorias absolutamente
continuas. Abusando del lenguaje, aquı́ nos referiremos a ellas como variables
aleatorias continuas.
1.2.3.
Esperanza y varianza
Si se desea describir totalmente la distribución de probabilidad de una variable aleatoria X acabamos de ver que podemos dar su función de distribución o
su función de masa o de densidad, según el caso. Una descripción parcial puede
efectuarse calculando algunas caracterı́sticas de la variable aleatoria X, como
por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas.
Se define la esperanza de una variable aleatoria X como la integral de
Lebesgue de X:
Z
E(X) =
X(w)dP(w).
Ω
En el caso de variables aleatorias discretas la esperanza puede calcularse como
X
X
X
kfX (k).
kP (X = k) =
E(X) =
X(ω)P(ω) =
w∈Ω
k∈Z
k∈Z
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
ası́:
Z
E(X) =
xfX (x)dx.
IR
6
CAPÍTULO 1. INTRODUCCIÓN
La esperanza de una variable aleatoria X es una medida de posición de X: es
el centro de gravedad de la distribución de probabilidad de X.
Si h es una función medible h : IR −→ IR, entonces Y = h(X) es también
variable aleatoria y su esperanza se puede calcular a partir de la distribución de
X:
Z
E(h(X)) =
h(X(ω))dP(ω)
Ω
que en el caso de que X sea discreta puede reescribirse como
X
E(h(X)) =
h(k)fX (k).
k∈Z
Si X es una variable aleatoria continua entonces
Z
E(h(X)) =
h(x)fX (x)dx.
IR
Si existe µ = E(X) y es finita puede definirse una medida de dispersión de
la variable aleatoria X a partir de una transformación h de X. Es lo que se
denomina varianza de X y se define ası́:
V (X) = E((X − µ)2 ) = E(X 2 ) − µ2 = E(X 2 ) − (E(X)2 ).
1.2.4.
Muestra aleatoria simple
Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes
e
(X1 , . . . , Xn ) son independientes si
P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn )
para cualesquiera valores x1 , . . . , xn . Si además la distribución de las n variables
aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias
independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o
simplemente i.i.d.
Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con función de densidad (en su
e
caso, de masa) fX , la distribución conjunta de X viene dada por la función de
e
densidad (en su caso, de masa) conjunta
f
n
Y
( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) =
fX (xi ).
X e
i=1
e
A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribución igual a la de
e
la variable aleatoria X se le denomina también muestra aleatoria simple
de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se desea estudiar la caracterı́stica X de los individuos de una población de tamaño
infinito. Definimos el experimento consistente en elegir aleatoriamente un individuo de la población y llamamos X al valor de la caracterı́stica de interés en
1.2. VARIABLE ALEATORIA
7
ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento
consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el
valor de la caracterı́stica en el individuo i-ésimo, entonces X = (X1 , . . . , Xn )
e
es una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria
X, es decir, X1 , . . . , Xn es una m.a.s. de X.
1.2.5.
Modelo paramétrico
Usualmente la ley de probabilidad de una variable aleatoria se supone perteneciente a un modelo matemático que depende sólo de un número finito de parámetros:
fX ∈ {f (x|θ) : θ ∈ Θ ⊆ IRk }.
Escribiremos alternativamente f (x; θ), f (x|θ) o fθ (x). El conjunto de distribuciones dadas por fθ (x), θ ∈ Θ se llama familia paramétrica de distribuciones. Θ es el conjunto de parámetros.
La correspondiente distribución conjunta de una muestra aleatoria simple de
X viene dada por la función de densidad (o función de masa de probabilidad,
según el caso)
n
Y
f ( x |θ) =
fθ (xi ).
X e
i=1
e
A esta función la llamaremos función de verosimilitud de la muestra X .
e
Utilizaremos este término para referirnos indistintamente a la función de densidad conjunta (si las variables aleatorias son continuas) o a la función de masa
conjunta (si son discretas).
Ejemplo 4
Si X ∼ N (µ, σ 2 ),
fX (x|µ, σ 2 ) = √
1
2πσ 2
1
2
e− 2σ2 (x−µ) .
La distribución de X es conocida salvo por dos parámetros, µ y σ 2 . En este caso
k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 .
La distribución conjunta de n v.a.i.i.d. con la misma distribución es
f
Pn
1
1
1
−
||x−1n µ||2
− 12
(xi −µ)2
2σ
i=1
e
e (2πσ2 )n
( x |µ, σ 2 ) =
=
2
n
2
n
X e
(2πσ )
(2πσ )
e
donde 1n = (1, . . . , 1)t ∈ IRn .
.
.
8
1.2.6.
CAPÍTULO 1. INTRODUCCIÓN
Sumas de variables aleatorias
Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se
calculan a partir de ellas cantidades que resumen los valores observados. Cualquiera de estos resúmenes se puede expresar como una función T (x1 , . . . , xn ) definida en el espacio X n ⊆ IRn donde están las imágenes del vector (X1 , . . . , Xn ).
Esta función T puede devolver valores de IR, IR2 o, en general, IRk .
Ejemplo 5
T (X1 , . . . , Xn ) =
T (X1 , . . . , Xn )
n
X
Xi , X, X + 3, mı́n{X1 , . . . , Xn }
i=1
n
X
= (
i=1
Xi ,
n
X
(Xi − X)2 )
i=1
T (X1 , . . . , Xn )
= (mı́n{X1 , . . . , Xn },
T (X1 , . . . , Xn )
=
n
X
i=1
Xi ,
n
X
(Xi − X)2 )
i=1
(X1 , . . . , Xn )
.
.
Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn
se llaman estadı́sticos. Dependen de los valores observados, pero no de los
parámetros desconocidos que determinan la distribución de Xi . Cuando un estadı́stico T es utilizado con el propósito de estimar un parámetro θ diremos que
T es un estimador de θ.
Ejemplo 6
T (X1 , . . . , Xn ) = X es un estimador de µ = E(X).
.
.
En inferencia estadı́stica interesa saber qué estadı́sticos son suficientes para
recoger toda la información que la muestra aporta sobre la distribución de la
variable aleatoria X muestreada. La respuesta depende de la distribución de X.
Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y =
e
T (X1 , . . . , Xn ) será también una variable aleatoria. La ley de probabilidad de Y
se denomina distribución en el muestreo de Y (o distribución muestral).
Los siguientes resultados dan información sobre algunas caracterı́sticas de
estadı́sticos definidos a partir de sumas de variables aleatorias.
1.2. VARIABLE ALEATORIA
9
Pn
Teorema 1 Sean x1 , . . . , xn n números reales, sea x = n1 i=1 xi su media
Pn
aritmética y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral.
Pn
− a)2 = i=1 (xi − x)2 .
Pn
Pn
(b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 .
(a) mı́na
Pn
i=1 (xi
Demostración:
(a)
n
n
X
X
(xi − a)2 =
(xi − x + x − a)2 =
i=1
n
X
i=1
(xi − x)2 +
n
X
i=1
i=1
n
X
n
X
i=1
(observar que
(xi − x)2 +
(x − a)2 + 2
n
X
(xi − x)(x − a) =
i=1
(x − a)2 + 2(x − a)
i=1
Pn
i=1 (xi
n
X
(xi − x) =
i=1
− x) = 0)
n
n
n
X
X
X
(xi − x)2 +
(x − a)2 ≥
(xi − x)2 .
i=1
i=1
i=1
Por lo tanto el mı́nimo se alcanza si a = x.
(b) Trivial.
2
Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una
función tal que E(g(X)) y V (g(X)) existen. Entonces,
Pn
(a) E( i=1 g(Xi )) = nE(g(X)),
Pn
(b) V ( i=1 g(Xi )) = nV (g(X)),
Demostración: (a) Trivial, por propiedades básicas del operador esperanza.
(b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y
aplicando propiedades básicas del operador varianza.
2
Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X
con esperanza µ y varianza σ 2 < ∞. Sean
n
X=
n
1X
1 X
Xi , S 2 =
(Xi − X)2 ,
n i=1
n − 1 i=1
la media y la varianza muestrales, respectivamente. Entonces,
10
CAPÍTULO 1. INTRODUCCIÓN
(a) E(X) = µ,
(b) V (X) = σ 2 /n,
(c) E(S 2 ) = σ 2 .
Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
(n − 1)S 2 =
n
X
2
2
Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) =
i=1
1
n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 =
n
(n − 1)σ 2 =⇒ E(S 2 ) = σ 2 .
2
El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de
la media muestral en función de la f.g.m. de la variable aleatoria muestreada.
Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar
completamente la distribución de la media muestral.
Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X
con función generatriz de momentos MX (t). La función generatriz de momentos
de X es
n
MX (t) = (MX (t/n)) .
Demostración: La f.g.m. de X se define como MX (t) = E(etX ) para los valores
de t para los que esa esperanza existe. Ası́,
à n
!
³
´
³ t Pn
´
Y t
Xi
tX
X
i
n
i=1
MX (t) = E e
en
=
=E e
=E
i=1
(independencia de las v.a. Xi )
n
Y
³
E e
t
n Xi
´
=
n
Y
MXi (t/n) =
i=1
i=1
(las Xi son idénticamente distribuidas)
n
Y
n
MX (t/n) = (MX (t/n)) .
i=1
2
1.2. VARIABLE ALEATORIA
11
Ejemplo 7
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces,
MX (t) = exp(µt +
Ası́,
σ 2 t2
).
2
¶n
µ
σ 2 t2
µt σ 2 (t/n)2
MX (t) = exp( +
)
= exp(µt +
)
n
2
2n
y, por tanto, X ∼ N (µ, σ 2 /n).
.
.
Ejemplo 8
X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,
fX (x) =
xα−1 e−x/β
, x > 0, E(X) = αβ, V (X) = αβ 2 ,
Γ(α)β α
µ
MX (t) =
Ası́,
µµ
MX (t) =
1
1 − βt
1
1 − βt/n
¶α
, t<
µ
¶α ¶n
=
1
.
β
1
1 − (β/n)t
¶αn
y, por lo tanto, X ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası́ que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá
E(X) = n
.
µ
µ2
µ2
= µ, V (X)n 2 =
.
n
n
n
.
Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien
porque la f.g.m resultante no se corresponde con ninguna distribución conocida,
siempre es posible intentar alguna de las dos estrategias siguientes para tratar
de determinar la distribución de la media muestral. En primer lugar, se puede
trabajar con la función caracterı́stica que siempre existe. En segundo lugar se
puede tratar de calcular directamente la función de densidad de la suma como
la convolución de las n funciones de densidad (ver el ejemplo de la distribución
de Cauchy, Casella-Berger, páginas 210-211).
12
1.3.
1.3.1.
CAPÍTULO 1. INTRODUCCIÓN
Dos familias de distribuciones importantes
Familias de localización y escala
Sea Z una variable aleatoria con distribución conocida. A la colección de
distribuciones de probabilidad de las variables aleatorias X que se pueden definir
de la forma
X = µ + σZ, µ, σ ∈ IR σ > 0
se la denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es variable aleatoria absolutamente continua con función
de densidad f (x), la familia de funciones de densidad
µ
¶
¾
½
1
x−µ
f (x|µ, σ) = f
: µ ∈ IR, σ > 0
σ
σ
forman la familia de localización y escala de f (x).
El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1.
El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si
µ > 0) o a la izquierda (si µ < 0).
Proposición 1
(a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ).
(b) X ∼ f (x|µ, σ) ⇐⇒ X−µ
∼ f (x).
σ
Demostración: Trivial, aplicando la fórmula de la función de densidad de la
transformación biyectiva de una variable aleatoria univariante.
2
Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U (a, b) también es una familia
de localización y escala. En este caso µ = (a + b)/2 y σ = b − a podrı́an servir
como parámetros de posición y escala.
.
.
Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z ∼ f (x) y sea X1 , . . . , Xn una
¡
¢
.
m.a.s. de X ∼ f (x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es σ1 g x−µ
σ
Demostración: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando la
proposición anterior se tiene el resultado.
2
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL
1.3.2.
13
Familias exponenciales
X pertenece a la familia exponencial si su función de densidad o función de
masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ IRp y puede escribirse
ası́:


k
X
f (x|θ) = h(x)c(θ) exp 
wj (θ)tj (x)
j=1
para ciertas funciones h, c, wj y tj . Si p = k y wj (θ) = θj , j = 1, . . . , p, entonces
diremos que la familia exponencial está parametrizada de forma natural. En ese
caso, el espacio paramétrico natural de esa familia es el conjunto


Z ∞
k
X
Θ = {θ ∈ IRk :
h(x) exp 
θj tj (x) dx < ∞}.
−∞
j=1
Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial,
entonces


à n
!
k
n
Y
X
X
n
f (x1 , . . . , xn |θ) =
h(xi ) (c(θ)) exp 
wj (θ)
tj (xi ) .
i=1
j=1
i=1
Pn
Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, entonces la distribución de (T1 , . . . , Tk ) viene dada por


k
X
n
fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp 
wj (θ)uj  ,
j=1
es decir, T también pertenece a la familia exponencial.
Ejemplo 10
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, binomial negativa, exponencial, normal, gamma, beta.
.
.
1.4.
Muestreo de una distribución normal
En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una
N (µ, σ 2 ).
Teorema 4 (Teorema de Fisher)
dependientes.
(a) X y Sn2 son variables aleatorias in-
14
CAPÍTULO 1. INTRODUCCIÓN
(b) X ∼ N (µ, σ 2 /n).
(c) (n − 1)Sn2 /σ 2 ∼ χ2n−1 .
Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1,
puesto que la familia normal es una familia de posición y escala.
(b) Se ha demostrado en el ejemplo 7.
(a) Obsérvese que
(n −
1)Sn2
=
n
X
2
2
(Xi − X) = (X1 − X) +
i=1
(como
Pn
i=1 (Xi
n
X
(Xi − X)2 =
i=2
− X) = 0)
Ã
!2
n
n
X
X
(Xi − X) +
(Xi − X)2
i=2
i=2
de donde se deduce que Sn2 es función de (X2 − X, . . . , Xn − X). Probaremos
ahora que (X2 − X, . . . , Xn − X) y X son independientes, lo cuál implicará que
(a) es cierto.
Hacemos el cambio de variable
Pn
Pn
Pn

y1 = x
x1 = nx − i=2 xi = x − i=2 (xi − x) = y1 − i=2 yi



x2 = y2 + y1
y2 = x2 − x 
=⇒ .
..
..


.


xn = yn + y1
yn = xn − x
El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable
aleatoria transformada es
fY (y1 . . . , yn ) = fX (y1 −
n
X
yi , y2 + y1 , . . . , yn + y1 )n =
i=2
(
)
n
n
X
1
1X
(∗)
2
2
n exp − (y1 −
yi ) −
(yi + y1 )
=
2
2
i=2
i=2
(
à n
!)
¾
½
n
X
1 X 2
n
1 2
2
√
exp − ny1 exp −
y +(
yi )
.
2
2 i=2 i
( 2π)n
i=2
µ
1
√
2π
¶n
Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aquı́ se sigue que X es
independiente de Sn2 .
(∗) Falta por justificar el paso marcado con un (∗):
(y1 −
n
X
i=2
yi )2 +
n
X
i=2
(yi + y1 )2 =
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL
15
n
n
n
n
X
X
X
X
y12 + (
yi )2 − 2y1
yi +
yi2 + (n − 1)y12 + 2y1
yi =
i=2
i=2
i=2
n
X
ny12 + (
i=2
yi )2 +
i=2
n
X
yi2 .
i=2
(c) La demostración de este apartado se seguirá mejor después del apartado
siguiente en el que se tratan las distribuciones de probabilidad asociadas a la
normal.
Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la
varianza muestral calculadas a partir de una muestra de tamaño n.
En primer lugar probaremos que se verifica la siguiente fórmula recursiva:
2
(n − 1)Sn2 = (n − 2)Sn−1
+
n−1
(Xn − X n−1 )2 .
n
En efecto,
(n − 1)Sn2 =
n
X
(Xi − X n )2 =
n−1
X
i=1
(Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 =
i=1
2
(n − 2)Sn−1
+ (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗)
(teniendo en cuenta que (n − 1)X n−1 = nX n − Xn =⇒ (n − 1)(X n−1 − Xn ) =
n(X n −Xn ) y que (n−1)(X n−1 −X n ) = (X n −Xn ) = ((n−1)/n)(X n−1 −Xn ))
2
(∗) = (n − 2)Sn−1
+ (n − 1)
1
(n − 1)2
2
(X
−
X
)
+
(X n−1 − Xn )2 =
n−1
n
n2
n2
2
(n − 2)Sn−1
+
n−1
(Xn − X n−1 )2 .
n
2
probaremos por inducción que
Una vez probada la relación entre Sn2 y Sn−1
2
2
2
(n − 1)Sn /σ ∼ χn−1 .
Para n = 2, la fórmula recursiva nos da
S22 =
1
(X2 − X1 )2 .
2
√
Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1)
y de ahı́ que
√
S22 = ((X2 − X1 )/ 2)2 ∼ χ21 ,
con lo que queda probado el resultado para n = 2.
Supongamos que el resultado es cierto para n = k, es decir,
(k − 1)Sk2 /σ 2 ∼ χ2k−1 .
16
CAPÍTULO 1. INTRODUCCIÓN
Probemos que es también cierto para n = k + 1. Observar que
k
2
kSk+1
= (k − 1)Sk2 +
(Xk+1 − X k )2 .
| {z } k + 1
∼χ2k−1
Ası́, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1 −X k )2 es
una χ21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente
de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones.
Por esta misma razón, Xk+1 ∼ N (0, 1) es también independiente de X k ∼
N (0, 1/k). Ası́ que
µ
Xk+1 − X k ∼ N
k+1
0,
k
Ãr
¶
=⇒
!2
k
(Xk+1 − X k )
∼ χ21
k+1
que es precisamente lo que querı́amos probar.
2
Existen demostraciones alternativas de este teorema basadas en la función
generatriz de momentos o en la función caracterı́stica.
1.4.1.
Distribuciones asociadas a la normal
En esta sección se recuerdan las definiciones de las leyes χ2 , t de Student
y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las
demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger.
La ley χ2ν
Diremos que X tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es
fν (x) =
1
x(ν/2)−1 e−x/2 , 0 < x < ∞,
Γ(ν/2)2ν/2
es decir, X ∼ γ(ν/2, 2).
Lema 2
(a) Si X ∼ N (µ, σ 2 ) entonces
(X − µ)2
∼ χ21 .
σ2
(b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces
Y =
n
X
i=1
donde ν =
Pn
i=1
νi .
Xi ∼ χ2ν ,
1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL
17
(c) Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente distribuidas según una N (0, 1). La variable aleatoria
Y =
n
X
Xi2 ∼ χ2n .
i=1
(Nota: esta propiedad se usa a veces como definición de la distribución
χ2 ).
La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp , si su función de densidad es
fp (x) =
1
Γ((p + 1)/2) 1
, −∞ < x < ∞.
√
Γ(p/2)
πp (1 + t2 /p)(p+1)/2
Si p = 1 se trata de la distribución de Cauchy.
Lema 3
(a) Z ∼ N (0, 1), Y ∼ χ2p , Z e Y independientes, entonces,
Z
∼ tp .
X=p
Y /p
(Nota: esta propiedad se usa a veces como definición de la distribución t
de Student.)
(a) Sean X1 , . . . , Xn una m.a.s. de una N (µ, σ 2 ). Entonces
X −µ
√ ∼ tn−1 .
S/ n
La distribución t de Student no tiene f.g.m. porque no tiene momentos de
todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden
estrictamente inferior a p: existe E(X α ) para α < p.
Si X ∼ tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p − 2) si p > 2.
La ley Fp,q
Diremos que X sigue una distribución F con p y q grados de libertad y
lo denotaremos X ∼ Fp,q , si su función de densidad es
¡
¢ µ ¶p/2
Γ p+q
p
x(p/2)−1
fp,q (x) = ¡ p ¢ 2 ¡ q ¢
, 0 < x < ∞.
³
´ p+q
q
Γ 2 Γ 2
2
p
1 + qx
Lema 4
(a) Si U ∼ χ2p , V ∼ χ2q y U y V son independientes, entonces
X=
U/p
∼ Fp,q .
V /q
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
18
CAPÍTULO 1. INTRODUCCIÓN
2
(b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX
), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ),
dos muestras independientes. Entonces
2
2
SX
/σX
∼ Fn−1,m−1 .
SY2 /σY2
(c) Si X ∼ Fp,q , entonces X −1 ∼ Fq,p .
(d) Si X ∼ tp ,entonces X 2 ∼ F1,p .
(e) Si X ∼ Fp,q , entonces
³p q ´
p X
∼
Beta
,
.
q 1 + pq X
2 2
(f ) Si X ∼ Fn−1,m−1 , entonces
µ
E(X) = E
χ2n−1 /(n − 1)
χ2m−1 /(m − 1)
µ
n−1
n−1
¶µ
¶
µ
=E
m−1
m−3
¶
=
χ2n−1
n−1
¶
µ
E
m−1
χ2m−1
¶
=
m−1
.
m−3
(g) Si las distribuciones de partida tienen simetrı́a esférica, entonces el cociente de las varianzas muestrales sigue una F (Casella-Berger, p. 227).
1.5.
Leyes de los Grandes Números y Teorema
Central del Lı́mite
En esta sección se enuncian dos resultados fundamentales en inferencia estadı́stica: la Ley Fuerte de los Grandes Números y el Teorema Central del Lı́mite.
Dada una sucesión de variables aleatorias definidas sobre el mismo espacio
muestral, se llaman leyes de los grandes números a los resultados sobre
convergencia de las sucesiones de sus medias aritméticas a una constante. Se
conoce como problema del lı́mite central el estudio de la convergencia
débil de la sucesión de medias muestrales centradas y tipificadas a una distribución no degenerada.
1.5.1.
Leyes de los grandes números
Se enuncia a continuación una versión de ley débil de los grandes números que establece la convergencia en media cuadrática (y por tanto, en probabilidad) de la media aritmética de una sucesión de variables aleatorias incorreladas.
1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMA CENTRAL DEL LÍMITE19
Teorema 5 (Ley débil de los grandes números) Sea {Xn }n∈IN una sucesión de variables aleatorias incorreladas con momentos de segundo orden acoPn
tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces
ï
¯ !
¯ Sn − E(Sn ) ¯2
C
¯
E ¯¯
≤
¯
n
n
y, como consecuencia
Sn − E(Sn )
=0
n
en el sentido de la convergencia en media cuadrática.
lı́m
n−→∞
La demostración de este resultado puede verse, por ejemplo, en Sanz (1999).
Como caso particular del teorema anterior, se puede probar la convergencia
en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver
Sanz 1999). Este resultado se conoce como ley débil de Bernoulli.
Los resultados que garantizan la convergencia casi segura de la media muestral se conocen como leyes fuertes de los grandes números. Se enuncia
a continuación una ley fuerte para variables con segundos momentos finitos e
incorreladas.
Teorema 6 (Ley fuerte de los grandes números) Bajo las hipótesis del teorema 5 se tiene que
Sn − E(Sn )
lı́m
=0
n−→∞
n
en el sentido de la convergencia casi segura.
En Sanz (1999) puede encontrarse la demostración de este resultado. En ese
mismo texto se recoge una versión más general de la ley fuerte de los grandes
números, conocida como ley fuerte de los grandes números de Kolmogorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la
convergencia casi segura de la media muestral a la esperanza.
1.5.2.
Teorema central del lı́mite
En esta sección se presenta el teorema central del lı́mite de LévyLindeberg, válido para sucesiones de variables aleatorias independientes e
idénticamente distribuidas con momento de segundo orden finito.
Teorema 7 (Teorema central del lı́mite) Sea {Xn }n∈IN una sucesión de
variables aleatorias independientes e idénticamente distribuidas con momento
de segundo orden finito. Sea µ la esperanza común y σ 2 la varianza común, que
Pn
supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que
Sn − nµ
√
−→D Z,
σ n
donde Z ∼ N (0, 1) y −→D indica convergencia en distribución.
20
CAPÍTULO 1. INTRODUCCIÓN
Este resultado puede demostrarse utilizando funciones generadoras de moementos o funciones caracterı́sticas, como se hace en Casella-Berger. En Sanz
(1999) se da una demostración (más laboriosa) que no requiere el uso de estas
transformaciones. En Casella-Berger puede encontrarse una versión más fuerte
del teorema central del lı́mite.
El Teorema de De Moivre-Laplace, que establece la convergencia débil de la
binomial tipificada a la normal estándar, es una aplicación directa del teorema
central del lı́mite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproximación de la binomial por la normal son la estimación del error de aproximar
la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en
encuestas.
1.5.3.
Versiones multivariantes
Se enuncian a continuación versiones multivariantes de la ley de los griandes
números y del teorema central del lı́mite.
Teorema 8 Sea { X n }n∈IN una sucesión de variables aleatorias p-dimensionales
e
independientes e idénticamente distribuidas. Sea X el vector p-diemensional
e n
media aritmética de las n primeras variables:
n
1X
X =
X i.
n i=1 e
e n
Se tiene lo siguiente:
1. Si existe E( X i ) = µ, entonces X converge a µ casi seguramente.
e
e n
2. Si, además, X i tiene matriz de varianza y covarianzas finita Σ, entonces
e
√
n( X − µ) −→D Np (0, Σ).
e n
La demostración de este resultado puede encontrarse, por ejemplo, en Arnold
(1990).
Como corolario se puede probar la convergencia de la distribución multinomial (centrada y tipificada) a una normal multivariante (ver Arnold 1990).
1.6. LISTA DE PROBLEMAS
1.6.
21
Lista de problemas
Variables aleatorias. Muestras
1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con densidad f (x). Supongamos que cada Xi mide la cantidad anual de precipitaciones en un determinado emplazamiento. Da la distribución del número
de años que transcurren hasta que las lluvias del primer año, X1 , son
superadas por primera vez.
2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea
X su media muestral. Prueba que
fX (x) = nfX1 +···+Xn (nx).
3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra
aleatoria simple de X, a partir de la que se calcula la media y la varianza
muestral de la forma usual:
n
X=
n
1X
1 X
Xi , S 2 =
(Xi − X)2 .
n i=1
n − 1 i=1
a) Prueba que
n
S2 =
n
XX
1
(Xi − Xj )2 .
2n(n − 1) i=1 j=1
Supongamos que E(X 4 ) < ∞. Sean θ1 = E(X) y θj = E((X − θ1 )j ),
j = 2, 3, 4.
b) Prueba que
1
V (S ) =
n
2
µ
¶
n−3 2
θ4 −
θ .
n−1 2
c) Da la expresión de Cov(X, S 2 ) en términos de θ1 , . . . , θ4 . ¿Bajo qué condiciones son X y S 2 incorreladas?
d ) Si la distribución de X es simétrica respecto de θ1 , ¿es posible que la
covarianza de esos estadı́sticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1 , ¿es posible que
la covarianza de esos estadı́sticos sea nula?
4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza muestrales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que
se observa un nuevo valor Xn+1 . Demuestra las siguientes fórmulas recursivas.
a)
X n+1 =
1
(Xn+1 + nX n ).
n+1
22
CAPÍTULO 1. INTRODUCCIÓN
b)
2
nSn+1
= (n − 1)Sn2 +
n
(Xn+1 − X n )2 .
n+1
5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ 2 . Halla el menor valor de n que garantiza que
³
σ´
P |X 1 − X 2 | <
5
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lı́mite. Comenta los resultados obtenidos.
6. (Casella-Berger, 5.29) Sean Xi ∼ N (i, i2 ), i = 1, 2, 3, tres variables aleatorias independientes. Construye a partir de estas variables aleatorias otras
que tengan las siguientes distribuciones.
a) χ23 .
b) t2 .
c) F1,2 .
7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias independientes con distribución U (0, 1). Sea X una variable aleatoria con distribución
1
P (X = x) =
, x = 1, 2, 3, . . .
(e − 1)x!
Da la distribución de
Z = mı́n{U1 , . . . , UX }.
Indicación: Observar que Z|X = x es el primer estadı́stico de orden de
una muestra de tamaño x de una U (0, 1).
8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una
población con densidad
fX (x) =
1
I(0,θ) (x).
θ
Sean X(1) , . . . , X(n) los estadı́sticos orden. Prueba que X(1) /X(n) y X(n)
son independientes.
9. Demuestra los lemas 2, 3 y 4.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias exponenciales y describe el espacio paramétrico natural de cada una de ellas.
a) Familia normal con alguno de los parámetros µ o σ conocidos.
1.6. LISTA DE PROBLEMAS
23
b) Familia gamma con alguno de los parámetros α o β conocidos.
c) Familia beta con alguno de los parámetros α o β conocidos.
d ) Familia Poisson.
e) Binomial negativa con el parámetro r conocido y 0 < p < 1.
11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en términos de su espacio paramétrico natural con densidad
k
X
f (x; η ) = h(x)c( η ) exp{
ηi ti (x)}.
e
e
i=1
Prueba que
∂
log(c( η )).
(t (X)) = −
η i
∂ηi
e
e
Indicación: Usa el hecho de que para una familia exponencial se tiene
que
Z ∞
Z ∞ j
∂j
∂
f (x)dx =
f (x)dx.
j
j
η
η
∂ηi −∞
−∞ ∂ηi
e
e
12. Considera la familia de distribuciones normales con media θ y varianza
θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
E
13. Sean X1 , . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia exponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
Familias de localización y escala
17. (Casella-Berger, 3.31) Considera la función de densidad
f (x) =
Dibuja el gráfico de
63 6
(x − x8 ), −1 < x < 1.
4
µ
¶
1
x−µ
f
σ
σ
para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos.
24
CAPÍTULO 1. INTRODUCCIÓN
a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.
18. (Casella-Berger, 3.32) Muestra que si f (x) es una función de densidad
simétrica alrededor de 0, entonces la mediana de la densidad
µ
¶
1
x−µ
f
σ
σ
es µ.
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se
define zα como un número que satisface que
Z ∞
α = P (Z > zα ) =
f (z)dz.
zα
Sea X una variable aleatoria con densidad en la familia de localización y
escala de f
µ
¶
x−µ
1
f
σ
σ
y sea xα = µ + σzα . Prueba que P (X > xα ) = α. (Nota: Ası́, los valores de xα se calculan fácilmente para cualquier miembro de la familia de
localización y escala si se dispone de una tabla de valores zα .)
20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad
f (x) =
1
, x ∈ IR,
π(1 + x2 )
y la familia de localización y escala definida a partir de ella: X tiene
distribución de Cauchy con parámetros µ y σ si su densidad es
f (x; µ, σ) =
σ
, x ∈ IR.
π(σ 2 + (x − µ)2 )
No existen la esperanza ni la varianza de estas distribuciones, luego µ
y σ 2 no son la media y la varianza. No obstante, tienen un importante
significado.
a) Prueba que µ es la mediana de X.
b) Prueba que µ − σ y µ + σ son los cuartiles primero y tercero, respectivamente, de X.
21. (Casella-Berger, 3.35) Sea f (x) una función de densidad con media µ y
varianza σ 2 . Indica cómo crear una familia de localización y escala basada
en f (x) tal que la densidad estándar de la familia, f ∗ (x), tenga esperanza
0 y varianza 1.
Capı́tulo 2
Principios para reducir los
datos
Referencias: Casella-Berger, capı́tulo 6. En algunos puntos se han
seguido también Cristóbal (1992) (capı́tulo 7), Schervish (1995)
(capı́tulo 2) y Garcı́a-Nogales (1998) (capı́tulo 3).
El uso de cualquier estadı́stico T ( X ) implica una reducción de los datos
e
muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector
e
aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (reae
e
lizaciones de X ). Si decidimos usar el estadı́stico T ( X ) en vez de toda la muese
e
tra, serán tratadas igual dos muestras observadas cualesquiera x , y , siempre
e e
que T ( x ) = T ( y ). Es decir, al usar el estadı́stico T , en lugar de toda la muese
e
tra, se pierde información.
Se plantea ası́ el problema de buscar estadı́sticos T
tales que la información que se pierde al usarlos sea irrelevante para los fines
que nos hayamos marcado.
Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio
X , reducir los datos en términos de un estadı́stico T es equivalente a dar
e
una partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X }, la
imagen de X mediante el estadı́stico T . Entonces {At = T −1 (t) : t ∈ T } es una
partición de X inducida por T . Al observar x y limitarnos a registrar el valor
e
de T ( x ), podremos saber que hemos observado un elemento de A
, pero
T( x )
e
e
desconoceremos cuál de ellos.
Ejemplo 11
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
X = { x = (x1 , . . . , xn ) : xi ∈ {0, 1}}.
e
25
26
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Se define T ( x ) =
e
Pn
i=1
xi . Entonces
T = {0, 1, 2, . . . , n}.
El estadı́stico T ha creado una partición en X de forma que todas aquellas
secuencias de resultados con igual número de unos están en la misma clase:
At = { x = (x1 , . . . , xn ) ∈ T :
e
n
X
xi = t}.
i=1
No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo.
.
.
En este tema estudiaremos dos principios para reducir los datos que garantizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aquı́ (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene distribución perteneciente a una familia paramétrica:
X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }.
Se supondrá además que se toma una muestra aleatoria simple de X y que a
partir de ella se calculan estadı́sticos.
2.1.
Principio de suficiencia
Un estadı́stico T es suficiente para un parámetro θ si captura toda la información que sobre θ contiene la muestra. Cualquier información adicional (es
decir, aparte del valor del estadı́stico T ) que la muestra pueda aportar, no proporciona información relevante sobre θ. Estas consideraciones se concretan en
el siguiente principio:
Principio de suficiencia:
Si T es un estadı́stico suficiente para θ, cualquier inferencia sobre θ ha de depender de la muestra X = (X1 , . . . , Xn ) sólo a través del valor T ( X ). Es decir,
e
e
si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre
e e
e
e
θ será la misma tanto si se observa x como si se observa y .
e
e
Formalmente, diremos que un estadı́stico T es suficiente para θ si la distribución condicionada de X dado el valor T ( X ), no depende de θ.
e
e
Veamos, en el caso discreto, que la información que sobre un parámetro
aporta un estadı́stico suficiente es toda la información que aportarı́a la muestra
2.1. PRINCIPIO DE SUFICIENCIA
27
completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir,
e
si Pθ (T ( X ) = t) > 0, entonces
e
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
Ası́ que sólo son de interés las probabilidades condicionadas Pθ ( X = x |T ( X ) =
e
e
e
T ( x )). Si T es suficiente estas probabilidades no dependen de θ, luego,
e
Pθ ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x ))
e
e
e
e
e
e
e
e
para todo θ. En este sentido entendemos que T captura toda la información
sobre θ.
Supongamos que dos cientı́ficos se interesan por la variable aleatoria X cuya
distribución depende del parámetro desconocido θ. Supongamos además que el
primer cientı́fico observa toda una muestra x de X, mientras que el segundo
e
sólo puede estudiar el fenómeno a través de una revista que publica el valor del
estadı́stico suficiente T ( x ). La cuestión relevante entonces es saber si ambos
e
cientı́ficos tienen o no la misma información sobre θ. Veamos que ası́ es.
Como P ( X = x |T ( X ) = T ( x )) no depende de θ, esta distribución cone
e
e
e
dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos
cientı́ficos conocen
P ( X = y |T ( X ) = T ( x )), para todo y ∈ A
= {y : T ( y ) = T ( x )}.
T( x )
e
e
e
e
e
e
e
Si el segundo cientı́fico quisiera, podrı́a generar un vector aleatorio Y siguiendo
e
esa distribución y se satisfarı́a que
P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y ∈ A
T( x )
e
e
e
e
e
e
e
e
e
Por lo tanto X e Y tendrı́an la misma distribución condicionada a que T ( X ) =
e
T ( x ). Además, ambas variables tienen la misma distribución incondicional:
e
Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
(porque { X = x } ⊆ {T ( X ) = T ( x )})
e
e
e
e
Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e
e
e
e
e
e
Pθ ( Y = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) =
e
e
e
e
e
e
Pθ ( Y = x , T ( X ) = T ( x )) =
e
e
e
e
(teniendo en cuenta que { Y = x } ⊆ {T ( X ) = T ( x )})
e
e
e
e
Pθ ( Y = x )
e
e
28
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Por lo tanto el segundo cientı́fico ha podido observar una variable aleatoria
Y que tiene la misma distribución que la variable aleatoria X que observó el
e
e
primer cientı́fico, y ambos cientı́ficos obtienen el mismo valor del estadı́stico T
a partir de sus respectivas observaciones. Por lo tanto, ambos cientı́ficos tienen
la misma información.
Teorema 9 Si f ( x |θ) es la verosimilitud de un vector aleatorio X y q(t|θ) es
e
e
la verosimilitud (función de densidad o de masa) de un estadı́stico T ( X ), se
e
tiene la siguiente equivalencia. T ( X ) es un estadı́stico suficiente para θ si y
e
sólo si para cada x del espacio muestral X el cociente
e
f ( x |θ)
e
q(T ( x )|θ)
e
no depende de θ.
Demostración: Haremos la prueba para el caso discreto. El caso continuo no
presenta dificultades adicionales.
Veamos primero que si f ( x |θ)/q(T ( x )|θ) no depende de θ entonces T es
e
e
suficiente. Como ya se vio anteriormente,
(
Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t
Pθ ( X = x |T ( X ) = t) =
e
e
e
e
e
0
si T ( x ) 6= t
e
e
e
e
Luego si T ( x ) 6= t la función de masa de probabilidad condicionada vale 0 y,
e
no depende de θ. En el otro caso,
Pθ ( X = x , T ( X ) = T ( x ))
e
e
e
e =
Pθ (T ( X ) = T ( x ))
e
e
Pθ ( X = x )
f ( x |θ)
e
e
e
=
Pθ (T ( X ) = T ( x ))
q(T ( x )|θ)
e
e
e
que tampoco depende de θ, de donde se sigue que T es suficiente.
Pθ ( X = x |T ( X ) = T ( x )) =
e
e
e
e
Para probar el recı́proco, basta con leer la igualdad anterior en orden inverso,
f ( x |θ)
e
= Pθ ( X = x |T ( X ) = T ( x )),
e
e
e
e
q(T ( x )|θ)
e
que no depende de θ si T es suficiente.
2
Ejemplo 12
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
e
estadı́stico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ:
e
Qn
f ( x |θ)
θxi (1 − θ)1−xi
¢
e
=
= ¡i=1
n t
n−t
q(T ( x )|θ)
t θ (1 − θ)
e
2.1. PRINCIPIO DE SUFICIENCIA
(donde se ha definido t =
Pn
i=1
29
xi )
θt (1 − θ)n−t
1
¡n¢
= ¡n¢
t (1 − θ)n−t
θ
t
t
que no depende de θ.
.
.
Ejemplo 13
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido.
e
El estadı́stico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ:
©
ª
Pn
f ( x |θ)
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2
©
ª =
e
=
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
q(T ( x )|θ)
e
©
¡Pn
¢ª
2 −n/2
2
2
(2πσ )
exp − 2σ1 2
i=1 (xi − x) + n(x − µ)
©
ª
=
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
©
ª
Pn
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2
=
n1/2 (2πσ 2 )−1/2
(
)
n
1 X
2 −(n−1)/2 −1/2
2
(xi − x) ,
(2πσ )
n
exp − 2
2σ i=1
que no depende de µ.
.
.
El teorema 9 es útil para comprobar si un estadı́stico es suficiente, pero no lo
es para buscar estadı́sticos suficientes. El siguiente teorema sı́ podrá usarse para
este cometido: permite encontrar estadı́sticos suficientes mediante la inspección
de la función de densidad o la función de masa de probabilidad, según el caso.
Teorema 10 (Teorema de Factorización) Sea f ( x |θ) la verosimilitud de
e
X = (X1 , . . . , Xn ). El estadı́stico T ( X ) es suficiente para θ si y sólo si existen
e
e
funciones g(t|θ) y h( x ) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la
e
e
función f ( x |θ) puede factorizarse ası́:
e
f ( x |θ) = g(T ( x )|θ)h( x ).
e
e
e
Demostración: (En el caso discreto). Supongamos primero que T es suficiente.
Tomemos g(t|θ) = Pθ (T ( X ) = t) y h( x ) = Pθ ( X = x |T ( X ) = T ( x )), que
e
e
e
e
e
e
no depende de θ al ser T suficiente. Con esta elección,
f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e
e
e
e
e
e
e
30
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = t) = g(T ( x )|θ)h( x ).
e
e
e
e
e
e
e
Veamos ahora el recı́proco. Supongamos que f ( x |θ) = g(T ( x )|θ)h( x ) y que
e
e
e
q(t|θ) es la función de masa de probabilidad de T ( X ). Entonces,
e
f ( x |θ)
f ( x |θ)
e
e
=P
=
q(t|θ)
f (y|θ)
y∈A
T( x )
e
g(T ( x )|θ)h( x )
g(T ( x )|θ)h( x )
h( x )
e
e
e
e
e
=P
=P
,
g(T ( y )|θ)h( y )
g(T ( x )|θ)h( y )
h( y )
y∈A
y∈A
y∈A
e
e
e
e
e
T( x )
T( x )
T( x )
e
e
e
que es independiente de θ. Luego T es suficiente para θ.
2
P
(Nota: la demostración para el caso continuo puede verse, por ejemplo, en
Lehmann 1986 o en Cristóbal (1992), p. 173.)
Según el Teorema 10, para encontrar un estadı́stico suficiente se factoriza la
función de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al
e
parámetro θ, y la otra que dependa de la muestra sólo a través de una función
suya T ( x ). El estadı́stico suficiente será entonces T ( X ).
e
e
Ejemplo 14
Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
1
f (x|θ) = I{1,2,...,θ} (x)
θ
donde IA (x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
1
θn
.
Ã
f (x1 , . . . , xn |θ) =
n
1 Y
I{1,2,...,θ} (xi ) =
θn i=1
!Ã
!
à n
!Ã n
!
Y
1 Y
IIN−{0} (xi )
I(−∞,θ] (xi ) = n
IIN−{0} (xi )
I[xi ,∞) (θ) =
θ
i=1
i=1
i=1
i=1
à n
!
Y
1
I
(θ)
IIN−{0} (xi )
n (máx{xi :1≤i≤n},∞)
|θ
{z
} i=1
{z
}
|
g(t|θ), donde t=máxi xi
h( x )
e
n
Y
n
Y
.
2.1. PRINCIPIO DE SUFICIENCIA
31
Ejemplo 15
Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es
(
)
n
n n
o
1 X
2 −n/2
2
f ( x |µ) = (2πσ )
exp − 2
(xi − x) exp − 2 (x − µ)2
2σ i=1
2σ{z
e
|
}
|
{z
}
g(t|µ), donde t=x
h( x )
e
Por lo tanto T ( X ) = X es estadı́stico suficiente para µ.
e P
n
Obsérvese que i=1 Xi = nX también es estadı́stico suficiente: podrı́a defiª
©
nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 .
e
.
.
En general, si T ( X ) es estadı́stico suficiente para θ y τ : T −→ S es una
e
transformación biyectiva del espacio donde toma valores T , se tiene que S( X ) =
e
τ (T ( X )) también es estadı́stico suficiente para θ:
e
f ( x |θ) = g(T ( x )|θ)h( x ) = g(τ −1 (S( x ))|θ)h( x ) = g ∗ (S( x )|θ)h( x ),
e
e
e
e
e
e
e
de donde se deduce que S( X ) también es estadı́stico suficiente. La función
e
g ∗ (s|θ) es g ∗ (s|θ) = g(τ −1 (s)|θ).
2.1.1.
Estadı́sticos suficientes r-dimensionales
Hasta ahora hemos visto únicamente estadı́sticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de
factorización puede ocurrir que la función g(t|θ) dependa de la muestra a través
de más de una función suya. En ese caso la colección de esas funciones, digamos
T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadı́stico suficiente r-dimensional. Las
e
e
e
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidimensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estadı́stico suficiente.
Ejemplo 16
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Ası́,
)
(
n
o
n n
1 X
2
2
2 −n/2
f ( x |µ, σ ) = (2πσ )
exp − 2
(xi − x) exp − 2 (x − µ)2 .
2σ i=1
2σ
e
Pn
Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces,
e
e
¾
½
o
n n
(n − 1)
2
2
2 −n/2
=
T
(
x
)
exp
−
(T
(
x
)
−
µ)
f ( x |µ, σ ) = (2πσ )
exp −
2
1
2σ 2
2σ 2
e
e
e
32
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
g(T1 ( x ), T2 ( x )|µ, σ 2 )
e
e
y tomando h( x ) = 1 se tiene la factorización de f ( x |µ, σ 2 ) que implica que
e
e
T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente para (µ, σ 2 ) en
e
e
e
la distribución normal. Es un estadı́stico bivariante.
Obsérvese que el hecho de que un estadı́stico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberı́amos conformarnos con conocer únicamente la media y la varianza muestral.
.
.
2.1.2.
Estadı́sticos suficientes minimales
La factorización de la función de verosimilitud no es única y como consecuencia de ello, tampoco es único el estadı́stico suficiente para un parámetro.
Ya vimos que cualquier transformación biyectiva de un estadı́stico suficiente da
lugar a otro estadı́stico suficiente. Pero aún hay muchos más estadı́sticos suficientes. Por ejemplo, la muestra completa X también es estadı́stico suficiente
e
para el parámetro:
f ( x |θ) = g( x |θ)h( x ),
e
e
e
donde h( x ) = 1, T ( x ) = x y g( x |θ) = f ( x |θ).
e
e
e
e
e
Un estadı́stico suficiente T ( X ) se llama minimal si para cualquier otro
e
estadı́stico S( X ) se tiene que T ( X ) es función de S( X ). Es decir, si ocurre
e
e
e
que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra
e
e
e esto es la siguiente: sea {A : t ∈ T } la partición
forma de expresar
dele espacio
t
muestral inducida por el estadı́stico T y sea {Bs : s ∈ S} la partición inducida
por S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At . La partición inducida
por cualquier estadı́stico suficiente es más fina que la inducida por el estadı́stico
suficiente minimal.
Ejemplo 17
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos. Hemos
visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente
e
e
para (µ, σ 2 ).
Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) =
e
X es estadı́stico suficiente para µ. Pero también es cierto que (T1 ( X ), T2 ( X )) =
e
e
(X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducción
e
2.1. PRINCIPIO DE SUFICIENCIA
33
de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como función de
e
e
e
(T1 ( X ), T2 ( X )): T1 ( X ) = τ (T1 ( X ), T2 ( X )) donde τ (a, b) = a.
e
e
e
e
e
Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para µ, ame
e
e
bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral
S 2 = T2 ( X ) no aporta ninguna información sobre la media µ cuando σ 2 es
e
conocida.
.
.
El siguiente teorema proporciona un método para encontrar el estadı́stico
suficiente minimal.
Teorema 11 Sea f
( x |θ) la función de verosimilitud conjunta de X (disX e
e
e
creta o continua). Supongamos que existe una función T ( x ) tal que para cuale
quier par de elementos del espacio muestral x , y , el cociente
e e
f
( x |θ)
X e
e
f ( y |θ)
X e
e
es constante como función de θ, si y sólo si T ( x ) = T ( y ). Entonces T ( x ) es
e
e
e
estadı́stico suficiente minimal para θ.
Demostración: Casella-Berger, p. 255
2
Ejemplo 18
Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros dese
conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las
e
e y varianzas muestrales. Recordando la factorización
correspondientes medias
de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que
e
n
o
© n
ª
f ( x |θ)
2
2
(2πσ 2 )−n/2 exp − (n−1)
X e
2σ 2 Sx exp − 2σ 2 (x − µ)
o
n
e
=
©
ª =
2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2
f ( y |θ)
(2πσ
2
2
y
2σ
2σ
X e
e
½
¾
¢
1 ¡
2
2
2
2
exp
=
−n(x
−
µ)
+
n(y
−
µ)
−
(n
−
1)(S
−
S
)
x
y
2σ 2
½
¾
¢
1 ¡
2
2
2
2
exp
−n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy )
2σ 2
Esta expresión es constante como función de (µ, σ 2 ) si y sólo si
−n(x2 − y 2 ) + 2nµ(x − y) − (n − 1)(Sx2 − Sy2 ) = 0,
34
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
y recordando que Sx2 =
Pn
i=1
2nµ(x − y) −
x2i − nx2 eso ocurrirá si y sólo si
n
X
i=1
x2i +
n
X
yi2 = 0, para todo µ,
i=1
pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior)
es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y
sólo si
n
n
X
X
x=y y
x2i =
yi2 ,
i=1
i=1
lo que equivale a decir, que
x = y y Sx2 = Sy2 .
Concluimos pues que (X, S 2 ) es estadı́stico minimal suficiente para (µ, σ 2 ) cuando muestreamos de una normal.
.
.
Ejemplo 19
Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası́,
n
Y
f ( x |θ) =
I[θ,θ+1] (xi ) = I[máxi xi −1,mı́ni xi ] (θ).
e
i=1
Por el teorema de factorización, (T1 ( X ), T2 ( X )) = (mı́ni Xi , máxi Xi ) es un
e
e
estadı́stico suficiente para θ.
Para dos muestras x e y, el numerador y el denominador de f ( x |θ)/f (y|θ)
e
e
serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y
máxi xi = máxi yi . En ese caso además el cociente valdrá 1, independientemente
del valor de θ. Ası́ que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi
y máxi xi = máxi yi , luego (mı́ni Xi , máxi Xi ) es un estadı́stico suficiente minimal.
.
.
Obsérvese que el estadı́stico minimal no es único: cualquier transformación
biyectiva suya también es estadı́stico minimal suficiente.
Se puede probar que siempre existen estadı́sticos suficientes minimales. Ver,
por ejemplo, el problema 15 del capı́tulo 2 de Schervish (1995), o el teorema
7.2.7, p. 189, de Cristóbal (1992).
2.1. PRINCIPIO DE SUFICIENCIA
2.1.3.
35
Estadı́sticos ancilares
Se define un estadı́stico ancilar como aquel cuya distribución no depende del parámetro θ. Los estadı́sticos ancilares son los que resumen la parte
de información de la muestra que no recogen los estadı́sticos minimales suficientes. A primera vista, parece que no deben aportar información relevante en
la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que
en combinación con otros estadı́sticos sı́ son útiles en la estimación de θ (ver
Casella-Berger, ejemplo 6.1.11).
Ejemplo 20
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
e
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la
muestra.
El estadı́stico Rango, definido como R = X(n) − X(1) , sigue una distribución
Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estadı́stico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de localización:
Sean X observaciones i.i.d. de una familia de localización con función de distrie
bución F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden
de la muestra. Entonces la distribución del rango, definido como R = X(n) −X(1) ,
no depende de θ por lo que es un estadı́stico ancilar.
.
.
Ejemplo 21
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) =
1
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estadı́sticos de orden de la muestra. Puede demostrarse
que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estadı́stico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1.
El saber el valor del estadı́stico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habrı́amos tenido ninguna
36
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
información sobre θ.
.
2.1.4.
.
Estadı́sticos completos
Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un estadı́stico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es completa si se da la implicación siguiente:
Eθ (g(T )) = 0 para todo θ =⇒ Pθ (g(T ) = 0) = 1 para todo θ.
En ese caso diremos que T es un estadı́stico completo.
Ejemplo 22
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
µ ¶
¶t
µ ¶µ
n
X
n t
n
p
n−t
n
0 = E(g(T )) =
g(t)
p (1 − p)
= (1 − p)
.
g(t)
t
1−p
t
t=0
t=0
n
X
Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0, ∞) es
idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos:
µ ¶
n
g(t)
= 0, para todo t ∈ 0, 1, . . . , n
t
de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego
Pp (g(T ) = 0) = 1, para todo p,
y la familia de distribuciones de T es completa.
.
.
La definición de completitud refuerza la de suficiencia en el sentido de que
si un estadı́stico es suficiente y completo entonces, por una parte, es suficiente
minimal (el recı́proco no es cierto) y, por otra, ese estadı́stico es independiente
de cualquier estadı́stico ancilar. Es decir, en el caso de que exista un estadı́stico
suficiente y completo sı́ es cierta la idea intuitiva de que los estadı́stico ancilares
no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre
si sólo se tienen estadı́sticos suficientes y minimales.
Los siguientes resultados reflejan formalmente estas ideas.
Teorema 12 Si T es un estadı́stico suficiente y completo para θ, entonces T
es suficiente minimal.
2.1. PRINCIPIO DE SUFICIENCIA
37
Demostración: (Extraı́da de Cristóbal 1992, p. 200.)
Sea S un estadı́stico suficiente para θ. Entonces, por la ley de la esperanza
iterada,
Eθ (T − E(T /S)) = Eθ (T ) − Eθ (T ) = 0, para todo θ ∈ Θ.
Por ser T completo, se tiene que
Pθ (T − E(T /S) = 0) = 1 =⇒ T = E(T /S) casi seguro,
luego T es función de cualquier estadı́stico suficiente S y, por tanto, es minimal.
2
El recı́proco no es cierto, como pone de manifiesto el siguiente ejemplo
(Cristóbal 1992, p. 200).
Ejemplo 23
2
Sean X ∼ N (µ, σX
) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del
2
teorema 11 se sigue que el estadı́stico (X, Y , SX
, SY2 ) es suficiente minimal para
+
+
2
2
θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque
Eθ (X − Y ) = 0 para todo θ
y sin embargo Pθ (X = Y ) = 0, para cualquier θ.
.
.
Teorema 13 (Basu) Si T es un estadı́stico suficiente y completo, y S es un
estadı́stico ancilar, entonces T y S son independientes.
Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201.
2
Acabaremos esta sección dando un resultado que permite encontrar estadı́sticos suficientes y completos para las distribuciones que pertenecen a la familia
exponencial, bajo condiciones bastante generales.
Teorema 14 Sea X variable aleatoria cuya distribución pertenece a la familia
exponencial y viene dada por la función de densidad (o de masa, según el caso)


k
X
f (x|θ) = h(x)c(θ) exp 
θj tj (x) , θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk ,
j=1
parametrizada de forma natural.
Si el espacio paramétrico natural Θ contiene un abierto no vacı́o de IRk ,
entonces el estadı́stico
n
X
T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) =
tj (Xi ),
e
e
e
e
i=1
es estadı́stico suficiente completo (y por lo tanto, minimal).
38
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Demostración: La prueba de este resultado requiere técnicas de funciones
analı́ticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de
Schervish 1995, o las de los teoremas 3.9 de Garcı́a-Nogales 1998 o 7.3.7 de
Cristóbal 1992.
2
2.2.
Principio de verosimilitud
Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable aleae
toria X y supongamos que se ha observado x . Llamamos función de veroe
similitud de la muestra a la función de densidad conjunta o a la función de
masa de probabilidad conjunta, según sea X continua o discreta, entendida ésta
como función del parámetro:
−→ IR+
−→ L(θ| x ) = f ( x |θ)
e
e
La función de verosimilitud ası́ definida puede entenderse como un estadı́stico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x , la función de verosimilitud le asocia un
e
elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente
L(·| x ), la función de verosimilitud de esa muestra:
e
L(·| x ) :
e
Θ
θ
L:
X
x
e
−→ (IR+ )Θ
−→ L(·| x )
e
Ası́, L( X ) es una función aleatoria de Θ en IR. Por lo tanto, la función de veroe
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X
e
(de dimensión n) a L( X ) (de dimensión igual al cardinal de Θ, normalmente
e
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la función de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expresa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
e
e
L(θ| x ) = C( x , y )L(θ| y ), para todo θ,
e
e e
e
donde C( x , y ) es una función que puede depender de x e y pero no de θ,
e e
e
e
entonces la inferencia que se haga sobre θ será la misma tanto si se observa x
e
como si se observa y .
e
2.2. PRINCIPIO DE VEROSIMILITUD
39
Obsérvese que la verosimilitud de una muestra x en el caso discreto es la
e
colección de las probabilidades de haber observado x bajo los diferentes valores
e
de θ. Ası́, el cociente de dos valores de la verosimilitud
L(θ1 | x )
e
L(θ2 | x )
e
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2 . En el
e
caso continuo esto es aproximadamente válido, si hablamos de la probabilidad
de observar valores en un entorno de x en lugar de la probabilidad de observar
e
x:
e
Pθ1 ( X ∈ B( x , ε))
VolumenB( x , ε)f ( x |θ1 )
f ( x |θ1 )
e
e
e
e
e
≈
=
.
Pθ2 ( X ∈ B( x , ε))
VolumenB( x , ε)f ( x |θ2 )
f ( x |θ2 )
e
e
e
e
e
Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho más
e
e
plausible (mucho más verosimil) que θ2 . Ası́, la verosimilitud indica cómo de
plausible es un valor del parámetro θ1 en términos relativos (comparada esa
plausibilidad con la de otro valor de θ2 ).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,
L(θ1 | x )
C( x , y )L(θ1 | y )
L(θ1 | y )
e =
e e
e =
e ,
L(θ2 | x )
C( x , y )L(θ2 | y )
L(θ2 | y )
e
e e
e
e
y por lo tanto, los valores de θ más verosı́miles serán los mismos si se observa
x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias
e
e
e como afirma el principio
sobre θ,
dee verosimilitud.
El siguiente teorema afirma que el principio de suficiencia y el de verosimilitud son equivalentes.
Teorema 15 El principio de suficiencia y el principio de verosimilitud son equivalentes.
Demostración: Suficiencia =⇒ Verosimilitud.
Veamos que la función de verosimilitud, vista como estadı́stico L( X ), es un
e
estadı́stico suficiente. En efecto,
f ( x |θ) = g(L( x )|θ)h( x ),
e
e
e
donde h( x ) = 1 y la función g(L( x )|θ) es la que devuelve el valor de L( x )
e
e
e
en el punto θ. Por el teorema de factorización L( X ) es estadı́stico suficiente.
e
Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de
40
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
la muestra X = (X1 , . . . , Xn ) sólo a través del valor L( X ), lo cuál implica el
e
e
principio de verosimilitud.
Verosimilitud =⇒ Suficiencia.
Consideremos un estadı́stico suficiente T ( X ) y dos valores muestrales x e y
e
e
e
tales que T ( x ) = T ( y ). Veamos que la inferencia sobre θ que se derive de x
e
e
e
e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia).
Ene efecto, se tiene que
L( x |θ) = g(T ( x )|θ)h( x ) = g(T ( y )|θ)h( x ) =
e
e
e
e
e
h( x )
g(T ( y )|θ)h( y ) e = C( x , y )L( y |θ)
e e
e
e h( y )
e
e
de donde se deduce por aplicación del principio de verosimilitud que la inferencia
que se haga sobre θ será la misma tanto si se observa x como si se observa y .
e
e
2
En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más detallado sobre las implicaciones que existen entre estos y otros principios de reducción de los datos. Las conclusiones a las que allı́ se llega implican que el
principio de verosimilitud es cierto también para inferencias hechas sobre un
mismo parámetro a partir de experimentos distintos: si se observan resultados
tales que las correspondientes verosimilitudes son proporcionales, la inferencia
será la misma.
2.3. LISTA DE PROBLEMAS
2.3.
41
Lista de problemas
Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación de una N (0, σ 2 ). ¿Es |X| un
estadı́stico suficiente?
2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f ((x − µ)/σ), donde f (t) es la densidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estadı́stico
bidimensional suficiente para (µ, σ).
3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independendientes con densidades
fi (x) =
1
I(−i(θ−1),i(θ+1)) (x), i = 1, . . . , n,
2iθ
donde θ > 0.
a) Encontrar un estadı́stico suficiente para θ de dimensión 2.
b) Dar un estadı́stico suficiente para θ de dimensión 1.
4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una γ(α, β). Da un
estadı́stico bidimensional suficiente para (α, β).
5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X con función de densidad o de probabilidad f (x; θ). Prueba que los
estadı́sticos de orden X(1) , . . . , X(n) son suficientes para θ.
6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Encontrar estadı́sticos minimales suficientes para el parámetro de
localización θ (−∞ < θ < ∞) en los siguientes casos.
a) Exponencial: f (x; θ) = e−(x−θ) , x > θ.
b) Logı́stica: f (x; θ) = e−(x−θ) /(1 + e−(x−θ) )2 .
c) Cauchy: f (x; θ) = 1/(π(1 + (x − θ)2 )).
d ) Doble exponencial (o Laplace): f (x; θ) = (1/2)e−|x−θ| .
7. (Examen parcial 2001) Se considera el siguiente modelo de regresión:
Yi = α + βxi + εi , i = 1, . . . , n,
donde x1 , . . . , xn son cantidades conocidas y ε1 , . . . , εn son v.a.i.i.d. según
una N (0, σ 2 ).
a) ¿Qué distribución tiene Yi ? Escribe su función de densidad fYi (y).
b) Escribe la función de verosimilitud L(y1 , . . . , yn ; α, β, σ 2 ).
c) Da un estadı́stico tridimensional suficiente para (α, β, σ 2 ).
42
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
d ) Prueba que la distribución conjunta de (Y1 , . . . , Yn ) pertenece a la
familia exponencial.
Completitud
8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejemplo 19 se establece que el estadı́stico T ( X ) = (X(1) , X(n) ) es estadı́stico
e
minimal suficiente para θ. Prueba ahora que no es completo.
9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (θ, aθ2 ), donde
a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estadı́stico
suficiente para θ pero no es completo.
10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribución geométrica:
Pθ (X = x) = θ(1 − θ)x−1 , x = 1, 2, . . . , 0 < θ < 1.
Pn
a) Probar que T = i=1 Xi es suficiente para θ y encontrar la distribución de T .
b) Prueba que T es completo sin usar el resultado general para familias
exponenciales.
11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d.
según una ley Poisson(λ), λ ≥ 0.
Pn
a) Probar que el estadı́stico T = i=1 Xi es suficiente pera λ.
b) Sin hacer uso del resultado general sobre completitud en familias exPn
ponenciales, probar que la familia de distribuciones de T = i=1 Xi
es completa.
c) Consideremos la siguiente familia de distribuciones:
P = {Pλ (X = x) : Pλ (X = x) = λx e−λ /x!; x = 0, 1, 2, . . . ; λ = 0 o λ = 1}
(Nota: 00 = 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con λ restringido a ser 0 o 1. Probar que la familia P no es completa.
d ) Indicar si la siguiente afirmación es cierta o falsa y decir por qué:
Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa
y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈
Θ2 } es completa.
12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2
con probabilidades dadas por una de las siguientes distribuciones:
Distribución 1
Distribución 2
P (X = 0)
p
p
P (X = 1)
3p
p2
P (X = 2)
1 − 4p
1 − p − p2
0 < p < 1/4
0 < p < 1/2
2.3. LISTA DE PROBLEMAS
43
En cada caso, determina si la familia de distribuciones de X es completa.
13. Considera las variables aleatorias descritas en el problema 14 de la lista
1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?
14. Considera las variables aleatorias descritas en el problema 15 de la lista
1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?
15. Considera las variables aleatorias descritas en el problema 16 de la lista
1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo?
44
CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Capı́tulo 3
Estimación puntual 1:
Construcción de
estimadores
Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general.
DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia
bayesiana. Garthwaite, Jollife y Jones (1995), sección 3.4, presenta
métodos de estimadoción no incluidos aquı́.
3.1.
La función de distribución empı́rica y el
método de los momentos
Sea la variable aleatoria X con función de distribución F . Consideramos una
muestra aleatoria simple de tamaño n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con
distribución dada por F . Sea x1 , . . . , xn una realización de esa m.a.s.
Se llama función de distribución empı́rica a la función
n
Fn (x) =
1
1X
#{xi ≤ x : i = 1 . . . n} =
I(−∞,x] (xi ),
n
n i=1
que a cada número real x le asigna la proporción de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la función Fn ası́ definida es una función de
distribución:
1. Fn (x) ∈ [0, 1] para todo x ∈ IR.
2. Fn es continua por la derecha.
45
46CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
3. Fn es no decreciente.
4. lı́mx−→−∞ Fn (x) = 0.
5. lı́mx−→∞ Fn (x) = 1.
Concretamente, Fn es la función de distribución de una variable aleatoria discreta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos
xi observados:
xi
pi = P(Xe = xi )
x1
1/n
x2
1/n
···
···
xn
1/n
A la distribución de Xe se le llama distribución empı́rica asociada al conjunto
de valores {x1 , . . . , xn }.
Obsérvese que si fijamos el valor de x y dejamos variar la muestra, lo que
obtenemos es una variable aleatoria. En efecto, se tiene entonces que
n
Fn (x) =
1X
I(−∞,x] (Xi ),
n i=1
donde
½
I(−∞,x] (Xi ) =
1,
0,
si Xi ≤ x
si Xi > x
y, por lo tanto, cada término I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli
con probabilidad de éxito
p = P(I(−∞,x] (Xi ) = 1) = P(Xi ≤ x) = F (x).
De ahı́ se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribución
binomial con parámetros n y p = F (x).
De lo anterior se sigue que la función de distribución empı́rica es un proceso estocástico: si consideramos un espacio probabilı́stico (Ω, A, P ) donde están
definidas las sucesiones de variables aleatorias {Xn }n≥1 a partir de las cuales
definiremos la función de distribución empı́rica, tenemos que
Fn :
(Ω, A, P ) × (IR, B) −→ [0, 1]
(ω, x)
−→ Fn (x)(ω) =
1
n
Pn
i=1 I(−∞,x] (Xi (ω))
Fijado x, Fn (x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω,
Fn (·)(ω) : IR −→ [0, 1] es una función de distribución (en la notación usual
se omite la dependencia de ω ∈ Ω). Por lo tanto, la función de distribución
empı́rica es una fucnión de distribución aleatoria.
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS47
3.1.1.
Teorema de Glivenko-Cantelli
El siguiente teorema recoge algunas de las propiedades de la función de
distribución empı́rica.
Teorema 16 Sea {Xn }n≥1 , sucesión de variables aleatorias independientes e
idénticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con
función de distribución común F . Se denota por Fn la función de distribución
empı́rica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x ∈ IR.
Se verifica lo siguiente:
(a) P(Fn (x) =
j
n)
=
¡n¢
j
n−j
, j = 0, . . . , n.
j F (x) (1 − F (x))
(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)).
(c) Fn (x) −→ F (x) casi seguro.
(d)
√
n(F (x) − F (x))
p n
−→D Z,
F (x)(1 − F (x))
donde Z es una variable aleatoria con distribución normal estándar y la
convergencia es convergencia en distribución.
Demostración: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ),
se tiene que Fn (x) = Ȳn , la media aritmética de las variables aleatorias Y1 , . . . , Yn .
Ası́, el apartado (c) es una aplicación inmediata de la ley fuerte de los grandes
números y el apartado (d) es consecuencia del teorema central de lı́mite.
2
El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que
la convergencia de Fn (x) a F (x) se da uniformemente.
Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n≥1 una sucesión
de variables aleatorias independientes e idénticamente distribuidas definidas en
el espacio de probabilidad (Ω, A, P ) con función de distribución común F . Se
denota por Fn la función de distribución empı́rica obtenida de las n primeras
variables aleatorias X1 , . . . , Xn . Entonces,
sup |Fn (x) − F (x)| −→ 0 casi seguro.
x∈IR
Demostración: Presentamos aquı́ la demostración que hacen Vélez y Garcı́a
(1993), p. 36. (otras demostraciones pueden encontrarse en Garcı́a-Nogales 1998,
p. 88, y en Cristóbal 1992, p. 66). En el teorema 16 se probó que, por la ley
fuerte de los grandes números, Fn (x) −→ F (x) casi seguro, es decir, para cada
x ∈ IR existe Ax ∈ A tal que P(Ax ) = 1 y lı́mn Fn (x)(ω) = F (x) si ω ∈ Ax .
Se ha denotado por Fn (x)(ω) a la función de distribución empı́rica obtenida
48CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
al observar X1 (ω), . . . , Xn (ω), siendo ω un elemento del espacio Ω. De la ley
fuerte de los grandes números también se sigue (tomando ahora I(−∞,x) en
vez de I(−∞,x] ) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx ) = 1
y lı́mn Fn (x− )(ω) = F (x− ) si ω ∈ Bx , donde g(x− ) denota el lı́mite por la
izquierda de una función g en x.
Para cada número natural k, y cada j = 1, . . . , k, se consideran los puntos
¾
½
j
xjk = mı́n x ∈ IR : F (x− ) ≤ ≤ F (x)
k
y los sucesos de A siguientes:
Ajk = Axjk = {w ∈ Ω : Fn (xjk ) −→ F (xjk )}
−
Bjk = Bxjk = {w ∈ Ω : Fn (x−
jk ) −→ F (xjk )}
Dk =
k
\
(Ajk ∩ Bjk ), D =
j=1
∞
\
Dk .
k=1
Dk es el suceso definido por la condición de que la función de distribución empı́rica converja a la teórica para todos los puntos xjk (y también para los lı́mites por
la izquierda), para un k fijo. D es el suceso en que esto ocurre simultáneamente
para todo k. Según la ley fuerte de los grandes números, P(Ajk ) = P(Bjk ) = 1
para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1.
Obsérvese que si x ∈ [xjk , x(j+1)k ), por ser F y Fn funciones de distribución
se tiene que
−
F (xjk ) ≤ F (x) ≤ F (x−
(j+1)k ), y Fn (xjk ) ≤ Fn (x) ≤ Fn (x(j+1)k ).
Como además F (x−
(j+1)k ) − F (xjk ) ≤ 1/k,
−
−
Fn (x) − F (x) ≤ Fn (x−
(j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) +
y
Fn (x) − F (x) ≥ Fn (xjk ) − F (x−
(j+1)k ) ≥ Fn (xjk ) − F (xjk ) −
1
k
1
k
(k)
con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y
−
|Fn (x−
jk ) − F (xjk )| (para n y k fijos), se tiene que
Fn (x) − F (x) ≤ δn(k) +
1
1
y Fn (x) − F (x) ≥ −δn(k) −
k
k
Ası́, para cualquier k ∈ IN,
1
sup |Fn (x) − F (x)| ≤ δn(k) + .
k
x∈IR
Obsérvese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0,
(k)
se tiene que δn < ε a partir de un cierto n, de forma que
1
sup |Fn (x) − F (x)| < ε +
k
x∈IR
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS49
a partir de cierto n. Por lo tanto,
sup |Fn (x) − F (x)| −→n 0
x∈IR
siempre que se verifique D. Como P(D) = 1, se sigue que
sup |Fn (x) − F (x)| −→n 0 casi seguro.
x∈IR
2
Obsérvese que según el apartado (c) del teorema 16, las distribuciones empı́ricas asociadas a muestras de tamaño n convergen débilmente a la distribución de
probabilidad teórica identificada por F , para casi todas las muestras de tamaño
infinito que se extraigan de F . Ésta es una de las consecuencias más importantes
del citado teorema:
la distribución empı́rica converge débilmente con probabilidad 1 a la
poblacional cuando el tamaño de la muestra tiende a infinito:
Fn −→D F, casi seguro.
Esto garantiza la posibilidad de realizar inferencia estadı́stica: los aspectos probabilı́sticos de una caracterı́stica X, medida en una población, se resumen de
forma estilizada en una distribución de probabilidad F , la cual puede ser aproximada mediante las distribuciones empı́ricas Fn obtenidas por muestreo de la
población en estudio. El teorema de Glivenko-Cantelli afirma que esas aproximaciones son uniformes en x. Por esta razón el teorema de Glivenko-Cantelli
se llama a veces Teorema Fundamental de la Estadı́stica Matemática: da una
fundamentación de la inferencia estadı́stica, cuyo objetivo principal consiste en
extraer información sobre F a partir de las observaciones muestrales.
Ejemplo 24
En la figura siguiente se muestra la función de distribución de una variable
aleatoria N (0, 1) y la función de distribución empı́rica de dos muestras de esa
variable aleatoria una de tamaño n = 10 (la más alejada de la teórica) y la
otra de tamaño n = 100. Se aprecia que cuando n crece la proximidad entre la
función de distribución empı́rica y la teórica es cada vez mayor.
50CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−3
−2
−1
0
.
3.1.2.
1
2
.
Principio de sustitución
En esta sección presentamos una consecuencia importante de la convergencia
de Fn a F , la definición de estimadores mediante el principio de sustitución.
La convergencia de Fn a F permite construir versiones factibles de caracterı́sticas poblacionales desconocidas. Supongamos que estudiamos una caracterı́stica X en una población y que el resultado de la observación de X puede ser
modelizado como una variable aleatoria con distribución desconocida, digamos
F . Muchas de las preguntas relevantes acerca de la caracterı́stica X podrı́an ser
contestadas si su función de distribución F fuese conocida (por ejemplo el valor
esperado, el número de modas de la distribución o la probabilidad de que X sea
negativa).
Para fijar ideas podemos pensar que nos interesa conocer cantidades numéricas (parámetros) que dependen únicamente de la función de distribución desconocida F :
θ = ψ(F ).
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS51
El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que
el tamaño muestral crece. Ası́, podemos esperar que también se verifique que
θ̂n = ψ(Fn ) −→ θ = ψ(F ),
es decir, esperamos que las cantidades numéricas calculadas para la distribución
empı́rica (estimadores) se aproximen a las cantidades desconocidas a medida
que el tamaño muestral crezca. Se puede probar que este resultado es cierto
bajo hipótesis de regularidad bastante generales de las funciones ψ que asignan
números a funciones de distribución.
Esta forma de obtener estimadores de parámetros poblacionales desconocidos
se denomina principio de sustitución (plug-in principle en inglés). Es un
procedimiento muy general de obtención de estimadores.
Ejemplo 25
Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tamaño n para estimar θ. Un
estimador razonable de θ es el máximo de las observaciones, que es estadı́stico
minimal suficiente para θ:
θ̂2 = máx Xi .
i
Éste es un estimador de θ basado en el principio de sustitución. En efecto,
θ = sup{x ∈ IR : F (x) < 1},
y
θ̂2 = máx Xi = sup{x ∈ IR : Fn (x) < 1}.
i
.
3.1.3.
.
El método de los momentos
Una aplicación del principio de sustitución es la definición de los estimadores basados en momentos. El momento no centrado de orden k de una
variable aleatoria X con distribución F se define como
Z
k
µk = EF (X ) = xk dF (x).
Si Xe es una variable aleatoria con función de distribución igual a Fn , la función
de distribución empı́rica de una m.a.s. de tamaño n de X, se tiene que sus
momentos no centrados (a los que llamaremos mk,n ) son de la forma
Z
mk,n =
EFn (Xek )
=
n
xk dFn (x) =
1X k
X ,
n i=1 i
52CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1
es la esperanza poblacional y m1,n la media muestral.
La siguiente proposición garantiza que los momentos muestrales convergen
a los poblacionales.
Proposición 2 Sea X variable aleatoria con E(X 2k ) < ∞. Entonces se verifica
que mk,n −→ µk casi seguro. Además,
√
n(mk,n − µk )
p
−→D Z,
µ2k − µ2k
con Z ∼ N (0, 1). Se tiene además la convergencia de la distribución conjunta
de los k primeros momentos muestrales:
¤
√ £
n (m1,n , . . . , mk,n )t − (µ1 , . . . , µk )t −→D Nk ( 0 , Σ),
e
donde Σ es una matriz (k × k) con elemento (i, j) genérico
σij = µi+j − µi µj .
Demostración: La demostración es inmediata. Se basa en la aplicación de la
ley fuerte de los grandes números y el teorema central del lı́mite, dado que si
definimos Yi = Xik entonces mk,n = Ȳn . La última parte se sigue del teorema
central del lı́mite multivariante.
2
Muchas caracterı́sticas poblacionales de interés se pueden expresar como
función de los momentos no centrados de órdenes 1, . . . , k:
θ = h(µ1 , . . . , µk ).
Por ejemplo, la varianza de X se expresa como σ 2 = h(µ1 , µ2 ) = µ2 − µ21 .
El estimador de θ basado en el principio de sustitución se conoce como
estimador de los momentos de θ y será
θ̂n = h(m1,n , . . . , mk,n ).
Obsérvese que el estimador de los momentos de θ puede no ser único, porque
diferentes funciones h pueden conducir al mismo valor θ.
La siguiente proposición establece el comportamiento asintótico del estimador de los momentos de θ.
Proposición 3 Consideremos la variable aleatoria X con E(X 2k ) < ∞. Sea
θ = h(µ1 , . . . , µk ). Si h es continua en (µ1 , . . . , µk ), entonces θ̂n = h(m1,n , . . . , mk,n )
converge a θ casi seguro. Además, si h es derivable en (µ1 , . . . , µk ), entonces la
distribución lı́mite de θ̂n es normal:
√
2
n(θ̂n − θ) −→D N (0, σh,θ
).
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
53
Demostración: La demostración de la convergencia casi segura se sigue directamente de la de continuidad de h y de la convergencia casi segura de los
momentos muestrales a los poblacionales.
La demostración de la normalidad asintótica queda pospuesta hasta que se
haya introducido en la sección 4.3 el método delta.
2
Ejemplo 25, página 51. Continuación. Se toma una m.a.s. de X de tamaño
n de una U (0, θ) para estimar θ. El estimador de momentos θ̂M de θ viene dado
por la sigiente relación:
E(X) =
θ̂M
θ
=⇒ m1,n =
=⇒ θ̂M = 2m1,n = 2X.
2
2
.
.
Ejemplo 26
Otros esimadores basados en el método de los momentos son los siguientes:
1. Para una variable aleatoria X con varianza finita, Vd
(X) = (n − 1)Sn2 /n.
2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ̂ = 1/X.
3. Si X ∼ B(n, p) entonces p̂ = X y Vd
(X) = p̂(1 − p̂).
4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ̂1 = X es estimador
de momentos. Además, λ = V (X) = µ2 − µ21 . Por tanto,
λ̂2 = m2,n − m21,n =
(n − 1)Sn2
n
es también un estimador basado en momentos. Es preferible λ1 porque en
su definición sólo interviene el momento de orden 1.
.
3.2.
.
Estimadores de máxima verosimilitud
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable aleae
toria X con función de densidad (o de masa de probabilidad) f ( x |θ), con
e
θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk . Sea X el espacio muestral, es decir, el conjunto
54CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
de todos los posibles valores de X . Hemos definido la función de verosimie
litud para x = (x1 , . . . , xn ) ∈ X como
e
L(·| x ) :
e
Θ
θ
−→ IR+
Qn
−→ L(θ| x ) = f ( x |θ) = i=1 f (xi |θ)
e
e
Para cada muestra x ∈ X , el estimador de máxima verosimilitud θ̂ de θ
e
es el valor de Θ que hace máxima la verosimilitud L(·| x ):
e
L(θ̂| x ) = máx L(θ| x ).
θ∈Θ
e
e
Intuitivamente θ̂ es el valor del parámetro que hace más verosı́mil la muestra
observada. Veremos más adelante que los estimadores de máxima verosimilitud
son muy buenos estimadores y que en general tienen propiedades de optimalidad.
Además, en muchas ocasiones el estimador máximo verosı́mil es el que el sentido
común nos llevarı́a a proponer.
Ejemplo 27
X ∼ exp(λ) =⇒ f (x|λ) = λe−λx I[0,∞) (x), λ > 0.
Se toma una muestra de tamaño n = 1 y se observa x = 3. Estudiamos la
función de verosimilitud L(λ|3) = λe−3λ y buscamos su máximo para λ > 0.
Buscamos los valores de λ que anulan la derivada de L(λ|3):
L0 (λ|3) = e−3λ (1 − 3λ); L0 (λ|3) = 0 =⇒ λ =
1
3
Como L(λ|3) ≥ 0 y
lı́m L(λ|3) = lı́m L(λ|3) = 0
λ−→0
λ−→∞
se sigue que el punto crı́tico de L(λ|3) es un máximo. Ası́,
λ̂ =
.
1
.
3
.
Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporción de caramelos
de cada color es la misma pero no nos dicen de cuántos colores distintos pueden
ser los caramelos. Se trata de estimar por máxima verosimilitud k, el número
de colores, a partir de la observación de n caramelos.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
55
Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde.
Anotamos x1 = V BV . Si k es el número de colores, la probabilidad de observar
dos colores distintos en los tres caramelos es
P(x1 |k) = L(k|x1 ) =
P(el segundo diferente al primero)P(el tercero es como el primero) =
k−1
k−11
=
.
k k
k2
Esta función de k toma los valores siguientes, y tal como puede apreciarse es
decreciente:
k
(k − 1)/k 2
2
1
= 0,25
4
3
2
= 0,2222
9
4
3
= 0,1875
16
···
(decrece en k)
Ası́, el estimador máximo verosı́mil de k es
k̂(V BV ) = 2.
Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 =
V BV N . La verosimilitud de la muestra es ahora
L(k|x2 ) = P(x2 |k) =
k−11k−2
(k − 1)(k − 2)
=
k k k
k3
cuyos primeros valores son los siguientes:
k
L(k|x2 )
3
2
= ,0741
27
4
3
= ,0938
32
5
12
= ,096
125
6
5
= ,0926
54
7
30
= ,0875
343
Para k ≥ 6 la función L(k|x2 ) es decreciente en k. Por tanto el estimador máximo
verosı́mil de k es
k̂(V BV N ) = 5.
Obsérvese que, pese a haber observado sólo cuatro caramelos y a haber visto
únicamente tres colores distintos, el estimador máximo verosı́mil indica que hay
dos colores que aún no hemos visto.
.
.
El problema de hallar el estimador máximo verosı́mil es un problema de optimización. Por lo tanto, todas las técnicas analı́ticas y numéricas de optimización
que conocemos pueden resultarnos útiles para estimar por máxima verosimilitud. También hay que tener la misma precaución con lo resultados obtenidos:
hay que comprobar las condiciones de segundo orden para asegurarnos de que
un punto crı́tico es efectivamente un máximo, puede haber más de un máximo
56CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
global, puede haber varios máximos locales, el óptimo puede estar en la frontera
del espacio paramétrico, podemos tener una función objetivo (la verosimilitud)
que sea prácticamente plana cerca del máximo y esto dificulta la búsqueda por
métodos numéricos.
Como norma general, si la dimensión del espacio paramétrico es 1 o 2, es
conveniente hacer un gráfico de la función de verosimilitud frente a los diferentes
valores de los parámetros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.
3.2.1.
Cálculo del estimador máximo verosı́mil
Si la función de verosimilitud L( θ | x ) es derivable en θi , las soluciones de
e e
las ecuaciones de primer orden,
∂
L( θ |x) = 0, j = 1, . . . , k,
∂θj
e
son candidatas a ser el estimador máximo verosı́mil. Los ceros de las primeras
derivadas no son necesariamente máximos de la función de verosimilitud: pueden
ser máximos locales o globales, mı́nimos locales o globales o puntos de inflexión.
Para asegurar que la solución encontrada es un máximo (local o global) hay que
comprobar que las segundas derivadas sean definidas negativas.
Por otra parte, este procedimientos sólo permite localizar extremos en el
interior del espacio paramétrico Θ. Podrı́a ser que L(θ| x ) alcanzase su valor
e
máximo en la frontera de Θ.
Ejemplo 29
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR:
Pn
2
1
L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ)
e
Calculamos la primera derivada de L respecto a µ:
n
X
d
L(µ| x ) = −
(xi − µ)L(µ| x );
dµ
e
e
i=1
luego
n
X
d
L(µ| x ) = 0 =⇒
(xi − µ) = 0 =⇒ µ̂ = x.
dµ
e
i=1
Ası́ pues, µ̂ = x es un candidato a ser el estimador máximo verosı́mil. Tenemos
que comprobar que es un máximo global de L(µ| x ).
e
En primer lugar, constatamos que x es el único punto crı́tico del interior del
espacio paramétrico Θ = IR. En segundo lugar, calculamos la derivada segunda:
"Ã
!
#
n
X
d2
2
−n + ( (xi − µ)) L(µ| x )
L(µ| x )|µ=x =
= −nL(x| x ) < 0.
dµ2
e
e
e
i=1
µ=x
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
57
Ası́ pues, x es un máximo y es el único extremo del interior del espacio paramétrico.
Por último, analizamos el comportamiento de L(µ| x ) en la frontera: en este
e
caso ±∞. Vemos que
lı́m L(µ| x ) = 0.
x−→±∞
e
Concluimos entonces que µ̂ = x es el estimador máximo verosı́mil. La última
comprobación (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesae
ria, porque si en +∞ o −∞ hubiese un máximo, forzosamente tendrı́a que haber
un mı́nimo relativo en el interior de Θ = IR (dado que x es máximo relativo) y
eso no ocurre.
.
.
En ocasiones es posible buscar el máximo de L(θ, x ) directamente, usando
e
propiedades especı́ficas de esa función de verosimilitud concreta. Esto puede
ser útil si las ecuaciones obtenidas al igualar a cero las derivadas de L resultan complicadas. No hay una metodologı́a general que seguir y, por tanto, este
procedimiento alternativo requiere más habilidad que el basado en el cálculo de
derivadas. Por ejemplo, se puede probar que hay una cota superior de la verosimilitud y que ésta se alcanza en un valor del parámetro. Ello implica que ese
valor es el estimador máximo verosı́mil.
Ejemplo 29, página 56. Continuación. La verosimilitud es decreciente en
Pn
2
el estimador máximo verosı́mil es equivalente a
i=1 (xi − µ) , luego encontrar
Pn
encontrar el mı́nimo de i=1 (xi − µ)2 . Obsérvese que, por el Teorema 1,
n
X
i=1
(xi − µ)2 =
n
X
(xi − x)2 + (x − µ)2 ≥
i=1
Pn
n
X
(xi − x)2 .
i=1
2
Además, la cota inferior i=1 (xi −x) se alcanza si hacemos µ = x. Se concluye
Pn
que x es mı́nimo absoluto de i=1 (xi −µ)2 y, por tanto, es también el estimador
máximo verosı́mil.
.
.
Muy a menudo es más sencillo trabajar con el logaritmo de la verosimilitud
que hacerlo con la propia función. Dado que el logaritmo es una función estrictamente creciente, los extremos de la función de verosimilitud se alcanzan en
los mismos puntos (y tienen las mismas caracterı́sticas) en los que se alcancen
los extremos de su logaritmo.
Denotaremos por l (θ| x ) al logaritmo de la función de verosimilitud:
e
l (θ| x ) = log L(θ| x ).
e
e
58CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Ejemplo 30
X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1].
e
Pn
Pn
L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒
e
n
n
X
X
l (p| x ) = (
xi ) log p + (n −
xi ) log(1 − p) =⇒
e
i=1
i=1
Pn
Pn
n − i=1 xi
d
i=1 xi
l (p| x ) =
−
.
dp
p
1−p
e
Pn
Distinguiremos tres casos, según sea el valor de
i=1 xi . Si suponemos que
Pn
0 < i=1 xi < n
Pn
n
n
X
X
xi
d
l (p| x ) = 0 =⇒ (1 − p)(
xi ) = (n −
xi )p =⇒ p̂ = i=1
= x ∈ (0, 1).
dp
n
e
i=1
i=1
Pn
xi
p̂ = i=1
= x es el único extremo en el interior de Θ, es decir, en (0, 1). Con
n
la segunda derivada comprobamos que se trata de un máximo:
Pn
· Pn
¸
n − i=1 xi
d2
i=1 xi
l
(p|
x
)|
=
−
−
=
p=p̂
dp2
p2
(1 − p)2
e
p=p̂
−
np̂ n(1 − p̂)
1
−
= −n
< 0.
p̂2
(1 − p̂)2
p̂(1 − p̂)
Concluimos que el único valor posible del estimador máximo verosı́mil en (0, 1)
es p̂, donde la verosimilitud valdrı́a
µ
L(p̂| x ) =
e
p̂
1 − p̂
¶np̂
(1 − p̂)n > 0.
Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1:
e
L(0| x ) = L(1| x ) = 0 < L(p̂| x ).
e
e
e
Concluimos que p̂ es el estimador máximo verosı́mil de p, en el caso de que
Pn
0 < i=1 xi < n.
Pn
En segundo lugar, si i=1 xi = 0,
L(p| x ) = (1 − p)n ,
e
función decreciente en p, luego el estimador máximo verosı́mil de p es 0 = x = p̂.
Pn
Por último, si i=1 xi = n,
L(p| x ) = pn ,
e
función creciente en p, luego el estimador máximo verosı́mil de p es 1 = x = p̂.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
59
En resumen, el estimador máximo verosı́mil de p es
Pn
xi
p̂ = i=1 .
n
.
.
Es importante asegurarse que el estimador máximo verosı́mil propuesto pertenece al espacio paramétrico.
Ejemplo 31
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0.
Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador máximo
verosı́mil de µ es µ̂ = x. Por lo tanto éste también será el estimador máximo
verosı́mil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato
probar que L(µ| x ) es función decreciente en µ si µ > x. Por lo tanto, en este
e
caso el estimador máximo verosı́mil de µ es 0. Resumiendo, el estimador máximo
verosı́mil de µ cuando θ = [0, ∞) es
½
µ̂ =
.
0
x
si
si
x<0
x≥0
.
Un caso en el que no es posible realizar la optimización mediante la igualación
de las derivadas a cero es aquél en el que el espacio paramétrico Θ es discreto.
En este caso aún es posible analizar el problema de forma sistemática.
Si es posible considerar un espacio paramétrico ΘA más amplio en el que el
parámetro varı́e de forma continua (por ejemplo, si Θ = IN, ΘA podrı́a ser IR+
o IR) y buscar el estimador máximo verosı́mil cuando θ ∈ ΘA , ese valor puede
ayudarnos a restringir la lista de puntos de Θ que pueden ser estimador máximo
verosı́mil de θ ∈ Θ.
Ejemplo 32
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IN. Como el estimador máximo verosı́mil de µ ∈ IR es x y L(µ| x ) es creciente en (−∞, x) y decreciente en (x, ∞),
e
se deduce que los únicos puntos que pueden ser estimador máximo verosı́mil de
µ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR.
.
.
60CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Cuando razonamientos de este tipo no son posibles pero el espacio paramétrico discreto Θ es IN (o en general, si está totalmente ordenado) es útil analizar
los cocientes
L(k + 1| x )
e
L(k| x )
e
y estudiar para qué valores de k éstos son menores o mayores que 1. El siguiente
ejemplo responde a este modelo.
Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; ¿cuántas veces la hemos lanzado?
En este caso se tiene X1 , . . . , Xn , una m.a.s. de X ∼ B(k, p), con p conocido
y k desconocido. La verosimilitud es
n µ ¶
n
Y
Y
k xi
k!
L(k| x ) =
p (1 − p)k−xi = pnx (1 − p)n(k−x)
.
x
x
!(k
− xi )!
e
i
i=1
i=1 i
El hecho, por un lado, de que el parámetro k sea natural y, por otro, la presencia
de k! y (k − xi )! en la función de verosimilitud, hace difı́cil la maximización de
L.
Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n) , es obvio que k ≥ x(n) porque
los valores de xi oscilan entre 0 y k. Además, el estimador máximo verosı́mil es
un número natural k que satisface
L(k| x )
L(k + 1| x )
e
e <1
≥1y
L(k − 1| x )
L(k| x )
e
e
Desarrollando,
Qn
k!
(1 − p)nk i=1 (k−x
L(k| x )
i )!
e
=
Qn
(k−1)!
L(k − 1| x )
(1 − p)n(k−1) i=1 (k−1−x
i )!
e
à n
!
Y k
(k(1 − p))n
n
= Qn
= (1 − p)
≥ 1,
k − xi
i=1 (k − xi )
i=1
y
L(k + 1| x )
((k + 1)(1 − p))n
e = Qn
< 1.
L(k| x )
i=1 (k + 1 − xi )
e
Ası́, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
(k(1 − p))n ≥
n
Y
(k − xi ) y ((k + 1)(1 − p))n <
i=1
n
Y
i=1
(k + 1 − xi ).
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
61
Dividiendo por k n y (k + 1)n , son equivalentes a
(1 − p)n ≥
n
Y
(1 − (xi /k)) y (1 − p)n <
i=1
n
Y
(1 − (xi /(k + 1)))
i=1
De hecho, queremos encontrar un valor z = 1/k tal que
(1 − p)n =
n
Y
(1 − zxi )
i=1
Qn
con 0 ≤ z ≤ 1/x(n) , porque k ≥ x(n) . La función g(z) = i=1 (1 − zxi ) es
decreciente en z, g(0) = 1, g(1/x(n) ) = 0. Por lo tanto la ecuación
g(z) = (1 − p)n ∈ [0, 1],
tiene solución única ẑ. Este valor ẑ no tiene por qué ser el inverso de un natural
k, pero sı́ nos permite calcular el estimador máximo verosı́mil k̂ de k:
k̂ = máx{k ∈ IN : k ≤ 1/ẑ}.
Este análisis demuestra que el máximo de L(k| x ) es único.
e
Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2
y x3 = 3. Hay que resolver la ecuación
1
1
(1 − )3 = = 0,125 = g(z) = (1 − 4z)(1 − 3z)(1 − 2z) = 1 − 9z + 26z 2 − 24z 3
2
8
en z ∈ [0, 1/x(3) ] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y
k ≥ 4:
k
z = 1/k
g(z)
4
0.25
0
5
0.2
0.048
6
0.1667
0.1111
7
0.1429
0.1749
8
0.125
0.2344
9
0.1111
0.2881
10
0.1
0.336
Obsérvese que g(1/6) < 0,125 < g(1/7). Por lo tanto, ẑ ∈ (1/7, 1/6) y
k̂ = máx{k ∈ IN : k ≤ 1/ẑ} = 6.
.
.
Si L(θ| x ) no puede maximizarse analı́ticamente pueden usarse técnicas nue
méricas de optimización. Nos referiremos más adelante a algunas de estas técnicas.
En estos casos es importante comprobar la estabilidad numérica del estimador máximo verosı́mil encontrado. Es decir, es importante saber si la solución
cambia sólo ligeramente cuando alteramos ligeramente los datos o si, por el
62CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
contrario, cambios pequeños en los datos dan lugar a grandes cambios en las
soluciones. Si éste es el caso, podemos deducir que quizás la función de verosimilitud sea prácticamente plana en una zona alrededor del máximo y estamos
obteniendo puntos distintos de esa zona. También puede ocurrir que la función de verosimilitud tenga múltiples máximos locales y al perturbar los datos
estemos pasando de uno a otro.
Ejemplo 33, página 60. Continuación. En el ejemplo anterior supongamos
que p también fuese desconocido. El estimador máximo verosı́mil (k̂, p̂) ∈ IN ×
[0, 1] puede encontrarse por optimización numérica. Supongamos que n = 5 y
que se observa
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27.
Entonces el estimador máximo verosı́mil de k es k̂ = 99. Se vuelve a realizar el
experimento y sólo cambia la última observación:
x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28.
En este caso el máximo se encuentra en k̂ = 190. Estamos en un caso de un
estimador k̂ muy inestable. (Véase Casella-Berger, p. 297.)
.
.
Estimador máximo verosimil de un parámetro multidimensional
La forma de proceder en este caso sigue las pautas expuestas anteriormente.
Veamos un ejemplo en el que el parámetro θ es bidimensional.
Ejemplo 34
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ).
Pn
2
1
L(µ, σ 2 | x ) = (2πσ 2 )−n/2 e− 2σ2 i=1 (xi −µ) =⇒
e
n
n
n
1 X
l (µ, σ 2 | x ) = − log 2π − log σ 2 − 2
(xi − µ)2
2
2
2σ i=1
e
Pn
∂
1
2
i=1 (xi −
∂µ l (µ, σ | x ) = σ 2
e2
1
∂
n
∂(σ 2 ) l (µ, σ | x ) = − 2σ 2 + 2σ 4
e
µ) = 0
Pn
2
i=1 (xi − µ) = 0
)
½
=⇒
µ̂ = x
Pn
σ̂ 2 = n1 i=1 (xi − x)2 .
Podemos probar que la solución θ̂ = (x, σ̂ 2 ) es máximo global de dos formas.
Pn
Pn
En primer lugar, como para cualquier µ 6= x es i=1 (xi − µ)2 > i=1 (xi −
x)2 , se tiene que
l (x, σ 2 | x ) > l (µ, σ 2 | x ) para todo σ 2 .
e
e
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
63
Ahora sólo hay que probar que l (x, σ 2 | x ) alcanza su máximo como función unie
variante de σ 2 en σ̂ 2 . De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x, σ̂ 2 ) es máximo de l mediante
el cálculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es definida
negativa, es decir, se ha de verificar lo siguiente:
1.
¯
¯
∂
¯
l ((θ1 , θ2 )| x )¯
∂θj
e ¯
2.
= 0, j = 1, 2.
θ1 =x,θ2 =σ̂ 2
¯
¯
∂2
¯
l
((θ
,
θ
)|
x
)
¯
1
2
∂θj2
e ¯
< 0,
θ1 =x,θ2 =σ̂ 2
al menos para j = 1 o j = 2.
3.
J
(2)
¯
¯
¯
=¯
¯
∂2
l ((θ1 , θ2 )| x )
∂θ12
e
∂2
l ((θ1 , θ2 )| x )
∂θ1 ∂θ22
e
∂2
∂θ1 ∂θ2 l ((θ1 , θ2 )| x )
e
∂2
l ((θ1 , θ2 )| x )
∂θ22
e
¯
¯
¯
¯
¯
>0
θ1 =x,θ2
=σ̂ 2
El primer punto ya se comprobó anteriormente, pues (x, σ̂ 2 ) fueron encontrados precisamente como los valores que anulaban las primeras derivadas.
Calculemos las segundas derivadas:
∂2
n
l ((µ, σ 2 )| x ) = − 2
∂µ2
σ
e
n
∂2
n
1 X
2
(xi − µ)2
l
((µ,
σ
)|
x
)
=
−
∂(σ 2 )2
2σ 4
σ 6 i=1
e
n
∂2
1 X
l ((µ, σ 2 )| x ) = − 4
(xi − µ).
∂µ∂(σ)
σ i=1
e
Observad que cuando se particularizan estas derivadas segundas en θ̂ se obtiene
lo siguiente:
n
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = − 2 < 0
∂µ2
σ̂
e
1
n
∂2
n
l ((µ, σ 2 )| x )|x,σ̂2 =
− 6 nσ̂ 2 = − 4 < 0
∂(σ 2 )2
2σ̂ 4
σ̂
2σ̂
e
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = 0
∂µ∂(σ)
e
64CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Ası́, se verifica también el segundo punto de la lista anterior. Veamos el tercero,
sobre el signo del determinante de la matriz hessiana:
¯
¯
¯ − n2
n2
0 ¯¯
> 0 para todo σ 2
J (2) = ¯¯ σ
n ¯=
− 2σ4
0
2σ 6
Se concluye que (x, σ̂ 2 ) es el máximo de la función de verosimilitud.
Para ser estrictos, aún se deberı́a probar que (x, σ̂ 2 ) es el único punto crı́tico del interior del espacio paramétrico (esto es inmediato, porque es la única
solución de las condiciones de primer orden) y que el máximo no se alcanza en
la frontera (cuando µ = ±∞, σ 2 = 0 o σ 2 = ∞). Esto último obligarı́a a la
existencia de otros puntos crı́ticos en el interior del espacio paramétrico, lo cual
es absurdo.
En general se intenta probar la condición de máximo sin recurrir al cálculo
de las segundas derivadas.
.
.
Estimador máximo verosimil con datos censurados
El siguiente es un ejemplo de estimación máximo verosı́mil que se aparta del
marco clásico de observaciones i.i.d.
Ejemplo 35
Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el
estimador máximo verosı́mil de λ es λ̂ = 1/x.
Supongamos que no observamos todas las variables, sino sólo las m primeras, y que de las restantes (n − m) sólo sabemos que toman valores mayores
que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
m
n
Y
Y
L(λ| x ) =
f (xi |λ)
(1 − F (T |λ)) =
e
i=1
i=m+1
m
Y
i=1
λe−λxi
n
Y
e−λT = λm e−λ
Pm
i=1
xi −λT (n−m)
e
i=,+1
m
X
l (λ| x ) = m log λ − λ
xi − λT (n − m).
e
i=1
Derivando e igualando a 0:
m
d
m X
l (λ| x ) =
−
xi − T (n − m) = 0 =⇒
dλ
λ
e
i=1
m
.
x
+
(n − m)T
i=1 i
λ̂ = Pm
=⇒
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
65
Comprobamos que es máximo:
d2
m
l (λ| x ) = − 2 < 0 para todo λ.
2
dλ
λ
e
Concluimos que λ̂ es el estimador máximo verosı́mil de λ en el caso de datos
censurados.
La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Obsérvese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
máximo verosı́mil de λ es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el número de muertes (o fallos) observadas.
.
.
3.2.2.
Cálculo numérico de los estimadores de máxima verosimilitud
Como ya se dijo anteriormente, en la práctica el cálculo del estimador máximo verosı́mil se reduce a resolver un problema de optimización de una función
(en general no lineal) de k variables, posiblemente sujeto a restricciones. Recordaremos en esta sección algunas técnicas numéricas para llevar a cabo esa
optimización. Lo expuesto aquı́ está basado en Bertsekas (1999).
Buscaremos el máximo del logaritmo de la verosimilitud, dado que esta función es en general más fácil de tratar numéricamente que la verosimilitud. Los
algoritmos presentados no contemplan la posibilidad de tener restricciones sobre los parámetros. Si los parámetros están sujetos a restricciones del tipo cotas
simples (por ejemplo, α > 0 en una distribución gamma) una transformación
logarı́tmica del parámetro transforma el problema en otro sin restricciones en los
parámetros (por ejemplo, en la distribución gamma se reparametriza mediante
α∗ = log(α) y ası́ el nuevo parámetro α∗ puede tomar cualquier valor real).
El problema es siempre máxθ∈IRk l (θ| x ). Como la muestra x está fija en
e
e
todo el proceso, escribiremos l (θ) en lugar de l (θ| x ). Llamaremos θ∗ al máximo
e
de l (θ).
Método de Newton-Raphson
Se trata (al igual que los métodos siguientes) de un procedimiento iterativo
que proporciona una sucesión {θn }n≥1 que converge al óptimo θ∗ .
Consideremos una estimación inicial θ0 de θ∗ que puede haber sido obtenida,
por ejemplo, por el método de los momentos. El método de Newton-Raphson
aproxima la función l (θ) en un entorno de θ0 por la función cuadrática que en
ese punto θ0 tiene en común con l (θ) el valor de la función y los valores de
66CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
las dos primeras derivadas. Llamemos l˜0 (θ) a esa función cuadrática. De hecho,
l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 .
Ejemplo 36
Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el
sistema
 ˜
 l 0 (θ0 ) = l (θ0 )
l˜ 0 (θ ) = l 0 (θ0 )
 ˜0 00 0
l 0 (θ0 ) = l 00 (θ0 )
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :
1
l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ).
2
.
.
El primer punto en la sucesión, θ1 , es el punto donde se alcanza el máximo
de la función cuadrática aproximadora. El proceso se itera y ası́ se construye la
sucesión {θn }n≥1 que, bajo condiciones generales (por ejemplo, si la función de
verosimilitud es cóncava), converge al óptimo θ∗ :
θ0
−→
l˜0 (θ)
l˜1 (θ)
l˜2 (θ)
..
.
l˜m−1 (θ)
..
.
−→ θ1
.
−→ θ2
.
−→ θ3
.
..
..
.
.
.
−→ θm
.
..
..
.
.
↓
θ∗
Veamos que este algoritmo puede resumirse analı́ticamente dando la fórmula
que permite calcular cada punto de la sucesión en función del punto anterior.
Como hemos dicho, l˜m (θ) es el desarrollo en serie de Taylor de orden 2 de
l (θ) alrededor de θm :
1
l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm )
2
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
67
donde ∇l (θm ) ∈ IRk es el vector gradiente de l en θm , que tiene por componente
j-ésima la derivada parcial de l respecto a la coordenada j-ésima de θ calculada
en el punto θm , y Hl (θm ) es la matriz hessiana de l en θm , una matriz k×k cuyo
elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-ésima y
j-ésima, calculadas en el punto θm .
La maximización de l˜m es factible analı́ticamente. Su gradiente es
∇l˜m (θ) = ∇l (θm ) + Hl (θm )(θ − θm ).
Igualándolo a 0 se obtiene el punto θm+1 :
−1
∇l (θm ) + Hl (θm )(θ − θm ) = 0 =⇒ θm+1 = θm − (Hl (θm ))
∇l (θm ).
Este punto θm+1 es máximo de l (θm ) si Hl (θm ) es definida negativa, ya que
H l˜m (θ) = Hl (θm ).
Pero si θm está suficientemente cerca de θ∗ y l (θ) es una función suave (segundas
derivadas continuas) entonces Hl (θm ) será definida negativa por serlo Hl (θ∗ ).
Ası́,
θm+1 = θm − (Hl (θm ))
−1
∇l (θm )
es la fórmula recursiva que nos da θm+1 en función de θm , m ≥ 0. Aplicaremos
la recursión hasta convergencia, es decir, hasta que
||θm+1 − θm || < ε,
para un ε prefijado. Una condición suficiente, aunque no necesaria, para que el
algoritmo converja es que l sea cóncava.
Método de los scores de Fisher
Se trata de una modificación del método de Newton-Raphson. En la iteración
θm+1 = θm − (Hl (θm ))
−1
∇l (θm )
se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo
tanto, su gradiente y su matriz hessiana) depende de θ y también de la muestra
x observada. Podemos entonces tomar esperanzas:
e
D = Eθm (Hl (θm | X )),
e
que es la matriz de información de Fisher cambiada de signo.
La principal ventaja teórica que se deriva de esta sustitución es que se garantiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad
(que permiten intercambiar los signos de la derivada y de la integral; en la
sección 4.2 se volverá sobre esto) se puede probar que
Eθ (∇l (θ)) = 0, y Vθ (∇l (θ)) = Eθ (∇l (θ)∇l (θ)t ) = −E(Hl (θ| X ))
e
68CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
de donde se deduce que D = Eθm (Hl (θm | X )) es definida negativa, lo cual
e
garantiza la convergencia del algoritmo.
No obstante, es posible que la convergencia del algoritmo modificado sea
más lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos
converjan.
Una ventaja práctica de este algoritmo es que en el cálculo de D sólo intervienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud)
mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por
contra, ahora hay que calcular una esperanza. En este sentido, será preferible
uno u otro algoritmo según sea la dificultad de calcular
!
Ã
∂l ∂l
dij = −E
∂θi ∂θj
y
hij =
∂ 2l
.
∂θi ∂θj
Al vector gradiente, ∇l (θ), también se le llama vector de scores, lo cual
justifica el nombre del algoritmo.
Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma natural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es


à n
!
k
Y
X
h(xi ) c(θ)n exp 
θj Tj ( x ) ,
L(θ| x ) =
e
e
i=1
j=1
donde Tj ( x ) =
e
Pn
i=1 tj (xi ),
y su logaritmo,
k
X
l (θ| x ) = K + n log c(θ) +
θj Tj ( x ),
e
e
j=1
donde K es cierta constante. Ası́,
∂ l (θ)
∂ log c(θ)
=n
+ Tj ( x )
∂θj
∂θj
e
y
∂ 2 l (θ)
∂ 2 log c(θ)
=n
∂θi ∂θj
∂θi ∂θj
que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue
que Hl = E(Hl ) = D.
.
.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD
69
Método de Nelder-Mead
Es un método de búsqueda directa que no requiere ni primeras ni segundas
derivadas de la función objetivo, sólo es necesario poder evaluar la función que
queremos maximizar.
En cada iteración del algoritmo se parte de un conjunto de (k + 1) puntos
de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no
vacı́o: esos puntos forman un simplex en IRk .
El resultado de cada iteración es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteración en iteración y que el valor de la función
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteración tı́pica del algoritmo de Nelder-Mead es como sigue:
Paso 0 Se parte de θ1 , . . . , θk+1 . Se definen
θmı́n = arg mı́n l (θi ), θmáx = arg máx l (θi ),
i=1...k
i=1...k
Ãk+1
!
1 X
θi − θmı́n
θ̂ =
k i=1
El punto θ̂ es el punto medio de la cara opuesta a θmı́n .
Paso 1 Definir θref = θ̂ + (θ̂ − θmı́n ).
Si l (θref ) > l (θmáx ) =⇒ Paso 2. (θref es mejor que los otros puntos
del simplex).
Si l (θmáx ) > l (θref ) > mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 3.
Si l (θref ) < mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 4.
Paso 2 Intentar expansión.
Sustituir θmı́n
simplex.
θexp = θref + (θref − θ̂)
½
θexp si l (θexp ) > l (θref )
θnew =
θref en otro caso
por θnew en el simplex. Volver al Paso 0 con el nuevo
Paso 3 Usar el punto reflejado.
θnew = θref
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
Paso 4 Contraer el simplex.
(
θnew =
1
2 (θmı́n + θ̂) si l (θmı́n ) ≥ l (θref )
1
2 (θref + θ̂) si l (θmı́n ) < l (θref )
Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo
simplex.
70CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
En la práctica funciona bien si la dimensión del espacio paramétrico es pequeña (k ≤ 10), como suele ser el caso en problemas de estimación por máxima
versimilitud. No hay resultados teóricos sobre la convergencia de este algoritmo. Si l (θ) es estrı́ctamente cóncava, el algoritmo mejora la verosimilitud en
cada iteración. Esto se entiende en el sentido de que ocurre alguna de estas dos
cosas: en cada iteración, o bien l (θmı́n ) crece estrictamente, o bien, la cantidad
de vértices del simplex θi en los que l (θi ) = l (θmı́n ) decrece en al menos una
unidad.
3.2.3.
Principio de invariancia del estimador máximo verosı́mil
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ f (x|θ) y sea θ̂ el estimador
máximo verosı́mil de θ. Si estamos interesados en estimar una función τ (θ) del
parámetro, podemos hacerlo mediante τ (θ̂). Éste es el resultado que garantiza
el siguiente teorema y se conoce como principio de invariancia.
Teorema 18 (Principio de invariancia) Si θ̂ es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ) el estimador máximo verosı́mil
de τ (θ) es τ (θ̂).
Demostración: Supondremos primero que τ es biyectiva. Definimos
η = τ (θ) ⇐⇒ θ = τ −1 (η)
y reparametrizamos la verosimilitud usando el nuevo parámetro η en vez de θ:
n
Y
L∗ (η| x ) =
f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒
e
e
i=1
L∗ (η̂| x ) = sup L∗ (η| x ) = sup L(τ −1 (η)| x ) =
η
η
e
e
e
sup L(θ| x ) = L(θ̂| x ) = L∗ (τ (θ̂)| x ).
e
e
e
θ
Por lo tanto el máximo de L∗ (η| x ) se alcanza cuando η̂ = τ (θ̂), luego el estie
mador máximo verosı́mil de η = τ (θ) es τ (θ̂).
Consideramos ahora el caso en que τ no es biyectiva. En este caso no es
posible definir la verosimilitud L∗ (η| x ) como L(τ −1 (η)| x ) porque τ −1 (η) no
e
e
está definido unı́vocamente. Se define L∗ (η| x ), la verosimilitud inducida
e
por τ , como
L∗ (η| x ) =
sup L(θ| x ).
e
e
{θ:τ (θ)=η}
Con esta definición se verifica que el estimador máximo verosı́mil de τ (θ), τd
(θ),
es τ (θ̂). Efectivamente, sea η̂ el estimador máximo verosı́mil de η = τ (θ), es
3.3. ESTIMACIÓN BAYESIANA
71
decir, el valor que verifica
L∗ (η̂| x ) = sup L∗ (η| x ).
η
e
e
Por definición de L∗ ,
L∗ (η̂| x ) = sup L∗ (η| x ) = sup sup L(θ| x ) =
η
η {θ:τ (θ)=η}
e
e
e
sup L(θ| x ) = L(θ̂| x ) =
sup
L(θ| x ) = L∗ (τ (θ̂)| x ),
e
e
e
e
θ
{θ:τ (θ)=τ (θ̂)}
es decir,
L∗ (η̂| x ) = L∗ (τ (θ̂)| x ),
e
e
luego el máximo de la verosimilitud en η se alcanza si η = τ (θ̂).
2
Ejemplo 38
Si X ∼ N (µ, σ 2 ), el estimador máximo verosı́mil de µ2 es x2 .
Si X ∼ B(n, p), el estimador
máximo
p
p verosı́mil de p es p̂ = X/n y el estimador
máximo verosı́mil de p(1 − p) es p̂(1 − p̂).
.
.
3.3.
3.3.1.
Estimación Bayesiana
Distribuciones a priori y a posteriori
Consideremos un problema de inferencia estadı́stica en el que las observaciones se toman de una variable aleatoria X que sigue una distribución con función
de densidad (o función de masa de probabilidad) f (x|θ), con θ ∈ Θ. En ocasiones se dispone de información sobre el parámetro θ antes de recoger los datos.
Esta información puede ser de tipo histórico (si se han realizado experimentos
similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer
que ciertos valores de θ ∈ Θ son más plausibles que otros).
Una forma de recoger la información previa sobre θ es definir una distribución
de probabilidad sobre Θ, que se llama distribución a priori de θ, de forma que
las regiones de Θ más probables a priori sean aquellas que contienen los valores
de θ más plausibles según la información previa existente, antes de observar
ningún valor de X.
El concepto de distribución a priori es muy controvertido. Algunos estadı́sticos defienden que en cualquier problema estadı́stico se puede definir siempre
una ley a priori para θ. Esta distribución representa la información (histórica o
subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas
72CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
de la probabilidad. Por tanto, el parámetro θ es considerado una variable aleatoria como cualquier otra, con la única peculiaridad de que no es observable. Lo
que sı́ se observa es la variable aleatoria X condicionada al valor concreto (no
observable) que toma θ. Ası́ pues, el estudio de las observaciones de X aporta
información sobre el valor de θ, información que debe combinarse con la distribución a priori del parámetro para modificarla. El resultado de esa actualización
de la información se plasma de nuevo en una distribución de probabilidad sobre
Θ: la distribución a posteriori de θ, una vez observada la variable aleatoria
X. Éstos son los planteamientos básicos que conforman el enfoque bayesiano
de la estadı́stica.
Otros estadı́sticos creen que en ocasiones no es apropiado hablar de una distribución de probabilidad sobre Θ porque θ es una cantidad fija desconocida
para el investigador. Otro de los aspectos de la inferencia bayesiana que a menudo recibe crı́ticas es el grado de subjetividad a que está expuesto por el hecho
de que es el experimentador quien define la distribución a priori. En cualquier
caso, en lo que hay coincidencia es en que si hay información sobre θ ésta tiene
que ser utilizada en la inferencia.
Existen distribuciones a priori no informativas (por ejemplo con densidad o función de masa plana en todo Θ) que se construyen sin usar información
a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces
es necesario recurrir a distribuciones a priori impropias (distribuyen una
probabilidad infinita sobre Θ). Pese a su carácter impropio permiten hacer inferencias correctas.
Supondremos aquı́ que existe información previa sobre θ y que ésta se expresa
mediante una distribución a priori sobre Θ, cuya función de densidad o función
de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria
simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribución a
priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma
e
de f (x|θ), que indica cómo se distribuye x, condicionada por valores de θ. Por
el momento, supondremos que tanto X|θ como θ tienen función de densidad.
La ley conjunta de X1 , . . . , Xn se denomina distribución muestral (o
verosimilitud de la muestra) dado el valor del parámetro:
n
Y
f ( x |θ) =
f (xi |θ).
e
i=1
La densidad conjunta de X y θ es
e
f ( x , θ) = f ( x |θ)π(θ).
e
e
Como consecuencia, la marginal de X es
e
Z
m( x ) = f ( x |θ)π(θ)dθ.
e
e
θ
3.3. ESTIMACIÓN BAYESIANA
73
Se define la distribución a posteriori de θ como la ley condicional de θ
dadas las observaciones x de X , cuya densidad se puede calcular por simple
e
e
aplicación del Teorema de Bayes:
π(θ| x ) =
e
f ( x |θ)π(θ)
e
, θ ∈ Θ.
m( x )
e
En inferencia bayesiana se usa esta distribución para realizar inferencias sobre
θ. Por ejemplo, un estimador puntual de θ podrı́a ser E(θ| x ).
e
La distribución a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de θ esté en las distintas regiones del espacio paramétrico
Θ después de haber observado X1 , . . . , Xn .
Obsérvese que π(θ| x ) es proporcional al producto de la verosimilitud por la
e
a priori:
π(θ| x ) ∝ f ( x |θ)π(θ).
e
e
Esta relación es suficiente para calcular π(θ| x ) dado que la restricción de que
e
su integral sea 1 permite calcular la constante 1/m( x ).
e
Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lámpara fluorescente.
Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La información histórica
acumulada sobre tiempos de vida de lámparas similares indica que µ tiene media
aproximadamente 5000 horas. De hecho, la distribución que se propone como a
priori para λ es igual a
λ ∼ γ(α0 , β0 ),
con E(λ) = α0 β0 = 1/5000 y V (λ) = α0 β02 = 0,0001, de donde se sigue que
α0 β0 = 0,0002 y α0 β02 = 0,0001 =⇒ α0 = 4, β0 = 1/20000.
Ası́, λ ∼ γ(4, 1/20000) y su función de densidad es
π(λ) =
200004 3 −20000λ
λ e
, λ > 0.
(4 − 1)!
Se hace una prueba de vida en la que se ponen a funcionar 25 lámparas del
nuevo modelo hasta que se funden. Los resultados son éstos:
X1 = x1 , . . . , X25 = x25 ,
25
X
xi = 150000.
i=1
Ası́, la verosimilitud es
f (x1 , . . . , x25 |λ) = λ25 e−λ
P25
i=1
xi
,
74CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
y la densidad a posteriori de λ es
f (x1 , . . . , x25 |λ)π(λ)
π(λ|x1 , . . . , x25 ) = R ∞
.
f (x1 , . . . , x25 |λ)π(λ)dλ
o
El numerador es
f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ
25
X
xi }
i=1
200004 3 −20000λ
λ e
=
3!
25
X
200004 28
λ exp{−λ(
xi + 20000)},
6
i=1
y el denominador
Z
m(x1 , . . . , x25 ) =
o
∞
25
X
200004 28
λ exp{−λ(
xi + 20000)}dλ.
6
i=1
P25
Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa
integral es, salvo constantes, la integral de la función de densidad de una variable
aleatoria γ(α, β). Concretamente,
200004
28!
m(x1 , . . . , x25 ) =
P25
6 ( i=1 xi + 20000)29
Z
o
∞
fγ(α,β) (λ)dλ =
200004
28!
.
P
29
6 ( 25
i=1 xi + 20000)
Ası́,
P25
π(λ|x1 , . . . , x25 ) =
xi +20000)
200004 28 −λ(
i=1
λ e
6
28!
200004 P
25
6
(
xi +20000)29
=
i=1
(
P25
i=1
xi + 20000)29 28 −λ(P25 xi +20000)
i=1
λ e
28!
de donde se deduce que
25
X
λ|x1 , . . . , x25 ∼ γ(29, 1/(
xi + 20000)).
i=1
Por lo tanto, un estimador de λ podrı́a ser
λ̂ = E(λ|x1 , . . . , x25 ) = P25
i=1
29
xi + 20000
=
29
,
150000 + 20000
y, como consequencia, una estimación de la vida media de las nuevas lámparas
es
P25
xi + 20000
1
150000 + 20000
µ̂ = = i=1
=
= 5862 horas.
29
29
λ̂
3.3. ESTIMACIÓN BAYESIANA
75
Si usásemos x como estimador de µ, obtendrı́amos un valor de
x=
150000
= 6000 horas.
25
Por lo tanto, la información a priori indica que no se debe ser tan optimista
como se desprende del valor x = 6000: a pesar de que el nuevo diseño de lámpara tiene una vida media superior a las anteriores (la estimación de µ es ahora
de 5862 horas, superior a las 5000 horas iniciales) la información a priori rebaja
la vida media desde las 6000 horas observadas hasta las 5862.
.
.
Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clı́nicos) las observaciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciación permite
actualizar progresivamente la información que se tiene sobre el parámetro θ.
En un principio la información a priori sobre θ es π(θ). Se observa X1 = x1 .
Entonces
π(θ|x1 ) ∝ f (x1 |θ)π(θ)
recoge a partir de ese instante la información acumulada sobre θ. Por lo tanto
π(θ|x1 ) actúa como distribución a priori antes de obtener la segunda observación.
Cuando se observa X2 = x2 ,
π(θ|x1 , x2 ) ∝ f (x2 |θ)π(θ|x1 ) ∝ f (x2 |θ)f (x1 |θ)π(θ).
Tras haber observado X1 = x1 , . . . , Xn = xn ,
π(θ|x1 , x2 , . . . , xn ) ∝ f (xn |θ)π(θ|x1 , x2 , . . . , xn−1 ) ∝
f (xn |θ) · · · f (x2 |θ)f (x1 |θ)π(θ) = f ( x |θ)π(θ).
e
Se observa ası́ que la distribución a posteriori tras haber tomado n observaciones
de X es la misma tanto si se toman éstas de forma secuencial como si se toman
simultáneamente.
3.3.2.
Distribuciones conjugadas
Sea F la clase de las funciones de densidad (o de masa de probabilidad) de
un modelo paramétrico f (x|θ) indexadas por θ:
F = {f (x|θ) : θ ∈ Θ}.
Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de
distribuciones conjugadas para F si la distribución a posteriori de θ dada
la muestra x pertenece a Π para toda muestra x ∈ X , para toda a priori π ∈ Π
e
e
y para toda verosimilitud f ∈ F.
76CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Teorema 19 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼
Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una
Ã
!
n
n
X
X
Beta α +
xi , β + n −
xi .
i=1
i=1
Nota: Recordar que U (0, 1) ≡ Beta(1, 1).
Demostración:
Γ(α + β) α−1
θ
(1 − θ)β−1
Γ(α)Γ(β)
Pn
Pn
=⇒ f ( x |θ) = θ i=1 xi (1 − θ)n− i=1 xi = L(θ| x )
e
e
π(θ) =
f (xi |θ) = θxi (1 − θ)1−xi
Ası́,
Pn
Γ(α + β) α−1
θ
(1 − θ)β−1 =
(1 − θ)n− i=1 xi
Γ(α)Γ(β)
Pn
Γ(α + β) Pn xi +α−1
θ i=1
(1 − θ)n− i=1 xi +β−1 ,
Γ(α)Γ(β)
f ( x , θ) = θ
e
y
Z
Pn
i=1
xi
Pn
Γ(α + β) Pn xi +α−1
θ i=1
(1 − θ)n− i=1 xi +β−1 dθ =
Γ(α)Γ(β)
0
Pn
Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
×
Γ(α)Γ(β)
Γ(α + β + n)
Pn
Pn
Γ(α + β + n)
Pn
Pn
θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 dθ =
Γ(α + i=1 xi )Γ(n − i=1 xi + β)
{z
}
∞
m( x ) =
e
Z
|
0
∞
=1
Pn
Pn
Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Γ(α)Γ(β)
Γ(α + β + n)
Calculamos ahora la densidad a posteriori:
Γ(α)Γ(β)
Γ(α + β + n)
P
P
π(θ| x ) =
×
Γ(α + β) Γ(α + ni=1 xi )Γ(n − ni=1 xi + β)
e
Pn
Γ(α + β) Pn xi +α−1
θ i=1
(1 − θ)n− i=1 xi +β−1 =
Γ(α)Γ(β)
Pn
Pn
Γ(α + β + n)
Pn
Pn
θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1
Γ(α + i=1 xi )Γ(n − i=1 xi + β)
Pn
Pn
y por lo tanto, θ| x tiene distribución Beta(α + i=1 xi , β + n − i=1 xi ). 2
e
Teorema 20 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼
γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 =
x1 , . . . , Xn = xn es una
Ã
!
n
X
−1
−1
γ α+
xi , (β + n)
.
i=1
3.3. ESTIMACIÓN BAYESIANA
77
Demostración: Para ciertas constantes K1 , K2 y K3 , se tiene que
Pn
π(θ) = K1 θα−1 e−θ/β , L(θ| x ) = K2 e−nθ θ i=1 xi =⇒
e
Pn
Pn
−1
π(θ| x ) = K3 e−nθ θ i=1 xi θα−1 e−θ/β = K3 θα+ i=1 xi −1 e−(β +n)θ
e
¢
¡
Pn
que corresponde con la densidad de una γ α + i=1 xi , (β −1 + n)−1 .
2
Los valores de las constantes usadas en la demostración son
Pn
(α + i=1 xi − 1)!
1
1
Pn
Q
K1 =
,
K
=
,
K
=
,
2
3
n
(α − 1)!β α i
i=1 xi !
(n + (1/β))α+ i=1 xi
aunque no es necesario conocerlos para probar el resultado.
Teorema 21 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), −∞ < θ < ∞, σ 2 > 0
conocido. Sea θ ∼ N (µ, ν 2 ). La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una N (µ1 , ν12 ) con
µ1 =
σ 2 µ + nν 2 x
σ2
nν 2
= 2
µ+ 2
x,
2
2
2
σ + nν
σ + nν
σ + nν 2
ν12 =
σ2 ν 2
.
σ 2 + nν 2
Demostración: Ver DeGroot (1988), sección 6.3.
2
Obsérvese que si σ 2 −→ ∞ entonces µ1 = µ, y que si nν 2 −→ ∞ entonces
µ1 = x. Por su parte, la precisión de la distribución a posteriori es la suma de
la precisión a priori y la precisión de X:
1
1
n
= 2 + 2.
2
ν1
ν
σ
Ejemplo 40
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido.
Notémos que en la notación del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcularemos la distribución a posteriori de θ y analizaremos para qué valores de τ
serı́a esta distribución menos informativa.
Del teorema 21 se desprende que
µ Pn
¶
1
i=1 xi
θ| x ∼ N
,
.
n + τ2 n + τ2
e
Esta distribución será tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea τ . El caso lı́mite serı́a τ = 0, que corresponde a
una distribución a priori impropia (normal con varianza infinita) no informativa
78CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
(π(θ) es constante en IR). En ese caso obtendrı́amos el mismo resultado que si
realizásemos inferencia fiducial (ver Casella-Berger, sección 6.2.1).
Al inverso de la varianza se le denomina precisión de la distribución. En
este ejemplo, τ 2 es la precisión de la distribución a priori. Si ponemos τ = 0
estamos asumiendo que la precisión de la información a priori es nula. Entonces
el procedimiento de inferencia no la tiene en cuenta.
.
.
Teorema 22 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Sea
θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones
X1 = x1 , . . . , Xn = xn es una

Ã
!−1 
n
X
1
.
γ α + n,
+
xi
β i=1
Demostración: Ver DeGroot (1988), sección 6.3.
2
Ejemplo 28, página 54. Continuación. Consideremos de nuevo el problema
de estimar el número de colores diferente que tienen los caramelos de la bolsa.
Supongamos que basándonos en nuestra experiencia pensamos que el número de
colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad
3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado
(V BV ).
k
5
6
7
8
π(k)
0.1
0.3
0.3
0.3
f (V BV |k) = (k − 1)/k 2
0.160
0.139
0.122
0.109
f (V BV, k)
0.016
0.042
0.037
0.033
P
f
(V
BV,
k) = 0,128
k
π(k|V BV )
0.125
0.328
0.289
0.258
Tomamos otro caramelo y es naranja. Repetimos el análisis:
k
5
6
7
8
π(k)
0.125
0.328
0.289
0.258
f (V BV N |k) = (k − 1)(k − 2)/k 3
0.096
0.093
0.087
0.082
f (V BV N, k)
0.012
0.031
0.025
0.021
P
f
(V
BV
N, k) = 0,089
k
π(k|V BV N )
0.135
0.348
0.281
0.236
Se observa que la distribución de probabilidad sobre {5, 6, 7, 8} no se ha modificado mucho desde π(k) hasta π(k|V BV N ). Esto indica que la observación de
3.3. ESTIMACIÓN BAYESIANA
79
sólo cuatro caramelos es poco informativa sobre el número k de colores. Si continuásemos muestreando, la distribución a posteriori se irı́a concentrando cada
vez más en torno al verdadero valor del parámetro k.
.
.
3.3.3.
Funciones de pérdida
Acabamos de ver cómo derivar la distribución a posteriori del parámetro
dados los datos, a partir de la verosimilitud y la distribución a priori. Nos planteamos ahora cómo usar la distribución a posteriori para construir un estimador
puntual del valor del parámetro, es decir, cómo resumir toda la distribución a
posteriori del parámetro en un solo punto de Θ.
Consideremos por un momento que no hemos observado la muestra y que
sobre Θ hay definida una distribución de probabilidad π. En este contexto queremos elegir un punto a ∈ Θ como representante de toda la distribución π sobre
Θ. Una propiedad deseable es que ese valor a esté cerca de los puntos θ ∈ Θ. Para
medir cómo de lejos está a del valor θ del parámetro definiremos una función
de pérdida o función de coste:
C : Θ×A
(θ, a)
−→ R+
−→ C(θ, a),
donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste de
dar a como estimación de un valor concreto θ ∈ Θ. Dado que θ es desconocido
y puede tomar los valores de Θ según indica la distribución π, para tener una
idea global del coste de a se considera la función de pérdida esperada:
Z
Eπ(θ) (C(θ, a)) =
C(θ, a)π(θ)dθ.
Θ
La elección de la función de pérdida es a menudo arbitraria. Las tres más usuales
son éstas:
Función de pérdida cero-uno:
C(θ, θ̂) = αI(β,∞) (|θ̂ − θ|)
donde α > 0 y β ≥ 0 son constantes.
Función de pérdida del error absoluto:
C(θ, θ̂) = α|θ̂ − θ|
donde α > 0 es constante.
Función de pérdida cuadrática:
C(θ, θ̂) = α(θ̂ − θ)2
donde α > 0 es constante.
80CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
El parámetro α podrı́a tomarse igual a 1, sin pérdida de generalidad. Estas tres
funciones son decrecientes en |θ̂ − θ| y simétricas alrededor de θ̂ = θ.
Se pueden definir funciones de pérdida asimétricas que reflejen, por ejemplo,
que las consecuencias de estimar un parámetro por defecto sean peores que las
de estimarlo por exceso. Este serı́a el caso de la estimación del grosor de la capa
de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que
subestimar es preferible es el de la estimación del precio futuro de una acción
cuando se quiere decidir si se invierte o no en dicha acción.
3.3.4.
Estimadores de Bayes
Supongamos que tenemos información a priori π(θ) sobre θ ∈ Θ y que observamos una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). La distribución
a posteriori vienen dada por π(θ| x ) ∝ L(θ| x )π(θ). Supongamos que el coste de
e
e
estimar θ por a es C(θ, a). Ası́, el coste esperado de estimar θ mediante a, dado
que hemos observado x , será
e
Z
E(C(θ, a)| x ) =
C(θ, a)π(θ| x )dθ.
e
e
Θ
A esta cantidad se le llama pérdida esperada a posteriori.
Se define un estimador de Bayes de θ como aquel valor a = a( x ) ∈ Θ
e
que minimiza la pérdida esperada a posteriori, es decir,
E(C(θ, a( x ))| x ) = mı́n E(C(θ, a)| x ).
a∈Θ
e e
e
A ese valor a( x ) se le suele denotar por θ∗ ( x ). Obsérvese que este estimador
e
e
de Bayes depende de la muestra a través de la distribución a posteriori.
Teorema 23 Si la función de pérdida es cuadrática, entonces el estimador de
Bayes es la esperanza a posteriori:
θ∗ ( x ) = E(θ| x ).
e
e
Demostración:
h
i
E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x )
e
e
e
e
Derivando respecto a a e igualando a 0:
−2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ),
e
e
que es un mı́nimo porque la segunda derivada es 2 > 0.
2
Teorema 24 Si la función de pérdida es el error absoluto, entonces el estimador de Bayes es la mediana de la distribución a posteriori:
θ∗ ( x ) = mediana(θ| x ).
e
e
3.3. ESTIMACIÓN BAYESIANA
81
Demostración: Ver DeGroot (1988), teorema 1 de la sección 4.5.
2
Ejemplo 41
Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn =
xn . Suponemos que la distribución a priori de θ es
θ ∼ Beta(α, β) =⇒ E(θ) =
Tal como vimos en el teorema 19,
Ã
n
X
α
.
α+β
n
X
θ| x ∼ Beta α +
xi , β + n −
xi
e
i=1
i=1
!
.
Por tanto, el estimador de Bayes basado en pérdida cuadrática será
Pn
α + i=1 xi
=
θ̂1 = E(θ| x ) =
α+β+n
e
α+β
n
α
x+
.
α+β+n
α+β+nα+β
Obsérvese que θ̂1 es una media ponderada de la media a priori y de la media
muestral. El peso de cada cantidad depende de los parámetros en la distribución
a priori y del tamaño muestral. A medida que n crece se tiene que θ̂1 tiende
hacia x.
La estimación de θ basada en la pérdida del error absoluto requiere la determinación por métodos numéricos de la mediana de la distribución Beta(α +
Pn
Pn
i=1 xi ).
i=1 xi , β + n −
.
.
Ejemplo 42
Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos
de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribución a
posteriori es θ| x ∼ N (µ1 , ν12 ) con
e
µ1 =
σ 2 µ + nν 2 x 2
σ2 ν 2
, ν1 = 2
.
2
2
σ + nν
σ + nν 2
El estimador de Bayes con pérdida cuadrática es
σ 2 µ + nν 2 x
θ̂1 ( x ) = E(θ| x ) =
=
σ 2 + nν 2
e
e
nν 2
σ2
µ.
x
+
σ 2 + nν 2
σ 2 + nν 2
82CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
De nuevo el estimador de Bayes es una media ponderada de la media a priori
y de la media muestral. Si ponemos una a priori poco informativa, es decir, con
varianza ν 2 grande, se tendrá que θ̂1 ( x ) será aproximadamente igual a la media
e
muestral.
En este caso la elección de la función de pérdida del error absoluto conduce
al mismo estimador θ̂1 ( x ) porque la mediana y la media a posteriori coinciden
e
(dado que la distribución a posteriori es simétrica).
.
.
3.4. LISTA DE PROBLEMAS
3.4.
83
Lista de problemas
Método de los momentos
1. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador de momentos de µ.
2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,
0 < θ ≤ x < ∞.
a) Da un estadı́stico suficiente para θ.
b) Halla el estimador de momentos de θ.
3. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, λ) = λe−λx+1 , x > 1/λ. Hallar el
estimador de momentos de λ.
4. Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentra
los estimadores de momentos de (k, p).
5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una
B(n, p): (n − 1)Sn2 /n y p̂(1 − p̂). ¿Qué relación hay entre ellos?
Máxima verosimilitud
6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| .
Hallar el estimador máximo verosı́mil de µ.
7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 ,
0 < θ ≤ x < ∞. Halla el estimador de máxima verosimilitud de θ.
8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de
las dos distribuciones siguientes. Si θ = 0 entonces f (x; θ) = I(0,1) (x). Si
√
θ = 1 entonces f (x; θ) = 1/(2 x)I(0,1) (x). Encontrar el estimador máximo
verosı́mil de θ.
9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn
tiene función de distribución común

si x < 0
 0
F (x; α, β) = P (X ≤ x|α, β) =
(x/β)α si 0 ≤ x ≤ β ,

1
si x > β
donde α > 0, β > 0.
a) Encontrar un estadı́stico suficiente para (α, β) de dimensión 2.
b) Dar el estimador máximo verosı́mil de (α, β).
c) La longitud (en milı́metros) de los huevos de gorrión puede modelizarse con esa distribución. Para los siguientes datos de longitudes de
huevos, estima por máxima verosimilitud α y β:
84CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias independientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e
Y no son directamente observables, sino que se observan Z y W definidas
como
½
1 si Z = X
Z = mı́n{X, Y }, W =
.
0 si Z = Y
Se dice entonces que las variables X e Y están censuradas.
a) Da la distribución conjunta de Z y W .
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tamaño n de (Z, W ). Calcula los estimadores
máximo verosı́miles de λ y θ.
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador máximo verosı́mil de θ en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dı́gitos binarios, 0 y 1. Se produce
un error en la transmisión cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmisión en
cada dı́gito transmitido es p, y que los errores en la transmisión de dı́gitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Llamaremos X a la cantidad de diferencias entre las dos cadenas de dı́gitos
leı́das por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdrı́a 2.
a) Calcula la probabilidad de que un dı́gito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de máxima verosimilitud de p cuando la longitud de las cadenas es n y se observa X. ¿Es único este estimador
de máxima verosimilitud?
c) Da la estimación de p en el ejemplo anterior.
d ) ¿Cómo se interpretarı́a un valor de X más grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un año no bisiesto:
Semana
1
2
3
4
5
Número de nacimientos
19
32
28
25
10
3.4. LISTA DE PROBLEMAS
85
Como la primera semana de febrero puede empezar en un dia cualquiera
de lunes a domingo, de hecho constan 5 semanas, con la primera y la
quinta incompletas. Definimos el espacio paramétrico Θ = {1, 2, . . . , 7},
donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un
nacimiento tiene la misma probabilidad de ocurrir cualquier dı́a del mes.
Dar el estimador máximo verosı́mil del dı́a de la setmana en que cayó el
primero de febrero de ese año.
Estimadores bayesianos
14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qué distribución sigue
X1 condicionada a que X1 + X2 = x?
15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X −1 tiene
distribución gamma invertida con parámetros (α, β), y se denota como
IG(α, β).
a) Prueba que la densidad de Y es
f (y; α, β) =
1
1 −1/(βy)
e
I(0,∞) (y).
Γ(α)β α y α+1
b) Calcula la esperanza y la varianza de Y .
16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra
de tamaño n de una población normal, sabemos que (n − 1)S 2 /σ 2 se
distribuye como una χ2n−1 . Vamos a probar que la distribución a priori
conjugada para σ 2 es la gamma invertida.
a) Prueba que si la distribución a priori de σ 2 es IG(α, β), entonces la
a posteriori es
Ã
·
¸−1 !
n − 1 (n − 1)S 2
1
IG α +
,
+
.
2
2
β
b) Calcula el estimador de Bayes bajo pérdida cuadrática de σ 2 .
17. (Ex. parcial 2000) Sea X una variable aleatoria con función de densidad
f (x|θ) =
1 −x
e θ,
θ
donde θ es un parámetro que puede tomar valores en el conjunto Θ =
{1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.
a) Calcula el estimador de máxima verosimilitud de θ y llámalo θ̂1 .
86CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
b) Calcula el estimador Bayes de θ basado en la función de pérdida
C(θ, a) = I{θ6=a}
(que vale 0 si θ = a y 1 en caso contrario), cuando la distribución a
priori de θ es uniforme en los números {1, 2, . . . , 20} y llámalo θ̂2 .
c) ¿Qué relación hay entre θ̂1 y θ̂2 ? ¿Cómo cambiarı́a esta relación si
cambia la función de verosimilitud? ¿Y si consideramos una distribución a priori que no sea plana, es decir, que no sea constante en θ?
¿Y si consideramos otra función de pérdida?
18. (Ex. parcial 2001) Supongamos que el número de minutos que una persona
tiene que esperar el autobús cada mañana tiene una distribución uniforme
en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que
la función de densidad a priori de θ viene dada por:
½ 192
per θ ≥ 4,
θ4
ξ(θ) =
0
altrament.
Los tiempos esperados en tres mañanas sucesivas son de 5, 3, 8 minutos.
a) Calcular la función de densidad a posteriori de θ. Especificar el dominio de definición de esta función y las constantes que en ella aparecen.
b) Si se quiere estimar el valor de θ usando como función de pérdida
el error cuadrático, ¿qué forma tiene el estimador de Bayes de θ?
Calcular el valor estimado de θ a partir de los tres tiempos esperados
dados.
Capı́tulo 4
Estimación puntual 2:
Evaluación de estimadores
Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general.
Bickel y Doksum (1977), sección 4.4, para eficiencia; Arnold 1990,
capı́tulo 6, o Schervish 1995, sección 7.1, para las propiedades
asintóticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2
y 3.3, Cristóbal (1992), sección 8.3; Arnold (1990), sección 7.3;
Schervish (1995), sección 7.3; Vélez y Garcı́a (1993), sección 7.4., para
propiedades del estimador de máxima verosimilitud
Una vez se han presentado diferentes métodos de estimación surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos
criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo
haremos primero para muestras finitas para pasar después a proponer medidas
asintóticas de calidad.
4.1.
Error cuadrático medio
Se define el error cuadrático medio (ECM) de un estimador W de un
parámetro θ como
¡
¢
Eθ (W − θ)2 .
Ésta es una medida intuitiva del comportamiento de un estimador: cuanto menor
sea el error cuadrático medio mejor será el estadı́stico W . De hecho, para cualquier función φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonable
de lo alejadas que estarán, en promedio, las estimaciones de θ que proporcione
W.
En general, se prefiere el error cuadrático medio a otras medidas por ser más
tratable analı́ticamente. Además el error cuadrático medio puede descomponerse
87
88CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
de forma fácilmente interpretable:
¡
¢
¡
¢
¡
¢
Eθ (W − θ)2 = Eθ (W − Eθ (W ))2 + Eθ (Eθ (W ) − θ)2 =
2
Vθ (W ) + (Bθ (W )) .
El término Bθ (W ) = Eθ (W ) − θ se llama sesgo (en ingés bias) de W cuando
se estima θ y es una medida de la desviación sistemática que se tiene cuando
se estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor del
¡
¢
parámetro se dice que es un estimador insesgado. En tal caso, Eθ (W − θ)2 =
Vθ (W ).
Ası́, el error cuadrático medio de un estimador es la suma de su varianza
(una medida de su dispersión) más el cuadrado de su sesgo (medida de la desviación sistemática o de la exactitud del estimador). Es una medida conjunta
de precisión y exactitud del estimador. Por lo tanto, parece sensato buscar estimadores que tengan error cuadrático medio pequeño, porque de esta manera
controlaremos tanto la dispersión como la exactitud de las estimaciones.
Ejemplo 43
En el siguiente gráfico se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadrático medio.
D
E
F
G
4.1. ERROR CUADRÁTICO MEDIO
89
.
.
Ejemplo 44
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 :
n
n
1X
1 X
Xi , S 2 =
(Xi − X)2 .
n i=1
n − 1 i=1
X=
También hemos calculado sus esperanzas:
E(X) = µ, E(S 2 ) = σ 2 .
Concluimos que X y S 2 son estimadores insesgados de µ y σ 2 , respectivamente.
Su error cuadrático medio coincide entonces con su varianza:
¡
¢
σ2
Eθ (X − µ)2 = Vθ (X) =
,
n
¡
¢
2σ 4
.
Eθ (S 2 − σ 2 )2 = Vθ (S 2 ) =
n−1
.
.
Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reducción importante de la varianza y, por lo tanto, del error cuadrático
medio. Éste es uno de esos casos.
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos:
θ = (µ, σ 2 ). Sea
n−1 2
σ̂ 2 =
S ,
n
el estimador máximo verosı́mil de σ 2 . Calculemos su error cuadrático medio:
µ
¶
n−1 2
1
1
2
E(σ̂ ) =
σ = 1−
σ 2 =⇒ Bθ (σ̂ 2 ) = − σ 2 ;
n
n
n
µ
2
V (σ̂ ) =
n−1
n
¶2
V (S 2 ) =
2(n − 1) 4
σ .
n2
Ası́, el error cuadrático medio de σ̂ 2 es
E(σ̂ 2 − σ 2 ) =
2(n − 1) 4
1
2n − 1 4
2
σ + 2 σ4 =
σ <
σ4 .
2
2
n
n
n
n−1
90CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Se concluye que σ̂ 2 tiene menor error cuadrático medio que S 2 .
La comparación de los errores cuadráticos medios no nos debe conducir a
pensar que hay que usar siempre σ̂ 2 en vez de S 2 . Aunque es cierto que, en
promedio, σ̂ 2 ofrecerá estimaciones más cercanas a σ 2 que S 2 , también lo es que
en promedio σ 2 estima el parámetro por defecto.
Por otra parte, el criterio del error cuadrático medio es discutible cuando se
estima una varianza porque el error cuadrático medio penaliza las desviaciones
del parámetro de igual forma tanto si son por exceso como si son por defecto.
Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes
porque el valor cero es una cota natural para los estimadores.
.
.
Ejemplo 46
Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador máximo verosı́mil de p y el estimador bayesiano derivado de suponer pérdida cuadrática y una beta como distribución a priori de p:
Pn
Xi + α
p̂ = X, p̂B = i=1
.
α+β+n
Calculamos errores cuadráticos medios:
¢
¡
p(1 − p)
Ep (X − p)2 = V (X) =
,
n
µ Pn
¶ µ µ Pn
¶¶2
¡
¢
i=1 Xi + α
i=1 Xi + α
Ep (p̂B − p)2 = V
+ Bp
=
α+β+n
α+β+n
µ
¶2
np + α
np(1 − p)
+
−
p
=
(α + β + n)2
α+β+n
np(1 − p) + (α(1 − p) + βp)2
.
(α + β + n)2
Supongamos que no tenemos una información a priori suficientemente rica como
para determinar los valores de α y β y que, como consecuencia, decidimos elegir
los valores α y β tales que el error cuadrático medio de p̂B sea constante en p,
¡
¢
si ello es posible: Ep (p̂B − p)2 = K(n). Busquemos esos valores:
si p = 0 =⇒
α2
= K(n),
(α + β + n)2
si p = 1 =⇒
β2
= K(n),
(α + β + n)2
de donde se sigue que α = β y
α2
= K(n).
(2α + n)2
4.1. ERROR CUADRÁTICO MEDIO
91
Si hacemos ahora p = 1/2:
p=
n 12 + α2 (1 − 12 − 12 )2
1
n/4
=⇒ 2
=
= K(n).
2
(2α + n)2
(2α + n)2
Por lo tanto
√
α=β=
n
2
Con esta elección,
√
Pn
n
i=1 Xi + 2
√
p̂B =
n+n
y su error cuadrático medio es
¡
¢
1
√
Ep (p̂B − p)2 = K(n) =
para todo p ∈ (0, 1).
4(1 + n)2
−4
n= 4
0.06
6
0.05
5
0.04
4
n= 400
x 10
ECM
7
ECM
0.07
0.03
3
0.02
2
0.01
1
0
0
0.2
0.4
0.6
0.8
1
0
0
0.2
0.4
p
K(4) =
0.6
0.8
p
1
1
= 0,028, K(400) =
= 0,000567
36
4(21)2
¡
¢ 1/4
¢ 1/4
¡
1
Ep=1/2 (X − p)2 =
=
= 0,0625, Ep=1/2 (X − p)2 =
= 0,000625
4
16
400
Estas figuras ilustran el comportamiento de p̂ y p̂B : si n es pequeño, el estimador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
está en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p ≈ 0,5.
.
.
4.1.1.
Eficiencia relativa
Un estimador W de θ se denomina inadmisible si existe otro estimador V
de θ tal que
¡
¢
¡
¢
Eθ (V − θ)2 ≤ Eθ (W − θ)2 para todo θ ∈ Θ,
1
92CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
y además existe algún θ0 ∈ Θ tal que
¡
¢
¡
¢
Eθ0 (V − θ0 )2 < Eθ0 (W − θ0 )2 .
Es decir, un estimador W es inadmisible si existe otro estimador V que es al
menos igual de bueno que W para todo posible valor del parámetro θ y lo supera
cuando el valor concreto del parámetro es θ0 . Se dice también que V domina a
W uniformemente en θ.
Un estimador es admisible cuando no es inadmisible, es decir, cuando no
existe otro que lo domine uniformemente en θ.
Ejemplo 47
T es inadmisible
S es admisible
1
1
0.9
0.9
0.8
0.8
0.7
0.7
T1
T
0.6
ECM
ECM
0.6
0.5
0.5
0.4
0.4
0.3
0.3
T2
S
0.2
S
0.2
0.1
0.1
0
0
T3 no existe
0
0.2
0.4
θ
0.6
0.8
1
0
0.2
.
0.4
θ
0.6
.
Ejemplo 48
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana
muestral Mn son estimadores insesgados de µ.
Para n = 21, se tiene que
Vµ (X) = 1/n = 0,048 < Vµ (Mn ) ≈ ,075, para todo µ.
Por lo tanto, la mediana muestral es inadmisible como estimador de µ en el
caso de normalidad. (Nota: Se ha usado la expresión asintótica para calcular
0.8
1
4.1. ERROR CUADRÁTICO MEDIO
93
la varianza de la mediana muestral; véase, por ejemplo, el teorema 7.25 de
Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribución exacta de
la mediana muestral, véase la sección 5.5 de Casella-Berger).
Se puede probar (se verá en el tema 7, sobre teorı́a de la decisión) que la media muestral es admisible. Esto no implica que no existan otros estimadores con
menor error cuadrático medio que X en ciertas regiones del espacio paramétrico.
Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como
3, independientemente de la muestra observada), se tiene que
¢
¡
Eµ (W − µ)2 = (3 − µ)2 .
¢
¡
Como Eµ (X − µ)2 = 1/n, para todo µ, se tiene que W es preferible a X para
los valores de µ que cumplen
1
1
1
⇐⇒ 3 − √ < µ < 3 + √ .
n
n
n
√
√
Fuera del intervalo [3 + (1/ n), 3 − (1/ n)] es preferible X. Por lo tanto, ninguno de estos dos estimadores domina uniformemente al otro.
.
.
(3 − µ)2 <
Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia
relativa de W1 respecto a W2 como
RE(θ, W1 , W2 ) =
Vθ (W2 )
=
Vθ (W1 )
1
Vθ (W1 )
1
Vθ (W2 )
.
Ası́, RE(θ, W1 , W2 ) > 1 si y sólo si Vθ (W2 ) > Vθ (W1 ), si y sólo si W1 usa los
datos de modo más eficiente que W2 .
Ejemplo 49
Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a
la media muestral X para estimar el parámetro de centralidad µ de cuatro
distribuciones simétricas (el parámetro de centralidad es la mediana poblacional
y coincide con la esperanza cuando ésta existe).
Se ofrecen los resultados en función del tamaño muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la fórmula
V (Mn ) ≈
Normal estándar
Logı́stica (β = 1)
Doble exponencial (λ = 1)
Cauchy estándar
1
4f 2 (µ)
V (X)
1/n
π 2 /(3n)
2/n
∞
.
V (Mn )
π/(2n)
4/n
1/n
π 2 /(4n)
RE(θ, Mn , X)
2/π = 0,64
π 2 /12 = 0,82
2
∞
94CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Se concluye que la media muestral es más eficiente que la mediana en las leyes
normal y logı́stica, y lo es menos en la doble exponencial y la Cauchy.
.
.
4.2.
Mejor estimador insesgado
Acabamos de ver que la comparación de estimadores basada en error cuadrático medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos
desechar el estimador constante W ≡ 3 porque ése es el mejor estimador en
el caso de que el parámetro sea igual a 3) o a la imposibilidad de elegir un
único estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero también lo
es W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamos
comparando todos los estimadores posibles de un parámetro: hay estimadores
cuya definición está alejada de toda lógica pero que en determinadas situaciones
muy concretas dan resultados sensatos.
Por lo tanto, para que el criterio de comparación de estimadores mediante
su error cuadrático medio dé lugar a la recomendación de un único estimador,
preferible a los demás, debemos limitar el conjunto de estimadores que se tienen en cuenta. Se debe exigir un mı́nimo de sensatez a un estimador antes de
admitirlo para ser comparado con los restantes estimadores.
Una forma de restringir la clase de estimadores es exigir que sean insesgados. Veremos que si nos restringimos a esta clase de estimadores sı́ llegaremos
a resultados satisfactorios a partir de la comparación de su error cuadrático
medio, que para estos estimadores coincide con su varianza. Se trata de elegir
el estimador insesgado del parámetro θ que tenga la varianza más pequeña.
Además, se caracterizará el mejor estimador insesgado (el de menor varianza).
Dada una transformación τ del parámetro θ, restringimos la clase de estimadores considerados a
Cτ = {W : Eθ (W ) = τ (θ)},
la clase de estimadores insesgados de τ (θ). Dado W ∈ Cτ ,
¡
¢
Eθ (W − τ (θ))2 = Vθ (W )
y la comparación de estimadores con el criterio del error cuadrático medio se
reduce a la comparación de sus varianzas.
Diremos que un estimador W ∗ es el mejor estimador insesgado de τ (θ),
o el UMVUE (estimador insesgado de τ (θ) uniformemente de mı́nima
varianza), si Eθ (W ∗ ) = τ (θ) para todo θ ∈ Θ y si para cualquier otro estimador
W , tal que Eθ (W ) = τ (θ) para todo θ ∈ Θ, se tiene que Vθ (W ∗ ) ≤ Vθ (W ), para
todo θ ∈ Θ.
4.2. MEJOR ESTIMADOR INSESGADO
95
Ejemplo 50
Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) =
λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos
cuál de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) =
V (X)
λ
= .
n
n
Para determinar la varianza de S 2 los cálculos son algo más tediosos. En general,
si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Capı́tulo 1)
µ
¶
1
n−3 2
2
V (S ) =
θ4 −
θ .
n
n−1 2
Concretaremos este resultado para el caso de la distribución de Poisson. Se tiene
que θ1 = θ2 = λ. Calculemos θ3 y θ4 . En primer lugar,
E(X 3 ) =
∞
X
∞
k 3 e−λ
k=1
k=0
λ
∞
X
(h + 1)2 e−λ
h=0
X
λk
λk
=
k 2 e−λ
=
k!
(k − 1)!
λh
= λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) =
h!
λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ.
Ası́,
θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) =
λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ.
Calculemos E(X 4 ):
E(X 4 ) =
∞
X
k 4 e−λ
k=0
λ
∞
X
(h + 1)3 e−λ
h=0
λk
=
k!
λh
= λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) =
h!
λ(λ3 + 3λ2 + λ + 3(λ + λ2 ) + 3λ + 1) = λ(λ3 + 6λ2 + 7λ + 1) = λ4 + 6λ3 + 7λ2 + λ
Ası́,
θ4 = E((X − λ)4 ) = E(X 4 ) − 4λE(X 3 ) + 6λ2 E(X 2 ) − 4λ3 E(X) + λ4 =
λ4 + 6λ3 + 7λ2 + λ − 4λ(λ3 + 3λ2 + λ) + 6λ2 (λ + λ2 ) − 3λ4 =
3λ2 + λ.
Por tanto,
1
V (S ) =
n
2
µ
¶
µ
¶
n−3 2
1
n−3 2
2
θ4 −
θ =
3λ + λ −
λ =
n−1 2
n
n−1
96CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
λ
2λ2
λ
+
> = V (X) si n ≥ 2.
n n−1
n
Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a
S2.
.
.
En el ejemplo anterior sólo hemos comparado dos estimadores insesgados
entre sı́. Ahora estudiaremos toda una clase de estimadores insesgados, aunque
esta familia no incluye a todos los estimadores insesgados.
Ejemplo 50, página 95. Continuación. Consideremos la clase de estimadores Wa = aX + (1 − a)S 2 , con a ∈ IR. Se tiene que para toda a,
Eλ (Wa ) = aλ + (1 − a)λ = λ,
luego ésta es una clase de estimadores insesgados para λ. Si buscamos el mejor
de todos estos estimadores podrı́amos llegar a la conclusión de que existe un a∗
tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen la
forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Capı́tulo
1 resultan útiles para el cálculo de Vλ (Wa ).
Esto no proporcionará una respuesta global a la pregunta de cuál de todos
los estimadores insesgados de λ es el que menor varianza tiene.
.
.
4.2.1.
Teorema de Cramér-Rao. Información de Fisher
El último ejemplo muestra que la búsqueda del UMVUE no debe consistir en
repasar todos los estimadores insesgados posibles. El siguiente resultado aborda
el problema de un modo diferente: establece una cota inferior para la varianza
de todos los estimadores insesgados de un parámetro. Ası́, si encontramos un
estimador insesgado cuya varianza iguale esa cota podremos concluir que ese
estimador es el UMVUE.
Teorema 25 (Teorema de Cramér-Rao.) Sea X = (X1 , . . . , Xn ) una vae
riable aleatoria n-dimensional con función de densidad conjunta f ( x |θ), θ ∈
e
Θ ⊆ IR. Sea W ( X ) un estimador insesgado para τ (θ), es decir, Eθ (W ( X )) =
e
e
τ (θ) para todo θ, donde τ es una función de θ que cumple
H1: τ (θ) es diferenciable en θ.
Se supone además que la verosimilitud conjunta f ( x |θ) verifica
e
4.2. MEJOR ESTIMADOR INSESGADO
97
H2: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e
e
·
¸
Z
Z
Z
Z
d
∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x )
f ( x |θ) dx1 . . . dxn .
dθ
e
e
e ∂θ e
Entonces,
¡
Vθ (W ( X )) ≥
e
·³
Eθ
∂
∂θ
¢2
d
dθ τ (θ)
´2 ¸ .
log f ( X |θ)
e
A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota
de Cramér-Rao.
Demostración: Se basa en la desigualdad de Cauchy-Schwarz, que expresada
en términos estadı́sticos establece que para cualquier par de variables aleatorias
X e Y definidas sobre el mismo espacio muestral, se tiene que
2
(Corr(X, Y )) ≤ 1,
o equivalentemente, que dada la variable aleatoria X,
V (X) ≥
(Cov(X, Y ))
V (Y )
2
para toda variable aleatoria Y .
La demostración del teorema es inmediata poniendo W ( X ) en el papel de
e
la variable aleatoria X anterior, haciendo
Y =
∂
log f ( X |θ),
∂θ
e
y viendo que se verifican A y B:
A.
µ
V
B.
"µ
¶
¶2 #
∂
∂
log f ( X |θ) = Eθ
log f ( X |θ)
.
∂θ
∂θ
e
e
µ
¶
∂
d
Cov W ( X ),
log f ( X |θ) =
τ (θ).
∂θ
dθ
e
e
Probemos A. Para ello hay que demostrar que
·
¸
∂
Eθ
log f ( X |θ) = 0.
∂θ
e
En efecto,
·
Eθ
" ∂
#
¸
∂
∂θ f ( X |θ)
e
log f ( X |θ) = Eθ
=
∂θ
e
f ( X |θ)
e
98CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Z
Z
∂
∂θ f ( x |θ)
e f ( x |θ)dx1 . . . dxn =
e
f ( x |θ)
e
Z
Z
(H2,h( x )=1)
∂
f ( x |θ)dx1 . . . dxn
=e
···
∂θ e
Z
Z
d
d
· · · f ( x |θ)dx1 . . . dxn =
1 = 0.
dθ
dθ
e{z
|
}
···
=1
Veamos ahora que también es cierto B:
¶
¸
µ
·
∂
∂
log f ( X |θ) = Eθ W ( X )
log f ( X |θ) =
Cov W ( X ),
e ∂θ
e
e ∂θ
e
"
#
∂
∂θ f ( X |θ)
e
Eθ W ( X )
=
e
f ( X |θ)
e
Z
Z
H2,h( x )=W ( x )
∂
e=
e
· · · W ( x ) f ( x |θ)dx1 . . . dxn
e ∂θ e
Z
Z
d
d
· · · W ( x )f ( x |θ)dx1 . . . dxn =
τ (θ).
dθ
dθ
e {z e
|
}
=Eθ (W ( X ))=τ (θ)
e
2
Nota: El teorema de Cramér-Rao es igualmente válido en el caso discreto.
En este caso la hipótesis H2 afirma que pueden intercambiarse el sumatorio y
la diferenciación.
Un estimador insesgado para τ (θ) se denomina eficiente si su varianza es la
mı́nima posible, es decir, si es igual a la cota de Cramér-Rao. La eficiencia de
un estimador insesgado se define como el cociente entre la cota de Cramér-Rao
y su varianza. Es un valor menor o igual que 1 si se dan las hipótesis del teorema
de Cramér-Rao. A esa cantidad también se la llama eficiencia de Bahadur
del estimador. La eficiencia relativa entre dos estimadores insesgados es el
inverso del cociente de sus varianzas, como ya se definió anteriormente.
A la derivada parcial del logaritmo de la verosimilitad L(θ| x ) = f ( x |θ)
e
e
respecto al parámetro se le llama también función score:
∂
S(θ| x ) =
log L(θ| x ).
∂θ
e
e
En la demostración del teorema de Cramér-Rao se ha probado que
Eθ (S(θ| X )) = 0.
e
Obsérvese que para obtener el estimador máximo verosı́mil de θ lo que se hace
es resolver la ecuación
S(θ| x ) = 0,
e
4.2. MEJOR ESTIMADOR INSESGADO
99
lo que equivale a buscar el valor de θ para el cual el valor de S(θ| x ) coincide
e
con su valor esperado.
Cuando se aplica a las familias exponenciales el resultado general que dice
que la esperanza de la función score es cero, se obtiene el siguiente resultado
(ver también el problema 11 del Capı́tulo 1):
Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponencial parametrizada en forma natural con parámetro η ∈ IR:
f (x|θ) = h(x)c(η) exp (ηt(x))
para ciertas funciones h, c y t. Entonces
Eη (t(X)) = −
d
log c(η).
dη
Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estadı́stico
T (X1 , . . . , Xn ) =
n
X
t(Xi )
i=1
entonces
d
Eη (T ( X )) = −n
log c(η).
dη
e
Demostración: El resultado sobre T ( X ) es trivial a partir del resultado sobre
e
t(X). El logaritmo la verosimilitud de x es
l (θ|x) = log f (x|θ) = log h(x) + log c(η) + ηt(x)
y la función score
S(θ|x) =
∂
d
l (θ|x) =
log c(η) + t(x).
∂η
dη
Como Eη (S(θ|X)) = 0, se sigue el resultado del corolario.
2
A la cantidad que aparece en el denominador de la cota de Cramér-Rao se
le denomina cantidad de información de Fisher que sobre θ contiene el
vector X :
e
"µ
¶2 #
µ
¶
∂
∂
log f ( X |θ)
=V
log f ( X |θ) = V (S(θ| X )).
I (θ) = Eθ
X e
X e
X
∂θ
∂θ
e
e
e
e
Se denomina cantidad de información de Fisher que sobre θ contiene la
variable Xi a
"µ
¶2 #
¶
µ
∂
∂
IXi (θ) = Eθ
log fXi (X|θ)
log fXi (X|θ) = V (S(θ|Xi )).
=V
∂θ
∂θ
100CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que
e
la información de Fisher contenida en la muestra es la suma de las informaciones
contenidas en cada una de las observaciones y, dado que éstas son idénticamente
distribuidas, se tiene que
I (θ) = nIX1 (θ).
X
e
Este resultado es consecuencia del siguiente corolario del teorema de CramérRao:
Corolario 3 Bajo las hipótesis del teorema de Cramér-Rao, si X = (X1 , . . . , Xn )
e
es una muestra aleatoria simple de X con distribución dada por f (x|θ) entonces
"µ
"µ
¶2 #
¶2 #
∂
∂
Eθ
log f ( X |θ)
= nEθ
log fX (X|θ)
.
X e
∂θ
∂θ
e
Demostración: Por independencia, la verosimilitud de X es el producto de
e
verosimilitudes, luego
n
n
X
∂
∂ X
∂
log f ( x |θ) =
log fX (xi |θ) =
log fXi (xi |θ).
X e
∂θ
∂θ i=1
∂θ
i=1
e
Por lo tanto,
Ã
!2 
¶2 #
n
X
∂
∂
Eθ
= Eθ 
log f ( X |θ)
log fXi (Xi |θ)  =
X e
∂θ
∂θ
i=1
e
"
"µ
µ
¶2 # X
¶2 #
n
X
∂
∂
∂
Eθ
+
Eθ
.
log fXi (Xi |θ)
log fXi (Xi |θ)
log fXj (Xj |θ)
∂θ
∂θ
∂θ
i=1
"µ
i6=j
Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi
y Xj y dado que las funciones score tienen esperanza 0, según se vio en la
demostración del teorema de Cramér-Rao.
Una demostración alternativa de este resultado se basa en la expresión de la
información de Fisher como varianza de los scores:
à n
!
µ
¶
X ∂
∂
V
log f ( X |θ) = V
log fXi (Xi |θ)
X e
∂θ
∂θ
i=1
e
que por independencia es igual a la suma de las varianzas:
µ
¶
∂
nV
log fX (X|θ) .
∂θ
2
El siguiente resultado facilita a veces el cálculo de la cota de Cramér-Rao.
Lema 5 Si la función de verosimilitud satisface
4.2. MEJOR ESTIMADOR INSESGADO
101
H3: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e
e
· 2
¸
Z
Z
Z
2 Z
∂
∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x )
f ( x |θ) dx1 . . . dxn .
∂θ2
e
e
e ∂θ2 e
Entonces,
"µ
IX (θ) = Eθ
¶2 #
· 2
¸
∂
∂
log fX (X|θ)
= −Eθ
log
f
(X|θ)
.
X
∂θ
∂θ2
Demostración:
∂
∂2
log fX (x|θ) =
∂θ2
∂θ
−1
2 (x|θ)
fX
µ
·
¸
1
∂
fX (x|θ) =
fX (x|θ) ∂θ
¶2
∂
1
∂2
fX (x|θ) +
fX (x|θ).
∂θ
fX (x|θ) ∂θ2
Por otro lado,
·
¸ Z
2 Z
1
∂2
∂2
H3 d
Eθ
f
(X|θ)
=
f
(x|θ)dx
=
=
fX (x|θ)dx = 0.
X
X
fX (X|θ) ∂θ2
∂θ2
dθ2
Ası́ pues,
·
Eθ
"
¸
µ
¶2 #
∂2
∂
1
log fX (X|θ) = −Eθ
fX (X|θ)
=
2 (X|θ)
∂θ2
fX
∂θ
"µ
−Eθ
¶2 #
∂
= −IX (θ)
log fX (X|θ)
∂θ
2
Nota 1. Cuando este lema se aplica a la información de Fisher contenida en
una muestra, se tiene que
· 2
¸
· 2
¸
∂
∂
I (θ) = −Eθ
log
f
(
X
|θ)
=
−nE
log
f
(X|θ)
= nIX (θ).
X
θ
X
X
∂θ2
∂θ2
e
e
Nota 2. Las familias exponenciales satisfacen la hipótesis H3.
Ejemplo 51
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası́, E(X) = λ. Consideramos τ (λ) =
λ, luego τ 0 (λ) = 1. Por lo tanto,
Ã
!2 
· 2
¸
n
Y
∂
∂
log
f (Xi |λ)  = −nEλ
log
f
(X|λ)
=
Eλ 
∂λ
∂λ2
i=1
102CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
·
−nEλ
∂2
log
∂λ2
µ
e−λ λX
X!
¶¸
·
¸
∂2
= −nEλ
(−λ + X log λ − log X!) =
∂λ2
·
¸
X
n
−nEλ − 2 = .
λ
λ
Por lo tanto, para cualquier W , estimador insesgado de λ, se tendrá que
Vλ (W ) ≥
1
λ
= .
n/λ
n
Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n.
Se deduce de ahı́ que la media muestral es el mejor estimador insesgado (UMVUE) de λ.
.
.
Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). Ası́, f (x|θ) = 1/θ, si 0 < x < θ, y de
ahı́,
¸
·
∂
1
1
∂
2
log f (x|θ) = − =⇒ Eθ (
log f (X|θ)) = 2 .
∂θ
θ
∂θ
θ
Si la cota de Cramér-Rao es aplicable, ésta dice que para cualquier W , estimador
insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n.
Sin embargo, es posible encontrar un estimador insesgado de θ con varianza menor que θ2 /n. En efecto, sea Y = máxi Xi . Su función de densidad es
fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası́,
W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza:
"
µ
¶2 #
(n + 1)2
(n + 1)2
n
2
Vθ (W ) =
Vθ (Y ) =
Eθ (Y ) −
θ
=
n2
n2
n+1
(n + 1)2
n2
"
n 2
θ −
n+2
µ
n
n+1
¶2
#
θ2 =
(n + 1)2 n 2
θ − θ2 =
n2
n+2
(n + 1)2 − n(n + 2) 2
1
1
θ =
θ2 < θ2 .
n(n + 2)
n(n + 2)
n
La contradicción proviene de que
Z θ
Z θ
d
∂
h(x)f (x|θ)dx 6=
h(x) f (x|θ)dx.
dθ 0
∂θ
0
y por lo tanto el teorema de Cramér-Rao no es aplicable.
.
.
4.2. MEJOR ESTIMADOR INSESGADO
103
En general, el teorema de Cramér-Rao no es aplicable si el soporte de f (x|θ)
depende del parámetro θ debido a que la derivada y la integral no son intercambiables si los lı́mites de integración dependen de θ. Véase, por ejemplo en la
sección 2.4 del Casella-Berger, la fórmula de Leibnitz que permite calcular derivadas de integrales en las que los lı́mites de integración dependen de la variable
respecto a la cuál se deriva. Ahı́ se dan también resultados sobre condiciones
que permiten intercambiar los signos de integración y derivación.
Aunque el teorema de Cramér-Rao pueda ser aplicado y la cota de CramérRao sea efectiva, no hay garantı́as de que esta cota sea alcanzada por algún
estimador insesgado del parámetro. En los casos en los que no se encuentra un
estimador insesgado que alcance la cota de Cramér-Rao, el problema es decidir
si dado un estimador insesgado éste es ya el mejor posible.
Ejemplo 53
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con
e
ambos parámetros desconocidos. Consideramos el problema de estimar σ 2 . La
distribución normal satisface las hipótesis del teorema de Cramér-Rao. Calculamos la cota de Cramér-Rao:
·
¸
∂2
IX (σ 2 ) = −E
log
f
(x|θ)
=
∂(σ 2 )2
·
µ
¶¸
(x−µ)2
∂2
1
−
2
2σ
−E
log
e
=
∂(σ 2 )2
(2πσ 2 )1/2
µ
¶¸
·
1
(x − µ)2
∂2
2
log
K
−
log
σ
−
=
−E
∂(σ 2 )2
2
2σ 2
·
µ
¶¸
∂
1
(x − µ)2
−E
− 2+
=
∂σ 2
2σ
2σ 4
¸
·
(x − µ)2
−1
σ2
1
1
−E
−
=
+ 6 =
.
4
6
4
2σ
σ
2σ
σ
2σ 4
Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 =
Pn
e2
e
i=1 (Xi − X) /(n − 1), ha de verificar
1
2σ 4
V (W ( X )) ≥
=
.
nIX (σ 2 )
n
e
En particular, S 2 no alcanza la cota de Cramér-Rao:
V (S 2 ) =
2σ 4
2σ 4
>
.
n−1
n
Surge la pregunta de si existe algún estimador insesgado de σ 2 que alcance la
cota de Cramér-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S 2 el
mejor estimador insesgado de σ 2 ?
.
.
104CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
El siguiente resultado ayuda a contestar la primera de las dos preguntas
surgidas en el ejemplo anterior.
Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con
e
distribución dada por f (x|θ), θ ∈ IR, donde f satisface las hipótesis del teorema
Qn
de Cramér-Rao. Sea L(θ| x ) = i=1 f (xi |θ) la función de verosimilitud. Sea
e
W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de τ (θ).
e
Entonces W ( X ) alcanza la cota de Cramér-Rao si y sólo si existe una fune
ción a(θ) tal que se tiene la igualdad
∂
a(θ)(W ( x ) − τ (θ)) =
log L(θ| x )
∂θ
e
e
para todo θ.
que
Además, esto ocurre si y sólo si existen funciones h(θ), k(θ) y u( x ) tales
e
L(θ| x ) = u( x )h(θ) exp(W ( x )k(θ)),
e
e
e
es decir, si y sólo si la distribución de partida pertenece a la familia exponencial.
Demostración: En la demostración del teorema de Cramér-Rao se usa el hecho
de que
µ
µ
¶¶2
∂
Corr W ( X ),
log L(θ| x )
≤ 1,
e ∂θ
e
para probar la desigualdad de Cramér-Rao que se dará con igualdad si y sólo
si la correlación anterior es igual a 1 o -1, lo que equivale a decir que existe una
relación lineal perfecta entre las dos variables, es decir, existen constantes a y b
(que podrı́an depender del valor de θ) tales que
∂
log L(θ| x ) = aW ( X ) + b, con probabilidad 1,
∂θ
e
e
luego,
µ
0=E
∂
log L(θ| x )
∂θ
e
¶
= aE(W ( x )) + b = aτ (θ) + b,
e
de donde se sigue que b = −aτ (θ). Ası́,
³
´
∂
log L(θ| x ) = a W ( x ) − τ (θ) , con probabilidad 1.
∂θ
e
e
Para probar la última parte del corolario, resolvemos la ecuación diferencial
∂
log L(θ| x ) = a(θ)(W ( x ) − τ (θ)) = a(θ)W ( x ) + b(θ).
∂θ
e
e
e
Existirán funciones A(θ) y B(θ) tales que A0 (θ) = a(θ) y B 0 (θ) = b(θ) y por lo
tanto
log L(θ| x ) = A(θ)W ( x )+B(θ)+C( x ) =⇒ L(θ| x ) = exp(A(θ)W ( x )+B(θ)+C( x )),
e
e
e
e
e
e
4.2. MEJOR ESTIMADOR INSESGADO
105
de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) y
u( x ) = exp(C( x )).
2
e
e
Ejemplo 53, página 103. Continuación. La función de verosimilitud es
Pn
1
−(
(xi −µ)2 )/(2σ 2 )
i=1
L(µ, σ 2 | x ) =
e
2
n/2
(2πσ )
e
y la derivada respecto a σ 2 de su logaritmo es
µ Pn
¶
³
´
2
∂
n
2
2
i=1 (xi − µ)
−σ .
log L(µ, σ | x ) =
∂σ 2
2σ 4
n
e
Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzarı́a la cota
de Cramér-Rao serı́a
n
1X
W(X ) =
(xi − µ)2
n i=1
e
que es calculable si y sólo si µ es conocido. Por lo tanto, si µ es desconocido la
cota de Cramér-Rao en la estimación de σ 2 no es alcanzable. Como ya dijimos
antes, queda abierta la cuestión de saber si S 2 es el mejor estimador insesgado
de σ 2 . A esto se dará respuesta más adelante, en la sección 4.2.3.
.
.
4.2.2.
Versión multivariante del teorema de Cramér-Rao.
Consideramos ahora el problema de estimación en el caso de que la familia
paramétrica de distribuciones venga dada por un parámetro multidimensional
θ = (θ1 , . . . , θk ). En este contexto, la extensión natural de la información
e
de Fisher es la matriz de información de Fisher, definida como la matriz
I( θ ) de dimensión k × k cuyo elemento (i, j) es
e
"Ã
!Ã
!#
∂ log f ( x | θ )
∂ log f ( x | θ )
e e
e e
Iij = E
.
∂θi
∂θj
Si definimos S( X , θ ) = ∇
log f ( x | θ ), el vector de scores, es decir, el
θ
e e
e e
e
vector gradiente del logaritmo de la función de verosimilitud (el vector columna
de derivadas parciales respecto a θ1 , . . . , θk ) se tiene que la matriz de información
de Fisher es
I( θ ) = E[S( X , θ )S( X , θ )t ] = Cov(S( X , θ )).
e
e e
e e
e e
También es cierto que si se verifican las hipótesis de regularidad H2 y H3,
entonces
I( θ ) = −E(H
log f ( x | θ ))
θ
e
e e
e
106CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
donde H
log f ( x | θ ) es la matriz hessiana de log f ( x | θ ): la matriz k × k
θ
e e
e e
e
cuyo elemento (i, j) es
∂2
log f ( x | θ ).
∂θi θj2
e e
Consideremos ahora una función univariante de θ : τ = τ ( θ ) = τ (θ1 , . . . , θk ).
e
e
Sea ∇τ ( θ ) el gradiente de τ :
e
µ
¶t
∂
∂
∇τ (θ) =
τ( θ ) .
τ ( θ ), . . . ,
∂θ1 e
∂θk e
El siguiente resultado es la versión del teorema de Cramér-Rao aplicable en este
contexto.
Teorema 26 Sea W ( X ) un estimador insesgado de una transformación unie
variante τ ( θ ) del parámetro k-dimensional θ . Si se dan las condiciones de
e
e
regularidad H1 , H2 y H3 , entonces
−1
V (W ( X )) ≥ (∇τ (θ))t I( θ ) (∇τ (θ)),
e
e
con igualdad si y sólo si existe una función a( θ ) univariante tal que
e
t
a( θ )(W ( X ) − τ ( θ )) = (∇τ ( θ )) (I( θ ))−1 S( X , θ ).
e
e
e
e
e
e e
Demostración: Ver, por ejemplo, Arnold (1990), sección 7.3.2, o Vélez y Garcı́a
(1993), páginas 233 y siguientes, para una extensión de este teorema en la que
se estima una función τ r-dimensional.
2
Ejemplo 54
Sea θ̂i un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos
e
por I ij al elemento (i, j) de (I( θ ))−1 . Según el teorema anterior, será
e
V (θ̂i ) ≥ I ii .
El teorema de Cramér-Rao univariante nos decı́a que
V (θ̂i ) ≥ Iii−1 .
Sabemos que en general se cumple que
I ii ≥ Iii−1 ,
con igualdad si y sólo si la matriz I( θ ) es diagonal. (Véase, por ejemplo, Vélez
e
y Garcı́a 1993, p. 235). Por lo tanto la versión multivariante del teorema de
Cramér-Rao mejora la cota de Cramér-Rao univariante.
Se puede probar también que si c
θ es un estimador insesgado de θ entonces
e
e
ˆ
−1
Cov( θ ) − I( θ ) es una matriz definida positiva.
e
e
.
.
4.2. MEJOR ESTIMADOR INSESGADO
107
Ejemplo 55
Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n
y que θ1 + θ2 + θ3 = 1, luego hay dos parámetros efectivos, θ1 y θ2 por ejemplo,
pues θ3 = 1 − θ1 − θ2 . La función de verosimilitud es ésta:
L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) =
n!
θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 .
x1 !x2 !x3 ! 1 2
| {z }
K
Su logaritmo es
log L = log K + x1 log θ1 + x2 log θ2 + (n − x1 − x2 ) log(1 − θ1 − θ2 ).
Calculamos el vector de scores y la matriz hessiana:
Sj =
Hjj =
∂
xj
n − x1 − x2
log L =
−
, j = 1, 2.
∂θj
θj
1 − θ1 − θ2
−xj
n − x1 − x2
∂2
log L = 2 −
, j = 1, 2.
∂θj2
θj
(1 − θ1 − θ2 )2
n − x1 − x2
∂2
log L = −
.
∂θj
(1 − θ1 − θ2 )2
H12 =
Ası́, la matriz de información de Fisher es
à −X
!
n−X1 −X2
n−X1 −X2
1
− (1−θ
− (1−θ
2
2
θ12
1 −θ2 )
1 −θ2 )
I(θ1 , θ2 ) = −E(H) = −E
=
n−X1 −X2
−X2
n−X1 −X2
− (1−θ
− (1−θ
2
2
θ22
1 −θ2 )
1 −θ2 )
Ã
!
n
n
n
+
θ1
1−θ1−th2
1−θ1−th2
n
n
n
1−θ1−th2
θ2 + 1−θ1−th2
Ası́,
Ã
−1
I(θ1 , θ2 )
=
θ1 (1−θ1 )
n
θ1 θ2
n
θ1 θ2
n
θ2 (1−θ2 )
n
!
.
Por el teorema de Cramér-Rao multivariante, θ1 (1 − θ1 )/n es la cota para la
varianza de cualquier estimador insesgado de θ1 . Si tomamos θ̂1 = X1 /n, tendremos un estimador insesgado cuya varianza es V (θ̂1 ) = θ1 (1 − θ2 )/n. Por lo
tanto θ̂1 es eficiente.
Si hacemos sólo el estudio univariante de la cota de Cramér-Rao para esti−1
madores de θ, tendremos que esa cota es I11
:
µ
¶−1
1 1
1
θ1 (1 − θ1 − θ2 )
θ1 (1 − θ1 )
−1
I11
=
+
=
≤
= I 11 .
n θ1
1 − θ1 − θ2
(1 − θ2 )n
n
La cota de Cramér-Rao multivariante es más precisa que la cota de Cramér-Rao
univariante, en el sentido de que es una cota inferior mayor.
.
.
108CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
4.2.3.
Teorema de Rao-Blackwell. Teorema de LehmannScheffé
En esta sección veremos qué papel juegan los estadı́sticos suficientes en la
búsqueda del mejor estimador insesgado de un parámetro. En muchos casos
los resultados que veremos aquı́ permiten escoger un estimador insesgado y
garantizar que es el mejor posible aunque su varianza no alcance la cota de
Cramér-Rao.
Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de
X, con densidad (o masa de probabilidad) f (x|θ). Sea T ( X ) un estadı́stico
e
suficiente para θ y sea W ( X ) un estimador insesgado de τ (θ). Definimos
e
WT = Eθ (W |T ).
Entonces,
i. WT es función únicamente de T ( X ) (es decir, no depende de θ y depende
e
de la muestra X sólo a través del valor de T ( X )).
e
e
ii. Eθ (WT ) = τ (θ).
iii. Vθ (WT ) ≤ Vθ (W ) para todo θ ∈ Θ.
Demostración:
i. Como T es suficiente para θ la distribución de X condicionada a T no
e
depende del parámetro θ. Por lo tanto, la distribución condicionada de
W ( X ) dado T ( X ) tampoco depende de θ. Por otra parte, E(W |T ) es
e
e
función de T .
ii. Por la ley de la esperanza iterada,
Eθ (WT ) = Eθ (E(W |T )) = Eθ (W ) = τ (θ).
iii. Por la ley de la esperanza iterada,
Vθ (W ) = Vθ (E(W |T ))+Eθ (Vθ (W |T )) = Vθ (WT )+Eθ (Vθ (W |T )) ≥ Vθ (WT ).
2
La consecuencia fundamental de este teorema es que en la búsqueda del
estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados
que son función de un estadı́stico suficiente: si trabajamos con un estadı́stico
insesgado que no es función de uno suficiente, tomando esperanzas condicionadas
podemos conseguir otro que es al menos tan bueno como el anterior y es función
del estadı́stico suficiente. Este proceso se llama a veces Rao-Blackwellización.
4.2. MEJOR ESTIMADOR INSESGADO
109
Ejemplo 56
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ .
Pn
Sabemos que T ( X ) =
i=1 Xi es estadı́stico suficiente para λ. Observemos
e
además que P (X1 = 0) = e−λ y por tanto el estimador W ( X ) = I{X1 = 0} es
e
un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo
Pn
n
X
P (X1 = 0, i=1 Xi = t)
Pn
θ̂ = E(W ( X )|T ( X ) = t) = P (X1 = 0|
=
Xi = t) =
P ( i=1 Xi = t)
e
e
i=1
Pn
Pn
P (X1 = 0, i=2 Xi = t)
P (X1 = 0)P ( i=2 Xi = t)
Pn
Pn
=
=
P ( i=1 Xi = t)
P ( i=1 Xi = t)
Pn
(recordar que i=1 Xi ∼ Poisson(nλ))
µ
t
e−λ e−(n−1)λ [(n−1)λ]
t!
e−nλ [nλ]
t!
Por lo tanto
µ
θ̂ =
t
n−1
n
=
¶Pn
i=1
n−1
n
¶t
.
Xi
es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} .
e
.
.
El siguiente resultado es consecuencia del teorema de Rao-Blackwell y garantiza la unicidad del estimador UMVUE en caso de que éste exista.
Teorema 28 Si W es el mejor estimador insesgado de τ (θ) (es el UMVUE) y
su varianza es finita, entonces W es único.
Demostración: Supongamos que existe otro estimador W0 insesgado que tiene
también varianza mı́nima. Entonces ha de ser igual a la de W :
Vθ (W ) = Vθ (W0 ), para todo θ
(observar que esta varianza mı́nima no tiene por qué coincidir con la cota de
Cramér-Rao). Definimos W ∗ = (W +W0 )/2, que es también estimador insesgado
de τ (θ). Calculemos su varianza:
1
1
1
V (W ) + V (W0 ) + Cov(W, W0 ) ≤
4
4
2
¶
µ
1
1
1p
1 1 1
V (W ) + V (W0 ) +
+ +
V (W ) = V (W ).
V (W )V (W0 ) =
4
4
2
4 4 2
V (W ∗ ) =
La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.
Pero la igualdad se da si y sólo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y
sólo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso,
E(W0 ) = a(θ)τ (θ) + b(θ) = τ (θ)
110CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Por otra parte,
V (W ) =
p
V (W )V (W0 ) = Cov(W, W0 ) =
Cov(W, a(θ)W + b(θ)) = Cov(W, a(θ)W ) = a(θ)V (W ),
de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que
b(θ) = 0, luego W = W0 .
2
Nos planteamos ahora estudiar cuándo es posible mejorar un estimador que
ya es insesgado. Ello nos ayudará a saber si un estimador insesgado es el mejor:
como mı́nimo debemos estar seguros de que no puede ser mejorado.
Sea U un estadı́stico tal que Eθ (U ) = 0 para todo θ. Diremos que U es un
estimador insesgado de 0, o que U es un ruido blanco. Consideremos
además W un estimador insesgado de τ (θ). Definimos ahora WU = W + aU ,
que es también un estimador insesgado de τ (θ). Calculemos su varianza:
Vθ (WU ) = Vθ (W + aU ) = Vθ (W ) + a2 Vθ (U ) + 2aCovθ (W, U ).
Intentaremos elegir a de forma que WU sea mejor que W al menos para algún
valor del parámetro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir
0<a<−
2Covθ0 (W, U )
.
Vθ0 (U )
De esta manera
Vθ0 (WU ) < Vθ0 (W )
lo cuál implica que W no puede ser el mejor estimador insesgado (UMVUE) de
τ (θ). Del mismo modo puede procederse si Covθ0 (W, U ) > 0 para algún valor
θ0 del parámetro.
El siguiente resultado establece que las covarianzas de los estimadores insesgado con los estimadores insesgados de 0 caracterizan los mejores estimadores
insesgados.
Teorema 29 Sea W estimador insesgado de τ (θ) para todo θ. W es el mejor
estimador insesgado de τ (θ) (UMVUE) si y sólo si W está incorrelacionado con
todos los estimadores insesgados de 0, para todo θ.
Demostración: Sea W1 estimador insesgado de τ (θ) incorrelacionado con los
estimadores insesgados de 0. Sea W2 otro estimador insesgado de τ (θ). Entonces
W2 − W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 − W1 ). Ası́,
Vθ (W2 ) = Vθ (W1 ) + 2 Covθ (W1 , W2 − W1 ) +Vθ (W2 − W1 ) ≥ Vθ (W1 ).
|
{z
}
=0
Por lo tanto W1 es UMVUE.
4.2. MEJOR ESTIMADOR INSESGADO
111
El recı́proco se prueba por reducción al absurdo siguiendo el argumento
desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U ,
un estimador insesgado del 0 con Covθ0 (W, U ) 6= 0 entonces serı́a posible mejorar
a W en θ0 , lo cuál contradice el hecho de que W1 es UMVUE.
2
Los estimadores insesgados de 0 son simplemente ruidos que no aportan
información alguna sobre el parámetro. Es razonable pensar que un buen estimador de τ (θ) no pueda ser mejorado añadiéndole uno de estos ruidos.
En la definición de estadı́sticos completos aparece también el concepto de
estimador insesgado de 0. Se dice que la familia de distribuciones {fT (t|θ), θ ∈
Θ} de un estadı́stico T es completa si se verifica la siguiente implicación:
si Eθ (g(T )) = 0 para todo θ ∈ Θ entonces Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ.
Es decir, el estadı́stico T es completo si la única función suya que es estimador
insesgado de 0 es precisamente la función idénticamente 0.
El teorema de Rao-Blackwell establece que basta con buscar el estimador
UMVUE entre aquellos estimadores que son función de un estadı́stico suficiente. Si este estadı́stico suficiente es además completo se tiene que no habrá estimadores de 0 que sean función suya y, por tanto, no debemos esperar que un
estimador sea mejorado al sumarle un estimador insesgado de 0 (pues éste no
será función del estadı́stico suficiente). Bajo ciertas condiciones (existencia de
estadı́sticos suficientes y completos y de estimadores insesgados), esta combinación de los conceptos de estadı́stico completo y de estadı́stico suficiente garantiza
la existencia de estimadores UMVUE de una función τ (θ) del parámetro y da un
método para construirlos. El siguiente teorema establece este resultado. Podemos decir que este teorema resuelve teóricamente el problema de la estimación
puntual, entendida ésta como la búsqueda del UMVUE.
Teorema 30 (Teorema de Lehmann-Scheffé) Si T ( X ) es un estadı́stico
e
suficiente y completo para θ y W ( X ) es un estimador insesgado cualquiera de
e
τ (θ), entonces
WT ( X ) = Eθ (W |T )
e
es el mejor estimador insesgado (UMVUE) de τ (θ). Si, además, V (WT ) < ∞
para todo θ, entonces WT es único.
Demostración: Como ya se vio anteriormente, WT ( X ) es insesgado: por la
e
ley de la esperanza iterada,
Eθ (WT ( X )) = Eθ (Eθ (W |T )) = Eθ (W ) = τ (θ).
e
Veamos ahora que sea cual sea el estimador insesgado W que se use en la
definición de WT ( X ), se obtiene siempre el mismo estimador WT ( X ). Sea W 0
e
e
otro estimador insesgado de τ (θ) y sea WT0 = Eθ (W 0 |T ). Definimos g(T ) =
Eθ (W |T ) − Eθ (W 0 |T ). Ası́, Eθ (g(T )) = τ (θ) − τ (θ) = 0 y por ser T completo
112CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con
probabilidad 1.
Concluimos que existe un único estimador insesgado de τ (θ) función del
estadı́stico suficiente y completo. Veamos que este estimador es el UMVUE. Sea
W 0 un estimador insesgado de τ (θ) cualquiera. Por el teorema de Rao-Blackwell,
Vθ (E(W 0 |T )) ≤ Vθ (W 0 ), para todo θ,
pero acabamos de ver que WT = E(W 0 |T ), luego
Vθ (WT ) ≤ Vθ (W 0 ), para todo θ,
y WT es UMVUE.
La unicidad de WT está garantizada por el teorema 28.
2
La demostración del teorema de Lehmann-Scheffé se basa en el hecho de que,
si existen estimadores insesgados, esencialmente sólo existe uno que sea función
del estadı́stico suficiente y completo, pues condicionando cualquiera de los insesgados al estadı́stico suficiente y completo se obtiene siempre el mismo resultado.
El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas
se ha reducido la varianza, llegando ası́ al UMVUE.
La principal conclusión del teorema de Lehmann-Scheffé es que si existe
un estimador insesgado de τ (θ) que sea función de un estadı́stico suficiente y
completo, entonces es el único UMVUE de τ (θ).
El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffé:
Corolario 5 Si T ( X ) es un estadı́stico suficiente y completo, cualquier función
e
suya que tenga esperanza finita es el UMVUE de su esperanza.
Ejemplo 56, página 109. Continuación. Sea X1 , . . . , Xn m.a.s. de X ∼
Pn
Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Sabemos que T ( X ) = i=1 Xi
e
es estadı́stico suficiente para λ y además es completo, por ser la Poisson una
familia exponencial. Hemos visto que
µ
¶Pn Xi
i=1
n−1
θ̂ =
n
es un estimador insesgado de θ. Como es una función del estadı́stico suficiente y
completo, es el UMVUE de θ = e−λ . Veamos que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos. El corolario 4
nos permite probarlo. Puesto que X es eficiente para λ (ver ejemplo 50) por
el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede
escribirse ası́:
∂
log L(λ| x ) = a(λ)(X − λ)
∂λ
e
4.2. MEJOR ESTIMADOR INSESGADO
113
para todo λ y cierta función a(λ). Podemos transformar esa expresión ası́:
∂
log L(λ| x ) = (a(λ)λeλ )
∂λ
e
µ
e−λ
X − e−λ
λ
¶
de donde se deduce que no existe ningún estimador eficiente de e−λ puesto que
−λ
de haberlo tendrı́a que ser e λ X y esa cantidad no es un estadı́stico al depender
del parámetro desconocido λ. Concluimos que θ̂ no alcanza la cota de CramérRao.
.
.
Ejemplo 57
Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad de
obtener exactamente un éxito, es decir,
τ (θ) = Pθ (X = 1) = kθ(1 − θ)k−1 .
El estadı́stico
T =
n
X
Xi ∼ B(nk, θ)
i=1
es suficiente y completo para θ. El estimador
W = I{X1 =1}
es insesgado para τ (θ). Por lo tanto, el estimador
"
#
à n
!
n
X
X
WT = E IX1 =1 |
Xi = φ
Xi
i=1
i=1
es el mejor estimador insesgado de τ (θ) = P (X = 1). Calculemos WT :
"
#
Ã
!
n
n
X
X
φ(t) = E IX1 =1 |
Xi = t = P X1 = 1|
Xi = t =
i=1
i=1
¡
¢ t−1
Pn
θ (1 − θ)k(n−1)−(t−1)
kθ(1 − θ)k−1 k(n−1)
P (X1 = 1)P ( i=2 Xi = t − 1)
t−1
Pn
=
=
¡kn¢
t
kn−t
P ( i=1 Xi = t)
t θ (1 − θ)
µ
k
¡k(n−1)¢
t−1
¡kn
¢
t
.
k
=⇒ WT =
k(n − 1)
Pn
i=1 Xi − 1
µ
¶
kn
Pn
i=1 Xi
¶
.
.
114CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
El teorema de Lehmann-Scheffé resuelve el problema de la búsqueda del UMVUE cuando existen simultáneamente un estimador insesgado y un estadı́stico
suficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen.
Es posible encontrar ejemplos en los que no existen estimadores insesgados del
parámetro de interés (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995,
donde se prueba que no existe estimador insesgado del cociente p/(1−p) –odds en
inglés; podrı́a traducirse como ventajas, aunque no existe una traducción unánimemente aceptada– en un experimento binomial). Además, no está garantizada
la existencia de estadı́sticos suficientes completos (ver el ejemplo 6.9 de Vélez y
Garcı́a 1993, donde se prueba la imposibilidad de encontrar un estimador UMVUE en el muestreo de la U (θ, θ + 1), donde no existe un estadı́stico suficiente
completo). En el caso de familias exponenciales el teorema 14 sı́ garantiza la
existencia de estadı́sticos suficientes y completos.
Incluso en el caso de que exista un estimador insesgado y un estadı́stico
suficiente y completo, la aplicación del teorema de Lehmann-Scheffé puede dar
lugar a un estimador UMVUE poco sensato. Ası́, Cristóbal (1992) (p. 202) cita
el siguiente ejemplo. En el muestreo de la N (µ, 1), el UMVUE de µ2 es (X)2 −
(1/n), que no es un estimador recomendable pues puede tomar valores negativos.
Además el estimador máx{0, (X)2 − (1/n)} tiene menor error cuadrático medio,
lo cuál hace inadmisible al estimador UMVUE. Véanse también los ejemplos
2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995).
La existencia de estos ejemplos patológicos se debe a que la condición de
insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar únicamente estimadores con propiedades poco deseables. Pagar el precio de cierto
sesgo puede permitir considerar otros estimadores con mejores propiedades (en
términos de error cuadrático medio, por ejemplo, o en comportamiento asintótico).
4.3.
4.3.1.
Comportamiento asintótico
Consistencia
Una sucesión de estimadores Wn = Wn (X1 , . . . , Xn ) es una sucesión de
estimadores consistentes para el parámetro θ si para cada ε > 0 y
para cada θ ∈ Θ, se tiene que
lı́m Pθ (|Wn − θ| < ε) = 1,
n−→∞
o equivalentemente, si
lı́m Wn = θ en probabilidad para todo θ ∈ Θ.
n−→∞
Obsérvese que en esta definición las distribuciones de probabilidad de las sucesiones de variables aleatorias {Wn }n varı́an con θ.
4.3. COMPORTAMIENTO ASINTÓTICO
115
La propiedad de consistencia es un requerimiento mı́nimo que debe verificar
cualquier sucesión de estimadores, puesto que equivale a pedir que el parámetro pueda estimarse con una precisión prefijada a base de aumentar el tamaño
muestral tanto como sea necesario.
El siguiente resultado establece una condición suficiente para que una sucesión de estimadores sea consistente. Denotamos por B(W ) el sesgo de un
estimador W de θ: B(W ) = E(W ) − θ.
Teorema 31 Si la sucesión Wn de estimadores de θ verifica que
a) lı́mn−→∞ Vθ (Wn ) = 0 para todo θ,
b) lı́mn−→∞ Bθ (Wn ) = 0 para todo θ,
entonces Wn es una sucesión de estimadores consistentes de θ.
Demostración: Obsérvese que
Eθ ((Wn − θ)2 ) = Vθ (Wn ) + Bθ2 (Wn ).
Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0
y todo θ ∈ Θ,
Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤
Eθ ((Wn − θ)2 )
=
ε2
1
(Vθ (Wn ) + Bθ2 (Wn )) −→n 0,
ε2
lo que equivale a decir que
lı́m Pθ (|Wn − θ| < ε) = 1.
n−→∞
2
Los siguientes resultados se derivan de propiedades de la convergencia en
probabilidad de variables aleatorias y son útiles para determinar la consistencia
de transformaciones de estimadores consistentes.
Teorema 32 Sea {Wn }n una sucesión consistente para θ.
1. Si {an }n y {bn }n son sucesiones de números reales tales que lı́mn an = 1
y lı́mn bn = 0, entonces, {an Wn + bn }n es consistente para θ.
2. Si g es una función continua definida en Θ, entonces {g(Wn )}n es una
sucesión consistente para g(θ).
3. Si {Vn }n es una sucesión de estimadores consistentes para δ y g(θ, δ)
es una función continua para todo (θ, δ), entonces {g(Wn , Vn )}n es una
sucesión consistente para g(θ, δ).
116CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Demostración: Los dos primeros apartados se deducen del tercero. La prueba
de éste, basada en las definiciones de convergencia en probabilidad y de continuidad de una función, puede verse, por ejemplo, en Arnold (1990) (teorema
6-8).
2
Ejemplo 58
Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se
define el odds ratio (podrı́a traducirse como tasa de ventajas, aunque no existe
una traducción unánimemente aceptada)
ψ = ψ(p1 , p2 ) =
p2
1−p2
p1
1−p1
=
p2 1 − p1
.
1 − p2 p1
Podemos estimar pj mediante p̂j = Xj /nj , que por la ley débil de los grandes
números es estimador consistente de pj , j = 1, 2. Usando entonces el estimador
basado en el principio de sustitución, tenemos el siguiente estimador de ψ:
ψ̂ = ψ(p̂1 , p̂2 ) =
X2 /n2 (1 − X1 /n1 )
X2 (n1 − X1 )
=
.
(1 − X2 /n2 )X1 /n1
(n2 − X2 )X1
Si n1 y n2 tienden simultáneamente a ∞ (es decir, si lı́m nj /(n1 + n2 ) = aj > 0,
j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ̂:
ψ̂ = ψ(p̂1 , p̂2 ) −→ ψ(p1 , p2 ) = ψ en probabilidad,
es decir, ψ̂ es estimador consistente de ψ.
.
4.3.2.
.
Normalidad asintótica
El estudio de la distribución de un estimador para un tamaño muestral
n finito es a menudo complejo y en ocasiones involucra cálculos prácticamente
imposibles de llevar a cabo. Por otra parte, la comparación de medias y varianzas
de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador
de pj /(1−pj ) visto en el ejemplo 58 no estará definido con probabilidad positiva,
puesto que P (Xj = nj ) > 0).
En muchas ocasiones sólo es posible realizar estudios del comportamiento
asintótico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado
una propiedad asintótica: la consistencia. Veremos ahora que es posible medir la
velocidad de convergencia de estimadores consistentes y ası́ seleccionar los que
convergen al verdadero valor del parámetro más rápidamente.
Ejemplo 59
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este
4.3. COMPORTAMIENTO ASINTÓTICO
117
modelo, el estimador de momentos de λ coincide con el máximo verosı́mil: λ̂n =
X n . La distribución exacta de λ̂ es conocida: es la de una Poisson(nλ) dividida
por n. Sin embargo ésta es poco manejable y resulta mucho más útil aproximarla
por una distribución más sencilla a la que se acerca asintóticamente.
La versión del teorema central del lı́mite para variables aleatorias independientes e idénticamente distribuidas puede aplicarse porque V (X) = λ < ∞.
Ası́,
√
n(λ̂n − λ)
√
−→ N (0, 1) débilmente,
λ
es decir, para todo λ ∈ Θ y para todo w ∈ IR,
µ√
¶
n(w − λ)
√
Pλ (λ̂ ≤ w) ≈ φ
λ
donde φ es la función de distribución de la normal estándar. La aproximación
es tanto mejor cuanto mayores son n o λ.
Obsérvese que λ̂n es consistente pues, por las leyes de los grandes números,
λ̂n = X n −→P E(X) = λ. Ası́, λ̂n − λ −→ 0 en probabilidad y también en
distribución. Esta convergencia a la distribución degenerada en 0 no nos informa
de la velocidad a la que λ̂n se acerca a λ ni de cómo lo hace (¿se distribuyen las
observaciones de λ̂n simétricamente alrededor de λ?, por ejemplo).
√
El hecho de que V ( n(λ̂n − λ)) = λ para todo n indica que la velocidad a
√
la que λ̂n se acerca a λ es la misma con la que 1/ n se acerca a 0: multiplicar
√
por n es la forma de estabilizar las diferencias (λ̂n − λ), es la estandarización
adecuada.
El resultado derivado del teorema central del lı́mite, la distribución asintóti√
ca de n(λ̂n − λ) es N (0, λ), responde a la pregunta de cómo es la aproximación
λ̂n a λ: los valores del estimador se distribuyen alrededor del verdadero valor del
parámetro igual que los valores de una variable aleatoria N (0, λ) se distribuyen
alrededor de 0.
.
.
Ejemplo 60
En la estimación del parámetro θ de una U (0, θ), los siguientes son estimadores consistentes: Tn = 2X n , Wn = máxi=1...n Xi . De ellos, el primero converge a θ más lentamente que el segundo: por el teorema central del lı́mite
√
Tn0 = n(Tn − θ) converge débilmente a una distribución no degenerada (con√
cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en
probabilidad a la distribución degenerada en 0 (la varianza de Wn0 y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es
estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la
√
misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor
118CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
velocidad.
.
.
A menudo será posible también comparar estimadores que convergen a la
misma velocidad mediante lo que llamaremos varianza asintótica.
Ejemplo 60, página 117. Continuación. El estadı́stico basado en la mediana, Sn = 2 · mediana{X1 , . . . , Xn }, también es estimador consistente de θ y
además se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que
√
Sn0 = n(Sn − θ) −→ N (0, θ2 ) débilmente.
√
Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/ n va a 0),
pero la varianza de la distribución a la que converge Tn0 (la versión centrada y
normalizada de Tn ) es menor que la varianza de la distribución lı́mite de Sn0 .
Se dirá entonces que Tn tiene menor varianza asintótica que Sn y, por lo tanto,
será Tn será preferible a Sn .
.
.
En la práctica la gran mayorı́a de los estimadores usuales, convenientemente
centrados y normalizados, tienen distribución asintótica normal. Se dice que
presentan normalidad asintótica y se denota
θ̂n ∼ AN(θ, vn )
cuando
1
√ (θ̂n − θ) −→D N (0, 1).
vn
A la cantidad vn se la llama varianza asintótica de θ̂n . El teorema central
del lı́mite es el responsable de la normalidad asintótica de muchos estimadores.
La normalidad asintótica no sólo aparece en estimadores univariantes, sino
también en estimadores multivariantes, como muestra el siguiente ejemplo.
Ejemplo 61
Sean {(Xn , Yn )t }n∈IN una sucesión de variables aleatorias bivariantes independientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se
supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t =
(E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t ,
i = 1, . . . , n.
La distribución de una variable aleatoria bivariante está caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes
4.3. COMPORTAMIENTO ASINTÓTICO
119
(esto se debe a que el cálculo de la función generatriz de momentos bivariante de
(X, Y )t en el punto (s, t)t equivale a calcular la función generatriz de momentos
de sX + tY en el punto 1). Del mismo modo, para encontrar la distribución
asintótica de una sucesión de variables aleatorias bivariantes sólo es necesario
encontrar la distribución asintótica de combinaciones lineales arbitrarias de sus
componentes. Ası́ se reduce el problema bivariante a problemas univariantes.
Calculemos la distribución asintótica de
µµ ¶ µ ¶¶
√
Xn
µX
n
−
.
Yn
µY
Sean a, b números reales arbitrarios. Las variables aleatorias aXi + bYi , i =
1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y
por el teorema central del lı́mite
à n
!
√
1X
n
(aXi + bYi ) − E(aX + bY ) −→D N (0, V (aX + bY )),
n i=1
que puede reescribirse ası́:
´
³ √
√
a n(X n − µX) + b n((Y )n − µY ) −→D
N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y ))
Consideremos la variable aleatoria normal bivariante
µ ¶
µµ ¶ µ
¶¶
U
0
V (X)
Cov(X, Y )
∼ N2
,
.
Cov(X, Y )
V (Y )
V
0
√
La distribución de aU + bV es la misma que la distribución lı́mite de a n(X n −
√
µX) + b n(Y n − µY ), de donde se sigue que
√
√
a n(X n − µX) + b n(Y n − µY ) −→D aU + bV,
y como a y b son arbitrarios se sigue que
√
µµ
n
normal bivariante.
.
4.3.3.
Xn
Yn
¶
µ ¶¶
µ ¶
µX
U
−
−→D
,
µY
V
.
Método delta
En muchos casos, sólo será de interés el comportamiento del estimador alrededor del verdadero valor del parámetro. Si además el estimador es una función
120CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
suave de un estadı́stico cuyo comportamiento asintótico es conocido, esa función podrá linealizarse en un entorno del verdadero valor del parámetro, lo cuál
facilitará enormemente el estudio asintótico del estimador.
Ejemplo 59, página 116. Continuación. Queremos estimar θ = P (X =
0) = e−λ . Por el principio de invariancia, el estimador máximo verosı́mil de θ es
θ̂n = e−X n , dado que X n es el estimador máximo verosı́mil de λ.
El teorema 32 garantiza la consistencia de θ̂n , porque X n es consistente para
λ y g(λ) = e−λ es una función continua. Estamos interesados ahora en encontrar
la distribución asintótica de
√
n(θ̂n − θ) =
√
n(e−X n − e−λ ).
La herramienta en la que nos basaremos para hallar esa distribución asintótica
es el método delta.
.
.
Presentaremos en primer lugar el método delta univariante y, más adelante, se generalizará al caso multivariante. En ambos casos, el fundamento
teórico que sustenta el método delta es el desarrollo en serie de Taylor de una
función.
Sea f una función con derivada en el punto a ∈ IR. El desarrollo de primer
orden en serie de Taylor de f alrededor del punto a es
f (x) ≈ f (a) + f 0 (a)(x − a),
es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden
2 en serie de Taylor de f alrededor de a es
1
f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 ,
2
aproximación cuadrática de f (x). El siguiente teorema justifica la aproximación
de una función mediante sus desarrollos de Taylor.
Teorema 33 (Fórmula de Taylor) Si f (x) es una función con r + 1 derivadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene
que
1
f (x) = f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + . . . +
2
1 (r)
1
f (a)(x − a)r +
f (r+1) (α(x, a))(x − a)r+1 ,
r!
(r + 1)!
donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a) − a| ≤ |x − a|.
4.3. COMPORTAMIENTO ASINTÓTICO
Demostración: Véase, por ejemplo, Spivak (1970), teorema 19.4.
121
2
El uso que haremos de este teorema será para desarrollos de primer y segundo
orden.
El siguiente resultado será útil a la hora de establecer la distribución asintótica de algunos estimadores. En particular, se usa en la demostración del método
delta.
Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de variables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X
e Yn −→P a, entonces
Xn + Yn −→D X + a,
Xn Yn −→D aX,
si g(x, y) es una función de IR2 en IR continua en (x, a) para todo x del
soporte de X, entonces
g(Xn , Yn ) −→D g(x, y).
Demostración: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del
teorema de la aplicación continua para variables aleatorias definidas en espacios
métricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la
definición de convergencia en distribución (ver, por ejemplo, Schervish 1995,
definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa
cuando se tratan variables aleatorias definidas en IR.
En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostración
de los apartados 1 y 2 en la que se usa la definición de convergencia en distribución basada en la convergencia de las funciones de distribución.
2
Pasamos ahora a enunciar y probar el resultado conocido como método delta.
Teorema 35 (Método delta) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θ̂n una sucesión de estimadores
de θ tales que
an (θ̂n − θ) −→D N (0, σθ2 )
y sea g(x) una función con primera derivada continua en un intervalo que contiene a θ. Entonces
an (g(θ̂n ) − g(θ)) −→D N (0, (g 0 (θ))2 σθ2 ).
Demostración: Por el desarrollo de Taylor de primer orden,
g(θ̂n ) = g(θ)+g 0 (α(θ, θ̂n ))(θ̂n −θ) =⇒ an (g(θ̂n )−g(θ)) = g 0 (α(θ, θ̂n ))an (θ̂n −θ),
122CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
donde |α(θ, θ̂n ) − θ| ≤ |θ̂n − θ|. Obsérvese que θ̂n −→P θ. En efecto,
θ̂n − θ =
1
an (θ̂n − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒
an
θ̂n − θ −→P 0 =⇒ α(θ, θ̂n ) −→P θ.
Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 y
Xn = an (θ̂n − θ). Ahora, aplicando el teorema 32, por ser g 0 continua en θ se
tiene que g 0 (α(θ, θ̂n )) −→P g 0 (θ). Aplicando de nuevo el teorema de Slutzky se
obtiene el resultado deseado:
an (g(θ̂n ) − g(θ)) =
g 0 (α(θ, θ̂n )) 0
g (θ)an (θ̂n − θ) −→D
g 0 (θ)
|
{z
}
−→P 1
g 0 (θ)N (0, σθ2 ) =D N (0, (g 0 (θ))2 σθ2 ).
2
La sucesión an que habitualmente aparece es an =
√
n.
Ejemplo 59, página 116. Continuación. Estimamos θ = P (X = 0) = e−λ
√
mediante θ̂n = e−X n . Por otra parte, n(λ̂n − λ) −→D N (0, λ). Además g(λ) =
e−λ es derivable con derivada continua: g 0 (λ) = −e−λ .
Aplicamos el método delta para determinar la distribución asintótica de θ̂n :
√
√
n(θ̂n − θ) = n(e−X n − e−λ ) −→D N (0, e−2λ λ).
.
.
Veremos ahora el método delta multivariante, aplicable cuando el espacio paramétrico es multidimensional y se desea estimar una función real del
parámetro.
Sea f : IRk −→ IR una función con segundas derivadas parciales en el punto
a = (a1 , a2 , . . . , ak ). La versión multivariante del teorema de Taylor garantie
za que esa función puede aproximarse por su desarrollo en serie de Taylor de
segundo orden alrededor de a :
e
2
k
X
∂f( a )
1 ∂ f( a )
e (xi − ai ) +
e (xi − ai )(xj − aj )
f (x1 , . . . , xk ) ≈ f ( a ) +
∂xi
2 ∂xi xj
e
i=1
si x = (x1 , . . . , xk )t está en un entorno de a . La aproximación anterior se puede
e
e
escribir en forma vectorial y matricial:
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ),
e
e
e
e
e
e
e
e e
e
4.3. COMPORTAMIENTO ASINTÓTICO
123
donde ∇f ( a ) es el gradiente de f en a , el vector de derivadas parciales
e
e
Ã
!t
∂f( a )
∂f( a )
e ,...,
e
∇f ( a ) =
,
∂x1
∂xk
e
y Hf ( a ) es la matriz hessiana de f en a :
e
e
à 2
!
∂ f( a )
e
Hf ( a ) =
∂xi xj
e
1≤i≤k, 1≤j≤k
La aproximación de primer orden se expresa ası́,
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ),
e
e
e
e
e
y es útil para probar el siguiente resultado.
Teorema 36 (Método delta multivariante) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea ˆθ = (θ̂n1 , . . . , θ̂nk )
en
una sucesión de estimadores de θ tales que
e
ˆ
an ( θ − θ ) −→D Nk ( 0 , V ),
en
e
e
y sea g( x ) una función con primeras derivadas parciales continuas en una bola
e
abierta que contiene a θ. Entonces
an (g( ˆθ ) − g( θ )) −→D Nk ( 0 , (∇g(θ))t V (∇g(θ))).
e
e
en
Demostración: Ver, por ejemplo, Arnold (1990), teorema 6-16.
Lo más usual es que la sucesión an sea an =
√
2
n.
Ejemplo 58, página 116. Continuación. Buscaremos la distribución asintótica del estimador del odds-ratio ψ = ψ(p1 , p2 ) = (p2 /(1 − p2 ))((1 − p1 )/p1 ):
µ
¶
X1 X2
X2 (n1 − X1 )
ψ̂n = ψ
,
=
.
n1 n2
(n2 − X2 )X1
En primer lugar, de lo visto en el ejemplo 61 se sigue que
õ ¶ à p (1−p )
¶
µ
1
1
√
X2
0
X1
γ1
− p1 ,
− p2 −→D N2
,
n
n1
n2
0
0
0
p2 (1−p2 )
γ2
!!
,
donde γj = lı́m(nj /(n1 + n2 )) > 0, j = 1, 2.
El gradiente de la función ψ(x, y) = (y(1 − x))/(x(1 − y)) tiene por componentes
−y
∂ ψ(x, y)
1−x
∂ ψ(x, y)
=
,
=
.
∂x
(1 − y)x2
∂y
(1 − y)2 x
124CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Ası́,
√
n(ψ̂n − ψ) −→D N (0, σ 2 ),
donde la varianza σ 2 es
µ
¶Ã
−p2
1 − p1
2
σ =
,
(1 − p2 )p21 (1 − p2 )2 p1
µ
p1 (1−p1 )
γ1
0
0
!Ã
p2 (1−p2 )
γ2
−p2
(1−p2 )p21
1−p1
(1−p2 )2 p1
!
=
¶2
µ
¶2
−p2
p1 (1 − p1 )
1 − p1
p2 (1 − p2 )
+
=
2
2
(1 − p2 )p1
γ1
(1 − p2 ) p1
γ2
µ
¶2 µ
¶
p2 (1 − p1 )
1
1
+
=
(1 − p2 )p1
p1 (1 − p1 )γ1
p2 (1 − p2 )γ2
µ
¶
1
1
ψ2
+
.
p1 (1 − p1 )γ1
p2 (1 − p2 )γ2
Por lo tanto, la varianza asintótica de ψ̂n es
µ
¶
σ2
1
1
2
≈ψ
+
.
n
p1 (1 − p1 )n1
p2 (1 − p2 )n2
.
.
4.3.4.
Eficiencia relativa asintótica
Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesión de estimadores de una función
e
τ (θ) que verifica lo siguiente:
√
n(Tn ( X ) − τ (θ)) −→D N (b(θ), σ 2 (θ)).
e
Si b(θ) = 0 diremos que Tn ( X ) es asintóticamente insesgado (en econometrı́a
√
e
se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es
e
asintóticamente sesgado.
Ejemplo 62
Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e idénticamente dis√
tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una
e
constante a 6= 0. Se tiene que
√
√
n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1),
e
luego Tn es asintóticamente sesgado: la diferencia entre la esperanza del esti√
mador y el parámetro estimado, multiplicada por n, no tiende a 0. Obsérvese
que, no obstante, Tn es un estimador consistente de µ:
√
Tn ( X ) = X n + a/ n −→P µ + 0 = µ.
e
.
.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL125
Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de τ (θ) asintóticamente
e
e
normales:
´
√ ³
n Tn ( X ) − τ (θ) −→D N (0, σT2 (θ)),
e
´
√ ³
n Sn ( X ) − τ (θ) −→D N (0, σS2 (θ)).
e
Se define la eficiencia relativa asintótica de Sn respecto a Tn como
ARE(θ, Sn , Tn ) =
1/σS2 (θ)
σT2 (θ)
=
.
1/σT2 (θ)
σS2 (θ)
El valor de la eficiencia relativa asintótica puede interpretarse como el cociente de los tamaños de muestra necesarios para obtener la misma precisión asintótica (o la misma varianza asintótica) mediante los dos estimadores en la estimación de τ (θ). En efecto, si elegimos tamaño muestral m para T y n para S, las
varianzas asintóticas son, respectivamente, σT2 (θ)/m y σS2 (θ)/n. Si forzamos a
que ambas sean iguales, se tiene que
σT2 (θ)
σ 2 (θ)
m
σ 2 (θ)
= S
⇐⇒
= T2
= ARE(θ, Sn , Tn ).
m
n
n
σS (θ)
Es decir, si ARE(θ, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asintóticamente: para tener la misma precisión con el estimador S hace falta una muestra
el doble de grande que si utilizásemos T (ARE = 0,5 = m/n =⇒ n = 2m).
4.4.
Teorı́a asintótica para el estimador máximo
verosı́mil
Sea X una variable aleatoria con función de densidad (o de masa) f (x|θ),
Qn
θ ∈ Θ. Sea L(θ| x n ) = i=1 f (xi |θ) la función de verosimilitud de una muestra
e
de tamaño n de X: X1 , . . . , Xn .
Teorema 37 Supongamos que se verifican las siguientes condiciones:
C1: El parámetro θ es identificable, en el sentido de que distintos valores de θ
dan lugar a distintas distribuciones de probabilidad para X.
C2: El conjunto {x : f (x|θ) > 0} es el mismo para todo θ ∈ Θ.
C3: La cantidad
·
e(θ0 , θ) = Eθ0 log
existe para todo par θ, θ0 en Θ.
Entonces, para todo θ 6= θ0 se verifica que
µ
f (X|θ)
f (X|θ0 )
¶¸
126CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
a)
"
Eθ0 log
Ã
L(θ| X n )
e
L(θ0 | X n )
e
!#
< 0.
b)
lı́m Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1.
e
e
n−→∞
Demostración: Probemos a). Si f (x|θ) es una función de densidad, se tiene
que
¸ Z
·
f (x|θ)
f (X|θ)
=
f (x|θ0 )dx = 1.
Eθ0
f (X|θ0 )
f (x|θ0 )
Análogo resultado se obtiene si f (x|θ) es función de masa.
Como log u < u − 1, para todo u ∈ IR − {1}, se tiene que
µ
¶ µ
¶
f (x|θ)
f (x|θ)
log
<
−1
f (x|θ0 )
f (x|θ0 )
salvo si f (x|θ) = f (x|θ0 ). Por la hipótesis C1 eso no puede ocurrir en un conjunto
de x’s de medida 1, luego
" Ã
!#
· µ
¶¸
·
¸
L(θ| X n )
f (x|θ)
f (x|θ)
e
Eθ0 log
= nEθ0 log
< nEθ0
− 1 = 0,
f (x|θ0 )
f (x|θ0 )
L(θ0 | X n )
e
y a) queda probado.
Veamos ahora b). Por la ley débil de los grandes números,
!
Ã
µ
¶
n
L(θ| X n )
1X
1
f (Xi |θ)
e
=
log
log
−→n e(θ0 , θ) en probabilidad.
n
n i=1
f (Xi |θ0 )
L(θ0 | X n )
e
Por a), el lı́mite e(θ0 , θ) es estrictamente menor que 0. Por tanto, si se toma ε,
con 0 < ε < −e(θ0 , θ), se tiene que
¯
(
Ã
!
)
(¯
Ã
!
)
¯
¯1
L(θ| X n )
L(θ| X n )
1
¯
¯
e
e
Pθ0
log
> 0 < Pθ0 ¯ log
− e(θ0 , θ)¯ > ε −→n 0,
¯n
¯
n
L(θ0 | X n )
L(θ0 | X n )
e
e
porque si x > 0, e < 0 y ε < −e, entonces |x − e| = x − e > −e > ε. Pero
(
)
L(θ| X n )
e
Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1 − Pθ0
>1 =
e
e
L(θ0 | X n )
e
!
)
(
Ã
L(θ| X n )
1
e
> 0 −→n 1,
1 − Pθ0
log
n
L(θ0 | X n )
e
lo que completa la prueba.
2
Observar que el apartado b) del teorema puede interpretarse ası́: la verosimilitud es máxima en el verdadero valor θ0 del parámetro, si la muestra es
suficientemente grande.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL127
Teorema 38 Supongamos que además de C1, C2 y C3, se verifican también
C4: Θ es un conjunto abierto.
C5: ∂f (x|θ)/∂θ es continua en θ.
Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una
sucesión {θ̂n }n de raı́ces de la ecuación del score
∂
log L(θ| X n ) = 0
∂θ
e
(la que se resuelve para hallar el estimador de máxima verosimilitud de θ) que
converge al verdadero valor del parámetro θ0 en probabilidad.
Demostración: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definen
los conjuntos
Sn = { x n ∈ X : L(θ0 | x n ) > L(θ0 − ε| x n ) y L(θ0 | x n ) > L(θ0 + ε| x n )}.
e
e
e
e
e
Por el teorema 37,
Pθ0 ( X n ∈ Sn ) −→n 1.
e
La condición C5 implica la continuidad de L(θ| x n ) y de su derivada parcial
e
respecto a θ. Ası́, para todo x n ∈ Sn , debe existir θ̃n = θ̃n ( x n ) ∈ (θ0 −ε, θ0 +ε),
e
e
máximo local de L(θ| x n ). Ese máximo local ha de satisfacer
e
¯
¯
∂
log L(θ| X n )¯¯
= 0.
∂θ
e
θ=θ̃n
Puede haber más de un máximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, más
de una solución de la ecuación del score (también puede haber mı́nimos locales
entre las soluciones). Llamemos θ̂n = θ̂n ( x n ) a la solución más cercana a θ0 que
e
sea máximo local. Entonces |θ̂n − θ0 | < ε y esto es cierto para todo x n ∈ Sn .
e
Por lo tanto
Pθ0 {Xn : |θ̂n ( X n ) − θ0 | < ε} ≥ Pθ0 {Xn ∈ Sn } −→ 1
e
de donde se sigue que
θ̂n −→P θ.
2
El teorema 38 demuestra que siempre existe una raı́z de la ecuación de score
(que además es máximo local) que es consistente. Sin embargo, cuando la raı́z no
es única (cuando no es el único máximo local) la determinación de θ̂n depende
del verdadero valor θ0 , lo cuál hace que θ̂n no sea un estimador del parámetro.
El teorema 38 es realmente interesante cuando la ecuación del score tiene raı́z
única, porque en este caso esa raı́z es el estimador máximo verosı́mil de θ y el
128CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
teorema garantiza su consistencia. Si la función de verosimilitud es estrictamente
cóncava, entonces se tiene la unicidad, y como consecuencia la consistencia del
estimador máximo verosı́mil.
El siguiente teorema establece la normalidad asintótica de las sucesiones consistentes de raı́ces de la ecuación del score, cuya existencia garantiza el teorema
38.
Teorema 39 Supongamos que además de verificarse C1, C2, C3, C4 y C5, se
verifican también las hipótesis H1 y H2 del teorema de Cramér-Rao (teorema
25) y la siguiente hipótesis:
3
∂
C6: Existe ∂θ
3 log fθ (x), cuyo valor absoluto está acotado por una función
K(x) tal que Eθ [K(X)] ≤ k.
Sea {θ̂n }n una sucesión consistente de raı́ces de la ecuación del score: θ̂n −→P
θ0 , si θ0 es el verdadero valor del parámetro. Entonces
µ
¶
√
1
n(θ̂n − θ0 ) −→D N 0,
,
I(θ0 )
donde
I(θ0 ) = lı́m
n−→∞
1
I
(θ0 ) = IX (θ0 ).
n Xn
e
Demostración: Hacemos el desarrollo de Taylor de segundo orden de la función
score
∂
S(θ| X n ) =
log L(θ| X n )
∂θ
e
e
en torno a θ0 y la evaluamos en θ̂n :
0 = S(θ̂n | X n ) = S(θ0 | X n )+
e
e
∂
1
∂2
(θ̂n − θ0 ) S(θ0 | X n ) + (θ̂n − θ0 )2 2 S(θ∗ (θ̂n , θ0 )| X n )
∂θ
2
∂θ
e
e
√
donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. Dividiendo la expresión anterior por n se
obtiene la siguiente:
1
0 = √ S(θ0 | X n )+
n
e
¸
·
2
√
1 ∂
1 ∂
∗
S(θ0 | X n ) +
S(θ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) .
n(θ̂n − θ0 )
n ∂θ
2n ∂θ2
e
e
Por otra parte, el teorema central del lı́mite implica que
¯
n
1
1 X ∂ log f (Xi |θ) ¯¯
√ S(θ0 | X n ) = √
−→D N (0, IX (θ0 )),
¯
∂θ
n
n i=1
e
θ=θ0
puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e idénticamente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL129
Además, por la ley débil de los grandes números,
−
¯
n
1 ∂
1 X ∂ 2 log f (Xi |θ) ¯¯
S(θ0 | X n ) = −
−→P
¯
n ∂θ
n i=1
∂θ2
e
θ=θ0
"
#
¯
∂ 2 log f (X|θ) ¯¯
IX (θ0 ) = E −
.
¯
∂θ2
θ=θ0
Usando de nuevo la ley de los grandes números, se tiene que
¯
n ¯
1 X ¯¯ ∂ 3 log f (Xi |θ) ¯¯
1 ∂2
∗
|
S(θ (θ̂n , θ0 )| X n )| ≤
¯ ∗≤
n ∂θ2
n i=1 ¯
∂θ3
e
θ=θ
n
1X
K(Xi ) −→P E(K(X)) ≤ k,
n i=1
2
∂
∗
de donde se sigue que n1 | ∂θ
2 S(θ (θ̂n , θ0 )| X n )| está acotado en probabilidad por
e
k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε
tiende a 1. En definitiva, y dado que θ̂n −→P θ0 , se tiene que
1 ∂2
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) −→P 0.
2n ∂θ2
e
Combinado los resultados anteriores, podemos escribir
√
n(θ̂n − θ0 ) =

−1
 1 ∂

1 ∂2
−
S(θ
|
X
)
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 )
−
0
n
 n ∂θ

2
|
{z e } |2n ∂θ
{z e
}
−→P 0
−→P IX (θ0 )
1
√ S(θ0 | X n )
n
e
|
{z
}
−→D N (0,IX (θ0 ))
y, por el teorema de Slutzky, concluir que
√
n(θ̂n − θ0 ) −→D N
µ
0,
1
IX (θ0 )
¶
.
2
El enunciado del teorema 39 puede generalizarse al caso de variables aleatorias no idénticamente distribuidas. Por eso se expresa la varianza lı́mite del
estimador máximo verosı́mil en términos de I(θ0 ) en lugar de hacerlo directamente en términos de la información de Fisher de X.
El resultado del teorema 39 puede expresarse diciendo que el estimador máximo verosı́mil θ̂n de θ0 es asintóticamente normal:
θ̂n ∼ AN(θ0 , (nIX (θ0 ))−1 ).
Obsérvese que el estimador máximo verosı́mil es asintóticamente insesgado y
asintóticamente eficiente, puesto que su varianza lı́mite coincide con la
cota de Cramér-Rao.
130CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Para basar la inferencia sobre el parámetro θ en ese resultado es preciso
estimar la información de Fisher I (θ0 ) = nIX (θ0 ). El siguiente resultado
X
e
proporciona dos estimadores de esa cantidad.
Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los estadı́sticos On y En definidos como
¯
∂ 2 log L(θ| X n ) ¯¯
e
,
On = −
¯
¯
∂θ2
θ=θ̂n
En = I
(θ̂ ),
Xn n
e
divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la
información observada evaluada en el máximo, como En , la información
esperada evaluada en el máximo, estiman consistentemente la información de
Fisher contenida en la muestra acerca del parámetro.
Demostración:
¯
2
On
1 ∂ log L(θ| X n ) ¯¯
e
=−
=
¯
¯
n
n
∂θ2
θ=θ̂n
¯
¯
2
3
¯
1 ∂ log L(θ| X n ) ¯
1 ∂ log L(θ| X n ) ¯¯
e
e
−
−
¯
¯
¯
¯ ∗
n
∂θ2
n
∂θ3
θ=θ0
(θ̂n − θ0 )
θ=θ (θ0 ,θ̂n )
donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. El término de las derivadas terceras tiende
a 0 en probabilidad mientras que el primer término converge en probabilidad a
IX (θ0 ), por la ley de los grandes números (ver la demostración del teorema 39).
Por otra parte,
1
En
= I
(θ̂n ) = IX (θ̂n ) −→P IX (θ0 )
n
n Xn
e
por la consistencia de θ̂n y la continuidad de IX (θ), (garantizada por la condición
C6).
2
Podemos escribir entonces que el estimador máximo verosı́mil θ̂n de θ es
¶
µ
¶
µ
1
1
o θ̂n ∼ AN θ0 ,
.
θ̂n ∼ AN θ0 ,
On
En
En general, si se está estimando una transformación suave del parámetro
τ (θ) por máxima verosimilitud se tiene que
µ
¶
√
(τ 0 (θ0 ))2
n(τ (θ̂n ) − τ (θ0 )) −→D N 0,
.
IX (θ0 )
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL131
Ejemplo 63
Estimación máximo verosı́mil de un parámetro de la distribución de
Weibull.
Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β):
2 −x2 /β
xe
, 0 ≤ x ≤ ∞, β > 0.
β
à n !
Pn
2
2n Y
L(β| x n ) = n
xi e−( i=1 Xi )/β
β
e
i=1
f (x, β) =
n
1X 2
l (β| x n ) = K − n log β −
X
β i=1 i
e
n
n
1 X 2
∂
S(β| x n ) =
l (β| x n ) = − + 2
X
∂β
β
β i=1 i
e
e
n
1X 2
X
S(β| X n ) = 0 =⇒ β̂n =
n i=1 i
e
Ã
!¯
n
¯
¯
X
n
2
n
¯
2 ¯
S 0 (β| X n )¯
=
<0
−
X
=−
¯
i
2
3
¯
β
β
β=
β̂
n
e
β̂n2
i=1
β=β̂n
Por lo tanto la verosimilitud es estrictamente cóncava y β̂n es la única solución de
la ecuación del score, ası́ que es un máximo (es el estimador máximo verosı́mil)
y es estimador consistente de β.
La información observada es
−
n
∂ 2 l (β|Xn )
n
2 X 2
0
X
=
−S
(β|
X
)
=
−
+
n
∂β 2
β2
β 3 i=1 i
e
que evaluada en el estimador máximo verosı́mil vale
Ã
!¯
n
¯
n
2 X 2 ¯¯
¯
0
On = −S (β| X n )¯
= − 2+ 3
X ¯
β
β i=1 i ¯
β=β̂n
e
=
β=β̂n
n
β̂n2
n3
= Pn
i=1
Xi2
.
Por su parte, la información esperada (la información de Fisher, de hecho) es
n
2n
n
2n
n
(β) = −E(S 0 (β| X n )) = − 2 + 3 E(X 2 ) = − 2 + 3 β = 2 ,
Xn
β
β
β
β
β
e
e
que evaluada en el estimador máximo verosı́mil vale
I
En = I
X
e
n
(β̂n ) =
n
β̂n2
n3
= Pn
i=1
Xi2
= On .
Ası́ pues, en este ejemplo, tanto la información observada como la esperada valen
lo mismo al ser evaluadas en el estimador máximo verosı́mil y, por lo tanto, sólo
tenemos un estimador consistente de la información de Fisher.
132CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Volvamos a la expresión del logaritmo de la verosimilitud para deducir (por
el corolario 4) que el estimador máximo verosı́mil también es el UMVUE en este
problema:
n
∂
1X 2
X =⇒
l (β| x n ) =
l (β| x n ) = K − n log β −
β i=1 i
∂β
e
e
µ Pn
¶
n
2
1 X 2
n
n
i=1 Xi
−β .
− + 2
Xi = 2
β
β i=1
β
n
Por otra parte,
1
β0
l (β| X n ) −→P − log β −
= Eβ0 [log f (X|β)]
n
β
e
y si derivamos respecto a β,
∂
β0 − β
Eβ0 [log f (X|β)] =
∂β
β2
de donde se sigue que Eβ0 [log f (X|β)] alcanza su máximo en β = β0 .
Tenemos ası́ que l (β| X n )/n se maximiza en β̂n y que Eβ0 [log f (X|β)] se
e
maximiza en β0 . Además, la diferencia entre l (β| X n )/n y Eβ0 [log f (X|β)] es
e
pequeña y va a 0 cuando n crece, y las dos funciones varı́an suavemente en β.
De ello se desprende que la diferencia entre los puntos que las maximizan, β0 y
β̂n , han de ser también pequeñas y deben ir a 0 cuando n crece, por lo tanto
β̂n −→P β0 .
Eβ(log f(X|β))
l(β|Xn,1)/n
β
.
β
β
l(β|Xn,2)/n
β
.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL133
Ejemplo 64
En este ejemplo extendemos los resultados uniparamétricos al caso multiparamétrico.
Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi ),
i = 1, . . . , n, que siguen el modelo de regresión logı́stico, es decir, existen covariantes Z1 , . . . , Zn y parámetros desconocidos α y β tales que
¶
µ
pi
= α + βZi , i = 1, . . . , n.
log
1 − pi
Es posible despejar pi :
pi =
exp(α + βZi )
.
1 + exp(α + βZi )
Ello permite escribir la verosimilitud de la muestra:
¶yi
n
n µ
Y
Y
pi
L(α, β) =
pyi i (1 − pi )1−yi =
(1 − pi ).
1 − pi
i=1
i=1
El logaritmo de la verosimilitud es
µ
¶
¶
n µ
X
pi
l (α, β) =
yi log
+ log(1 − pi ) =
1 − pi
i=1
µ
n µ
X
yi (α + βZi ) + log
i=1
1
1 + exp(α + βZi )
¶¶
Las ecuaciones de los scores son éstas:
¶ X
n µ
n
∂ l (α, β) X
exp(α + βZi )
=
=
Yi −
(Yi − pi ),
∂α
1 + exp(α + βZi )
i=1
i=1
¶ X
n µ
n
Zi exp(α + βZi )
∂ l (α, β) X
=
Yi Zi −
=
Zi (Yi − pi ).
∂β
1 + exp(α + βZi )
i=1
i=1
Estas ecuaciones se resuelven por métodos numéricos genéricos o bien aplicando
algoritmos especı́ficos para este problema que consisten en la iteración de estimaciones por mı́nimos cuadrados ponderados. Sobre este tema pueden verse,
por ejemplo, la sección 10.3 de Garthwaite, Jollife y Jones (1995), o la sección
14.5.2 de Peña (1995).
Las componentes de la matriz de información observada son
n
−
∂ 2 l (α, β) X
=
pi (1 − pi ),
∂α2
i=1
n
−
∂ 2 l (α, β) X
=
Zi pi (1 − pi ),
∂αβ
i=1
134CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
n
−
∂ 2 l (α, β) X 2
=
Zi pi (1 − pi ).
∂β 2
i=1
Como la matriz de información observada no depende de las variables aleatorias
Yi , esta matriz coincide con su esperanza: la matriz de información de Fisher.
La matriz de información asintótica tiene por componente (l, m), l = 1, 2,
m = 1, 2,
n
1 X l+m−2
Ilm (α, β) = n lı́m
Zi
pi (1 − pi )
n−→∞ n
i=1
y son necesarias condiciones sobre la sucesión de covariantes Zi que garantizen
la existencia de estos lı́mites. Una posibilidad es suponer que las Zi son variables
aleatorias independientes e idénticamente distribuidas, con lo cual el problema
se convierte en uno de variables aleatorias independientes e idénticamente distribuidas puro.
.
.
Ejemplo 56, página 109. Continuación. Veremos ahora que el método de
máxima verosimilitud no es el único que da lugar a estimadores asintóticamente
eficientes.
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) =
e−λ . Sabemos que
µ
¶Pn Xi
i=1
n−1
θ̂n =
n
es el UMVUE de θ = e−λ . Sabemos también que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos.
Estudiaremos su distribución asintótica tomando logaritmos y usando el
método delta:
log(θ̂n ) =
n
X
i=1
Sabemos que
ejemplo,
√
Xi log
n−1
= X n (n log(1 − 1/n)) .
n
n(X n − λ) −→D N (0, λ) y que, como veremos al final de este
n log(1 − 1/n) −→n −1 y
√
n [1 + n log(1 − 1/n)] −→n 0.
Ası́,
√
n(log θ̂n − log θ) =
√
n(log θ̂n + λ) =
¢
√ ¡
n X n n log(1 − 1/n) + λ =
√
√
[n log(1 − 1/n)] n(X n − λ) + λ n [1 + n log(1 − 1/n)] −→D N (0, λ).
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL135
Por lo tanto, aplicando el método delta para τ (λ) = e−λ ,
√
n(θ̂n − e−λ ) −→D N (0, e−2λ λ).
Ya habı́amos visto que la cota de Cramér-Rao es
(τ 0 (λ))2
= λe−2λ ,
I(λ)
Luego se tiene que θ̂n es asintóticamente eficiente, al igual que lo era el estimador
de máxima verosimilitud e−X n tal como se vio en el ejemplo 59, página 116.
√
Falta por comprobar que se da la convergencia n [1 + n log(1 − 1/n)] −→n
0. Para probarlo, llamemos l al lı́mite y observemos que
¡
¢x
1 + log 1 − x1
√
l = lı́m
.
x−→∞
1/ x
Aplicando la regla de l’Hôpital y operando se llega a que
"
#
¡
¢x
x
1 − x−1
1 + log 1 − x1
√
√
= −2l − 2 · 0 = −2l,
l = 2 − lı́m
− lı́m
x−→∞
x−→∞ 1/ x
1/ x
de donde se sigue que l = 0.
.
.
136CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
4.5.
Lista de problemas
Error cuadrático medio. Estimadores insesgados. Optimalidad
1. Sea X ∼ N (0, σ 2 ). Se toma una m.a.s. de X de tamaño n.
a) Construye a partir de ella dos estimadores insesgados de σ, uno dependiente de la suma de los cuadrados de las observaciones y otro de
la suma de sus valores absolutos.
b) Compara sus varianzas.
2. Considera los tres estimadores máximo verosı́miles de θ correspondientes a
los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema
11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una
de las tres situaciones descritas en esos problemas y calcula la varianza de
cada estimador en cada situación.
3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1 , . . . , Yn variables aleatorias
independientes que satisfacen
Yi = βxi + εi , i = 1, . . . , n,
donde x1 , . . . , xn son constantes conocidas, ε1 , . . . , εn son v.a.i.i.d. según
N (0, σ 2 ), σ 2 desconocido.
a) Da un estadı́stico bidimensional suficiente para (β, σ 2 ).
b) Halla el estadı́stico máximo verosı́mil de β (llámalo β̂1 ), prueba que
es centrado y da su distribución.
c) Comprueba que
Pn
Yi
β̂2 = Pi=1
n
i=1 xi
es estimador insesgado de β.
d ) Comprueba que
n
β̂3 =
1 X Yi
n i=1 xi
es estimador insesgado de β.
e) Compara las varianzas de los tres estimadores de β.
4. (Casella-Berger, 7.39) Sea X1 , . . . , Xn una muestra de una población con
esperanza µ ∈ IR y varianza σ 2 > 0.
Pn
a) Prueba que un estimador de la forma i=1 ai Xi es insesgado para µ
Pn
si y sólo si i=1 ai = 1.
b) Entre todos los estimadores de esta forma (llamados estimadores lineales insesgados) encuentra aquél que tenga varianza mı́nima.
4.5. LISTA DE PROBLEMAS
137
5. (Casella-Berger, 7.40) Sean W1 , . . . , Wk estimadores insesgados de un parámetro θ con varianzas V (Wi ) = σi2 , y Cov(Wi , Wj ) = 0 si i 6= j.
P
a) Prueba que entre todos los estimadores de θ de la forma
ai Wi con
P
a1 , . . . , ak constantes y E( ai Wi ) = θ, el que menor varianza tiene
es
P
Wi /σi2
∗
.
W = P
1/σi2
b) Calcula la varianza de W ∗ .
6. (Casella-Berger, 7.41) Sea X1 , . . . , Xn una muestra de X ∼ N (θ, σ 2 = 1).
a) Comprueba que la cota de Cramér-Rao para la estimación de θ2 es
4θ2 /n.
2
b) Muestra que el mejor estimador insesgado de θ2 es X − (1/n).
c) Calcula su varianza (Indicación: Usa la identidad de Stein, que puedes encontrar en Casella-Berger, sección 4.7).
d ) Comprueba que este estimador no alcanza la cota de Cramér-Rao
para la estimación de θ2 .
7. (Casella-Berger, 7.42) Sean X1 , X2 y X3 una m.a.s. de una U (θ, 2θ), θ > 0.
a) Dar el estimador de los momentos de θ y llámalo θ̂1 .
b) Dar el estimador máximo verosı́mil de θ, al que llamaremos θ̂2 , y
encontrar una constante k tal que k θ̂2 sea insesgado para θ.
c) ¿Cuál de esos dos estimadores puede ser mejorado mediante el uso
de un estadı́stico suficiente? ¿Cómo se mejora? Llama θ̂3 al etimador
mejorado.
d ) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una
U (θ, 2θ). Utiliza los tres estimadores propuestos en los apartados anteriores para estimar θ a partir de esos datos.
8. (Casella-Berger, 7.43) Se mide el radio de un cı́rculo con un error aleatorio
distribuido como una N (0, σ 2 ). Se toman n medidas independientes del
radio.
a) Proponer un estimador insesgado del área del cı́rculo.
b) ¿Es el mejor estimador insesgado?
c) ¿Alcanza la cota de Cramér-Rao?
9. En cada una de las tres situaciones descritas en los problemas 14, 15 y
16 de la lista 1.6, ¿alcanza el estimador máximo verosı́mil correspondiente
la cota de Cramér-Rao? (Nota: los estimadores fueron calculados en el
problema 11 de la lista 3.4.)
10. (Casella-Berger, 7.51) Sean X1 , . . . , Xn v.a.i.i.d. según una Bern(p).
138CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
a) Muestra que el estimador máximo verosı́mil de p es insesgado y alcanza la cota de Cramér-Rao.
b) Para n ≥ 4, prueba que el producto X1 X2 X3 X4 es un estimador
insesgado de p4 .
c) Utiliza el apartado anterior para encontrar el mejor estimador insesgado de p4 .
11. (Casella-Berger, 7.44) Sean X1 , . . . , Xn v.a.i.i.d. con función de distribución F (x; θ) y sean Y1 , . . . , Ym v.a.i.i.d. con función de distribución G(x; µ).
Se supone que ambos grupos de variables son independientes. Se supone
que los estadı́sticos T = T (X1 , . . . , Xn ) y W = W (X1 , . . . , Xn ) son estadı́sticos suficientes y completos para θ y µ, respectivamente, y que
Eθ (T ) = θ, Vθ (T ) < ∞, Eµ (W ) = µ, Vµ (W ) < ∞.
Encuentra el mejor estimador insesgado de θµ.
12. (Ex. junio 2000) Sea X ∼ N (µ, 1). Queremos estimar θ = µ2 a partir de
una observación de X.
a) Indica si los tres estimadores de θ siguientes,
θ̂1 = X 2 − 1, θ̂2 = X 2 , θ̂3 = X 2 + 1,
se pueden obtener como resultado de buscar los siguientes estimadores de θ:
1) el estimador máximo verosı́mil,
2) el estimador insesgado uniformemente de mı́nima varianza (UMVUE),
3) el estimador Bayes si la función de pérdida es cuadrática y la
distribución a priori de µ es plana (es decir, π(µ) es constante).
b) Calcula el error cuadrático medio de los estimadores θ̂i , i = 1, 2, 3.
¿Hay algún estimador inadmisible?
c) Da un estimador que sea mejor que los tres anteriores en términos
de error cuadrático medio. (Indicación: Recuerda que θ = µ2 > 0.
¿Con qué probabilidad será negativo θ̂1 ?).
d ) ¿El estimador UMVUE alcanza la cota de Cramér-Rao?
Comportamiento asintótico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que
Eθ (Xi ) = θ + b, Vθ (Xi ) = σ 2 < ∞,
con b 6= 0 conocida.
4.5. LISTA DE PROBLEMAS
139
a) Prueba que X no es un estimador consistente de θ.
b) Define un estimador insesgado de θ que sea consistente.
14. (Casella-Berger, 7.62) Sea la m.a.s. X1 , . . . , Xn de X ∼ f (x; θ) = 0,5(1 +
θx)I(−1,1) (x), donde −1 < θ < 1. Dar un estimador consistente de θ y
probar que lo es.
15. (Casella-Berger, 7.63) Se toma una m.a.s. X1 , . . . , Xn de X ∼ N (θ, θ), con
V (X) = θ > 0.
a) Prueba que el estimador máximo verosı́mil de θ, θ̂, es una raı́z de la
Pn
ecuación de segundo grado θ2 +θ−W = 0, donde W = (1/n) i=1 Xi2 ,
y determina cuál de las dos raı́ces es el estimador máximo verosı́mil.
b) Da una aproximación de la varianza de θ̂ utilizando las propiedades
asintóticas del estimador máximo verosı́mil.
c) Da una aproximación de la varianza de θ̂ utilizando aproximaciones
por series de Taylor.
16. (Casella-Berger, 7.64) Una variación del modelo propuesto en el ejercicio
3 consiste en permitir que los regresores sean variables aleatorias independientes e idénticamente distribuidas: se tienen n variables aleatorias
Y1 , . . . , Yn que satisfacen
Yi = βXi + εi , i = 1, . . . , n,
donde X1 , . . . , Xn son v.a.i.i.d. según una N (µ, τ 2 ), µ 6= 0, y ε1 , . . . , εn son
v.a.i.i.d. según una N (0, σ 2 ), y las variables X’s y las ε’s son independientes. La varianza de los tres estimadores que se proponı́an en aquel ejercicio
es difı́cil de calcular exactamente, por lo que es conveniente encontrar sus
valores aproximados.
Aproxima en términos de µ, σ 2 y τ 2 las esperanzas y varianzas de los
estimadores siguientes:
Pn
Xi Yi / i=1 Xi2 .
Pn
b)
Yi / i=1 Xi .
Pn
c) (1/n) i=1 (Yi /Xi ).
a)
Pn
i=1
Pn
i=1
17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p̂ el
estimador máximo verosı́mil de p construido a partir de X. La varianza
de p̂ es p(1 − p)/n, que puede estimarse mediante p̂(1 − p̂)/n.
a) Calcula la esperanza de p̂(1 − p̂).
b) Usa un desarrollo de Taylor para aproximar la varianza de p̂(1 − p̂).
c) ¿Presenta la aproximación anterior algún problema?
140CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
18. (Examen junio 2000) Consideremos muestras de tamaño n de X ∼ N (µ, 1)
y el problema de estimar γ = eµ . Tomamos como estimador de γ
γ̂ = eX .
Da su distribución asintótica y usa el método delta para aproximar su
sesgo.
19. (Examen julio 2000) Sea X una variable aleatoria con función de densidad
f (x; a, λ) = λe−λ(x−a) I[a,∞) (x)
con a ∈ R y λ > 0.
a) Calcula los estimadores de máxima verosimilitud de a y λ.
A partir de ahora supondremos que a es conocido.
b) Da la expresión del estimador máximo verosı́mil de λ, λ̂, e indica cuál
es su distribución asintótica.
c) Queremos estimar σ 2 = V (X) = 1/λ2 . ¿Qué estimador es asintóticamente más recomendable, σ̂12 o σ̂22 , donde
σ̂12 =
1
λ̂2
n
, σ̂22 = S 2 =
1 X
(Xi − X)2 ?
n − 1 i=1
Indicaciones:
El coeficiente de apuntamiento de una v.a. Y se define como
CAp(Y ) = E[(Y − E(Y ))4 ]/V (Y )2 .
Si Y ∼ Exp(λ) entonces CAp(Y ) = 9.
Si θ4 = E[(Y − E(Y ))4 ] y θ2 = V (Y ), entonces
µ
¶
1
n−3 2
V (S 2 ) =
θ4 −
θ2
n
n−1
Si Y es la media aritmética de una m.a.s. de tamaño n de Y ∼
Exp(λ), entonces
4
E(Y ) =
6n2 + 3n + 14
1
+
λ4
n 3 λ4
d ) Usa el método delta para dar la expresión aproximada del sesgo de
e1/(X−a) como estimador de eλ .
Capı́tulo 5
Contrastes de hipótesis
Referencias: Casella-Berger, capı́tulo 8 y Garthwaite, Jollife y
Jones (1995), capı́tulo 4, referencias generales; Garthwaite, Jollife y
Jones (1995), sección 7.4., para contrastes bayesianos;
Una hipótesis estadı́stica es una conjetura o una afirmación sobre la
distribución de una o más variables aleatorias. Un contraste de hipótesis
(o un test de hipótesis o una prueba de hipótesis) es un procedimiento
para decidir si se acepta o se rechaza una hipótesis.
5.1.
Definiciones básicas. Contraste de hipótesis
simples
Usualmente se dispone de una muestra X1 , . . . , Xn de una variable aleatoria
X con distribución F y función de densidad (o función de masa) f . Sobre la
distribución de X se realizan dos afirmaciones entre las que se debe decidir. En
general esas dos afirmaciones serán excluyentes. El tratamiento que se da a las
dos hipótesis no es simétrico y esto se refleja en el nombre que reciben: una se
llama hipótesis nula y la otra hipótesis alternativa. Se denotan por H0 y
H1 , respectivamente. Se dice que en un test de hipótesis se contrasta H0 frente
a H1 .
La hipótesis nula es más conservadora en el sentido de que no será rechazada
a menos que la evidencia muestral en su contra sea muy clara. Esta hipótesis
suele establecer un modelo sencillo para la distribución de X (por ejemplo, si
F pertenece a una familia paramétrica, H0 fija el valor del parámetro) o bien
propone como distribución de X aquella que es comúnmente aceptada como una
buena descripción del fenómeno que modeliza X.
La hipótesis alternativa especifica el tipo de alejamiento de la hipótesis nula
que podrı́a presentar la distribución de X. Puede expresar un modelo gene141
142
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
ral que incluya a H0 como caso particular. Si un investigador considera que un
fenómeno aleatorio no ha estado adecuadamente modelizado hasta ese momento
y cree tener una explicación más satisfactoria, propondrá ésta como hipótesis alternativa y el modelo vigente como hipótesis nula. Sólo si hay evidencia muestral
suficiente para rechazar la hipótesis nula, será aceptada la hipótesis alternativa.
Podemos distinguir tres tipos de pruebas de hipótesis:
A. Suponemos que F (y f ) pertenecen a una cierta familia paramétrica indexada por un parámetro θ ∈ Θ y planteamos el contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
B. Contrastes de bondad de ajuste (goodness-of-fit tests, en inglés):
½
H0 : f = f 0
H1 : f 6= f0
C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a la
misma familia paramétrica, se plantea el contraste
½
H0 : f = f 0
H1 : f = f 1
Una hipótesis simple es aquella que especifica completamente la distribución de X. En otro caso, se dice que la afirmación es una hipótesis compuesta.
Por ejemplo, si f ∈ {fθ : θ ∈ Θ ⊆ IR}, la hipótesis H : θ = θ0 es una hipótesis
simple. La hipótesis H : θ > θ0 es compuesta.
Supongamos que se contrasta H0 frente a H1 . Cuando se observa la muestra
x = (x1 , . . . , xn ) se debe decidir si ésta presenta o no evidencia suficiente para
e
rechazar H0 . El subconjunto C del espacio muestral X n de muestras para las
cuáles se decide rechazar la hipótesis nula en favor de la alternativa se llama
región crı́tica o región de rechazo del contraste. El complementario de C
se llama región de aceptación. Un contraste queda definido por su región
crı́tica C.
5.1.1.
Tipos de errores
Al realizar un contraste de hipótesis se pueden cometer dos tipos de errores:
rechazar la hipótesis nula siendo ésta cierta (error de tipo I), o no rechazarla
cuando es falsa (error de tipo II). El error de tipo I se considera más grave
que el error de tipo II, dado que la hipótesis nula es siempre la más conservadora.
El siguiente esquema ilustra las diversas situaciones.
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES143
REALIDAD
H0
cierta
H0
falsa
DECISIÓN
Aceptar H0 Rechazar H0
Decisión
Error de
correcta
TIPO I
Error de
Decisión
TIPO II
correcta
Las probabilidades de cometer un error son
P ( X ∈ C|H0 cierta) y P ( X 6∈ C|H0 falsa).
e
e
Es deseable disponer de contrastes que tengan probabilidades de errores bajas.
Pero en general no es posible diseñar contrastes que tengan ambas probabilidades pequeñas: cuando un contraste se modifica para reducir su probabilidad
de error de tipo I, esta modificación conlleva un aumento de la probabilidad de
error de tipo II, y viceversa. Obsérvese que si se desea reducir la probabilidad
del error de tipo I, α = PF ( X ∈ C|H0 ), se habrán de reducir los puntos de
e
la región crı́tica C, pero ello implica que el conjunto C, complementario de C,
aumenta y ası́ la probabilidad de error de tipo II, β = PF ( X ∈ C|H1 ), también
e
crecerá en general.
Dado que el error de tipo I se ha considerado más grave que el error de tipo II,
la práctica habitual en el contraste de hipótesis es considerar únicamente pruebas
que garantizan que la probabilidad de cometer un error de tipo I será inferior
a un valor dado α suficientemente pequeño (por ejemplo, α = 0,01, 0.05 o 0.1)
y buscar entre todas ellas aquélla que hace mı́nima la probabilidad de cometer
un error de tipo II. Al valor α se le llama nivel de significación del test.
Si el menor valor obtenido β para la probabilidad de error de tipo II es
inaceptablemente grande, pueden tomarse dos medidas para reducirlo:
aumentar la probabilidad de error de tipo I α permitida, o
aumentar el tamaño de la muestra.
Supongamos que la distribución de X pertenece a una familia paramétrica
{fθ : θ ∈ Θ} y se contrasta
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Se define la función de potencia η(θ) del
contraste como
½
probabilidad de error de tipo I
si θ ∈ Θ0
η(θ) = Pθ ( X ∈ C) =
1
−
probabilidad
de
error
de
tipo
II
si
θ ∈ Θ1
e
Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene
tamaño α si
sup η(θ) = α.
θ∈Θ0
144
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene
nivel de significación α si
sup η(θ) ≤ α.
θ∈Θ0
El conjunto de contrastes con nivel de significación α contiene las pruebas de
tamaño α.
Un contraste que minimiza β = Pθ ( X ∈ C|H1 ) entre aquellos que tienen
e
tamaño α se dice que es el contraste más potente de tamaño α o el mejor
contraste de tamaño α.
5.1.2.
Lema de Neyman-Pearson
El siguiente resultado determina cuál es el contraste más potente cuando se
contrasta una hipótesis nula simple frente a una alternativa simple.
Teorema 41 (Lema de Neyman-Pearson) Sea X1 , . . . , Xn una muestra aleatoria simple de X con función de densidad (o función de masa de probabilidad)
f (x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1 . Si L(θ| x ) es la
e
función de verosimilitud, el mejor contraste de tamaño α tiene región crı́tica de
la forma
(
)
L(θ1 | x )
n
e ≥A
C= x ∈X :
e
L(θ0 | x )
e
para algún A > 0.
Demostración: Haremos la demostración sólo en el caso de distribución absolutamente continua. La prueba en el caso discreto es análoga (basta cambiar
integrales por sumatorios y funciones de densidad por funciones de masa de
probabilidad) si el nivel α puede alcanzarse exactamente con los valores de la
función de masa bajo H0 (en caso contrario hay que recurrir a un contraste
aleatorizado; sobre este tema se darán referencias cuando se presente el ejemplo
66). En Vélez y Garcı́a (1993), páginas 338-339, puede verse una demostración
válida para el caso discreto y el absolutamente continuo.
Sea A tal que Pθ0 ( x ∈ C) = α, donde C = { x ∈ X n : L(θ1 | x )/L(θ0 | x ) ≥
e
e
e
e
A}. Sea C ∗ la región crı́tica de otro test de tamaño α. Queremos probar que
β = Pθ1 ( x ∈ C) ≤ β ∗ = Pθ1 ( x ∈ C ∗ ).
e
e
Calculemos la diferencia β ∗ − β:
Z
Z
β∗ − β =
L(θ1 | x )d x −
L(θ1 | x )d x =
e e
e e
x ∈C ∗
x ∈C
e
e
Z
Z
L(θ1 | x )d x +
L(θ1 | x )d x −
e e
e e
x ∈C ∗ ∩C
x ∈C ∗ ∩C
e
e
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES145
Z
Z
L(θ1 | x )d x −
L(θ1 | x )d x =
e e
e e
x ∈C∩C ∗
x ∈C∩C ∗
Ze
Ze
L(θ1 | x )d x −
L(θ1 | x )d x ≥
e e
e e
x ∈C ∗ ∩C
x ∈C∩C ∗
Ze
Z e
A L(θ0 | x )d x =
A L(θ0 | x )d x −
e e
e e
x ∈C∩C ∗
x ∈C ∗ ∩C
e
e"
Z
Z
A
Z
"Z
x ∈C ∗ ∩C
e
x ∈C∩C ∗
e
L(θ0 | x )d x +
e e
L(θ0 | x )d x −
e e
L(θ0 | x )d x −
e e
x ∈C ∗
e
A
Z
Z
x ∈C ∗ ∩C
e
L(θ0 | x )d x −
e e
#
L(θ0 | x )d x
e e
x ∈C∩C ∗
e
#
x ∈C
e
=
L(θ0 | x ) = A(α − α) = 0.
e
2
El contraste que se propone en el Lema de Neyman-Pearson se denomina
también test de la razón de verosimilitudes.
Ejemplo 65
Test Z.
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido.
Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 .
Nuestra intuición nos dice que se debe rechazar H0 si se observan valores
grandes de x. Veamos que la aplicación del Lema de Neyman-Pearson conduce
a esta solución.
La función de verosimilitud de una muestra es
½
¾
1
L(µ| x ) = (2πσ 2 )−n/2 exp − 2 Σni=1 (xi − µ)2
2σ
e
y el cociente de verosimilitudes
ª
©
L(µ1 | x )
(2πσ 2 )−n/2 exp − 2σ1 2 Σni=1 (xi − µ1 )2
© 1 n
ª=
e =
(2πσ 2 )−n/2 exp − 2σ2 Σi=1 (xi − µ0 )2
L(µ0 | x )
e
¾
½
¢
1 n ¡
2
2
=
Σ
(xi − µ0 ) − (xi − µ1 )
exp
2σ 2 i=1
½
¾
¢
1 ¡
2
2
2
exp
n
2x(µ
−
µ
)
+
(µ
−
µ
)
1
0
0
1
2σ 2
Ası́, la región crı́tica del test de Neyman-Pearson tiene la forma
C = { x : exp{n(2x(µ1 − µ0 )2 + (µ20 − µ21 ))/2σ 2 } ≥ A}.
e
146
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Vemos que el cociente de verosimilitudes es función creciente del estadı́stico
minimal suficiente x porque µ1 − µ0 > 0, y por tanto la región crı́tica puede
escribirse ası́:
C = { x : x ≥ B}.
e
En este caso las constantes A y B se relacionan de este modo:
B=
µ1 + µ0
σ 2 log(A)
+
.
n(µ1 − µ0 )
2
Sin embargo no es necesario calcular B a partir de A, sino que es posible determinar su valor teniendo en cuenta que el contraste que se propone tiene tamaño
α:
P (C|H0 ) = P (X ≥ B|H0 ) = α
Bajo H0 la distribución de la media muestral es X ∼ N (µ0 , σ 2 /n), de donde se
deduce que el valor de B debe ser
σ
B = µ0 + zα √ .
n
Supongamos que µ0 = 5, µ1 = 6, σ 2 = 1 y α = 0,05 y se toman muestras
de tamaño n = 4. Acabamos de ver que rechazaremos H0 : µ = 5 en favor de
√
H1 : µ = 6 si X ≥ µ0 + zα σ/ n = 5,8225, o equivalentemente si
Z=
X n − µ0
Xn − 5
√
√ ≥ 1,645.
=
σ/ n
1/ 4
Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media
e
muestral vale x = 5,2. Como
z=
x−5
√ = 0,4 6≥ 1,645
1/ 4
no se rechaza H0 .
Este contraste se denomina test Z porque usa el estadı́stico Z =
µ0 )/σ, que tiene distribución N (0, 1) bajo H0 .
.
√
n(X n −
.
Ejemplo 66
Sean Y1 , . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar
½
H0 : p = p0
H1 : p = p1
Pn
con p1 > p0 . Sea X = i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es
µ ¶
n x
L(p|x) =
p (1 − p)n−x .
x
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES147
Calculamos el logaritmo del cociente de verosimilitudes:
µ
¶
µ x
¶
L(p1 |x)
p1 (1 − p1 )n−x
log
= log
=
L(p0 |x)
px0 (1 − p0 )n−x
x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 ))
Ası́, la región crı́tica del test de Neyman-Pearson será
C = {x : x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 )) ≥ log A} =
{x : x[log(p1 /p0 ) − log((1 − p1 )/(1 − p0 ))] ≥ −n log((1 − p1 )/(1 − p0 )) + log A} =



log(A) − n log((1 − p1 )/(1 − p0 )) 
³
´
x:x≥B=


log p1 (1−p0 )
p0 (1−p1 )
Para determinar el valor de B usaremos el hecho de que la distribución de X es
conocida bajo H0 y que se desea definir un test con tamaño α.
Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B
se obtienen contrastes con diferentes tamaños α y potencias β:
B
α
β
0
1.000
0.000
3
0.945
<0.001
7
0.172
0.121
8
0.055
0.322
9
0.011
0.624
Vemos que no es posible construir un contraste de tamaño α para todos los
valores α ∈ [0, 1]. Si por ejemplo queremos tener un contraste de tamaño α =
0,05 hay tres formas de actuar:
considerar que α = 0,055 es suficientemente próximo a 0,05 y rechazar H0
si x ≥ 8,
Pensar que 0.05 es la máxima probabilidad de error de tipo I aceptable y,
por tanto, rechazar H0 si x ≥ 9, dando lugar a α = 0,011,
Rechazar H0 si x ≥ 9, aceptar H0 si x ≤ 7 y en el caso de que x = 8
aleatorizar la decisión: rechazar H0 con probabilidad τ y aceptarla con
probabilidad (1 − τ ), eligiendo τ de forma que se consiga un tamaño exactamente igual a α = 0,05. En este ejemplo τ es 0,8864. Este tipo de
contrastes se denominan tests aleatorizados.
En este curso no consideraremos los tests aleatorizados. En el capı́tulo 18
de Cristóbal (1992), por ejemplo, se desarrolla la teorı́a de los contrastes de
hipótesis incluyendo la posibilidad de que éstos sean aleatorizados.
.
.
148
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
En los dos ejemplos anteriores hemos visto que el mejor test de tamaño
α depende de las observaciones sólo a través del valor que en ellas toma el
estadı́stico minimal suficiente del parámetro de interés. El siguiente corolario
establece esto como resultado general.
Corolario 6 En las hipótesis del Lema de Neyman-Pearson, si T es un estadı́stico suficiente del parámetro de interés θ con función de densidad (o de
probabilidad) g(t|θ), el mejor test para el contraste
½
H0 : θ = θ0
H1 : θ = θ1
tiene región crı́tica de la forma
½
¾
g(t|θ1 )
C = t = T(x) :
≥A
g(t|θ0 )
e
para algún A ≥ 0.
Demostración: Trivial a partir del Lema de Neyman-Pearson y del Teorema
de Factorización (teorema 10).
2
5.1.3.
Conclusiones de un contraste: el p-valor
Una forma de informar de los resultados de un contraste de hipótesis es
mediante el tamaño α del test usado y la decisión tomada sobre si se rechazó o
no H0 . Si α es pequeño la decisión de rechazar H0 es muy convincente, pero si α
es grande la probabilidad de cometer un error de tipo I es grande, lo cuál resta
fuerza al test si la decisión adoptada es la de rechazar H0 . Por otro lado, para
α muy pequeño, el hecho de no rechazar H0 no se interpretará como un apoyo
indiscutible a esta hipótesis sino como que no fue posible encontrar evidencia
suficiente en su contra como para superar la barrera tan restrictiva impuesta
por ese valor de α.
Una forma alternativa de presentar los resultados de un contraste de hipótesis
es dar el p-valor o valor de probabilidad del test, definido éste como el
supremo de los valores α para los cuáles se rechazarı́a la hipótesis nula si ésta
se contrastase a nivel α. El p-valor depende de los datos muestrales. Puede
interpretarse como la probabilidad de observar otra muestra que sea al menos
tan poco favorable a la hipótesis nula como la que se ha observado. A partir del
p-valor se puede tomar la decisión de rechazar (respectivamente, aceptar) H0 si
el p-valor es pequeño (respectivamente, grande).
es
Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson
(
)
L(θ1 | X )
L(θ1 | x )
e ≥
e
p = Pθ0
.
L(θ0 | X )
L(θ0 | x )
e
e
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES
149
En general, cuando la región crı́tica de un contraste de tamaño α es tal que
se rechaza H0 si y sólo si W ( x ) ≥ cα , donde W ( X ) es un estadı́stico y cα se
e
e
elige para que el test tenga tamaño α, entonces el p-valor del contraste para una
muestra observada x es
e
p( x ) = sup Pθ (W ( X ) ≥ W ( x )).
e
e
e
θ∈Θ0
Ejemplo 65, página 145. Continuación. En el ejemplo del test Z el p-valor
es
µ
¶
µ
¶
xn − µ0
xn − µ0
√
√
P (X n ≥ xn |µ = µ0 ) = P Z ≥
=1−Φ
σ/ n
σ/ n
donde Φ es la función de distribución de Z ∼ N (0, 1).
En el caso concreto de que σ = 1, µ0 = 5, n = 4 y x = 5,2 se tiene que el
p-valor es
µ
p( x ) = P
e
X4 − 5
5,2 − 5
√ ≥
√
1/ 4
1/ 4
¶
= P (Z ≥ 0,4) = 0,3446
y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta
hipótesis.
.
.
5.2.
Contrastes uniformemente más potentes
Nos ocuparemos ahora de los contrastes de hipótesis en los que la hipótesis
alternativa es compuesta.
Queremos contrastar
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ 1
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
Por ejemplo, si Θ = [0, ∞) podemos contrastar
½
H0 : θ = θ 0
H1 : θ > θ 0
Diremos que se trata de un contraste unilateral.
Si Θ = IR, los contrastes
½
H0 : θ ≤ θ 0
H1 : θ > θ 0
½
y
H0 : θ ≥ θ0
H1 : θ < θ0
150
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
son también unilaterales y el contraste
½
H0 : θ = θ0
H1 : θ 6= θ0
se dice que es bilateral.
Diremos que un contraste de hipótesis es uniformemente más potente
(UMP) de tamaño α para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si su
función de potencia η(θ) verifica que
sup η(θ) = α
θ∈Θ0
y para cualquier otro contraste con función de potencia η ∗ que sea también de
tamaño α, es decir, que cumpla
sup η ∗ (θ) = α,
θ∈Θ0
se tiene que
η(θ) ≥ η ∗ (θ), para todo θ ∈ Θ1 .
5.2.1.
Lema de Neyman-Pearson para alternativas compuestas
El siguiente resultado es una extensión del Lema de Neyman-Pearson al caso
de hipótesis alternativa compuesta.
Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas)
Se desea contrastar
½
H0 : θ = θ 0
H1 : θ ∈ Θ1 = Θ − {θ0 }
Para cada θ1 ∈ Θ1 , se consideran los conjuntos
(
)
L(θ1 | x )
e ≥ A(θ1 ) ,
C(θ1 ) = x :
e L(θ0 | x )
e
las regiones crı́ticas de los contrastes más potentes de tamaño α para contrastar
½
H0 : θ = θ0
H1 : θ = θ1
dadas por el Lema de Neyman-Pearson.
Si esas regiones crı́ticas no dependen de θ1 , es decir, si C(θ1 ) = C para todo
θ1 ∈ Θ1 , entonces la prueba estadı́stica que tiene región crı́tica C es UMP de
tamaño α.
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES
151
Demostración: Sea η(θ) la función de potencia del test que tiene región crı́tica
C. Por la definición de C se tiene que este test tiene tamaño α. Sea η ∗ la función
de potencia de cualquier otro test de tamaño α.
Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson el test con región
crı́tica C es el mejor para contrastar
½
H0 : θ = θ 0
H1 : θ = θ 1
y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que
η(θ1 ) ≥ η ∗ (θ1 )
para todo θ1 ∈ Θ1 , luego el test C es UMP de tamaño α.
2
Ejemplo 67
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar
½
H0 : µ = µ 0
H1 : µ > µ 0
En el ejemplo 65 se vió que para cualquier µ1 > µ0 el mejor test para contrastar
H0 : µ = µ0 frente a H10 : µ = µ1 tiene por región crı́tica
σ
C = { x : x ≥ B}, con B = µ0 + zα √ .
n
e
Por lo tanto, la región crı́tica es la misma para todos los posibles valores µ1 ∈
Θ1 = (µ0 , ∞). Se sigue que el contraste con región crı́tica C es UMP de tamaño
α para contrastar H0 frente a H1 .
La función de potencia del test UMP es
σ
η(µ) = P ( X ∈ C|µ) = P (X n ≥ µ0 + zα √ |µ) =
n
e
¶
µ
¶
µ
Xn − µ
µ0 − µ
µ0 − µ
√ ≥
√ + zα |µ = P Z ≥
√ + zα ,
P
σ/ n
σ/ n
σ/ n
siendo Z ∼ N (0, 1).
.
.
El siguiente resultado extiende el anterior al caso en el que la hipótesis nula
es también compuesta.
Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta:
½
H0 : θ ∈ Θ 0
.
H1 : θ ∈ Θ 1
Supongamos que existe un procedimiento de contraste basado en un estadı́stico
suficiente T con región crı́tica C que satisface las hipótesis siguientes:
152
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
1. el test tiene tamaño α,
2. existe θ0 ∈ Θ0 tal que Pθ0 (T ∈ C) = α,
3. si g(t|θ) denota la función de densidad (o de probabilidad) de T , para el
valor θ0 cuya existencia garantiza la hipótesis anterior y para cada θ1 ∈ Θ1
existe un A(θ1 ) ≥ 0 tal que
si
g(t|θ1 )
> A(θ1 ) =⇒ t ∈ C, y
g(t|θ0 )
si
g(t|θ1 )
< A(θ1 ) =⇒ t ∈ C.
g(t|θ0 )
Entonces esta prueba es UMP de tamaño α para contrastar H0 frente a H1 .
Demostración: Sea η(θ) la función de potencia del contraste que tiene región
crı́tica C y sea η ∗ (θ) la función de potencia de otro contraste que tiene tamaño
α. Se verificará pues que η ∗ (θ0 ) ≤ α.
Fijamos un θ1 ∈ Θ1 y contrastamos H00 : θ = θ0 frente a H10 : θ = θ1 . Por el
corolario al Lema de Neyman-Pearson, la región crı́tica C corresponde al mejor
test, luego η(θ1 ) ≤ η ∗ (θ1 ). Esto es válido para todo θ1 ∈ Θ1 , luego el test con
región crı́tica C es UMP.
2
5.2.2.
Razón de verosimilitud monótona. Teorema de KarlinRubin
En esta sección veremos que bajo determinadas condiciones es posible encontrar tests UMP para contrastes unilaterales cuyas regiones crı́ticas son fácilmente
expresables en función de un estadı́stico suficiente. Las condiciones necesarias
hacen referencia a la monotonı́a de la razón de verosimilitudes como función del
estadı́stico suficiente.
Una familia de funciones de densidad o de probabilidad {g(t|θ) : θ ∈ Θ} para
una variable aleatoria T tiene razón de verosimilitudes monótona (RVM)
si para cada θ2 > θ1 el cociente g(t|θ2 )/g(t|θ1 ) es una función no decreciente de
t para los valores t tales que g(t|θ2 ) > 0 o g(t|θ1 ) > 0.
Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : θ ≤ θ0
frente a H1 : θ > θ0 . Supongamos que T es un estadı́stico suficiente para θ y que
la familia {g(t|θ) : θ ∈ Θ} de funciones de densidad de T tiene RVM. Entonces
para cada t0 el test que rechaza H0 si y sólo si T > t0 es UMP de tamaño
α = Pθ0 (T > t0 ).
Demostración: Veamos en primer lugar que la función de potencia η(θ) =
P (T > t0 |θ) es creciente. Sea θ1 < θ2 . Queremos comprobar que η(θ1 ) ≤ η(θ2 ).
5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES
153
El Lema de Neyman-Pearson para contrastar H00 : θ = θ1 frente a H10 : θ = θ2
establece que el mejor test tiene región crı́tica C = { x : (L(θ2 | x )/L(θ1 | x )) ≥
e
e
e
A}. Como T es suficiente para θ, será L(θ| x ) = g(T ( x )|θ)h( x ). Dado que T
e
e
e
tiene RVM el conjunto C es
(
)
g(T ( x )|θ2 )
e
C= x :
≥ A = { x : T ( x ) ≥ t0 }.
e g(T ( x )|θ1 )
e
e
e
Este contraste tiene tamaño α0 = P (T > t0 |θ1 ) = η(θ1 ). Consideremos un
contraste que rechaza H00 con probabilidad α0 sea cuál sea el valor x observado.
e
Su función de potencia es η ∗ (θ) = α0 y se trata de un test de tamaño α0 . Por el
Lema de Neyman-Pearson se tiene que
η(θ2 ) = P (T > t0 |θ2 ) ≥ η ∗ (θ) = α0 = η(θ1 )
y se concluye que la función de potencia η(θ) es creciente.
Para demostrar que el test con región crı́tica { x : T ( x ) > t0 } es UMP
e
e
para contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay que
comprobar que se cumplen sus tres hipótesis:
1. El test tiene tamaño α. Como η(θ) es no decreciente, se tiene que
sup η(θ) = η(θ0 ) = α = P (T > t0 |θ0 ).
θ≤θ0
2. Existe θ0 tal que Pθ0 (T ∈ C) = P (T > t0 |θ0 ) = α. Esto es cierto por
definición de t0 .
3. Para cada θ1 ∈ Θ1 , existe A(θ1 ) tal que t ∈ C si y sólo si (g(t|θ1 )/g(t|θ0 )) >
A(θ1 ). Esto se verifica si definimos
A(θ1 ) = ı́nf
t∈T
g(t|θ1 )
,
g(t|θ0 )
donde T = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si g(t|θ1 )/g(t|θ0 ) >
A(θ1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces
g(t|θ1 )/g(t|θ0 ) > ı́nf t g(t|θ1 )/g(t|θ0 ) = A(θ1 ).
2
Acabamos de ver que frecuentemente se encontrarán pruebas UMP para
pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para
pruebas bilaterales, como pone de manifiesto el siguiente ejemplo.
Ejemplo 68
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 .
154
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Si contrastamos H0 frente a H10 : µ0 > µ1 , la región crı́tica del test UMP
es C1 = { x : xn ≤ A1 }. Si contrastamos H0 frente a H10 : µ0 < µ1 , la región
e
crı́tica del test UMP es C2 = { x : xn ≥ A2 }.
e
Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan
valores de la media muestral mucho mayores o mucho menores que µ0 :
C = { x : xn ≤ A1 o xn ≥ A1 },
e
donde A1 y A2 se eligen para que el test tenga tamaño α:
P (X n ≤ A1 |µ = µ0 ) + P (X n ≥ A2 |µ = µ0 ) = α.
La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidad
es elegir A1 y A2 de forma que
P (X n ≤ A1 |µ = µ0 ) = P (X n ≥ A2 |µ = µ0 ) =
α
,
2
√
√
es decir, A1 = µ0 − zα/2 σ/ n, A2 = µ0 + zα/2 σ/ n.
√
Entonces se rechazará H0 si |X n − µ0 | ≥ zα/2 σ/ n. La función de potencia
es tal como se refleja en la figura siguiente (curva de trazo continuo).
µ0=0, σ=1
1
Funciones de potencia
0.8
0.6
0.4
0.2
α
0
−4
−3
−2
−1
0
µ
1
2
3
4
Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuando
√
X n ≥ µ0 + zα σ/ n este contraste tiene potencia superior para µ > µ0 , como
puede verse en la figura anterior (curva de trazo discontinuo).
.
.
5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MÁS POTENTES155
Vemos en el ejemplo anterior que no es posible atender las desviaciones
bilaterales de la hipótesis nula y, a la vez, superar en potencia a los contrastes
que han sido diseñados para detectar desviaciones en una sola dirección.
En los casos en los que no existen tests UMP es posible aún elegir contrastes
que tengan propiedades deseables. Una posibilidad (que será desarrollada en
la sección 5.5) es construir pruebas que sean válidas en muchas situaciones,
fácilmente aplicables y con buenas propiedades teóricas.
Otra posibilidad es restringir la clase de contrastes considerada y buscar el
test UMP dentro de esa clase. La sección 5.3 se ocupa de esta alternativa.
5.3.
Contrastes insesgados. Contrastes localmente más potentes
Un contraste de hipótesis para H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 de tamaño
α y con función de potencia η(θ) es un contraste insesgado si η(θ) ≥ α para
todo θ ∈ Θ1 .
Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipótesis alternativa que bajo la nula: siempre
es más probable rechazar la hipótesis nula si ésta es falsa que si no lo es. Es
entonces lógico restringir la clase de contrastes que se consideran a aquella que
contiene sólo contrastes insesgados. Entre éstos se buscarán los tests UMP.
Si se adopta este enfoque, puede probarse que en el muestreo de la normal
con σ 2 conocida (ver ejemplo 68) el contraste que rechaza H0 : µ = µ0 si
√
|X n − µ0 | ≥ zα/2 σ/ n es insesgado y es UMP en la clase de los contrastes
insesgados. Para una demostración de este hecho, véase por ejemplo CasellaBerger, ejemplo 8.3.9.
En la búsqueda de contrastes UMP, un planteamiento alternativo al de reducir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests
insesgados UMP) consiste en reducir las hipótesis alternativas que se tienen en
cuenta. En este sentido, es lógico buscar procedimientos que sean uniformemente más potentes sólo para las hipótesis alternativas cercanas a la hipótesis nula.
Serán estos contrastes los más potentes para detectar pequeñas desviaciones de
la hipótesis nula. En cada caso concreto se ha de especificar qué se entiende por
hipótesis cercanas a la nula.
Supongamos que el parámetro θ es real. Se dice que un test con función de
potencia η(θ) es el más potente localmente para contrastar H0 : θ ≤ θ0 (o
H0 : θ = θ0 ) frente a H1 : θ > θ0 si, para cualquier otro contraste con función
de potencia η 0 (θ) tal que η(θ0 ) = η 0 (θ0 ), existe un δ > 0 tal que η(θ) ≥ η 0 (θ)
para todo θ ∈ (θ0 , θ0 + δ].
156
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Veamos cómo podemos encontrar el test más potente localmente en este
caso. Restringimos la hipótesis alternativa del siguiente modo:
½
H0 : θ = θ0
H1 : θ = θ0 + δ
para δ > 0 cercano a 0.
Por el lema de Neyman-Pearson el mejor test tiene región crı́tica de la forma
L(θ0 + δ; x )
e ≥ A ⇐⇒ log L(θ0 + δ; x ) − log L(θ0 ; x ) ≥ log A.
e
e
L(θ0 ; x )
e
Desarrollando por Taylor alrededor de δ = 0, se tiene que
¯
∂ log L ¯¯
log L(θ0 + δ; x ) ≈ log L(θ0 ; x ) + δ
∂θ ¯θ=θ0
e
e
y por tanto el test localmente más potente se basa en la función score
¯
∂ log L ¯¯
S(θ0 ; x ) =
∂θ ¯θ=θ0
e
y tiene por región crı́tica, aproximadamente,
S(θ0 ; x ) ≥ B = zα
e
p
Iθ0
ya que, bajo H0 , E[S(θ0 ; x )] = 0, V [S(θ0 ; x )] = Iθ0 y S(θ0 ; x ) es aproximadae
e
e
mente normal.
Ejemplo 69
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con función de
densidad
1
f (x|θ) =
.
π(1 + (x − θ)2 )
Se desea contrastar
½
H0 : θ = θ 0
.
H1 : θ > θ 0
La verosimilitud y su logaritmo son
n
n
Y
X
¡
¢
1
L(θ; x ) =
,
l
(θ;
x
)
=
−
log π + log(1 + (xi − θ)2 ) .
2
π(1 + (xi − θ) )
e
e
i=1
i=1
La función score es
S(θ; x ) =
e
n
X
i=1
y la información de Fisher
Iθ =
2(xi − θ)
1 + (xi − θ)2
n
.
2
5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES
157
Asintóticamente la prueba localmente más potente rechaza H0 : θ = θ0 en favor
de H1 : θ > θ0 si y sólo si
r
n
X
2(xi − θ0 )
n
≥ zα/2
.
2
1 + (xi − θ0 )
2
i=1
.
.
Observemos que las pruebas localmente más potentes son útiles sólo para
alternativas unilaterales. Si θ es un vector, serán útiles cuando nos preocupa
una dirección especı́fica en la que el parámetro pueda alejarse de θ0 .
5.4.
Consistencia y eficiencia para contrastes
Las propiedades deseables de los contrastes no se limitan a ser UMP o ser
localmente más potente. La siguiente es también una propiedad que cualquier
test razonable deberı́a cumplir.
Supongamos que un contraste depende del tamaño n de la muestra y que su
función de potencia se denota por ηn (θ). Diremos que un contraste es consistente si
lı́m ηn (θ) = 1
n−→∞
para todo θ ∈ Θ1 . Las pruebas derivadas del Lema de Neyman-Pearson son
consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977).
Esta definición lleva aparejado un concepto de eficiencia relativa entre contrastes. Sean H0 y H1 dos hipótesis simples. Dados dos contrastes T1 y T2 ,
ambos de tamaño α y consistentes para contrastar H0 frente a H1 , se consideran respectivamente los tamaños muestrales n1 y n2 más pequeños necesarios
para obtener potencia mayor o igual que η, un valor fijo. Se define la eficiencia
relativa de T1 comparado con T2 como
n2
.
n1
Se define la eficiencia relativa asintótica de T1 comparado con T2 como
n2
lı́m
,
η−→1 n1
es decir, es el lı́mite del cociente n2 /n1 cuando ambos tamaños muestrales tienden a infinito conjuntamente, en el sentido de que ambos garantizan potencia η
y η tiende a 1.
Existen otros conceptos de eficiencia relativa entre contrastes que contemplan
la posibilidad de que la hipótesis alternativa tienda hacia la nula cuando n tiende
a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).
158
5.5.
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Test de la razón de verosimilitudes
Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con función
de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea hacer el
contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Se define el estadı́stico de la razón de
verosimilitudes como
máxθ∈Θ0 L(θ| x )
e .
λ = λ( x ) =
e
máxθ∈Θ L(θ| x )
e
El test de la razón de verosimilitudes (también llamado test de la
razón de verosimilitudes generalizado, para distinguirlo del test de NeymanPearson, o test de la razón de las máximas verosimilitudes) establece
una región crı́tica de la forma
C = { x : λ( x ) ≤ A}
e
e
para alguna constante A que se determinará para que el test tenga el tamaño α
deseado.
La idea intuitiva que sustenta este método de contraste es simple. Obsérvese
que 0 ≤ λ ≤ 1 y que cuanto más cercano a 1 sea el valor de λ, más verosı́mil
es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creı́ble será la
hipótesis alternativa θ ∈ Θ1 .
Ejemplo 70
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ), µ y σ 2 desconocidos:
el parámetro es θ = (µ, σ 2 ). Se desea contrastar
½
H0 : µ = µ0
H1 : µ 6= µ0
La verosimilitud es:
(
2 −n/2
L(θ| x ) = (2πσ )
e
n
2 X
exp − 2
(xi − µ)2
2σ i=1
)
.
El estimador de máxima verosimilitud (MV) bajo H0 es θ̃ = (µ0 , σ̃ 2 ), donde
n
σ̃ 2 =
1X
(xi − µ0 )2
n i=1
y el valor de la verosimilitud en ese punto es
n no
máx L(θ| x ) = (2πσ̃ 2 )−n/2 exp −
.
θ∈Θ0
2
e
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES
159
El estimador MV en general es θ̂ = (x, σ̂ 2 ), donde
n
n−1 2
1X
σ̃ =
S =
(xi − x)2 ,
n
n i=1
2
y el máximo de la verosimilitud es
n no
máx L(θ| x ) = (2πσ̂ 2 )−n/2 exp −
.
θ∈Θ
2
e
Por lo tanto,
µ Pn
¶−n/2
(xi − µ0 )2
i=1
λ = λ( x ) =
= Pn
=
2
e
i=1 (xi − x)
µ Pn
¶
µ
¶−n/2
2
2 −n/2
t2
i − x) + n(x − µ0 )
i=1 (x
P
=
1
+
,
n
2
n−1
i=1 (xi − x)
√
H
donde t = n(x − µ0 )/S ∼0 . Por lo tanto, el estadı́stico λ es decreciente en |t|.
µ
σ̃ 2
σ̂ 2
¶−n/2
La prueba de razón de verosimilitudes rechaza H0 si λ < A para algún A, lo
cuál ocurrirá si y sólo si |t| > B para algún B. Por lo tanto, la prueba de razón
de verosimilitudes rechaza H0 si
|x − µ0 |
√ >B
S/ n
y B se elige para que el tamaño del test sea α. Por lo tanto, este test coincide
con el test t bilateral clásico en el muestreo de la normal.
.
.
5.5.1.
Relación con el Lema de Neyman-Pearson.
Cuando H0 y H1 son hipótesis simples, el estadı́stico λ( x ) vale lo siguiente:
e
(
)
L(θ0 | x )
L(θ0 | x )
e
e
λ( x ) =
= mı́n 1,
.
e
máx{L(θ0 | x ), L(θ1 | x )}
L(θ1 | x )
e
e
e
El test que rechaza H0 cuando λ ≤ A tiene la misma región crı́tica (y, por tanto,
es el mismo contraste) que el que la rechaza cuando L(θ1 | x )/L(θ0 | x ) ≥ (1/A),
e
e
que es la región crı́tica dada por el test de Neyman-Pearson.
La única distorsión es que no se pueden construir pruebas de la razón de
verosimilitudes con niveles α ∈ (1 − p, 1), donde p es
¯ !
Ã
¯
L(θ0 | x )
e > 1¯¯ H0 ,
p=P
¯
L(θ1 | x )
e
ya que si rechazamos H0 cuando λ( x ) ≤ A < 1, entonces
¯ !e
¯ !
Ã
Ã
¯
¯
L(θ0 | x )
L(θ0 | x )
¯
e ≤ A¯ H0 ≤ P
e ≤ 1¯¯ H0 = 1 − p
α=P
¯
¯
L(θ1 | x )
L(θ1 | x )
e
e
y si tomamos A = 1 entonces el tamaño es α = 1.
160
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
5.5.2.
Propiedades de los contrastes de razón de verosimilitudes
El estadı́stico λ( x ) del test de la razón de verosimilitudes depende de x
e
e
sólo a través del estadı́stico minimal suficiente para θ. Las propiedades de estos
contrastes para muestras pequeñas dependen de la modelización paramétrica
concreta de que se trate. La siguiente es una propiedad común a todos los
contrastes de razón de verosimilitudes:
Si H0 es simple y existe una prueba UMP para contrastar H0 frente a
H1 , entonces el test de razón de verosimilitudes coincide con el test UMP.
(Véase Garthwaite, Jollife y Jones 1995, página 84, y las referencias allı́ citadas para una demostración de esta propiedad.)
Muchas de las propiedades asintóticas de los contrastes de la razón de verosimilitudes son comunes a todos ellos. Citemos las siguientes:
Bajo las condiciones de regularidad que garantizan que el estimador de
máxima verosimilitud es consistente, se tiene que el test de razón de verosimilitudes es un test consistente. (Véase Cristóbal 1992, página 589).
El test razón de verosimilitudes es asintóticamente la prueba insesgada
más potente. (Véase Garthwaite, Jollife y Jones 1995, página 84.)
El test razón de verosimilitudes es asintóticamente eficiente, en el sentido
de la eficiencia relativa asintótica definida al final de la sección 5.3. (Véase
Garthwaite, Jollife y Jones 1995, página 85.)
Probaremos el siguiente resultado asintótico, que es útil para determinar el
valor crı́tico A de la definición del test de la razón de verosimilitudes.
Teorema 44 Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria
con función de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea
hacer el contraste
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1
donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Bajo las condiciones H1, H2, C1, C2, C3,
C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintótico
del estimador MV (esas hipótesis aseguran la existencia y continuidad de las
derivadas respecto al parámetro de la función de verosimilitud, y que el soporte
de las distribuciones no depende del parámetro) se tiene que el estadı́stico
Qn = −2 log λ( X n ) −→n χ2d
e
bajo la hipótesis nula, donde d = dim(Θ) − dim(Θ0 ).
5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES
161
Demostración: Haremos la prueba para el caso dim(Θ) = 1, dim(Θ0 ) = 0
(luego d = 1). Para el caso general, puede verse, por ejemplo, Cristóbal (1992),
Teorema 1.2, página 596.
Consideramos el modelo X ∼ f ∈ {fθ : θ ∈ Θ ⊆ IR} y el contraste
½
H0 : θ = θ 0
H1 : θ 6= θ0
Ası́, d = 1 − 0 = 1. Obsérvese que
³
´
Qn = −2 log λ( X n ) = 2 log L(θ̂n | x n ) − log L(θ0 | x n ) ,
e
e
e
donde θ̂n es el estimador máximo verosı́mil de θ. Desarrollamos l (θ0 | x n ) =
e
log L(θ0 | x n ) en serie de Taylor alrededor de θ̂n :
e
l (θ0 | x n ) = l (θ̂n | x n ) +
e
e
2
∂ l (θ̂n | x n )
1 ∂ l (θ̃| x n )
e (θ0 − θ̂n )2
e (θ0 − θ̂n ) +
∂θ
2
∂θ2
donde θ̃ es un valor entre θ̂n y θ0 .
Ası́,


2
 ∂ l (θ̂n | x n )

1 ∂ l (θ̃| x n )
e (θ0 − θ̂n )2 
e (θ0 − θ̂n ) −
Qn = 2 
−
=
2
2
∂θ
| ∂θ
{z
}
=0
−
∂ 2 l (θ̃| x n )
e (θ0 − θ̂n )2 .
∂θ2
En el teorema 39 se probó que el estimador máximo verosı́mil θ̂n es consistente.
Como además |θ̃ − θ0 | ≤ |θ̂n − θ0 | se tendrá que bajo H0
θ̃ −→P
H0 θ0 .
En el teorema 39 se probó que bajo H0
2
1 ∂ l (θ̃| x n )
e
−
−→P IX (θ0 ),
n
∂θ2
y que
√
n(θ̂n − θ0 ) −→D N (0, 1T overIX (θ0 )) ,
De donde se sigue, por el Teorema de Slutzky, que
Qn = −
2
´2
1 ∂ l (θ̃| x n ) ³√
e
n(
θ̂
−
θ
)
−→D χ21 .
n
0
n
∂θ2
2
El cálculo de d, la diferencia entre las dimensiones de Θ y Θ0 , suele hacerse
como
d = ν1 − ν0 ,
162
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
donde νi es el número de parámetros estimados bajo Hi menos las restricciones
que relacionan unos parámetros con otros, para i = 1, 2.
Ejemplo 71
P5
Modelos log-lineales. Sea θ ∈ Θ = {(p1 , p2 , p3 , p4 , p5 ) ∈ IR5 :
j=1 pj =
1, y pj ≥ 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas independientes e idénticamente distribuidas tales que
Pθ (Xi = j) = pj = f (j|θ)
es la función de probabilidad de Xi . La verosimilitud asociada a una muestra
de tamaño n es
n
Y
L(θ| x ) =
f (xi |θ) = py11 py22 py33 py44 py55
e
i=1
donde yj = #{xi , i = 1, . . . , n : xi = j}, j = 1, . . . , 5.
Se desea contrastar
½
H0 : p1 = p2 = p3 , p4 = p5
H1 : H0 es falsa
El espacio paramétrico Θ tiene dimensión 4, porque los parámetros tienen una
P5
ligadura lineal: j=1 pj = 1.
Para definir Θ0 , observemos que bajo H0 se cumple que p1 + p2 + p3 =
3p1 ≤ 1, luego 0 ≤ p1 ≤ 1/3. Además, como los pj deben sumar 1, se tiene que
3p1 + 2p4 = 1, luego p4 = (1 − 3p1 )/2. Ası́, Θ0 es
Θ0 = {(p1 , p1 , p1 , p4 , p4 ) : 0 ≤ p1 ≤ 1/3, y p4 = (1 − 3p1 )/2}
luego Θ0 tiene dimensión 1. Ası́ d = dim(Θ) − dim(Θ0 ) = 4 − 1 = 3.
Es sencillo verificar que el EMV global de pj es p̂j = yj /n. Calculemos ahora
el EMV bajo H0 . La verosimilitud es
µ
L(p1 | x ) =
e
p1y1 +y2 +y3
1 − 3p1
2
¶y4 +y5
de donde se sigue que el EMV de p1 bajo H0 es
p̂10 =
y1 + y2 + y3
,
3n
que
p̂20 = p̂30 = p̂10 =
y que
p̂40 = p̂50 =
y1 + y2 + y3
3n
1 − 3p̂10
y4 + y5
=
.
2
2
,
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD163
El estadı́stico λ( x ) es entonces
e
λ( x ) =
e
µ
y1 + y2 + y3
3y1
¶y1 µ
³
´y4 +y5
1−3p̂10
2
pˆ1 y1 pˆ2 y2 pˆ3 y3 pˆ4 y4 pˆ5 y5
y1 +y2 +y3
p̂10
y1 + y2 + y3
3y2
¶y2 µ
y1 + y2 + y3
3y3
=
¶y3 µ
y4 + y5
2y4
¶y4 µ
y4 + y5
2y5
¶ y5
El estadı́stico Qn = −2 log λ( x ) es
e
µ
¶
5
X
yj
Qn = −2 log λ( x ) = 2
yj log
,
mj
e
j=1
donde yj = np̂j , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una
de las categorı́as j = 1, . . . , 5 y mj = np̂j0 , j = 1, . . . , 5 son las estimaciones bajo
la hipótesis nula. El test de razón de verosimilitudes rechaza H0 si −2 log λ( x ) ≥
e
χ23,α .
Este es un ejemplo de una familia de modelos conocidos como modelos loglineales. En esta familia el estadı́stico Qn del test de razón de verosimilitudes
tiene siempre la forma que acabamos de ver.
.
.
5.6.
Contrastes relacionados con el de máxima
verosimilitud
El contraste basado en la razón de verosimilitudes no es el único procedimiento general para realizar contrastes de hipótesis. En esta sección veremos
otros dos métodos válidos para contrastar una hipótesis nula simple frente a
una alternativa compuesta.
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f
Se desea contrastar
5.6.1.
(
H0 : θ =
e
H1 : θ =
6
e
θ
e
θ
e
θ
e
, θ ∈ Θ ⊆ Rk .
e
0
0
Test del score.
Cuando en la sección 5.3 buscábamos procedimientos localmente más potentes, llegamos a un test basado en la función score:
Sn (θ; x n ) =
e
∂ log L(θ; x n )
e
∂θ
.
164
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
si θ ∈ IR, o
Ã
Sn ( θ ; x n ) =
e e
∂ log L( θ ; x n )
∂ log L( θ ; x n )
e e ,...,
e e
∂θ1
∂θk
!t
si θ = (θ1 , . . . , θk ) ∈ IRk .
e
Para contrastar H0 : θ = θ 0 frente a H1 : θ 6= θ 0 se propone el
e
e
e
e
estadı́stico
S
t
−1
Tn = (Sn ( θ 0 ; x n )) (In ( θ 0 )) Sn ( θ 0 ; x n ),
e e
e
e e
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regularidad, se distribuye asintóticamente como una χ2k dado que
Sn ( θ ; x n ) ≈ Nk (0, In ( θ 0 )).
e e
e
Para el caso k = 1 se tiene que bajo H0
Ã
!2
∂ log L(θ; x n )
−1
S
e
≈ χ21 .
Tn = (In ( θ 0 ))
∂θ
e
El test del score rechaza H0 si TnS ( x n ) > χ2k,α .
e
Cualquier estimador consistente de la matriz de información asintótica podrı́a
ser usado en lugar de In (θ0 ). Por ejemplo, pueden usarse la información observada On que se definió en el teorema 40.
Los tests del score se conocen en econometrı́a como tests de los multiplicadores de Lagrange.
5.6.2.
Test de Wald.
El contraste de H0 : θ = θ 0 frente a H1 : θ 6= θ 0 puede basarse también
e
e
e
e
en alguna distancia entre θ 0 y el estimador de máxima verosimilitud de θ ,
e
e
ˆθ . Dado que bajo H la distribución aproximada de ˆθ es
0
en
en
ˆθ ≈ N ( θ , (I ( θ ))−1 ),
k
0
n
0
en
e
e
el estadı́stico
Wn = ( ˆθ − θ 0 )t In ( θ 0 )( ˆθ − θ 0 )
en
e
e
en
e
ˆ
mide la distancia de Mahalanobish entre θ 0 y θ . El test de Wald se basa
e
en
en este estadı́stico. Bajo H0 ,
Wn ≈ χ2k .
Se rechaza H0 si Wn ( x n ) > χ2k,α .
e
Aquı́, al igual que ocurrı́a con el test del score, la matriz In ( θ 0 ) puede
e
ser sustituida por otro estimador consistente de la matriz de información. Por
ˆ
ejemplo, puede usarse In ( θ ) o la matriz de información observada On .
en
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD165
Obsérvese que para calcular el estadı́stico Wn sólo es necesario calcular el
estimador máximo verosı́mil global. Por este motivo se le llama a veces test
de la máxima verosimilitud.
Obsérvese que la expresión del test de la razón de verosimilitudes es completamente diferente de las expresiones de los test del score o de Wald. Sin
embargo, es fácil ver (usando desarrollos de Taylor) que los tres contrastes son
asintóticamente equivalentes en el sentido siguiente:
TnS + 2 log λ( x n ) −→P 0, Wn + 2 log λ( x n ) −→P 0.
e
e
En muestras finitas los tres tests pueden presentar diferencias.
Ejemplo 72
En un experimento de Bernoulli con probabilidad de éxito p que se repite n
veces, se llama X al número de éxitos observados: X ∼ B(n, p). Se trata de
contrastar las hipótesis
½
H0 : p = p 0
H1 : p 6= p0
mediante los contrastes de la razón de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,
µ ¶
n
l (p, x ) = log
+ x log p + (n − x) log(1 − p),
x
e
y sus primeras derivadas respecto al parámetro,
∂ l (p, x )
x n−x
x − np
e = −
=
,
∂p
p
1−p
p(1 − p)
∂ 2 l (p, x )
x
n−x
x(2p − 1) − np2
e
=
−
+
=
.
∂p2
p2
(1 − p)2
p2 (1 − p)2
Ası́, el EMV es
p̂ =
x
.
n
y la información de Fisher es
Ã
In (p) = E
∂ 2 l (p, x )
e
−
∂p2
!
=
n
.
p(1 − p)
El estadı́stico del test del score es
Ã
TnS = (In (p0 ))−1
p0 (1 − p0 )
n
µ
∂ l (p, x )
e
−
∂p
x − np0
p0 (1 − p0 )
¶2
=
!2
=
(x − np0 )2
,
np0 (1 − p0 )
166
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
y el del test de Wald
Wn = (p̂ − p0 )2
n
(x − np0 )2
=
.
p̂(1 − p̂)
np̂(1 − p̂)
Por su parte, el estadı́stico del test de la razón de verosimilitudes es
λ(x) =
máxp=p0 L(p|x)
L(p0 |x)
=
,
máxp∈(0,1) L(p|x)
L(p̂|x)
y
Qn = −2 log λ(x) = 2 (log L(p̂|x) − log L(p0 |x)) = 2 (l (p̂|x) − l (p0 |x)) =
2 (x log p̂ + (n − x) log(1 − p̂) − x log p0 − (n − x) log(1 − p0 )) =
2x (log p̂ − log(1 − p̂) − log p0 + log(1 − p0 )) + 2n (log(1 − p̂) − log(1 − p0 )) =
2x log
1 − p0
p0
1 − p0
− 2x log
− 2 log
.
1 − p̂
p̂
1 − p̂
Desarrollando la función log en serie de Taylor hasta el orden 2 alrededor del 1,
se obtiene que la expresión aproximada de Qn coincide con Wn .
.
.
5.6.3.
Contrastes en presencia de parámetros secundarios.
Acabamos de ver dos métodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipótesis nula es simple. Hemos visto que
están relacionados con el contraste de la razón de verosimilitudes. Sin embargo
éste último test es aplicable aun cuando la hipótesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald también pueden aplicarse
aunque no todos los parámetros del modelo queden fijados en la hipótesis nula.
Aquellos parámetros a los que H0 no hace referencia se denominan parámetros
secundarios o parámetros nuisance, en inglés.
Suponemos que el vector de parámetros θ puede subdividirse en dos subconjuntos, θt = (αt , β t ), con dimensión de α igual a p < k, y que se desean
contrastar las hipótesis
½
H0 : α = α 0
H1 : α 6= α0
Sea (α̂n , β̂n ) el EMV de (α, β) construido a partir de una muestra de tamaño
n. Entonces se tiene que
¶
µ ¶
µµ ¶
α̂n
α
−1
.
≈ Nk
, (In (α, β))
β
β̂n
Se trata ahora de derivar contrastes basados en la distribución asintótica de
√
n(α̂n − α).
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD167
Escribimos la matriz de información de Fisher en bloques,
µ
¶
In,αα (α, β) In,αβ (α, β)
In (α, β) =
In,βα (α, β) In,ββ (α, β)
de forma que In,αα (α, β) es la matriz de varianzas-covarianzas de las componentes α de la función score. Afirmaciones análogas son ciertas para los restantes
bloques. Obsérvese que In,βα (α, β) = In,αβ (α, β)t . Para facilitar la notación,
llamaremos Iij al bloque (i, j) de In (α, β), para i = 1, 2 y j = 1, 2.
Invertimos la matriz In (α, β) mediante las fórmulas de una matriz dividida
en bloques y obtenemos que el bloque correspondiente a la varianza de α̂n es
¡
¢−1
−1
I11 − I12 I22
I21
.
Ası́, definimos la información sobre α ajustada después de haber estimado β como el inverso de esa matriz:
−1
In,αα|β (α, β) = I11 − I12 I22
I21 .
La distribución marginal aproximada de α̂n es
³ £
¤−1 ´
α̂n ≈ Np α, In,αα|β (α, β)
.
El estadı́stico del test de Wald es
t
Wn = (α̂n − α0 ) In,αα|β (α̂n , β̂n ) (α̂n − α0 ) ,
que bajo H0 tiene distribución aproximada χ2p . Se rechazará H0 a nivel τ ∈ (0, 1)
si Wn > χ2p,τ .
Vamos ahora a deducir la expresión del test del score apropiado para
esta situación. Se estima β mediante β̂0 , el EMV de β calculado suponiendo que
α = α0 , es decir, resolviendo en β el sistema de ecuaciones Sn,β (α0 , β) = 0. De
las propiedades usuales de los estimadores máximo verosı́miles se deduce que
bajo H0
¡
¢
Sn,α (α0 , β̂0 ) ≈ Np 0, In,αα|β (α0 , β) .
Por tanto, el estadı́stico del test del score es
£
¤−1
TnS = [Sn,α (α0 , β̂0 )]t In,αα|β (α0 , β0 )
[Sn,α (α0 , β̂0 )]
que bajo H0 es aproximadamente χ2p (de hecho, es asintóticamente equivalente
a Wn ). Se rechazará H0 a nivel τ ∈ (0, 1) si TnS > χ2p,τ .
Para deducir la prueba de la razón de verosimilitudes hay que ajustar
tanto el modelo global como el reducido:
Qn = −2 log λ( x n ) = 2[l (α̂n , β̂n ) − l (α0 , β̂0 )],
e
que bajo H0 es aproximadamente χ2p y asintóticamente equivalente a Wn y a
TnS .
168
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Ejemplo 73
Modelo de regresión exponencial. Supongamos que en n individuos independientes se mide el valor de una covariable xi y el de una variable respuesta
Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de
fallo 1/E[Yi ] = exp(α + βxi ), donde α, β ∈ IR.
Interesa saber si la covariable está asociada con la respuesta, ası́ que se
plantea el contraste
½
H0 : β = 0
H1 : β 6= 0
Buscaremos el test de Wald, el del score y el de máxima verosimilitud. Calculamos la verosimilitud:
L(α, β|(yi , xi ), 1 ≤ i ≤ n) =
n
Y
exp(α + βxi ) exp(−yi exp(α + βxi )) =⇒
i=1
l (α, β|(yi , xi ), 1 ≤ i ≤ n) =
n
X
{α + βxi − yi exp(α + βxi )} =
i=1
nα + β
n
X
xi −
i=1
n
X
yi exp(α + βxi )
i=1
Calculamos las funciones score:
Sα (α, β) =
n
X
∂l
=n−
yi exp(α + βxi ),
∂α
i=1
n
n
X
X
∂l
Sβ (α, β) =
=
xi −
yi xi exp(α + βxi ).
∂β
i=1
i=1
Los componentes de la matriz de información observada vienen dados por las
derivadas de los scores:
n
X
∂ l
yi exp(α + βxi ),
2 =
∂α
i=1
2
−
n
−
X
∂ 2l
=
yi xi exp(α + βxi ),
∂α∂β
i=1
n
−
X
∂2l
=
yi x2i exp(α + βxi ).
∂β 2
i=1
Como E(Yi ) = 1/ exp(α + βxi ) para cada i, tomando esperanzas de las expresiones anteriores se obtiene la matriz de información:
µ
¶
Pn
n
x
Pn
Pni=1 2i
In (α, β) =
i=1 xi
i=1 xi
La información para β ajustada por α es
−1
Iββ|α = Iββ − Iβα Iαα
Iαβ =
n
X
n
n
X
X
1
x2i − (
xi )2 =
(xi − x)2
n
i=1
i=1
i=1
5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD169
El estimador de máxima verosimilitud conjunto (α̂n , β̂n ) se calcula resolviendo numéricamente el sistema de ecuaciones
½
½
Pn
Sα (α, β) = 0
n = i=1 yi exp(α + βxi )
Pn
Pn
⇐⇒
Sβ (α, β) = 0
i=1 xi =
i=1 xi yi exp(α + βxi )
Por su parte, el estimador de máxima verosimilitud de α bajo la hipótesis nula
de que β = 0 puede calcularse explı́citamente, pues en ese caso Yi son una m.a.s.
de Y ∼ exp(exp(α)), y sabemos que en este caso el EMV es
α̂0 = log(n/
n
X
yi ).
i=1
Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular los
estadı́sticos de los trest contrastes:
Test de Wald.
Wn = (β̂n − β0 )t Iββ|α (β̂n − β0 ) = β̂n2
n
X
H0
(xi − x)2 ≈ χ21 .
i=1
Test del score. El score calculado en el EMV bajo H0 es
Sβ (α̂0 , 0) =
n
X
xi −
i=1
n
X
n
yi xi Pn
i=1
i=1
yi
=
µ
¶
yi
xi 1 −
y
i=1
n
X
y tiene varianza aproximadamente igual a
Iββ|α =
n
X
(xi − x)2 ,
i=1
ası́ que
´
³
yi
x
1
−
i=1 i
y
Sβ (α̂0 , 0)
p
= pPn
≈H0 N (0, 1),
2
Iββ|α
i=1 (xi − x)
Pn
luego
Ã
TnS
=
µ
¶!2 X
n
H0
yi
xi 1 −
(xi − x)2 ≈ χ21 .
y
i=1
i=1
n
X
Test de la razón de verosimilitudes.
−2 log λ =
"
2 nα̂n + β̂n
n
X
i=1
xi −
n
X
yi exp(α̂n + β̂n xi ) − n log(n/
i=1
n
X
#
yi ) − n
i=1
que bajo H0 es aproximadamente χ21 .
.
.
170
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
5.7.
Contrastes bayesianos
El enfoque bayesiano de los contrastes de hipótesis es conceptualmente diferente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 y
H1 las hipótesis que se van a contrastar, que en un modelo paramétrico serán
afirmaciones sobre el parámetro θ de la forma θ ∈ Θ0 y θ 6∈ Θ0 , respectivamente.
En un marco frecuentista las hipótesis son siempre ciertas o estrictamente
falsas, dado que si θ ∈ Θ0 entonces H0 es cierta y por tanto
P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x,
mientras que si θ 6∈ Θ0 esas probabilidades son, respectivamente, 0 y 1 sea cual
sea el valor de x observado.
En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de
P (H0 es cierta|x) y P (H1 es cierta|x),
las probabilidades de que cada una de las hipótesis sean ciertas después de haber
observado los datos x. Estas probabilidades proporcionan información útil sobre
la veracidad de H0 y H1 .
Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f (x|θ) y θ una variable
aleatoria con función de densidad (o de probabilidad) a priori π(θ). El contraste
de H0 frente a H1 se basará en la distribución a posteriori π(θ| x ), donde x es
e
e
la m.a.s. de X observada. El contraste planteado es
½
H0 : θ ∈ Θ 0
H1 : θ ∈ Θ1 = Θc0
Las probabilidades a posteriori de cada una de las hipótesis son
Z
P (H0 es cierta| x ) = P (θ ∈ Θ0 | x ) =
π(θ| x )dθ,
e
e
e
Θ0
Z
P (H1 es cierta| x ) = P (θ ∈ Θ1 | x ) =
π(θ| x )dθ.
e
e
e
Θ1
El procedimiento para aceptar o rechazar H0 podrı́a ser, por ejemplo, rechazar H0 si
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x )
e
e
y aceptarla en caso contrario. Con la terminologı́a introducida en las secciones
anteriores, el estadı́stico del contraste serı́a
T ( X ) = P (θ 6∈ Θ0 | X )
e
e
y la región crı́tica
{ x : P (θ 6∈ Θ0 | x ) > 1/2}.
e
e
Un procedimiento más conservador consiste en rechazar H0 sólo si la probabilidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo,
e
puede tomarse c = 0,95 o c = 0,99).
5.7. CONTRASTES BAYESIANOS
171
Ejemplo 74
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribución a
priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos
½
H0 : θ ≤ θ 0
H1 : θ > θ 0
Tal como se vió en la sección 3.3, la distribución a posteriori de θ es N (µp , τp2 ),
donde
τ 2 σ2
nτ 2 x + σ 2 µ
,
τ
=
.
µp =
p
nτ 2 + σ 2
nτ 2 + σ 2
Rechazar H0 si y sólo si
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ),
e
e
es equivalente a hacerlo si y sólo si
1
P (θ ≤ θ0 | x ) < ,
2
e
y como π(θ| x ) es simétrica y centrada en µp , esto es cierto si y sólo si
e
µp =
nτ 2 x + σ 2 µ
σ 2 (θ0 − µ)
> θ0 ⇐⇒ x > θ0 +
.
2
2
nτ + σ
nτ 2
.
.
5.7.1.
Ventaja a priori y a posteriori. Factor de Bayes
En el marco de la inferencia bayesiana, la forma de proceder es determinar
la ventaja a posteriori de H0 (en inglés, posterior odds),
Q∗ =
P (H0 | x )
e
P (H1 | x )
e
y la conclusión del contraste se expresa diciendo que H0 es Q∗ veces más probable
que H1 , dados los datos.
Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que
e
e
1
Q∗
= P (H0 | x ), y
= P (H1 | x )
1 + Q∗
1 + Q∗
e
e
son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas.
Obsérvese que en el enfoque bayesiano se tratan las dos hipótesis, la nula y la
alternativa, de forma simétrica.
172
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente:
x |H0 )P (H0 )
e
h( x )
P (H0 | x )
P (H0 ) f ( x |H0 )
∗
e =
e
e
Q =
=
= Q · B,
P (H1 ) f ( x |H1 )
P (H1 | x )
f ( x |H1 )P (H1 )
e
e
e
h( x )
e
f(
donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la
creencia del investigador sobre qué hipótesis es cierta antes de realizar el experimento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina cómo
e
e
los datos observados han cambiado esas creencias sobre qué hipótesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipótesis. El interés se centra entonces en el factor de Bayes, pues este valor
es el que determina cómo los datos modifican las creencias sobre qué hipótesis
es cierta.
En general H0 especifica el modelo muestral f0 (x|θ) y una distribución a
priori para θ, mientras que H1 especifica otro modelo paramétrico f1 (x|φ) y
una distribución a priori sobre φ. Con esta formulación, los contrastes bayesianos permiten comparar modelos paramétricos diferentes. Por ejemplo, en un
problema de regresión lineal se podrı́an comparar dos conjuntos de regresores
diferentes.
Veremos ahora cómo se concretan los contrastes bayesianos en tres situaciones en las que el modelo paramétrico bajo ambas hipótesis es el mismo: el
contraste de dos hipótesis simples, el de dos compuestas y el de una simple frente
a una compuesta.
5.7.2.
Contraste de dos hipótesis simples.
Se trata de contrastar
½
H0 : θ = θ0
H1 : θ = θ1
Dar una distribución a priori para el parámetro consiste en fijar valores para
P (H0 ) y P (H1 ).
En este caso el factor de Bayes es
B=
f ( x |θ0 )
e
,
f ( x |θ1 )
e
que es el cociente de verosimilitudes que sirve de estadı́stico al test derivado del
Lema de Neyman-Pearson.
5.7. CONTRASTES BAYESIANOS
173
Ejemplo 75
Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). Ası́,
(
n
X
n
)
f ( x |θ) = θ exp −θ
xi
e
i=1
y
µ
B=
θ0
θ1
(
¶n
exp (θ1 − θ0 )
n
X
)
xi
.
i=1
La ventaja a posteriori de H0 es
P (H0 )
Q∗ =
P (H1 )
µ
θ0
θ1
¶n
(
exp (θ1 − θ0 )
n
X
)
xi
.
i=1
.
.
5.7.3.
Contraste de dos hipótesis compuestas.
Se trata de contrastar
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θc0
Para cada hipótesis se debe determinar una distribución a priori del parámetro
θ (éstas podrı́an coincidir). Sean
π0 (θ|H0 ) y π1 (θ|H1 ),
la distribuciones a priori de θ bajo H0 y bajo H1 , respectivamente. Ası́,
Z
Z
f ( x |H0 ) =
f (x, θ|H0 )dθ =
f (x|θ)π0 (θ|H0 )dθ,
e
Θ0
Θ0
y
Z
f ( x |H1 ) =
e
Z
f (x, θ|H1 )dθ =
Θ1
Por lo tanto, el factor de Bayes es
R
B = RΘ0
Θ1
5.7.4.
f (x|θ)π1 (θ|H1 )dθ,
Θ1
f (x|θ)π0 (θ|H0 )dθ
f (x|θ)π1 (θ|H1 )dθ
.
Contraste de hipótesis nula simple frente a alternativa compuesta.
Se trata de contrastar
½
H0 : θ = θ 0
H1 : θ 6= θ0
174
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
f (x|θ0 )
B=R
.
f
(x|θ)π
1 (θ|H1 )dθ
θ6=θ0
Obsérvese que si la distribución a priori de θ es absolutamente continua
entonces la probabilidad a posteriori de H0 será igual a 0, lo cuál implica que
Q∗ será siempre 0, sean cuales sean los datos observados, y H0 será rechazada
siempre. Sin embargo el factor de Bayes B sı́ es calculable y recoge la información
esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es
posible establecer a priori un valor para Q y definir Q∗ como el producto de Q
por B.
Ejemplo 76
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar
½
H0 : θ = θ0
H1 : θ 6= θ0
La verosimilitud es
Pn
xi
i=1
θ
.
f ( x |θ) = e−nθ Qn
e
i=1 xi !
Se considera la distribución a priori de θ bajo H1 como la distribución conjugada,
una γ(α1 , α2 ):
1
1
π1 (θ|H1 ) =
θα1 e−θ/α2 .
Γ(α1 + 1) α2α1 +1
El numerador del factor de Bayes es f ( x |θ0 ) y el denominador
e
Z
f (x|θ)π1 (θ|H1 )dθ =
θ6=θ0
Pn
Z
θ i=1 xi
1
1
α1 −θ/α2
e−nθ Qn
dθ =
α1 +1 θ e
Γ(α
+
1)
x
!
α2
1
θ6=θ0
i=1 i
Pn
Γ(α1 + i=1 xi + 1)
Pn
×
Qn
α1 +
xi +1
α1 +1
i=1
x
!Γ(α
+
1)α
(n
+
1/α
)
i
1
2
2
i=1
Pn
Pn
Z ∞
α1 +
xi +1 α1 +
xi (n+1/α2 )θ
i=1
i=1
(n + 1/α2 )
θ
e
Pn
dθ =
Γ(α1 + i=1 xi + 1)
0
Pn
Γ(α1 + i=1 xi + 1)
Pn
.
Qn
α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Ası́,
Pn
e
B=
Qn
α1 +1
α2
i=1
−nθ0 θQ
0
Γ(α1 +
i=1
n
Pn i=1
i=1
xi
xi !
=
xi +1)
α1 +
xi !Γ(α1 +1)(n+1/α2 )
Pn
i=1
xi +1
5.7. CONTRASTES BAYESIANOS
175
Pn
Pn
xi
α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Pn
.
Γ(α1 + i=1 xi + 1)
Supongamos que se observan seis datos,
x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,
de donde
P
xi = 19, y que se quieren contrastar
½
H0 : θ = 2
H1 : θ 6= 2
con
π1 (θ|Θ1 ) ∼ γ(α1 = 2,6, α2 = 1/0,6).
La esperanza y la varianza a priori son, respectivamente,
E=
2,6 + 1
2,6 + 1
= 6, V =
= 10.
0,6
0,62
Ası́, el factor de bayes es
B=
219 e−6·2 Γ(2,6 + 1)(6 + 0,6)2,6+19+1
= 0,77.
0,62,6+1 Γ(2,6 + 19 + 1)
Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a
posteriori es
Q∗ = Q · B = 0,5 · 0,77 = 0,385
y se concluirı́a que H1 es la hipótesis cierta.
Supongamos que la distribución a priori tuviese parámetros α1 = 35 y α2 =
1/6. Entonces E = 6 y V = 1. En este caso se llegarı́a a que
B = 3,16 y Q∗ = 1,58,
luego se seguirı́a que H0 es la hipótesis correcta. El siguiente gráfico ilustra las
diferencias entre las dos situcaiones que acabamos de considerar.
176
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Distribuciones a priori
0.5
0.45
0.4
0.35
p(θ|H1,α1=35, α2=6)
p(θ|H1)
0.3
0.25
0.2
0.15
p(θ|H1,α1=2.6, α2=0.6)
0.1
0.05
0
0
θ Media de x ,...,x 5
1
n
θ
10
15
.
.
En el contraste de una hipótesis nula simple frente a una alternativa compuesta el factor de bayes puede calcularse de un modo alternativo, tal y como
especifica por el siguiente teorema.
Teorema 45 Si f (x|θ) es continua en θ = θ0 , entonces
B = lı́m
θ−→θ0
π(θ| x , H1 )
e
π(θ|H1 )
donde π(θ| x , H1 ) es la densidad a posteriori de θ y π(θ|H1 ) es la a priori.
e
Demostración: Por la hipótesis de continuidad se tiene que
f ( x |H0 ) = lı́m f ( x |θ, H1 ).
θ−→θ0
e
e
Como f ( x |θ, H1 ) = f ( x |H1 )π(θ| x , H1 )/π(θ|H1 ), se tiene que
e
e
e
f ( x |H0 ) = f ( x |H1 ) lı́m
θ−→θ0
e
e
π(θ| x , H1 )
π(θ| x , H1 )
f ( x |H0 )
e
e
e
= lı́m
=⇒ B =
.
θ−→θ
π(θ|H1 )
π(θ|H1 )
0
f ( x |H1 )
e
2
5.8. LISTA DE PROBLEMAS
5.8.
177
Lista de problemas
Definiciones básicas. Contrastes más potentes
1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson
para encontrar la región crı́tica del test más potente para contrastar H0
frente a H1 en las siguientes situaciones.
a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 ,
θ1 > θ 0 .
b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 ,
H1 : θ = θ 1 , θ 1 > θ 0 .
c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼
N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas.
H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos.
2. (Garthwaite, Jollife y Jones 1995, 4.2) En el último apartado del ejercicio
anterior, supongamos que σ 2 = τ 2 = δ = 1, que n = m y que hacemos el
contraste óptimo a nivel α = 0,01.
a) Calcula la potencia del test si n = 10.
b) Calcula el menor valor de n tal que la potencia sea mayor o igual que
0,95.
3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una
distribución gamma de parámetros (3, θ) con densidad
f (x; θ) =
1 2 −x/θ
x e
I(0,∞) (x).
2θ3
a) Encuentra el test más potente para contrastar H0 : θ = θ0 frente a
H1 : θ = θ1 , donde θ1 > θ0 .
b) Utiliza los resultados obtenidos para dar el test uniformemente más
potente para contrastar H0 frente a H10 : θ > θ0 .
4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1 , . . . , Xn una m.a.s. de una
distribución lognormal de parámetros (µ, 1). Prueba que existe un test
uniformemente más potente para contrastar H0 : µ = µ0 frente a H1 : µ >
µ0 e indica qué forma tiene.
5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1 , . . . , Xn una m.a.s. de una
variable aleatoria X. Se considera el contraste
½
H0 : X ∼ U (0, 1)
H1 : X ∼ f (x; θ) = θeθx /(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido
Prueba que hay un test uniformemente más potente y da la región crı́tica
aproximada para n suficientemente grande.
178
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f (x), una función de
densidad desconocida. Se toma una muestra de tamaño n para contrastar
H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades
conocidas con el mismo soporte.
a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1],
para expresar H0 y H1 como hipótesis paramétricas.
b) Considera
x2
1
1
f0 (x) = √ e− 2 , f1 (x) = e−|x| ,
2
2π
y prueba que entonces la región crı́tica del test más potente para
contrastar H0 frente a H1 es de la forma
R = { x ∈ IRn :
e
n
X
(|xi | − 1)2 ≥ k}
i=1
para algún k.
c) Evalúa esa región crı́tica para n = 1 y k = 1. ¿Es el test insesgado?
d ) Evalúa esa región crı́tica para n = 1 y k = 1/4.¿Es el test insesgado?
Contrastes de la razón de verosimilitudes, scores y Wald
7. Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ) con ambos parámetros desconocidos.
a) Considera el contraste
½
H0 : µ = µ0
H1 : µ 6= µ0
Comprueba que el test de la razón de verosimilitudes conduce al test
t usual, que tiene región crı́tica
√
n(x − µ0 )
n
Rα = { x ∈ IR : −tn−1,α/2 ≤
≤ tn−1,α/2 }c ,
S
e
donde Ac denota el complementario del conjunto A.
b) Considera el contraste
½
H0 : σ 2 = σ02
H1 : σ 2 6= σ02
Comprueba que el test de la razón de verosimilitudes tiene región
crı́tica
(n − 1)S 2
Rα = { x ∈ IRn : C1 ≤
≤ C2 }c ,
σ02
e
para constantes C1 y C2 elegidas convenientemente.
5.8. LISTA DE PROBLEMAS
179
8. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ) y Y1 , . . . , Ym m.a.s. de Y ∼
N (θ, τ 2 ). Las dos muestras son independientes. Los cuatro parámetros
son desconocidos.
a) Suponiendo que σ 2 = τ 2 , comprueba que el test de la razón de verosimilitudes para contrastar
½
H0 : µ = θ
H1 : µ 6= θ
conduce al contraste usual para la diferencia de medias.
b) Da la región crı́tica del test de la razón de verosimilitudes para contrastar
½
H0 : σ 2 = τ 2
H1 : σ 2 6= τ 2
c) En el caso especial de n = m, comprueba que el test anterior se
reduce al test F usual para contrastar igualdad de varianzas.
9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X ∼ Exp(λ1 ), e
Y1 , . . . , Yn m.a.s. de Y ∼ Exp(λ2 ) (los parámetros son las inversas de las
esperanzas). Sean X m e Y n las respectivas medias muestrales. Consideramos el test
½
H0 : λ 1 = λ 2
H1 : λ 1 < λ 2
a) Probar que bajo H0
Xm
∼ F2m,2n
Yn
(indicación: Probar que si X es exponencial con esperanza 2, entonces X es también χ2 con dos grados de libertad. Probar que si X e Y
son variables aleatorias independientes e idénticamente distribuides
según una Exp(λ), entonces (X/Y ) ∼ F2,2 ).
b) Probar que la región crı́tica del test de la razón de verosimilitudes para contrastar H0 frenta a H1 puede expresarse en función del cociente
X m /Y n y de cuantiles de una distribución F con grados de libertad
convenientes.
c) Los siguientes datos corresponden a tiempos de llegada a un incidente
de dos servicios de urgencia: guardia urbana y bomberos.
Tiempo (minutos) de llegada de
la guardia urbana a un accidente
de tráfico urbano
Tiempo (minutos) de llegada de
los bomberos a un incendio en el
casco urbano.
2,65 2,98 5,61 6,61 2,50 0,65 3,74
1,12 5,34 0,40 1,93 4,87
6,89 3,48 4,91 5,04 9,17 2,20 1,05
6,09
180
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Se supone que los tiempos de llegada se distribuyen según una ley
exponencial. Usar el test de razón de verosimilitudes para contrastar
si los tiempos medios de llegada de ambos servicios son iguales frente
a que la guardia urbana llega en promedio antes que los bomberos.
Hacerlo a un nivel de significación α = 0,05.
10. Se toma una muestra de tamaño n de una variable aleatoria Poisson(θ)
para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0 . Encontrar el estadı́stico
de los siguientes tests.
a) Test de razón de verosimilitudes.
b) Test del score.
c) Test de Wald.
11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una población,
el número de muertes en una región con población igual a P (es decir, con
un número de habitantes igual a P ) se modela con una ley de Poisson de
media µP , µ ∈ [0, 1].
a) Suponemos que el número de muertes observadas en n regiones con
poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresión
para el estimador de máxima verosimilitud de µ. Llámalo µ̂.
La siguiente tabla da el número de muertos por cáncer de hı́gado (el cáncer
de hı́gado se puede considerar una enfermedad rara) durante 4 años en las
regiones de Ontario (Canadá).
Regionses
Región 1
Región 2
Región 3
Región 4
Región 5
Región 6
Región 7
Región 8
Región 9
Región 10
Pi
423.447
175.685
1.245.379
413.465
216.476
242.810
213.591
166.045
265.880
116.371
Muertes
37
11
72
40
12
14
16
9
15
12
b) Encuentra µ̂ para estos datos y calcula el número de muertes esperadas en cada región.
c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Poisson de medias λ1 , λ2 , . . . , λn y sean P1 , P2 , . . . , Pn constantes positivas conocidas. Considera la hipótesis:
H0 : λ1 = µP1 , λ2 = µP2 , . . . , λn = µPn
5.8. LISTA DE PROBLEMAS
181
donde µ es desconocido. Demuestra que el estadı́stico del test de la
razón de verosimilitudes para contrastar esta hipótesis es
−2 log Λ = 2
n
X
Yi log(Yi /λ̂i )
i=1
donde λ̂i = µ̂Pi y µ̂ es el estimador de máxima verosimilitud encontrado en el apartado (a).
d ) Aplica este último resultado para concluir si las tasas de muerte (proporción de muertos en cada población) de las 10 regions son proporcionales a las poblaciones de las regiones.
12. (Examen julio 2000) Sea X v.a. con densidad
f (x; β) =
β
I[1,∞) (x), β > 0.
xβ+1
a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )).
b) Se observa una muestra de tamaño n de X. Contrasta a nivel α
½
H0 : β = 1
H1 : β 6= 1
usando el test de la razón de verosimilitudes, el test de Wald y el test
del score.
c) Aplica los tests anteriores para α = 0,05 al caso de haber observado
los siguientes datos:
2,2263, 1,6464, 1,1788, 1,5014, 3,1677,
1,3762, 5,0698, 1,7471, 1,8849, 16,0879
(Suma de los datos= 35.8865; producto de los datos= 7595.66).
Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido.
Una de las dos hipótesis siguientes es cierta:
H0 : θ =
1
3
o H1 : θ = .
2
4
Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que
su probabilidad a priori si y sólo si x log 3 < n log 2.
14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una
distribución exponencial de esperanza 1/θ, θ > 0. Se desea contrastar
H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipótesis tienen probabilidades
182
CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
a priori P (H0 ) = p y P (H1 ) = 1 − p. Si la distribución a priori de θ es
γ(α, β), con α y β conocidos, determina la ventaja a posteriori
P (H0 | x )
e = Q · B,
P (H1 | x )
e
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la definición del factor de Bayes
y, después, calculando B como lı́mite de cocientes entre probabilidades a
posteriori y a priori bajo H1 .
Q∗ =
15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una
N (θ, 1). Se consideran dos hipótesis: H0 : θ = 1 y H1 , con P (H0 ) = p y
P (H1 ) = 1 − p.
a) Suponiendo que H1 especifica que θ = −1, prueba que
Pn
pe i=1 xi
Pn
.
P (H0 | x ) = Pn
e
pe i=1 xi + (1 − p)e− i=1 xi
b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribución
a priori de θ es N (0, 1), determina P (H0 | x ) en el caso especial de
Pn
e
que i=1 xi = n.
Capı́tulo 6
Estimación por intervalos
Referencias: Casella-Berger, capı́tulo 9 y Cristóbal (1992), capı́tulo
15.
En los capı́tulos 3 y 4 se han estudiado los estimadores puntuales. Estos
estimadores ofrecen un único valor como estimación del parámetro desconocido
θ. En este capı́tulo se aborda el problema de la estimación por conjuntos,
donde se estudian estimadores que proporcionan un conjunto como estimación
de θ. El resultado de una estimación por conjuntos es una afirmación del tipo
“θ ∈ C”, donde C = C( x ) es un subconjunto del espacio paramétrico Θ que
e
depende de los datos observados x . En el caso de que Θ ⊆ IR los conjuntos que
e
se suelen usar para realizar inferencias sobre θ son intervalos.
6.1.
Intervalos de confianza
Un estimador por intervalos de un parámetro θ ∈ Θ ⊆ IR es cualquier
par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales
e
e
que L( x ) ≤ U ( x ) para todo x = (x1 , . . . , xn ) ∈ X . Si se observa el valor
e
e
e
X = x , mediante este estimador se hace la inferencia “L( x ) ≤ θ ≤ U ( x )”.
e
e
e
e
Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos
e
e
de θ (o intervalo estimador de θ), mientras que al valor que ha tomado en
la muestra observada [L( x ), U ( x )] se le llama estimación por intervalos
e
e
de θ (o intervalo estimación de θ).
Ejemplo 77
Sea X1 , X2 , X3 , X4 una muestra de tamaño 4 de X ∼ N (µ, 1). Un estimador
por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 ,
la estimación por intervalos de µ es [x − 1, x + 1].
.
.
183
184
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Obsérvese que si se estima un parámetro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos
limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que
antes dábamos un valor concreto como estimación suya. Dado que se pierde en
precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un
intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se
gana en confianza: en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea estimar es 0, mientras que la probabilidad
de que un estimador por intervalos cubra al parámetro será positiva.
Ejemplo 77, página 183. Continuación. Si se estima µ por X, se tiene que
P (X = µ) = 0, porque X ∼ N (µ, 1/4). Sin embargo,
P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) =
µ
¶
X −µ
√ ≤ 2 = 0,9544.
P −2 ≤
1/ 4
A costa de algo de precisión, el paso de un estimador puntual a uno por intervalos ha permitido aumentar la confianza que tenemos en que sea correcta la
afirmación hecha en la inferencia.
.
.
Se llama probabilidad de cobertura de un estimador por intervalos
[L( X ), U ( X )] del parámetro θ a la probabilidad de que ese intervalo aleatorio
e
e
cubra al verdadero valor del parámetro θ:
Pθ (θ ∈ [L( X ), U ( X )]).
e
e
Obsérvese que esa probabilidad de cobertura puede variar con θ.
Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como
e
e
estimador del parámetro θ al ı́nfimo de las probabilidades de cobertura:
ı́nf Pθ (θ ∈ [L( X ), U ( X )]).
e
e
θ∈Θ
Intervalo de confianza es el nombre que recibe usualmente un estimador
por intervalos junto con su coeficiente de confianza. También se nombra ası́ a
veces a la estimación a que da lugar el estimador por intervalos aplicado a una
muestra concreta. Además de C( x ), se usará también la notación IC1−α (θ) se
e
usará para referirse a un intervalo de confianza (1 − α) para θ.
Si se desea construir un intervalo para una transformación invertible τ (θ) del
parámetro y [L( x ), U ( x )] es un intervalo de confianza (1 − α) para θ, entonces
e
e
el intervalo
[τ (L( x )), τ (U ( x ))]
e
e
es un intervalo de confianza (1 − α) para τ (θ).
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185
Obsérvese que en las expresiones del tipo Pθ (θ ∈ [L( X ), U ( X )]), el valor
e
e
del parámetro está fijo y lo que son variables aleatorias son los extremos del
intervalo:
Pθ (θ ∈ [L( X ), U ( X )]) = Pθ ({L( X ) ≤ θ} ∩ {U ( X ) ≥ θ}).
e
e
e
e
6.2.
Métodos para construir intervalos de confianza
En esta sección veremos cuatro métodos para construir estimadores por intervalos de un parámetro θ ∈ Θ ⊆ IR.
6.2.1.
Inversión de un contraste de hipótesis
Como veremos a continuación, hay una estrecha relación entre la estimación
por intervalos y los contrastes de hipótesis. En general, se puede decir que cada
método de construcción de un intervalo de confianza corresponde a un método
de contraste de un hipótesis, y viceversa.
Ejemplo 78
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido.
Consideramos el contraste
½
H0 : µ = µ0
.
H1 : µ 6= µ0
Para hacer el contraste a nivel α el test insesgado uniformemente de máxima
√
potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la región del espacio
muestral X en donde se acepta H0 es el conjunto de x tales que
e
σ
σ
x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ .
n
n
Dado que el test tiene tamaño α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α.
Por lo tanto, para todo µ0
¯
µ
¶
σ
σ ¯
P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α,
n
n
de donde se sigue que
¶
µ
σ
σ
=1−α
Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √
n
n
√
√
para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por intervalos de confianza 1 − α para µ.
.
.
186
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
La correspondencia entre intervalos de confianza y contrastes de hipótesis
se debe a que ambos procedimientos persiguen la consistencia entre los valores
observados en la muestra y los parámetros de la distribución poblacional, aunque
desde perspectiva distintas. En un contraste de hipótesis se fijan los parámetros
y se buscan qué valores muestrales son acordes con ellos (esto es, se busca la
región de aceptación), mientras que en la estimación por intervalos se toma
como fija la muestra observada y se buscan los valores de los parámetros que
hacen esta muestra plausible (esto es, se busca el intervalo de confianza).
El siguiente resultado prueba la relación existente entre contrastes e intervalos.
Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0 ) a la región de aceptación a nivel α de un test que contrasta H0 : θ = θ0 . Para cada x ∈ X se
e
define el conjunto C( x ) ⊆ Θ como
e
C( x ) = {θ0 ∈ Θ : x ∈ A(θ0 )}.
e
e
Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confiane
za 1 − α para θ.
Recı́procamente, sea C( X ) un estimador por conjuntos de confianza 1 − α
e
para θ. Para cada θ0 ∈ Θ se define
A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}.
e
e
Entonces A(θ0 ) es la región de aceptación a nivel α de un test que contrasta
H0 : θ = θ 0 .
Demostración: Veamos la primera parte. Por ser A(θ0 ) el complementario de
la región de rechazo de un test de nivel α se tiene que
Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α.
e
Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar
de θ0 . Como x ∈ A(θ) si y sólo si θ ∈ C( x ), se tiene que
e
e
Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α,
e
e
y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α.
e
Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
región de aceptación es A(θ0 ) es
Pθ0 ( X 6∈ A(θ0 )) = Pθ0 (θ0 6∈ C( X )) ≤ α,
e
e
ası́ que este es un test de nivel α.
2
El procedimiento de construcción de intervalos de confianza (o de conjuntos
de confianza, en general) a partir de la inversión de contrastes de hipótesis es muy
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 187
útil en la práctica porque en general es más sencillo un problema de contraste
de hipótesis que uno de estimación: el hecho de poder trabajar suponiendo la
hipótesis nula cierta facilita la tarea. Cualquiera de los métodos de contraste
de hipótesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de
confianza.
Obsérvese que, aunque sea θ ∈ IR, este mecanismo de inversión no garantiza
que los conjuntos de confianza obtenidos sean intervalos.
Ejemplo 79
Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a
partir de una observación x de X. Para ello se invierte el test de tamaño α que
contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por región de aceptación los
valores x que son más probables bajo H0 hasta completar una probabilidad de
(1 − α).
Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla
da las regiones de aceptación A(p) para los distintos valores de p especificados
en H0 :
p
[0, ,238]
(,238, ,305)
[,305, ,362]
(,362, ,366)
[,366, ,634]
(,634, ,638)
[,638, ,695]
(,695, ,762)
[,7,621]
A(p)
0
0,1
1
0,1
1,2
2,3
2
2,3
3
Invirtiendo estas regiones de aceptación se obtienen los siguientes conjuntos de
confianza C(x):
x
0
1
2
3
C(x)
[0, ,305) ∪ (,362, ,366)
(,238, ,634]
[,366, ,762)
(,634, ,638) ∪ (,695, 1]
Observar que no todos los conjuntos de confianza que pueden aparecer son intervalos.
.
.
En la práctica, sin embargo, con frecuencia sı́ encontraremos intervalos. Por
otra parte, el tipo de intervalo encontrado dependerá de la hipótesis alternativa
188
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
que se consideró para definir el contraste. Si la hipótesis alternativa es bilateral,
en general se obtendrá un intervalo de longitud finita, mientras que si la alternativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos
en −∞ o ∞.
Ejemplo 80
Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ
e
mediante la inversión de un test de tamaño α. Se toma una muestra de tamaño
n de X. El test de la razón de verosimilitudes para contrastar
½
H0 : λ = λ 0
H1 : λ 6= λ0
tiene por estadı́stico
1 −
e
λn
0
supλ
Pn
i=1
1 −
λn e
xi /λ0
Pn
i=1
µ Pn
i=1
nλ0
xi /λ
xi
=
1 −
e
λn
0
Pn
(
¶n
en e−
Pn
i=1
xi /λ0
1
e−n
xi /n)n
=
i=1
Pn
i=1
xi /λ0
.
Para un valor λ0 fijo, la región de aceptación del test es
½
µ Pn
¶n Pn
¾
i=1 xi
A(λ0 ) = x :
e− i=1 xi /λ0 ≥ k ∗ ,
λ0
e
donde la constante k ∗ se elige para que el test tenga tamaño α, o lo que es lo
mismo, para que
Pλ0 ( X ∈ A(λ0 )) = 1 − α.
e
Obsérvese que la expresión de la región de aceptación depende de la muestra
P
y del parámetro sólo a través de v =
xi /λ0 . Además, la distribución de
Pn
Pn
V = i=1 Xi /λ0 no depende del parámetro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 ,
luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 .
Invirtiendo la región de aceptación se obtiene el conjunto de confianza 1 − α:
½ µ Pn
¾
¶n Pn
−
xi /λ
∗
i=1 xi
i=1
C( x ) = λ :
≥k .
e
λ
e
La función g(v) = v n e−v es positiva en todo IR+ , vale 0 en v = 0 y tiende
a 0 si v tiende a infinito. Además, tiene un único punto crı́tico en v = n. Se
sigue que tiene un único máximo en v = n y que los conjuntos de la forma
{v ≥ 0 : g(v) ≤ k ∗ }, con k ∗ ≤ g(n) = nn e−n , son intervalos de la forma [l, u],
con l ≥ n ≥ u y g(l) = g(u) = k ∗ .
De ello se deduce que A(λ0 ) es un intervalo para cualquier valor de λ0 , y que
los conjuntos de confianza C( x ) también son intervalos para cualquier valor de
Pn
e
i=1 xi .
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 189
Ası́ pues, el intervalo de confianza obtenido será de la forma
(
)
n
n
n
X
X
X
C(
xi ) = λ : L(
xi ) ≤ λ ≤ U (
xi ) ,
i=1
con
i=1
i=1
Pn
Pn
n
n
X
X
xi
i=1 xi
L(
xi ) =
, U(
xi ) = i=1 .
u
l
i=1
i=1
Los valores l y u son las soluciones del sistema de ecuaciones no lineales
½
g(l) = g(u)
P (l ≤ V ≤ u) = 1 − α
Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en éste:
½ 2 −l
l e = u2 e−u
e−l (l + 1) − e−u (u + 1) = 1 − α
Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u =
5,4945, luego el intervalo de confianza 0.90 para λ es
X
X
[0,182
Xi , 2,28
Xi ] ≡ [0,364X 2 , 4,56X 2 ].
.
6.2.2.
.
Cantidades pivotales
Uno de los métodos más comunes de construcción de intervalos de confianza
es el uso de cantidades pivotales.
Sea X = (X1 , . . . , Xn ) una m.a.s. de X ∼ F (x; θ). Una función Q( X , θ)
e
e
de la muestra y del parámetro es una cantidad pivotal si la distribución de
probabilidad de Q( X , θ) no depende del parámetro θ, es decir, Q( X , θ) tiene
e
e
la misma distribución para cualquier valor de θ.
Dada una cantidad pivotal Q( X , θ), para cualquier conjunto A del espacio
e
imagen de Q se tiene que Pθ (Q( X , θ) ∈ A) no depende de θ. Por lo tanto si se
e
elige un conjunto Aα tal que
Pθ (Q( X , θ) ∈ A) = 1 − α, para todo θ,
e
y se observa la muestra X = x , entonces el conjunto
e
e
C( x ) = {θ : Q( x , θ) ∈ A}
e
e
es un conjunto de confianza 1 − α para θ.
En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza en
general que el conjunto de confianza sea un intervalo.
190
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Ejemplo 81
Si X tiene distribución perteneciente a una familia de localización y escala, entonces es posible definir diferentes cantidades pivotales. Entre ellas señalaremos
las siguientes:
Familia de localización:
fµ (x) = f (x − µ)
Q( x , µ) = X − µ
e
Familia de escala:
fσ (x) = (1/σ)f (µ/σ)
Q( x , σ) = X/σ
e
Familia de localización
y escala:
fµ,σ (x) =
(1/σ)f ((x − µ)/σ)
Q1 ( x , µ, σ) = (X − µ)/σ,
e
Q2 ( x , µ, σ) = (X − µ)/S
e
Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi ,
con Yi ∼ f , y comprobar que las funciones Q sólo dependen de Y1 , . . . , Yn .
.
.
Ejemplo 80, página 188. Continuación. En el ejemplo 80 el intervalo de
confianza construido se basó en
Pn
Xi
V = i=1 ,
λ
cuya distribución es γ(n, 1) para cualquier valor de λ, ası́ que V es una cantidad
pivotal y el intervalo de confianza construido allı́ es un ejemplo de intervalo
basado en una cantidad pivotal.
Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n . Es más fácil
encontrar tabulada la distribución χ22n que la distribución gamma, por lo que T
resultará más útil en la práctica.
.
.
En la práctica, la forma en la que se construye un intervalo de confianza a
partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , θ) ∈ IR y
e
θ ∈ IR. Para un valor α dado, se buscan números a y b tales que
Pθ (a ≤ Q( X , θ) ≤ b) = 1 − α.
e
Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que la
elección de a y b no será única en general.
Para cada θ0 , el conjunto
A(θ0 ) = { x : a ≤ Q( x , θ) ≤ b}
e
e
es la región de aceptación de un test de tamaño α para contrastar H0 : θ = θ0
basado en el estadı́stico T ( X ) = Q( X , θ0 ). Invirtiendo este contraste obtenee
e
mos el conjunto de confianza 1 − α para θ:
C( x ) = {θ : a ≤ Q( x , θ) ≤ b}.
e
e
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 191
Si g
(θ) = Q( x , θ) es una función monótona de θ para cada x fijo, entonces
x
e
e
e
se tiene garantı́a de que C( x ) sea un intervalo. Si g (θ) es creciente, entonx
e
e
ces C( x ) = [L( x , a), U ( x , b)], mientras que si g (θ) es decreciente, entonces
x
e
e
e
e
C( x ) = [L( x , b), U ( x , a)]. Si g (θ) es invertible, entonces
x
e
e
e
e
C( x ) = [mı́n{g −1 (a), g −1 (b)}, máx{g −1 (a), g −1 (b)}].
x
x
x
x
e
e
e
e
e
Ejemplo 80, página 188. Continuación. En este ejemplo Q( X , λ) =
Pn
e
2 i=1 Xi /λ ∼ χ22n . Ası́, podemos elegir a = χ22n,1−α/2 y b = χ22n,α/2 , donde P (Y ≥ χ22n,p ) = p para p ∈ (0, 1), y la variable Y es una χ22n .
En este caso
2
i=1 xi
(λ) = Q( x , λ) =
,
x
λ
e
e
es invertible y decreciente, luego el intervalo de confianza (1 − α)
g
es decir g
x
e
para λ será
Pn
#
" P
Pn
n
2 i=1 xi 2 i=1 xi
C( x ) = [g (b), g (a)] =
,
.
χ2n,1−α/2
χ2n,α/2
x
x
e
e
e
−1
−1
En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ24,,95 = ,71, luego el intervalo de
confianza 0.90 es
·
¸
4x 4x
C( x ) =
,
= [0,4215x, 5,63x].
9,49 ,71
e
.
.
Obsérvese que el intervalo que se acaba de calcular difiere del construido en
el ejemplo 80, pese a que ambos se basan (en la práctica) en la misma cantidad
pivotal. Ello se debe a que, como se señaló antes, la forma de elegir los valores a
y b no es única. Aquı́ se han tomado de forma que el intervalo fuese simétrico
en probabilidad, es decir, la probabilidad α que queda fuera del intervalo
C( X ) se reparte a partes iguales entre valores menores y mayores que los del
e
intervalo. Esta forma de elegir a y b es la más usada en la práctica, aunque
veremos más adelante que no da lugar, en general, a los intervalos más cortos
posibles.
Ejemplo 82
Intervalos de confianza para la media y la varianza de la distribución
normal.
192
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Si X ∼ N (µ, σ) con σ conocida, entonces la distribución de X es de una familia
de localización y, por tanto, Q( X , µ) = (X − µ)/σ es una cantidad pivotal.
e
Además,
√
√
n(X − µ)
Z = nQ( X , µ) =
∼ N (0, 1).
σ
e
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
σ
σ
IC1−α (µ) = C( x ) = [x − zα/2 √ , x + zα/2 √ ].
n
n
e
Si σ es desconocido, una cantidad pivotal es Q( X , µ) = (X − µ)/S. Además,
e
√
√
n(X − µ)
∼ tn−1 .
t = nQ( X , µ) =
S
e
El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva
de esta cantidad pivotal es
S
S
IC1−α (µ) = C( x ) = [x − tn−1,α/2 √ , x + tn−1,α/2 √ ].
n
n
e
Si se desea dar un intervalo de confianza para σ 2 o para σ, puede usarse la
cantidad pivotal
Q( x , σ) = (n − 1)S 2 /σ 2 ∼ χ2n−1 .
e
Si se eligen a y b para que el intervalo sea simétrico en probabilidad se obtienen
"
#
2
2
(n
−
1)S
(n
−
1)S
IC1−α (σ 2 ) =
,
,
χ2n−1,α/2 χ2n−1,1−α/2
"s
IC1−α (σ) =
(n − 1)S 2
,
χ2n−1,α/2
s
#
(n − 1)S 2
.
χ2n−1,1−α/2
.
.
Uno de los casos en los que la cantidad pivotal es monótona en el parámetro
para una muestra fija es aquél en que existe un estadı́stico T = T ( X ) (es
e
deseable que sea un estadı́stico suficiente para el parámetro) con distribución
absolutamente continua y tal que su función de distribución sea monótona en
el parámetro. En este caso, se toma como cantidad pivotal
Q( x , θ) = FT (T ( x ); θ).
e
e
Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es
e
e
cantidad pivotal, y por otra g (θ) = Q( x , θ) es monótona en θ. Este método
x
e
es útil para construir intervalose de confianza para parámetros de posición.
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193
Veamos ahora una forma genérica de definir una cantidad pivotal que es válida para cualquier distribución poblacional absolutamente continua y que siempre da lugar a un intervalo de confianza si el parámetro es real. Supongamos que
X es una variable aleatoria absolutamente continua con función de distribución
F (x; θ) y que esta función es continua y monótona en θ. Sea X1 , . . . , Xn m.a.s.
de X. Entonces
Ui = F (Xi ; θ) ∼ U (0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1).
Por lo tanto,
n
X
Yi ∼ γ(n, 1) y 2
i=1
n
X
Yi ∼ χ22n .
i=1
Ası́, se tiene que
n
n
X
X
Q( x , θ) = 2
Yi = −2
log F (Xi ; θ)
e
i=1
i=1
es cantidad pivotal y g
(θ) = Q( x , θ) es monótona en θ.
x
e
e
Obsérvese que Ui = 1 − F (Xi ; θ) ∼ U (0, 1), por lo que también se puede
definir Q a partir de los logaritmos de la función (1 − F (Xi ; θ)).
Ejemplo 80, página 188. Continuación. Sea Xi es exponencial con media
λ. En este caso es más cómodo trabajar con Ui = 1 − F (Xi ; λ) = e−Xi /λ . Ası́,
Pn
n
X
2 i=1 Xi
Q( x , λ) = −2
log(1 − F (Xi ; θ)) =
∼ χ22n ,
λ
e
i=1
que es la misma cantidad pivotal que habı́amos encontrado en el ejemplo 80.
.
.
6.2.3.
Intervalos bayesianos
En el marco bayesiano el parámetro θ es una variable aleatoria cuya distribución a priori es π(θ). Las observaciones tienen distribución condicionada
con densidad (o función de masa) f (x|θ). Tras la observación de una muestra
X = x , la distribución de probabilidad de θ se modifica con la información ree
e
cibida y pasa a tener la distribución a posteriori π(θ| x ). Ası́, cualquier intervalo
e
(o en general, cualquier conjunto) A ⊂ Θ tal que
Z
P (θ ∈ A| x ) =
π(θ| x )dθ = 1 − α
e
e
A
será un intervalo bayesiano de probabilidad 1 − α. El conjunto A depende de la
muestra observada a través de π(θ| x ).
e
194
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Obsérvese que ahora ya no se habla de coeficiente de confianza, como en el
enfoque clásico: ahora (1 − α) es realmente la probabilidad de que el parámetro
pertenezca al intervalo A y ahora el parámetro es la variable aleatoria, mientras
que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido observada. Por este motivo, a los intervalos bayesianos se les denomina intervalos
de credibilidad (o más en general, conjuntos de credibilidad).
De los infinitos intervalos A que podemos elegir de forma que
P (θ ∈ A| x ) = 1 − α
e
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simétrico en probabilidad, es decir, aquél que deja a su izquierda una probabilidad de α/2 y otra tanta a su derecha.
También puede buscarse el intervalo de credibilidad (1−α) que tenga mayor
densidad a posteriori. Es decir,
{λ : π(λ| x ) ≥ cα },
e
donde cα se elige de forma que
Z
{λ:π(λ|
x )≥cα }
e
π(λ| x )dλ = 1 − α.
e
Ejemplo 83
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0,
β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn
es una
!
Ã
n
X
γ α+
xi , (β −1 + n)−1 ,
i=1
según se vio en el teorema 20.
Si tomamos como distribución a priori la γ de parámetros α = β = 1,
Pn
entonces la a posteriori de λ es γ(1 + i=1 xi , (n + 1)−1 ), luego
(2(n + 1)λ| x ) ∼ χ22(P x +1) .
i
e
Si tomamos intervalos simétricos en probabilidad, obtenemos el intervalo de
credibilidad (1 − α)
 2

χ2(P x +1),1−α/2 χ22(P x +1),α/2
i
i

.
,
2(n + 1)
2(n + 1)
Pn
Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene
el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077].
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195
Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor
densidad a posteriori para λ siguiente: [,253, 1,005]. Obsérvese que este intervalo
es más corto que el intervalo que deja fuera dos colas con la misma probabilidad.
En la siguiente figura se representan ambos.
Intervalos de credibilidad (1−α)=0.9 para λ
1.8
1.6
Densidad a posteriori de λ
1.4
1.2
1
0.8
0.6
cα=0.44
0.4
IC1−α(λ) de mayor densidad
0.2
IC1−α(λ) simétrico en probabilidad
0
0
0.2
0.4
0.6
0.8
λ
.
6.2.4.
1
1.2
1.4
1.6
.
Intervalos de verosimilitud
A partir de la función de verosimilitud se puede estimar un parámetro mediante un intervalo (o, más en general, mediante un conjunto) de una forma
alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores
alternativos se conocen como intervalos de verosimilitud.
Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x; θ). La función de verosimilitud de
una muestra observada x es
e
n
Y
L(θ; x ) =
f (xi ; θ).
e
i=1
Esta función, para x fijo, representa cómo de verosı́mil es la muestra x para
e
e
cada uno de los posibles valores de θ.
El estimador máximo verosı́mil de θ es el valor θ̂ que hace máxima la verosimilitud y es un buen estimador de θ, como vimos en la sección 4.4. Si se desea
196
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
estimar θ mediante un conjunto, parece lógico considerar el de los valores θ que
hagan más verosı́mil la muestra observada x .
e
Para un valor cualquiera de θ se define la verosimilitud relativa de la
muestra x según θ como
e
L(θ; x )
e .
R(θ; x ) =
e
L(θ̂; x )
e
Dada una proporción p ∈ (0, 1), se define el conjunto de verosimilitud al
100p % para θ al conjunto
V ( X ) = {θ : R(θ; x ) ≥ p}.
e
e
Si θ ∈ IR, estos conjuntos de verosimilitud serán intervalos si la función de
verosimilitud es cóncava para cualquier x ∈ X .
e
Obsérvese que hay una equivalencia clara entre los conjuntos de verosimilitud
al 100p % y los intervalos de confianza (1−α) construidos a partir de la inversión
del test de razón de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 :
θ 6= θ0 , donde entre p y α existe una relación biyectiva.
Ejemplo 80, página 188. Continuación. Sea X ∼ exp(λ), λ = E(X).
e
Los cálculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud
relativa como
Pn
xi /λ
1 −
i=1
e
λn
Pn
R(λ; x ) =
=
e
supλ λ1n e− i=1 xi /λ
µ Pn
¶n
Pn
i=1 xi
en e− i=1 xi /λ .
nλ
Ası́, el intervalo de verosimilitud al 100p % será
¾
½ µ Pn
¶n
Pn
i=1 xi
V (x) = λ :
en e− i=1 xi /λ ≥ p .
nλ
e
Este intervalo tiene una confianza (1 − α) que depende de p.
Del mismo modo, el intervalo de confianza 0.9 que se calculó en la página
188 para n = 2, [0,364X 2 , 4,56X 2 ], es también un intervalo de verosimilitud
al 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este caso
p = 0,23.
.
.
6.3.
Evaluación de estimadores por intervalos
Los intervalos de confianza (1 − α) posibles para un parámetro dada una
muestra x son múltiples. Se plantea la cuestión de cómo evaluar la calidad de
e
cada intervalo y, si es posible, elegir el mejor.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS
197
En estimación por intervalos (o por conjuntos) hay dos cantidades que indican la calidad de un estimador: la longitud (o tamaño) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precisión) con
alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la
precisión hay que disminuir la confianza y viceversa.
6.3.1.
Intervalos de longitud mı́nima
Una práctica habitual es fijar la confianza deseada para los intervalos y
buscar qué intervalo con esa confianza es el que tiene longitud mı́nima. Se trata
de un problema de optimización con la restricción de que la confianza sea una
dada. La siguiente proposición da la solución bajo ciertas condiciones.
Proposición 4 Supongamos que se construye un intervalo de confianza (1 − α)
para un parámetro θ ∈ IR a partir de la cantidad pivotal Q( x , θ) ∈ IR y que
e
la distribución de Q( X , θ) es absolutamente continua con función de densidad
e
fQ . Se supone además que la función g (θ) = Q( x , θ) es creciente, derivable
x
e
e h : IR −→ Θ ⊆ IR.
e invertible y que su inversa es la función
Si la función fQ /h0 es unimodal, entonces el intervalo de confianza (1 − α)
de longitud mı́nima para θ es
C( x ) = [h(a∗ ), h(b∗ )]
e
donde a∗ y b∗ son los valores de IR que verifican
fQ (a∗ )
fQ (b∗ )
=
h0 (a∗ )
h0 (b∗ )
y
Z
b∗
a∗
fQ (q)dq = 1 − α.
Demostración: Sea FQ la función de distribución de Q( X , θ). Tal como vimos
e
en el apartado de la sección 6.2 dedicado a las cantidades pivotales, los intervalos
de la forma
[h(a), h(b)],
con FQ (b) − FQ (a) = 1 − α, son intervalos de confianza (1 − α) para θ. Ası́ que
b depende de a de forma que
FQ (b(a)) − FQ (a) = 1 − α.
Derivando respecto a a obtenemos
fQ (b(a))b0 (a) = fQ (a).
198
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Si buscamos el valor de a que minimiza la longitud del intervalo, hay que minimizar
h(b(a)) − h(a).
Los puntos crı́ticos a∗ de esta función son los que cumplen
h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒
fQ (b∗ )
fQ (a∗ )
=
,
h0 (a∗ )
h0 (b∗ )
donde b∗ = b(a∗ ). Además sólo hay un punto a∗ que cumpla simultáneamente
esa condición y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o
bien está estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente.
En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α).
Veamos ahora que la solución única (a∗ , b(a∗ )) es un mı́nimo. Calculamos la
segunda derivada de h(b(a)) − h(a):
h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) − h00 (a) =
Ã
!
0
0
fQ
(a)fQ (b(a)) − fQ
(b(a))b0 (a)fQ (a)
fQ (a)
00
0
0
h (b(a))b (a)
−h00 (a).
+h (b(a))
2 (b(a))
fQ (b(a))
fQ
Si tenemos en cuenta que en (a∗ , b(a∗ )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b),
la expresión anterior se transforma en ésta:
0
0
h0 (a)fQ
(a) − h00 (a)fQ (a) h0 (b(a))fQ
(b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a)
−
+
=
2
2 (b(a))
fQ (a)
fQ (b(a))
fQ
(h0 (a))2
fQ (a)
µ
0
0
h0 (a)fQ
(a) − h00 (a)fQ (a) h0 (b(a))fQ
(b(a)) − h00 (b(a))fQ (b(a)) 0
−
b (a)
0
2
(h (a))
(h0 (b(a)))2
Ã
¯
¯ !
(h0 (a))2 ∂ (fQ (q)/h0 (q)) ¯¯
∂ (fQ (q)/h0 (q)) ¯¯
−
¯
¯
fQ (a)
∂q
∂q
q=a
0
y esta cantidad es positiva por ser fQ /h unimodal.
q=b
2
Las modificaciones necesarias para que este resultado sea aplicable a transformaciones g decrecientes son inmediatas.
x
e
Un caso particular importante es aquél en que la transformación g (θ) =
x
e
Q( x , θ) es lineal. En este caso h es también lineal y su derivada es constante, de
e
donde se sigue que la condición para que el intervalo tenga longitud mı́nima es
que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, además, la
distribución de Q es simétrica, entonces los intervalos de menor longitud serán
también simétricos en probabilidad. Esto ocurre, por ejemplo, en la estimación
por intervalos de la media poblacional de la normal.
Obsérvese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de mı́nima
e
e
longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza
e
e
(1 − α) para τ (θ), pero éste no tiene por qué ser el de mı́nima longitud.
¶
=
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS
199
En la estimación por intervalos de un parámetro de escala a veces interesa
más tener el intervalo [L, U ] de mı́nima escala, es decir, el que tiene el menor
valor de U/L posible, en lugar del intervalo de mı́nima longitud. El resultado
anterior se puede usar tomando la reparametrización λ = log θ. El intervalo de
mı́nima longitud para λ será de la forma [h̃(a∗ ), h̃(b∗ )], donde h̃ = log h y h
es la inversa de g (θ) = Q( x , θ). Ası́ que el intervalo [h(a∗ ), h(b∗ )] es el de
x
e
e
menor escala para θ. La condición fQ (a)/h̃0 (a) = fQ (b)/h̃0 (b) se puede expresar
en términos de h como
fQ (b)h(b)
fQ (a)h(a)
=
.
h0 (a)
h0 (b)
Ejemplo 84
Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de
confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal
(n − 1)S 2
Q( X , σ 2 ) =
∼ χ2n−1 .
2
σ
e
En este caso la transformación g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es
x
e
(n − 1)S 2
.
h(q) =
q
La condición que deben cumplir los cuantiles a y b de la distribución χ2n−1 para
dar lugar al intervalo más corto es
fQ (a)a2 = fQ (b)b2 ,
además de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es fácil encontrar valores de n y
α para los que este intervalo no es simétrico en probabilidad.
Si se desea el intervalo más corto para σ, entonces
s
p
(n − 1)S 2
1
h(q) =
=⇒ h0 (q) = − (n − 1)S 2 p .
q
2 q3
La condición que deben cumplir a y b es
fQ (a)a3/2 = fQ (b)b3/2 .
Si se desea el intervalo de menor escala para σ 2 la condición que deben
cumplir a y b es
fQ (a)a = fQ (b)b.
y si se quiere el de mı́nima escala para σ, entonces
fQ (a)a2 = fQ (b)b2 .
.
.
200
6.3.2.
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Relación con contrastes de hipótesis y optimalidad
El criterio de la longitud no es el único con el que se puede evaluar un
intervalo. Un concepto alternativo nace a partir de la estrecha relación existente
entre intervalos de confianza y contrastes de hipótesis. Se trata de la probabilidad
de falso cubrimiento que fue introducida por Neyman.
Sea X ∼ f ( x ; θ) y C( x ) un intervalo de confianza (1 − α) para θ basado
e
e
e
en la inversión de un test con región de aceptación A(θ). La probabilidad de
verdadera cobertura es la función de θ definida como Pθ (θ ∈ C( X )). La
e
probabilidad de falsa cobertura es la probabilidad de que un intervalo
0
cubra θ cuando θ es el verdadero valor del parámetro. Es una función que
depende de dos valores del parámetro θ y θ0 . Formalmente se define como
Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), U ( X )] y θ0 6= θ,
e
e
e
e
Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), ∞) y θ0 < θ,
e
e
e
Pθ (θ0 ∈ C( X )), si C( X ) = (∞, U ( X )] y θ0 > θ.
e
e
e
Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubrimiento para todos los valores de θ y θ0 sobre una clase de intervalos de confianza
(1 − α) se denomina intervalo uniformemente más acurado (UMA). Estos
intervalos de confianza se consiguen invirtiendo contrastes uniformemente más
potentes, como pone de manifiesto el siguiente resultado.
Teorema 47 Sea X ∼ f ( x ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗ (θ0 )
e
e
la región de aceptación del contraste UMP para contrastar H0 : θ = θ0 frente
a H1 : θ > θ0 a nivel α. Sea C ∗ ( x ) el intervalo de confianza (1 − α) construie
do invirtiendo las regiones de aceptación UMP. Entonces para cualquier otro
intervalo C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e
e
para todo θ0 < θ. En particular, el intervalo C ∗ ( x ) es UMA entre los que son
e
de la forma C( x ) = [L( X ), ∞).
e
e
Demostración: Sea θ0 < θ y A(θ0 ) la región de aceptación del test conseguido
al invertir los intervalos C( x ). Como A∗ (θ0 ) es UMP para contrastar H0 : θ = θ0
e
frente a H1 : θ > θ0 , y θ > θ0 se tiene que
Pθ (θ0 ∈ C ∗ ( X )) = Pθ ( X ∈ A∗ (θ0 )) ≤ Pθ ( X ∈ A(θ0 )) = Pθ (θ0 ∈ C( X )).
e
e
e
e
2
Para intervalos de la forma (−∞, U ( X )] se puede establecer un resultado
e
análogo. Obsérvese que los intervalos UMA no siempre existen, dado que en la
sección 5.2 vimos que no está garantizada la existencia de tests UMP.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS
201
Cuando se estudiaron los contrastes UMP se puso de manifiesto la conveniencia de restringir la atención sólo a los contrastes insesgados a la hora
de buscar el contraste UMP para contrates bilaterales. En el estudio de los intervalos de confianza UMA existe un concepto análogo de insesgadez: se dice
que C( x ) es conjunto insesgado de confianza (1 − α) si
e
Pθ (θ0 ∈ C( X )) ≤ 1 − α para todo θ 6= θ0 .
e
Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubrimiento es siempre menor o igual que la probabilidad de cubrimiento verdadero.
Se dice que un conjunto C ∗ ( x ) de confianza (1 − α) es insesgado y unie
formemente más acurado si es UMA entre la clase de conjuntos insesgados
de confianza (1 − α).
El siguiente teorema establece la correspondencia entre conjuntos insesgados
UMA y contrastes insesgados UMP.
Teorema 48 Sea X ∼ f ( x ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) la región
e
e
de aceptación del contraste insesgado UMP para contrastar H0 : θ = θ0 frente
a H1 : θ 6= θ0 a nivel α. Sea C ∗ ( x ) el conjunto de confianza (1 − α) construido
e
invirtiendo las regiones de aceptación del test insesgado UMP. Entonces para
cualquier otro conjunto insesgado C( x ) de confianza (1 − α) se tiene que
e
Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X ))
e
e
para todo θ0 6= θ, es decir, el intervalo C ∗ ( x ) es insesgado UMA.
e
Demostración: La demostración es análoga a la del teorema 47 y puede dejarse
como ejercicio.
2
Para terminar esta sección, se establecerá la relación existente entre la longitud de un intervalo de confianza y su probabilidad de cobertura.
Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribución
paramétrica dada por la función de densidad (o función de masa) f ( x ; θ), θ ∈
e
Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y
U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor
θ∗ se tiene que
Z
Eθ∗ (U (X) − L(X)) =
Pθ∗ (θ ∈ C( X ))dθ.
e
θ6=θ ∗
Demostración:
Z ÃZ
Z
∗
Eθ∗ (U (X) − L(X)) =
U (x)
(U (x) − L(x))f (x; θ )dx =
X
X
L(x)
!
dθ f (x; θ∗ )dx
202
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Obsérvese que
θ ∈ {θ : L(X) ≤ θ ≤ U (x)} ⇐⇒ x ∈ {x : U −1 (θ) ≤ x ≤ L−1 (θ)},
puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integración la integral anterior puede calcularse como
!
Z ÃZ −1
Z
L
Θ
(θ)
f (x; θ∗ )dx dθ =
U −1 (θ)
Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ =
Θ
Z
Z
P (θ ∈ C(X))dθ =
θ∗
Θ
θ6=θ ∗
Pθ∗ (θ ∈ C(X))dθ.
2
El teorema anterior justifica que a los intervalos que minimizan la probabilidad de falsa cobertura se les llame también intervalos más cortos en el
sentido de Neyman.
6.4.
Intervalos de confianza asintóticos
Estudiaremos en esta sección técnicas que proporcionan intervalos de confianza aproximada (1 − α). Se basan en propiedades asintóticas de algunos estadı́sticos.
Sea X n = (X1 , . . . , Xn ) una m.a.s. de tamaño n de X ∼ f (x; θ). Se dice
e
que Qn ( x n , θ) es una cantidad pivotal asintótica si para todo θ
e
Qn ( X n , θ) −→D Q,
e
donde Q es una variable aleatoria de distribución conocida que no depende de
θ.
Si se construyen intervalos de confianza (1 − α) a partir de Qn sustituyendo
su distribución por la de Q, diremos que los intervalos resultantes tienen aproximadamente confianza (1 − α). En general, cuanto mayor sea n mejor será la
aproximación.
Un caso particular importante lo constituyen las cantidades pivotales asintóticas de la forma
T ( X n ) − EθA (T ( X n ))
e
eq
Qn =
VθA (T ( X n ))
e
que son asintóticamente normales, donde T ( X n ) es algún estadı́stico de la muese
tra tal que
Vθ (T ( X n ))
e
−→P 1.
T ( X n ) − EθA (T ( X n )) −→P 0, A
e
e
Vθ (T ( X n ))
e
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS
6.4.1.
203
Intervalos basados en el estimador de máxima verosimilitud
Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de
e
X ∼ f (x, θ). Sea θ̂n el estimador de máxima verosimilitud de θ, y sea
¶
µ 2
∂
log
L(θ;
X
)
,
In (θ) = −Eθ
n
∂θ2
e
la información de Fisher que sobre θ contiene una muestra de tamaño n. Entonces
θ̂n − θ
V
=p
QEM
−→D Z ∼ N (0, 1),
n
(In (θ))−1
V
luego QEM
es una cantidad pivotal derivada del estimador máximo verosı́mil.
n
Un conjunto de confianza aproximadamente (1 − α) para θ es
V
{θ : −zα/2 ≤ QEM
≤ zα/2 }.
n
No siempre podrá derivarse de ahı́ un intervalo de confianza.
Una forma de garantizar un intervalo de confianza aproximadamente (1 − α)
para θ es construirlo como
q
q
−1
ˆ
[θ̂n − zα/2 (In (θ)) , θ̂n + zα/2 (Iˆn (θ))−1 ],
donde Iˆn (θ) es algún estimador consistente de la información de Fisher.
Ejemplo 85
Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada
(1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tamaño n es
Pn
√
x2
log L(σ, x n ) = −n log 2π − n log σ − i=12 i .
2σ
e
La función score es
∂ log L(σ, x n )
n
e
=− +
∂σ
σ
Pn
i=1
σ3
x2i
,
por lo que el estimador máximo verosı́mil es
v
u n
u1 X
σ̂n = t
X 2,
n i=1 i
y la información de Fisher es
!
à 2
∂ log L(σ, x n )
n
3n
2n
e
= − 2 + 4 Eσ (X 2 ) = 2 .
In (σ) = −Eσ
2
∂σ
σ
σ
σ
204
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Ası́, la cantidad pivotal asintótica es
q P
n
1
V
QEM
n
n
( x n , σ) =
e
i=1
x2i − σ
√
σ/ 2n
,
que, fijada la muestra, es una función invertible de σ. El intervalo de confianza
para σ es
q P


n
1
2


i=1 xi − σ
n
√
≤ zα/2 =
σ : −zα/2 ≤


σ/ 2n
q P
n
1

n
i=1
x2i
1 + zα/2
q P
n
1
n
,
i=1
x2i
1 − zα/2

.
Si se construye el intervalo de confianza para σ 2 basado en su estimador de
máxima verosimilitud se observa que los extremos de este intervalo no son los
cuadrados de los extremos del intervalo construido para σ.
.
.
V
Hay una relación estrecha entre los intervalos de confianza basado en QEM
n
y los intervalos de verosimilitud definidos en la página 195. El logaritmo
de la verosimilitud relativa es
r(θ; x ) = log R(θ; x ) = log L(θ; x ) − log L(θ̂; x ),
e
e
e
e
que bajo condiciones de regularidad puede ser aproximada en torno a θ̂n como
1
r(θ; x ) ≈ − (θ − θ̂n )2 In (θ̂n ).
2
e
El conjunto de verosimilitud al 100p % para θ es
V ( X ) = {θ : R(θ; x ) ≥ p} = {θ : r(θ; x ) ≥ log p} ≈
e
e
e
q
q
{θ : (θ̂n −θ)2 In (θ̂n ) ≤ −2 log p} = [θ̂n −
−2 log p/In (θ̂n ), θ̂n +
−2 log p/In (θ̂n )].
Este intervalo de verosimilitud coincide con el intervalo de confianza construido
a partir del EMV si hacemos
zα/2 =
p
−2 log p.
Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente a
fijar p = 0,2585.
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS
6.4.2.
205
Intervalos basados en la función score.
Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de
e
X ∼ f (x, θ). Sea Sn ( X n , θ) la función score:
e
∂
log L(θ; X n ).
Sn ( X n , θ) =
∂θ
e
e
Recordemos que
Eθ (Sn ) = 0, Vθ (Sn ) = In (θ),
donde In (θ) es la información de Fisher. Además,
QSn =
Sn ( X n , θ)
pe
−→D Z ∼ N (0, 1),
In (θ)
luego QSn es cantidad pivotal asintótica. El conjunto
C( x ) = {θ : −zα/2 ≤ QSn ( x , θ) ≤ zα/2 }
e
e
es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn ( x , θ) es
e
función invertible de θ para x fijo, entonces ese conjuntos será un intervalo.
e
El método de construcción de intervalos de confianza basado en la función
score tiene la particularidad de que si se utiliza para dar un intervalo para θ y se
obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para τ (θ) el intervalo
e
e
que se obtiene es justamente [τ (L( x )), τ (U ( x ))]. Esto se debe a que
e
e
∂
∂τ
∂τ
Sn ( x , τ ) =
log L(θ; X n )
= Sn ( x , θ) ,
∂θ
∂θ
∂θ
e
e
e
"
#
µ
¶
2
∂2
∂θ
∂
∂2τ
In (τ ) = −Eτ
log L(θ; X n )
+
log L(θ; X n ) 2 =
∂θ2
∂τ θ
∂θ
∂θ
e
e
µ ¶2
∂τ
In (θ)
,
∂θ
de donde se sigue que
QSn ( x , θ) = QSn (τ (θ)).
e
Esta propiedad no la verifican todos los métodos de construcción de intervalos
de confianza, tal y como se señaló en el ejemplo 85, página 203.
Ejemplo 85, página 203. Continuación. La función score es
Pn
x2
n
Sn = − + i=13 i
σ
σ
y la información de Fisher es
In =
2n
.
σ2
206
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Ası́, el conjunto de confianza basado en el score es
Pn 2


xi


− nσ + i=1
3
q σ
≤ zα/2 =
σ : −zα/2 ≤


2n
σ2

v
u
u
t
1
n
Pn
v
u
u
q ,t
2
i=1 xi
1 + zα/2
2
n
1
n
Pn

2
i=1 xi
1 − zα/2

q .
2
n
Este intervalo es diferente del que se encontró en la página 203.
Obsérvese que si se construye el intervalos basado en la función score para
σ 2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos
del intervalo para σ.
.
.
El siguiente teorema establece que entre una amplia familia de intervalos
basado en cantidades pivotales asintóticamente normales, los más cortos son los
basado en la función score.
Teorema 50 Sea X ∼ f (x; θ). Se suponen las condiciones de regularidad H1,
H2 y H3 introducidas en el Teorema de Cramér-Rao. Sea h(X, θ) una función
tal que Eθ (h(X, θ)) = 0 y 0 < Vθ (h) = Vθ (h(X, θ)) < ∞. Se define
Pn
i=1 h(Xi , θ)
Qh ( X , θ) = p
e
nVθ (h)
Se define
h0 (X, θ) =
∂
log f (x, θ).
∂θ
Entonces se verifica lo siguiente:
1. Qh ( X , θ) es asintóticamente N (0, 1).
e
2. QSn = Qh0 .
3. La cantidad
¯ µ
¶¯
¯
¯
¯Eθ ∂ Qh ¯
¯
∂θ ¯
se hace máxima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con
k 6= 0.
4. Los intervalos de confianza basados en la función score son los más cortos
asintóticamente, entre los basados en las cantidades pivotales asintóticas
Qh .
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS
207
Demostración: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos
que se cumple 3. La derivada parcial de Ah respecto a θ es
à n
!
n
X ∂ h(Xi , θ)
∂ Qh (X, θ)
1
1 ∂ Vθ (h) X
=p
−
h(Xi , θ) .
∂θ
∂θ
2Vθ (h) ∂θ i=1
nVθ (h) i=1
Como Eθ (h(X, θ)) = 0, su esperanza será
·
¸ r
·
¸
∂ Qh (X, θ)
n
∂ h(X, θ)
Eθ
=
E
.
∂θ
Vθ (h)
∂θ
Obsérvese además que
¸
·
1
∂θ
1
∂ h(Xi , θ)
√
−→P p
,
E
∂θ
n ∂Qh (X, θ)
Vθ (h)
lo cuál implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en probabilidad. Este hecho será necesario para probar el punto 4.
Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se
obtiene lo siguiente:
Z
Z
Z
∂
∂ h(x, θ)
∂ f (x; θ)
0=
h(x, θ)f (x; θ)dx =
f (x; θ)dx +
h(x, θ)dx,
∂θ
∂θ
∂θ
de donde se sigue que
·
¸
Z
∂ h(Xi , θ)
∂ f (x; θ)
E
=−
h(x, θ)dx =
∂θ
∂θ
Z
−
h(x, θ)
∂ log f (x; θ)
f (x; θ)dx = −Cov(h(X, θ), h0 (X, θ)).
∂θ
De ahı́ se deduce, por una parte, que
·
¸
p
∂ Qh0 (X, θ)
Eθ
= − nVθ (h0 ) < 0,
∂θ
y por otra que
·
Eθ
¸
√ Cov(h(X, θ), h0 (X, θ))
∂ Qh (X, θ)
p
=− n
,
∂θ
Vθ (h)
luego,
h
Eθ
Eθ
y por lo tanto
h
∂ Qh (X,θ)
∂θ
i
∂ Qh0 (X,θ)
∂θ
i = Corr(h(X, θ), h0 (X, θ)),
¯ ·
¸¯ ¯ ·
¸¯
¯ ¯
¯
¯
¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ .
¯ ¯
¯
¯
∂θ
∂θ
Esto concluye la demostración de 3.
208
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Probemos ahora 4. Sea θ0 el verdadero valor del parámetro. Si θ es suficientemente próximo a θ0 ,
¯
∂ Qh ¯¯
Qh ( X , θ) ≈ Qh ( X , θ0 ) + (θ − θ0 )
,
∂θ ¯θ0
e
e
El intervalo de confianza basado en Qh es entonces
)
(
¯
∂ Qh ¯¯
≤ zα/2 ,
θ : −zα/2 ≤ Qh ( X , θ0 ) + (θ − θ0 )
∂θ ¯θ0
e
cuya longitud tiende a 0 porque, según vimos más arriba, el valor absoluto de
(∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ
que están dentro del intervalo sean cada vez más próximos a θ0 , con lo que la
anterior aproximación de Qh ( X , θ) por su desarrollo de Taylor de primer orden
e
será cada vez más precisa, cuando n crece.
La longitud asintótica del intervalo es
2z
¯ µ α/2¯ ¶¯ .
¯
¯
¯E ∂ Qh ¯¯
¯
∂θ
¯
θ0 ¯
Basta entonces aplicar el punto 3 del teorema para obtener 4.
2
Podemos dar las siguientes reglas prácticas para calcular intervalos de confianza asintóticos. En primer lugar, es recomendable que éstos se basen en la
función score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitución de cantidades que dependen
del parámetro por estimadores consistentes de éstas.
Ejemplo 86
Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asintótico para
p que se deriva de la función score. La verosimilitud es
µ ¶
n x
L(θ; x) =
p (1 − p)n−x
x
y el score,
S(θ, x) =
∂ log L(θ; x)
x − np
=
.
∂p
p(1 − p)
La información de Fisher es
·
¸
∂ 2 log L(θ; x)
n
I(p) = −E
=
.
∂p2
p(1 − p)
Ası́, la cantidad pivotal asintótica derivada de la función score es
√
n(p̂ − p)
S(θ, x)
=p
,
QS (x, p) = p
I(p)
p(1 − p)
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS
209
donde p̂ = x/n. El intervalo de confianza que da lugar es
(
)
√
n(p̂ − p)
C1 = p : −zα/2 ≤ p
≤ zα/2
p(1 − p)
El siguiente es también un intervalo de confianza (1 − α) asintóticos para el
parámetro p de X ∼ B(n, p):
(
) "
#
p
√
p̂(1 − p̂)
n(p̂ − p)
√
C2 = p : −zα/2 ≤ p
≤ zα/2 = p̂ ∓ zα/2
n
p̂(1 − p̂)
El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar
expresado
explı́citamente como un intervalo. Definimos la función g(p) = (p −
p
p̂) n/(p(1 − p)). Es fácil comprobar que esa función es estrictamente creciente
en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que
³

p
´
2
p̂(1−p̂)+(zα/2
/4n)
√
n
2
 p̂ + (zα/2 /2n) ∓ zα/2
³
´
C1 = 

2 /n)
1 + (zα/2

.

El premio por este trabajo extra es que la longitud de C1 será, en general, menor
que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la
de C2 es
q
2 /4np̂(1 − p̂))
1 + (zα/2
,
2 /n)
1 + (zα/2
que para valores de p̂ cercanos a 0.5 es aproximadamente igual a
1
q
2 /n)
1 + (zα/2
< 1.
Cuando n crece los intervalos C1 y C2 son prácticamente coincidentes.
.
.
210
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
6.5.
Lista de problemas
Métodos de construcción
1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn
de X se puede contruir un intervalo de confianza 0.95 para µ de la forma
√
x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observación Xn+1
independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor,
igual o mayor que 0.95?
2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para construir intervalos de confianza para la media y la varianza de una distribución
normal.
3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para construir intervalos de confianza para la diferencia de medias y el cociente de
varianzas de dos distribuciones normales.
4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para construir intervalos de confianza de la forma [c, ∞) para el cociente de las
medias de dos exponenciales.
5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼
B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de confianza 0.95 a partir de la inversión del test de la razón de verosimilitudes
para contrastar H0 : p = p0 frente a H1 : p 6= p0 .
6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tamaño
n de una exponencial con densidad
f (x; θ) =
a) Prueba que Y = 2
Pn
i=1
1 −x/θ
e
I(0,∞) (x).
θ
Xi /θ es cantidad pivotal.
b) Construye un intervalode confianza (1 − α) para θ a partir de Y .
7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias
independientes X1 , . . . , Xn tales que
Xi ∼ N (θai , bi ), i = 1, . . . , n,
donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n.
a) Encuentra un estadı́stico suficiente para θ y a partir de él construye
un intervalo bilateral de confianza (1 − α) para θ.
b) Si ai = bi = i, i = 1, . . . , n, ¿cuál es el menor valor de n tal que
longitud de ese intervalo es menor o igual que 0,5?
6.5. LISTA DE PROBLEMAS
211
8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada en
una m.a.s. de tamaño n de una N (θ, θ), donde θ > 0 es la varianza de la
distribución. A partir de esa cantidad pivotal, construye un intervalo de
confianza (1 − α) para θ.
9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X ∼ beta(θ, 1) y
supongamos que θ tiene distribución a priori γ(r, λ). Dar un conjunto de
credibilidad (1 − α) para θ.
10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X ∼ Bern(p). Dar
un intervalo de credibilidad (1 − α) para p usando la a priori conjugada
beta(a, b).
Evaluación de los métodos de construcción de intervalos de confianza
11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Compara las longitudes esperadas de los intervalos de confianza (1 − α) para
µ calculados bajo los supuestos siguientes.
a) σ 2 conocida.
b) σ 2 desconocida.
12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes
con funciones de densidad
fXi (x; θ) = eiθ−x I[iθ,∞) (x).
a) Prueba que T = mı́ni (Xi /i) es un estadı́stico suficiente para θ.
b) Encontrar el intervalo de confianza (1 − α) de la forma [T + a, T + b]
de longitud mı́nima.
13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X ∼ U (0, θ). Sea
Y = X(n) el máximo de las observaciones.
a) Prueba que Y /θ es una cantidad pivotal.
b) Prueba que [y, y/α1/n ] es el más corto de cuantos intervalos de confianza (1 − α) se pueden derivar de la cantidad pivotal Y .
14. (Casella-Berger, 9.42) Se tiene una observación de una γ(k, β) con parámetro de forma k conocido. Encontrar el intervalo de confianza (1 − α) más
corto entre los que tienen la forma [x/b, x/a].
15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribución logı́stica:
ex−θ
f (x; θ) =
.
(1 + ex−θ )2
Basándote en una observación de X, construye el intervalo de confianza
(1 − α) uniformemente más acurado de la forma (−∞, U (x)].
212
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) =
λ).
a) Construye el contraste UMP de tamaño α para contrastar H0 : λ =
λ0 rente a H1 : λ < λ0 .
b) Da el intervalo de confianza (1 − α) uniformemente más acurado
basado en el contraste del apartado anterior y prueba que puede
expresarse como
#
" P
n
i=1 xi
.
C( x ) = 0, 2
χ2n,α
e
c) Calcula la longitud esperada de C( X ).
e
Intervalos de confianza asintóticos
17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribución
binomial negativa de parámetros (r, p), r conocido. Calcula un intervalo
de confianza aproximada (1 − α) para p basado en la función score.
18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribución binomial negativa de parámetros (r, p), r conocido.
Pn
a) ¿Qué distribución tiene Y = i=1 Xi ?
b) Prueba que si p tiende a 0, entonces 2pY tiende en distribución a una
χ22nr . (Indicación: Utiliza las funciones generadores de momentos).
c) Usa este hecho para probar que
" 2
#
χ2nr,1−α/2 χ22nr,α/2
Pn
, Pn
2 i=1 xi 2 i=1 xi
es un intervalo de confianza aproximada (1 − α) para p.
d ) ¿Cómo habrı́a que escoger los extremos del intervalo para obtener el
intervalo de longitud mı́nima con confianza aproximada (1 − α)?
19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribución de Poisson(θ). Usa el hecho de que para valores grandes
de θ la distribución de X es aproximadamente N (θ, θ) para obtener una
ecuación cuadrática en θ cuyas raı́ces dan los extremos de un intervalo de
confianza aproximado para la media de X, θ.
20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmética se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
qué proporción θ de hombres de un grupo de edad comprarán ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.
6.5. LISTA DE PROBLEMAS
213
Cada enuestado lanza un dado sin que el encuestador vea el resultado.
Según el resultado obtenido, habrá de codificar su respuesta (“Sı́, compraré el nuevo producto” o “No, no compraré el nuevo producto”) como
A, B o C, según la siguiente tabla:
Verdadera
respuesta
Sı́
No
Resultado
1 2 3
C C C
C A A
en el
4
A
B
dado
5 6
B A
A B
En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.
a) Prueba que el logaritmo de la verosimilitud de θ es
440 log(3 − θ) + 310 log(2 − θ) + 250 log(1 − 2θ) + constante.
b) Da el estimador máximo verosı́mil de θ.
c) Construye un intervalo de confianza aproximada 95 % para θ.
d ) Supongamos ahora que se tiene acceso a la verdadera respuesta Sı́-No
de los hombres de otra muestra de tamaño n. ¿Qué tamaño muestral
n es necesario para que el intervalo de confianza 95 % en este caso
tenga la misma longitud que el calculado previamente?
214
CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Capı́tulo 7
Introducción a la Teorı́a de
la Decisión
Referencias: Casella-Berger, capı́tulo 10, Garthwaite, Jollife y Jones
(1995), capı́tulo 6.
Todos los métodos de inferencia estadı́stica (estimación puntual, contrastes
de hipótesis, estimación por intervalos) involucran la toma de una decisión: hay
que decidir qué punto o qué intervalo se toma como estimador de un parámetro;
hay que decidir si se rechaza o no la hipótesis nula.
La teorı́a de la decisión es el marco teórico que permite estudiar globalmente los problemas de inferencia estadı́stica como un único tipo de problema:
la toma de una decisión. Todas los elementos del proceso de decisión están
formalmente definidos, incluyendo el criterio que la decisión final habrá de optimizar.
7.1.
Elementos básicos en un problema de decisión
Los elementos necesarios para plantear un problema de inferencia estadı́stica
desde la perspectiva de la teorı́a de la decisión son los siguientes:
Datos. Los datos se describen mediante un vector aleatorio X cuyos valores
e
están en el espacio muestral X .
Modelo. Es el conjunto de posibles distribuciones de probabilidad de los datos X . Se supone que es una familia paramétrica de distribuciones {fθ :
e
θ ∈ Θ}, donde fθ es una función de densidad o una función de masa de
215
216
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
probabilidad. El conjunto Θ es el espacio de parámetros. El parámetro θ (que puede ser un escalar o un vector) es el valor verdadero, pero
desconocido, del estado de la naturaleza.
Espacio de acciones. Después de observar X = x se toma una decisión
e
e
que afecta a θ. El conjunto de posibles acciones permitidas es el espacio
de acciones. Este conjunto se denotará por A y sus elementos por a.
El espacio de acciones determina si un problema de decisión es uno de
estimación puntual (si A = Θ), uno de estimación por intervalos (si A es
el conjunto de intervalos contenidos en Θ) o uno de contraste de hipótesis
(si A = {“aceptar H0 ”, “rechazar H0 ”}).
Función de pérdida. Para evaluar el coste de tomar la decisión a cuando
el verdadero estado de la naturaleza es θ, se utiliza una función de
pérdida:
L : Θ × A −→ IR
(θ, a) −→ L(θ, a)
Cuanto mayor es el valor de L(θ, a) menos apropiada es la decisión a
si el verdadero estado de la naturaleza es θ. En economı́a y en análisis
bayesiano se valora la adecuación de a a θ con una función de utilidad
U (θ, a) que da valores altos a pares acordes y valores bajos a pares poco
adecuados. Una función de pérdida cambiada de signo es una función de
utilidad y viceversa.
Reglas de decisión. Una regla de decisión es una función
δ
:
X
x
e
−→ A
−→ δ( x ) = a
e
que, para cada posible valor x de X , indica qué acción a se ha de tomar
e
si X toma el valor x . El conjunto de reglas de decisión aceptables
e
e
en un problema se denota por D.
Función de riesgo. Para evaluar la calidad de las reglas de decisión δ ∈ D se
define la función de riesgo
R
: Θ×D
(θ, δ)
−→ IR
−→ R(θ, δ) = Eθ [L(θ, δ( X ))]
e
que mide la pérdida esperada si se usa la regla δ y el verdadero estado de
la naturaleza es θ.
Como el valor que toma el parámetro θ no es conocido, es deseable usar una
regla de decisión que tenga valores bajos de la función de riesgo para todos los
posibles valores θ ∈ Θ.
7.1. ELEMENTOS BÁSICOS EN UN PROBLEMA DE DECISIÓN
7.1.1.
217
Comparación de reglas de decisión.
Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )
y R(θ, δ2 ).
Comparar δ1 y δ2 mediante la función de riesgo es fácil si se verifica que
R(θ0 , δ1 ) < R(θ0 , δ2 ) para todo θ ∈ Θ.
Al comparar δ1 y δ2 diremos que:
δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.
δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un
θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).
δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.
Una regla δ1 es inadmisible si existe otra regla δ2 tal que
R(θ, δ2 ) ≤ R(θ, δ1 ) para todo θ ∈ Θ
y además existe un θ0 tal que
R(θ0 , δ2 ) < R(θ0 , δ1 ).
En ese caso diremos que δ2 es preferible a δ1 , o simplemente que δ2 es mejor
que δ1 .
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de
D que sean admisibles.
En la comparación de dos reglas de decisión lo habitual será que ninguna de
ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra
para determinados valores de θ y ocurra lo contrario para otros valores de θ. Para
realizar una valoración global (considerando todos los posibles valores de θ) de
una regla de decisión δ, a veces se define una distribución de probabilidad
a priori π(θ) en Θ que refleja cómo son de plausibles las diferentes zonas del
espacio de parámetros. A partir de esta distribución sobre Θ se define el riesgo
Bayes de las reglas de decisión como
B
:
A −→ IR
δ −→ B(δ) = Eπ [R(θ, δ)]
218
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
En ocasiones escribiremos el riesgo Bayes como B(π, δ) para señalar explı́citamente que su definición depende de la distribución a priori π considerada.
El riesgo Bayes de δ resume en un solo número el comportamiento de δ
sobre todo el espacio Θ. Valores pequeños de B(π, δ) indican que δ tiene un
buen comportamiento en las zonas de Θ a las que π asigna más probabilidad.
A una regla de decisión δ que hace mı́nimo el riesgo Bayes se le llama regla
Bayes. En la sección 7.4 veremos que estas reglas tiene ciertas propiedades de
optimalidad.
7.2.
Teorı́a de la decisión e inferencia estadı́stica
En esta sección veremos cómo plantear los problemas de estimación puntual,
estimación por intervalos y contraste de hipótesis como problemas de teorı́a de
la decisión.
7.2.1.
Estimación puntual.
Supongamos que X es un vector aleatorio con distribución fθ , θ ∈ Θ. Sue
pongamos que Θ ⊆ IR y se desea estimar el parámetro θ. Determinaremos todos
los elementos del problemas de decisión asociado. Las ideas que se desarrollarán
ahora son también válidas si θ es un vector de parámetros. Los datos y el modelo
son los que se acaban de especificar: X , {fθ : θ ∈ Θ}.
e
El espacio de acciones A se corresponde con los posibles valores de θ, es decir
A = Θ. A veces puede interesar que A sea más grande que Θ, por ejemplo, si θ
es la probabilidad de éxito de un experimento de Bernoulli y Θ = (0, 1) podrı́a
ser que nos interesase tomar A = [0, 1].
La función de pérdida L debe reflejar el hecho de que si una acción a es
cercana a θ entonces la decisión es correcta, es decir, la pérdida es pequeña.
En general las funciones de pérdidas consideradas son funciones crecientes en la
distancia entre θ y a. Las funciones de pérdida más usuales son éstas:
Pérdida del valor absoluto: L(θ, a) = |θ − a|.
Pérdida cuadrática: L(θ, a) = (θ − a)2 .
Pérdida 0-1: L(θ, a) = 1{|θ−a|>c} , con c ≥ 0.
La función de pérdida puede reflejar que es menos deseable, por ejemplo, sobrestimar θ que subestimarlo. Ası́ lo hace esta función de pérdida:
½
L(θ, a) =
(θ − a)2
10(θ − a)2
si
si
a<θ
a≥θ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA
219
También es posible penalizar más los errores de estimación cuando θ es próximo
a 0 que cuando θ es grande:
L(θ, a) =
(θ − a)2
.
|θ| + 1
Obsérvese que en este contexto las reglas de decisión son los estimadores de θ.
La función de riesgo de una regla de decisión depende de la función de pérdida
definida. Por ejemplo, si la pérdida es cuadrática, la función de riesgo es el error
cuadrático medio:
R(θ, δ) = Eθ [(δ( X ) − θ)2 ] = Vθ (δ( X )) + (Sesgoθ (δ( X )))2 .
e
e
e
Los estimadores (las reglas de decisión) deseables según esta definición de la
función de riesgo son aquellos que simultáneamente tienen poco sesgo y poca
varianza. Obsérvese que desde el punto de vista de la teorı́a de la decisión
no está justificado el restringir la clase de estimadores D a aquéllos que son
insesgados.
Ejemplo 87
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ). Consideremos el
problema de estimar σ 2 usando la función de pérdida cuadrática
L(θ, a) = (θ − a)2 .
Consideremos reglas de decisión (estimadores) del tipo δb ( X ) = bS 2 , donde S 2
e
es la varianza muestral, y b > 0.
Recordemos que E(S 2 ) = σ 2 y V (S 2 ) = 2σ 4 /(n − 1). El riesgo de δb es
R((µ, σ 2 ), δb ) = V (bS 2 ) + (E(bS 2 ) − σ 2 )2 =
2σ 4
b
+ (bσ 2 − σ 2 )2 = σ 4
n−1
2
µ
2b2
+ (b − 1)2
n−1
¶
= σ 4 c(b).
Ası́, la función de riesgo no depende de µ y es cuadrática en σ 2 .
Obsérvese que si c(b) < c(b0 ) entonces R((µ, σ 2 ), δb ) < R((µ, σ 2 ), δb0 ). Por
lo tanto, buscar la mejor regla de decisión equivale a minimizar c(b) en b. El
mı́nimo de esa expresión se alcanza en b = (n − 1)/(n + 1) y, por lo tanto, para
cada valor del parámetro (µ, σ 2 ) el estimador
n
S̃ 2 =
1 X
n−1 2
S =
(Xi − X)2
n+1
n + 1 i=1
tiene el riesgo menor entre todos los estimadores de la forma bS 2 .
El siguiente gráfico compara los riesgos de S 2 , σ̂ 2 y S̃ 2 para diferentes valores
de σ 2 , donde σ̂ 2 = (n − 1)S 2 /n es el estimador máximo verosı́mil de σ 2 .
220
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
35
30
R(σ2,S2)
25
2
2
R(σ ,(n−1)S /n)
Riesgo
20
15
R(σ2,(n−1)S2/(n+1))
10
5
0
0
1
2
3
4
5
6
7
8
9
10
σ2
.
.
Ejemplo 88
Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con
V (X) = σ 2 positiva y finita. Consideramos el problema de la estimación de σ 2
y la función de pérdida
LS (σ 2 , a) =
a
a
− 1 − log 2 ,
σ2
σ
conocida como pérdida de Stein. Obsérvese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) =
0 si y sólo si a = σ 2 . Además, para σ 2 fijo, se tiene que
lı́m LS (σ 2 , a) = ∞, y
a−→0
lı́m LS (σ 2 , a) = ∞.
a−→∞
Es decir, LS penaliza tanto la subestimación como la sobrestimación. Recuérdese
que con la pérdida cuadrática la subestimación tiene pérdida acotada, mientras
que la penalización de la sobrestimación es no acotada.
Consideremos, como en el ejemplo anterior, la clase de estimadores de la
forma δb = bS 2 . Su riesgo es
· 2
¸
µ
¶
bS
bS 2
S2
2
R(σ , δb ) = E
− 1 − log 2 = b − 1 − log b − E log 2 .
σ2
σ
σ
Obsérvese que el último sumando es función de σ 2 y posiblemente de otros
parámetros, pero no es función de b. Ası́, R(σ 2 , δb ) se minimiza en aquel valor
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA
221
b que hace mı́nima la función b − log b, es decir, en b = 1. Ası́, de todos los
estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor σ 2
es δ1 = S 2 .
.
.
7.2.2.
Contrastes de hipótesis.
En un problema de contraste de hipótesis el espacio de acciones consiste
únicamente en dos elementos: A = {a0 , a1 }, donde la acción a0 consiste en
aceptar H0 : θ ∈ Θ0 y la acción a1 en rechazarla o, equivalentemente, aceptar
H1 : θ ∈ Θ 1 .
Una regla de decisión δ es una función del espacio muestral X que sólo toma
e
dos valores: a0 o a1 . El conjunto { x : δ( x ) = a0 } es la región de aceptación del
e
e
test y el conjunto { x : δ( x ) = a1 } es la región de rechazo o región crı́tica.
e
e
La función de pérdida ha de reflejar que se comete un error si se decide a0
cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros
casos se actúa correctamente. En este contexto la función de pérdida 0-1 es la
más utilizada:
L(θ, a0 ) = 1{θ6∈Θ0 } , L(θ, a1 ) = 1{θ∈Θ0 } .
Esta función penaliza de igual forma los errores de tipo I que los errores de tipo
II. Si se desea penalizarlos de forma diferente puede usarse la función de pérdida
0-1 generalizada:
L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } ,
donde cI es el coste de un error de tipo I, y cII el de uno de tipo II.
Se pueden definir otras funciones de pérdida que recojan aspectos propios
del problema que se esté tratando. Por ejemplo, la función de pérdida puede
recoger el hecho de que es más grave cometer un error de tipo I cuanto más
lejos de Θ0 esté θ.
La función de potencia de un contraste está relacionada con la función de
riesgo de ese contraste. Sea β(θ) la función de potencia de un test basado en la
regla de decisión δ. Sea C = { x : δ( x ) = a1 } la región crı́tica. Entonces
e
e
β(θ) = P ( X ∈ C|θ) = P (δ( X ) = a1 |θ).
e
e
Por su parte, la función de riesgo asociada a una pérdida 0-1 generalizada es,
para θ ∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
0 · P (δ( X ) = a0 |θ) + cI · P (δ( X ) = a1 |θ) = cI β(θ),
e
e
y para θ 6∈ Θ0 ,
R(θ, δ) = Eθ (L(θ, δ( X ))) =
e
222
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
cII · P (δ( X ) = a0 |θ) + 0 · P (δ( X ) = a1 |θ) = cII (1 − β(θ)).
e
e
Esta relación entre la función de riesgo y la de potencia viene dada por la elección
de la función de pérdida 0-1 generalizada. Sin embargo, aunque se trabaje con
otras funciones de pérdida, en general la función de potencia juega un papel
importante en cualquier contraste de hipótesis. En efecto,
R(θ, δ) = Eθ (L(θ, δ( X ))) = L(θ, a0 )(1 − β(θ)) + L(θ, a1 )β(θ).
e
Ejemplo 89
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El
contraste uniformemente más potente de nivel α para contrastar
½
H0 : µ ≥ µ0
H1 : µ < µ 0
rechaza H0 si
X − µ0
√ < −zα
σ/ n
y tiene función de potencia
µ
¶
µ
¶
µ − µ0
µ − µ0
√
√
β(µ) = Pµ Z < −zα −
= φ −zα −
.
σ/ n
σ/ n
Para α = 0,1 y tomando cI = 8 y cII = 3 en la función de pérdida 0-1 generalizada, se tiene que
µ
¶
µ − µ0
√
R(µ, δ) = 8φ −zα −
si µ ≥ µ0 ,
σ/ n
µ
µ
¶¶
µ − µ0
√
R(µ, δ) = 3 1 − φ −zα −
si µ < µ0 .
σ/ n
3
2.5
R(µ,δ)
2
1.5
1
0.5
0
−3
µ<µ0
−2
µ ≥ µ0
−1
0
n1/2(µ−µ0)/σ
1
2
3
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA
.
223
.
A veces es conveniente aprovechar la función de pérdida para reflejar el hecho
de que algunas decisiones incorrectas son más graves que otras. Por ejemplo, en
el contraste
½
H0 : µ ≥ µ 0
H1 : µ < µ 0
se comete un error de tipo I si se rechaza H0 cuando de hecho µ ≥ µ0 . Sin
embargo, las consecuencias de rechazar erróneamente H0 son mucho peores si
µ es mucho mayor que µ0 que si µ es ligeramente mayor que µ0 . La siguiente
función de potencia refleja esto:
L(µ, a0 ) = b(µ0 − µ)1{µ<µ0 } , L(µ, a1 ) = c(µ − µ0 )2 1{µ≥µ0 } ,
donde b y c son constantes positivas. Un contexto en el que esta función de
pérdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina
ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol máximo
aceptable en µ0 . Se contrasta
½
H0 : µ ≥ µ 0
H1 : µ < µ 0
donde µ es el nivel de colesterol de un paciente que ha tomado la medicina
(se supone que µ no es directamente observable, sino sólo a partir de diversos
análisis). Debido a la asociación entre niveles altos de colesterol y enfermedades
de corazón, las consecuencias de rechazar H0 cuando µ es grande son mucho
peores que si µ toma valores moderados, aunque superiores a µ0 . Por eso es
conveniente usar la función cuadrática (µ − µ0 )2 .
7.2.3.
Estimación por intervalos.
En estimación por conjuntos el espacio de acciones A consiste en todos los
subconjuntos del espacio paramétrico Θ. Nos limitaremos a considerar el caso
de que Θ ⊂ IR y únicamente consideraremos como acciones los subconjuntos de
Θ que sean intervalos. Esta limitación es arbitraria y responde únicamente a
consideraciones prácticas.
Sea C un elemento de A. Cuando se toma la acción C, se está haciendo la
estimación “θ ∈ C”. Una regla de decisión δ( x ) especifica para cada x ∈ X
e
e
qué intervalo C ∈ A será usado como estimador si se observa X = x . Usaremos
e
e
la notación C( x ) para denotar a C = δ( x ).
e
e
En estimación por intervalos las funciones de pérdida tienen en cuenta dos
aspectos: si el verdadero valor del parámetro está o no en el intervalo estimador,
y una medida del tamaño de éste. Para medir el tamaño se usa la longitud del
224
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
intervalo, Long(C), mientras que la función IC (θ) suele usarse para indicar si θ
está o no en C.
La forma en que se combinan esas dos cantidades para formar la función de
pérdida es habitualmente ésta:
L(θ, C) = b Long(C) − IC (θ),
donde la constante b determina el peso relativo del tamaño y la corrección de
C. La función de riesgo asociada será
R(θ, C) = bEθ (Long(C( X ))) − Eθ (IC ( X )) =
e
e
bEθ (Long(C( X ))) − Pθ (θ ∈ C( X )).
e
e
Esta función de riesgo tiene dos componentes: la longitud esperada del intervalo
y su probabilidad de cubrimiento. Ası́, cuando se busca el estimador C( x )
e
que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre
longitud y confianza. Ésta es una diferencia considerable con respecto al enfoque
adoptado en la sección 6, dedicada a la estimación por intervalos: allı́ se fijaba
un valor de la confianza y se buscaba el intervalo más corto que tuviese dicha
confianza. Desde la óptica de la teorı́a de la decisión es posible perder algo
de confianza si a cambio se consigue reducir notablemente la longitud de los
estimadores.
Ejemplo 90
Sea X ∼ N (µ, σ 2 ), con σ 2 conocida. Consideremos las reglas de decisión
Cc (x) = [x − cσ, x + cσ], c ∈ IR, c ≥ 0.
Compararemos estos estimadores usando la función de pérdida
L(µ, Cc ) = bLong(Cc ) − ICc (µ) = 2bσc − ICc (µ).
Ası́, la primera parte de la función de riesgo es constante, mientras que la segunda vale
Pµ (µ ∈ Cc (X)) = Pµ (X − cσ ≤ µ ≤ X + cσ) =
¶
µ
X −µ
≤ c = 2P (Z ≤ c) − 1,
Pµ −c ≤
σ
donde Z ∼ N (0, 1). Por lo tanto, la función de riesgo es
R(µ, Cc ) = 2bσc − 2P (Z ≤ c) + 1.
Es una función de riesgo constante en µ. Ası́, la mejor regla de decisión corresponderá al valor c donde la función
g(c) = 2bσc − 2P (Z ≤ c) + 1
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO
225
tenga su mı́nimo. La derivada de g(c) se anula en el punto c que verifica
c2
1
1
bσ = fZ (c) = √ e− 2 ⇐⇒ c2 = log
.
2πb2 σ 2
2π
√
Esa ecuación tiene solución si y sólo si bσ ≤ 1/ 2π. Cuando hay solución ésta
vale
r
1
∗
c = log
.
2πb2 σ 2
La segunda derivada de g en c∗ es g 00 (c∗ ) = 2b − 2fZ0 (c∗ ) > 0, porque c∗ ≥ 0
implica
que fZ0 (c∗ ) ≤ 0, luego c∗ es un mı́nimo de g. En el caso de que bσ >
√
1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el mı́nimo
riesgo se alcanza en c = 0.
√
En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al
tamaño del intervalo en la función de riesgo)
√ entonces el intervalo óptimo es
[x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del intervalo pesa mucho en la función de riesgo) entonces el mejor intervalo para µ
es [x, x], es decir, un estimador puntual de µ.
.
.
7.3.
El problema de decisión bayesiano
Hemos visto en la sección 7.1 que a veces se define una distribución de probabilidad π(θ) sobre el espacio paramétrico Θ, que refleja el conocimiento que
el investigador tiene sobre los posibles valores del parámetro a priori, es decir,
antes de observar los datos X . En general cualquier función de pesos que pone
dere de cierta forma las diferentes regiones de Θ será válida como distribución
π(θ), aunque esta distribución no refleje ningún conocimiento previo subjetivo
sobre Θ.
Se definió el riesgo Bayes de la regla de decisión δ respecto de la distribución
a priori π como
B(π, δ) = Eπ [R(θ, δ)].
Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası́, si no
se dispone de información previa que permita definir π, una forma razonable
de elegir esta distribución a priori es hacerlo de forma que los valores de θ a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo pequeño, y los valores de θ con peso
pequeño sean aquellos cuyo riesgo no le preocupa.
Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes:
B(π, δ π ) = mı́n B(π, δ).
δ∈D
226
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
Esta regla puede no existir, o bien puede haber más de una regla Bayes, aunque
en general sólo existe una regla Bayes.
Los siguientes resultados indican cómo encontrar las reglas Bayes, si éstas
existen.
Teorema 51 Para cada x ∈ X se define
e
r( x , a) = E
(L(θ, a)),
π(θ| x )
e
e
donde la esperanza se toma con respecto a la distribución a posteriori de π, dado
que se ha observado X = x . Para cada x ∈ X se supone que existe una acción
e
e
e
a( x ) ∈ A tal que
e
r( x , a( x )) = mı́n r( x , b).
b∈A
e
e
e
Sea la regla de decisión
δπ
:
X −→ A
x −→ a( x )
e
e
π
π
Si δ ∈ D entonces δ es la regla Bayes respecto a π.
Demostración: Sea f ( x , θ) = f ( x |θ)π(θ) la distribución conjunta de ( X , θ)
e
e
e
y sea m( x ) la marginal de X . Ası́,
e
e
h
i
B(π, δ) = Eπ (R(θ, δ)) = Eπ Eθ (L(θ, δ( X ))) =
e
·
¸
Eθ (L(θ, δ( X ))) = E
E
(L(θ, δ( X ))) =
m( x )
π(θ| X )
e
e
e
e
E
(r( X , δ( X ))).
m( x )
e
e
e
π
Para cada x ∈ X , r( x , δ ( x )) ≤ r( x , δ( x )) para todo δ ∈ D, de donde se
e
e
e
e
e
sigue que
E
(r( X , δ π ( X ))) ≤ E
(r( X , δ( X )))
m( x )
m( x )
e
e
e
e
e
e
para todo δ ∈ D y, en consecuencia, que
B(π, δ π ) ≤ B(π, δ)
para todo δ ∈ D, luego δ π es la regla Bayes.
2
Obsérvese que la función r( x , a) que se define en el anterior teorema es la
e
esperanza a posteriori de la función de pérdida, dado que se ha observado X =
e
x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza
e
a posteriori de la función de pérdida, ya sea analı́tica o numéricamente.
El siguiente resultado se sigue directamente del teorema anterior y da la
expresión explı́cita para la regla de Bayes en dos casos importantes referidos a
la estimación de parámetros.
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO
227
Corolario 8 Consideremos un problema de estimación de un parámetro real
θ ∈ IR. Se tiene lo siguiente:
1. Si L(θ, a) = (θ − a)2 la regla Bayes es δ π ( x ) = E(θ| x ), si δ π ∈ D.
e
e
π
2. Si L(θ, a) = |θ−a| la regla Bayes es δ ( x ) que asocia a cada x la mediana
e
e
a de la distribución a posteriori π(θ| x ), si δ π ∈ D.
e
Obsérvese que si el conjunto de acciones A = Θ es finito (o discreto) podrı́a
pasar que E(θ| x ) 6∈ A y entonces δ π ( x ) = E(θ| x ) no serı́a una función de X
e
e
e
e
en A, es decir, δ π no serı́a una regla de decisión legı́tima. Si A = Θ es convexo se
puede probar que E(θ| x ) ∈ A para cualquier distribución a posteriori π(θ| x ).
e
e
El siguiente resultado hace referencia al problema de contrastes de hipótesis
desde la perspectiva de la teorı́a de la decisión bayesiana. Concreta en este
contexto lo establecido por el teorema 51 sobre cómo determinar la regla Bayes.
Teorema 52 Consideremos un problema de contraste de la hipótesis H0 : θ ∈
Θ0 frente a H1 : θ 6∈ Θ0 , con función de pérdida 0-1 generalizada. Cualquier
test que
cII
rechaza H0 si P (θ ∈ Θ0 | x ) <
cI + cII
e
y
cII
acepta H0 si P (θ ∈ Θ0 | x ) >
cI + cII
e
es una regla de Bayes (también llamada test de Bayes o regla Bayes).
Demostración: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que comparar r( x , a0 ) y r( x , a1 ) y escoger como acción a( x ) aquella de las dos que
e
e
e
dé valor menor de r( x , a).
e
Recordemos que
L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } .
Calculamos r( x , a0 ) y r( x , a1 ):
e
e
r( x , a0 ) = E
(L(θ, a0 )) = cII P (θ 6∈ Θ0 | x )
π(θ| x )
e
e
e
r( x , a1 ) = E
(L(θ, a1 )) = cI P (θ ∈ Θ0 | x ).
π(θ| x )
e
e
e
Ası́, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son
e
aquellos para los cuales
r( x , a1 ) < r( x , a0 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) < cII P (θ 6∈ Θ0 | x ) ⇐⇒
e
e
e
e
cII
P (θ ∈ Θ0 | x ) <
.
cI + cII
e
228
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
Análogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir,
aquellos para los cuales la acción a0 tiene menor riesgo esperado a posterior que
la acción a1 , son aquellos que cumplen
r( x , a0 ) < r( x , a1 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) > cII P (θ 6∈ Θ0 | x ) ⇐⇒
e
e
e
e
cII
.
P (θ ∈ Θ0 | x ) >
cI + cII
e
Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cuale
e
quiera de ellas sin que la regla resultante deje de ser la regla Bayes.
2
Ejemplo 91
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ),
con σ 2 , µ y τ 2 conocidos. Sea
η=
σ2
.
nτ 2 + σ 2
La distribución a posteriori de θ dado que X = x es normal con parámetros
e
e
E(θ| x ) = (1 − η)x + ηµ, V (θ| x ) = ητ 2 .
e
e
Consideremos el test
½
H0 : θ ≥ θ0
H1 : θ < θ0
con función de pérdida 0-1 generalizada. Calculemos P (θ ∈ Θ0 | x ):
e
¯ ¶
µ
θ0 − (1 − η)x − ηµ ¯¯
P (θ ∈ Θ0 | x ) = P (θ ≥ θ0 |x) = P Z ≥
√
¯x .
τ η
e
Ası́, el test de Bayes rechaza H0 si
P (θ ∈ Θ0 | x ) < α0
e
donde α0 = cII /(cI + cII ), y eso ocurre si y sólo si
√
η(µ − θ0 ) + zα0 τ η
θ0 − (1 − η)x − ηµ
> zα0 ⇐⇒ x < θ0 −
.
√
τ η
1−η
Por lo tanto, el test de Bayes rechaza H0 para valores pequeños de x y el valor
crı́tico depende de las pérdidas para los dos tipos de errores (a través del valor
α0 ) y de la distribución a priori. Recordemos que el test uniformemente más
potente de nivel α rechaza H0 si
σ
x < θ0 − zα √ .
n
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN
229
En el caso particular de que tomásemos cI = 1 − α y cII = α, entonces
α = α. Si además consideramos la distribución a priori de θ centrada en θ0
tendremos que el test de Bayes rechaza H0 si
√
zα0 τ η
x < θ0 −
.
1−η
0
Recordando la definición de η se llega a que se rechaza H0 si y sólo si
r
σ
σ2
x < θ0 − zα0 √
1 + 2,
nτ
n
p
expresión que sólo difiere del test UMP en el factor 1 + (σ 2 /nτ 2 ). Ambos
contrasten coincidirán si σ 2 /nτ 2 = 0, es decir, si n −→ ∞, o si τ 2 −→ ∞ o si
σ 2 −→ 0.
.
.
7.4.
Admisibilidad de las reglas de decisión
La clase D de todas las reglas de decisión posibles quizás sea excesivamente
grande: podrı́a estar formada por todas las funciones de X en A. La elección de
la regla δ en un determinado problema se simplifica si restringimos la búsqueda
a una subclase de reglas C ⊆ D de la que formen parte únicamente las reglas
que tengan alguna buena propiedad. Una de estas propiedades deseables es la
de ser admisible.
7.4.1.
Comparación de reglas de decisión.
Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 )
y R(θ, δ2 ). Al comparar δ1 y δ2 diremos que:
δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ.
δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un
θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ).
δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ.
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
230
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de
D que sean admisibles.
Sea una clase C ⊆ D. Se dice que C es una clase completa si para cada
δ 6∈ C existe δ ∈ C que es mejor que δ 0 . C es una clase esencialmente
completa si para cada δ 0 6∈ C existe δ ∈ C que es tan buena como δ 0 .
0
Teorema 53 Sea C una clase de reglas de decisión completa. Entonces la clase
de reglas de decisión admisibles está contenida en C.
Demostración: Sea δ 0 una regla admisible. Si δ 0 6∈ C, entonces existe δ ∈ C
mejor que δ 0 , y eso contradice el supuesto de que δ 0 es admisible, luego δ 0 ∈ C.
2
7.4.2.
Búsqueda de reglas admisibles y clases completas.
Teorema 54 Consideremos un problema de decisión en el que Θ ⊆ IR. Supongamos que para cada regla de decisión δ ∈ D, la función de riesgo R(θ, δ) es
continua en θ.
Sea π(θ) una distribución a priori sobre Θ tal que para todo ε > 0 y todo
θ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva.
Sea δ π la regla Bayes respecto a π. Si −∞ < B(π, δ π ) < ∞ entonces δ π es
admisible.
Demostración: Supongamos que δ π es inadmisible. Entonces existe una regla
δ ∈ D tal que
R(θ, δ) ≤ R(θ, δ π ) para todo θ ∈ Θ
y existe un θ0 ∈ Θ con
R(θ0 , δ) < R(θ0 , δ π ).
Sea ν = R(θ0 , δ π ) − R(θ0 , δ) > 0. Por continuidad de R(θ, δ) y R(θ, δ π ) se tiene
que existe ε > 0 tal que
ν
R(θ, δ π ) − R(θ, δ) >
2
para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces
B(π, δ π ) − B(π, δ) = Eπ [R(θ, δ π ) − R(θ, δ)] ≥
ν
Pπ [(θ0 − ε, θ0 + ε)] > 0.
2
Esto contradice el supuesto de que δ π es regla Bayes. Por lo tanto δ π es admisible.
2
Eπ [1(θ0 −ε,θ0 +ε) (R(θ, δ π ) − R(θ, δ))] ≥
El teorema anterior proporciona un conjunto de condiciones bajo las cuales
las reglas Bayes son admisibles. Hay otros conjuntos de hipótesis que también
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN
231
lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es ası́ razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decisión consideradas
a aquellas que dependen de estadı́sticos suficientes, dado que hacerlo no tiene
coste en términos de las funciones de riesgo. Este resultado es una generalización
del teorema de Rao-Blackwell (teorema 27, página 108).
Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no
acotado. Supongamos que la función de pérdida L(θ, a) es una función convexa
de la acción a, para todo θ ∈ Θ. Sea T ( X ) un estadı́stico suficiente de θ con
e
espacio muestral T .
Si δ( x ) ∈ D es una regla de decisión, entonces la regla de decisión
e
δ 0 ( x ) = δT0 (T ( x )),
e
e
donde
δT0
:
T
t
−→ A
−→ δT0 (t) = Eθ (δ( X )|T ( X ) = t),
e
e
es tan buena como δ, siempre y cuando la esperanza condicionada exista para
todo t ∈ T .
Demostración: Veamos en primer lugar que δ 0 ( x ) es regla de decisión, es decir,
e
es una función de X en A. Por una parte, como T es estadı́stico suficiente,
Eθ (δ( X )|T ( X ) = T ( x )) no depende de θ, sino sólo de x . Además, como δ
e
e
e
e
es regla de decisión se tiene que δ( x ) ∈ A para todo x ∈ X y por ser A un
e
e
conjunto convexo se sigue que Eθ (δ( X )|T ( X ) = T ( x )) ∈ A.
e
e
e
Veamos ahora que δ 0 es tan buena como δ. Para todo θ ∈ Θ, se tiene que
R(θ, δ) = Eθ [L(θ, δ( X ))] = Eθ [Eθ L(θ, δ( X ))|T ( X )]
e
e
e
y por ser L convexa,
Eθ [Eθ L(θ, δ( X ))|T ( X ))] ≥ Eθ [L(θ, Eθ (δ( X )|T ( X )))] =
e
e
e
e
Eθ [L(θ, δ 0 ( X ))] = R(θ, δ 0 ).
e
2
El siguiente corolario se sigue directamente del teorema.
Corolario 9 La clase de reglas de decisión que dependen de los datos X sólo
e
a través de un estadı́stico suficiente T es una clase esencialmente completa.
Estos resultados tienen especial importancia en el problema de estimación
puntual cuando el espacio A es un intervalo.
232
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
7.4.3.
Admisibilidad de la media muestral bajo normalidad.
Sean X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ). Nos planteamos el problema de
estimación de θ ∈ Θ = IR con función de pérdida cuadrática. Veremos que en
este caso la media muestral es admisible como estimador de θ.
Teorema 56 La media muestral X es un estimador admisible de θ.
Demostración: Distinguiremos dos situaciones, según σ 2 sea conocida o no.
(i) σ 2 conocida.
Supongamos que δ( x ) = x es inadmisible. Entonces existe δ 0 ( x ) tal que R(θ, δ 0 ) ≤
e
e
R(θ, x) para todo θ ∈ IR y para algún θ0 se tiene que R(θ, x) − R(θ, δ 0 ) = ν > 0.
De la continuidad en θ de la función de pérdida cuadrática y la continuidad
de la función de densidad de la normal de esperanza θ, se sigue que R(θ, δ) es
función continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0
tal que R(θ, x) − R(θ, δ 0 ) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε).
Consideramos sobre IR la distribución a priori π ∼ N (0, τ 2 ) y definimos
η=
σ2
.
nτ 2 + σ 2
Ası́,
Z
∞
B(π, x) − B(π, δ 0 ) =
[R(θ, x) − R(θ, δ 0 )] √
−∞
Z
θ0 +ε
[R(θ, x) − R(θ, δ 0 )] √
θ0 −ε
θ2
1
e− 2τ 2 dθ ≥
2πτ
θ2
1
e− 2τ 2 dθ >
2πτ
0 2
−(θ )
0
ν
ν
ν
1
P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √
e 2τ 2
2
2
2
2πτ
donde Y ∼ N (0, τ 2 ) y θ00 es el más cercano a 0 de los dos puntos θ0 − ε y θ0 + ε.
Si llamamos K(τ ) a
0 2
ν
1 −(θ0 )
K(τ ) = 2ε √ e 2τ 2
2
2π
se tiene que
τ (B(π, x) − B(π, δ 0 )) > K(τ )
y que
ν/2
lı́m K(τ ) = √ 2ε > 0.
2π
τ −→∞
Por otra parte, el riesgo Bayes de la media muestral es
Z
σ2
R(θ, X)π(θ)dθ =
B(π, x) =
,
n
Θ
7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN
233
porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto además ocurre
para cualquier a priori π.
Sea δ π la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario,
la regla Bayes δ π ( x ) es la que asigna a cada x la esperanza a posteriori de θ
e
e
dado x , y su riesgo Bayes es la varianza a posteriori:
e
B(π, δ π ) = τ 2 η =
τ 2 σ2
.
nτ 2 + σ 2
Por lo tanto,
τ (B(π, δ π ) − B(π, x)) = τ
σ2 ³
n´
σ2
− τ 1 − τ 2η 2 = − τ
n
σ
n
−
¶
µ
σ2
=
τ 2η −
n
µ
1 − τ2
σ2
n
2
2
nτ + σ σ 2
¶
=
σ2
τ η.
n
Finalmente,
0 ≥ τ (B(π, δ π ) − B(π, δ 0 )) = τ (B(π, δ π ) − B(π, x)) + τ (B(π, x)) − B(π, δ 0 )) >
−
σ2
σ2 τ σ2
τ →∞ ν/2
τ η + K(τ ) = −
+ K(τ ) −→ √ 2ε > 0,
2
2
n
n nτ + σ
2π
lo cual es una contradicción, que nace de suponer que x no es admisible.
(ii) σ 2 desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que
R((θ, σ 2 ), δ 0 ) ≤ R((θ, σ 2 ), x), para todo (θ, σ 2 ),
R((θ0 , σ02 ), δ 0 ) < R((θ, σ 2 ), x), para algún (θ0 , σ02 ).
Como δ 0 es una función de X en IR, δ 0 también es un estimador de θ si σ 2 se
fija en el valor σ02 . Para cualquier regla de decisión, el riesgo R(θ, δ) cuando σ 2
es conocida y vale σ02 es igual al riesgo en el caso de σ 2 desconocida evaluado
en el valor σ02 : R((θ, σ02 ), δ). Ası́,
R(θ, δ 0 ) = R((θ, σ02 ), δ 0 ) ≤ R((θ, σ02 ), x), para todo θ,
R(θ0 , δ 0 ) = R((θ0 , σ02 ), δ 0 ) < R((θ, σ02 ), x), para algún θ0 .
De aquı́ se sigue que δ 0 es mejor que x para estimar θ cuando σ 2 es conocido
y vale σ02 , lo que contradice el hecho de que x es admisible si σ 2 es conocida.
Ası́ x ha de ser admisible también si σ 2 es desconocida.
2
234
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
7.5.
Reglas minimax
El riesgo Bayes definido en la sección 7.3 permite resumir el comportamiento
de la función de riesgo de una regla de decisión δ sobre todo el espacio Θ en
un solo número, el riesgo Bayes de esa regla, que es el valor medio (según la a
priori π) de la función de riesgo. Este resumen es útil porque permite comparar
cualquier par de reglas de decisión mediante la comparación de sus respectivos
riesgos Bayes.
Otro resumen numérico de la función de riesgo usado habitualmente es el
valor máximo (o el supremo) que toma esta función cuando θ recorre Θ.
Se dice que una regla de decisión δ 0 es una regla minimax si
sup R(θ, δ 0 ) = ı́nf sup R(θ, δ).
θ∈Θ
δ∈D θ∈Θ
Una regla minimax protege de la mejor forma posible (ı́nf δ∈D ) contra la situación
más adversa que podrı́a presentarse (supθ∈Θ ).
El criterio minimax para elegir una regla de decisión es muy conservador,
pues sólo tiene en cuenta para cada regla δ cuál es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de θ) es un
adversario del decisor, y lleva a éste a actuar de forma estratégica. Este supuesto
es exagerado en muchos problemas estadı́sticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibilidad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de θ, aunque tenga un riesgo altı́simo para los restantes valores. Si además
de admisible una regla es minimax se puede estar seguro de que el riesgo no
será extremadamente alto en ningún valor de θ. Ası́ pues, una regla que sea
minimax y admisible será una buena regla. De hecho, las reglas minimax están
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de manifiesto los resultados siguientes.
Teorema 57 Supongamos que una regla de decisión δ π es regla Bayes para
cierta distribución a priori π y que, además,
R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ.
Entonces δ π es minimax.
Demostración: Supongamos que δ π no fuese minimax. Entonces existirı́a alguna regla δ 0 tal que
sup R(θ, δ 0 ) < sup R(θ, δ π ).
θ∈Θ
θ∈Θ
El riesgo Bayes de esta regla serı́a
B(π, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ π ) ≤ B(π, δ π ),
θ∈Θ
θ∈Θ
7.5. REGLAS MINIMAX
235
entrando en contradicción con el hecho de que δ π es regla Bayes respecto a π.
2
Obsérvese que la hipótesis
R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ,
es muy restrictiva. Al definirse el riesgo Bayes como
B(π, δ π ) = Eπ (R(θ, δ π ))
se tiene que en general
B(π, δ π ) ≤ sup R(θ, δ π ).
θ∈Θ
De esto se sigue que la hipótesis del problema es equivalente a que
B(π, δ π ) = sup R(θ, δ π ),
θ∈Θ
y eso ocurre si y sólo si π pone toda la probabilidad en el conjunto de puntos θ
en los que R(θ, δ π ) es máxima. En cierto modo lo que se pide en el teorema es
que la regla R(θ, δ π ) sea constante con probabilidad 1, según π.
La distribución a priori π cuya regla Bayes es minimax es la distribución a
priori menos favorable. Tiene la propiedad de que si π 0 es otra distribución
0
a priori y δ π es la regla Bayes asociada, entonces
0
B(π 0 , δ π ) ≤ B(π, δ π ).
En efecto,
0
B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ).
Si una regla de decisión δ tiene función de riesgo constante en θ entonces
se dice que es una regla igualadora. En muchos caso las reglas igualadoras
son minimax, como muestra el siguiente resultado, que se sigue directamente
del teorema anterior.
Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna distribución a priori π. Entonces δ es minimax.
Este corolario es útil cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori π respecto de la cual la regla igualadora sea regla Bayes. El siguiente resultado prueba que en ese caso también
basta con probar que la regla igualadora es admisible.
Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es minimax.
236
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
Demostración: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Si
δ no es minimax, entonces existe una regla δ 0 tal que
sup R(θ, δ 0 ) < sup R(θ, δ) = c.
θ∈Θ
θ∈Θ
Para todo θ ∈ Θ se tiene entonces que
R(θ, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ) = c = R(θ, δ),
θ∈Θ
θ∈Θ
lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no es
minimax.
2
Ejemplo 92
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 muestra que la media muestral X es un estimador admisible de θ cuando se usa
pérdida cuadrática, tanto si σ 2 es conocido como si no lo es.
En el caso de σ 2 conocida, se tiene que X es una regla igualadora:
R(θ, x) = V (X) =
σ2
.
n
Ası́, por el teorema anterior se sigue que la media muestral X es estimador
minimax.
Sin embargo, si σ 2 es desconocido, este teorema no es aplicable porque X ya
no es una regla igualadora: el riesgo
R((θ, σ 2 ), x) = V (X) =
σ2
,
n
depende de σ 2 . De hecho cualquier estimador tiene
sup R((θ, σ 2 ), δ) = ∞,
θ,σ 2
y por lo tanto cualquier estimador es minimax.
Se puede probar que si se define la pérdida L((θ, σ 2 ), a) = (a − θ)2 /σ 2 entonces X es admisible y minimax, con riesgo máximo finito.
.
.
El siguiente resultado muestra que bajo ciertas situaciones una regla minimax es admisible.
Teorema 59 Supongamos que δ es la única regla minimax en el sentido de que
cualquier otra regla minimax es equivalente a δ. Entonces δ es admisible.
7.5. REGLAS MINIMAX
237
Demostración: Sea δ 0 otra regla de decisión. Si la función de riesgo de δ 0
coincide con la de δ, entonces δ 0 no es mejor que δ. Si no coinciden, entonces δ 0
no es minimax, mientras que δ sı́ lo es, ası́ que
sup R(θ, δ 0 ) > sup R(θ, δ).
θ∈Θ
θ∈Θ
De ahı́ se sigue que para algún θ0 ∈ Θ,
R(θ0 , δ 0 ) > sup R(θ, δ) ≥ R(θ0 , δ),
θ∈Θ
por lo que δ 0 no es mejor que δ. Como δ 0 podrı́a ser cualquier regla de decisión,
se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2
238
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
7.6.
Lista de problemas
Teorı́a de la Decisión e inferencia estadı́stica. Reglas
Bayes
1. (Casella-Berger, 10.1) Sea X ∼ N (θ, 1) y considera el contraste de H0 :
θ ≥ θ0 frente a H0 : θ < θ0 . Usa la función de pérdida
L(θ, a0 ) = b(θ0 − θ)1{θ<θ0 } , L(θ, a1 ) = c(θ − θ0 )2 1{θ≥θ0 } ,
donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente.
a) Para b = c = 1, diguja y compara las tres funciones de riesgo.
b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo.
c) Dibuja las funciones de potencia de los tres contrastes y compáralas
con las funciones de riesgo halladas en los dos apartados anteriores.
2. (Casella-Berger, 10.2) Sea X ∼ B(5, p). Consideramos el contraste H0 :
p ≤ 1/3 frente a H0 : p > 1/3 con pérdida 0-1. Dibuja y compara las
funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0
si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5.
3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funciones
de riesgo de dos estimadores de p, δ1 (x) = 1/3 y δ2 (x) = x/10, bajo
función de pérdida dada por el valor absoluto.
4. (Casella-Berger, 10.6) Sea X ∼ N (µ, σ 2 ), σ 2 desconocida. Para cada c ≥ 0
se define el estimador por intervalos para µ
C(x) = [x − cs, x + cs],
donde s2 es un estimador de σ 2 independiente de X, tal que νS 2 /σ 2 ∼ χ2ν .
Se considera la función de pérdida
L((µ, σ), C) =
b
Long(C) − IC (µ).
σ
a) Prueba que la función de riesgo, R((µ, σ), C), está dada por
R((µ, σ), C) = b(2cM ) − [2P (T ≤ c) − 1],
donde T ∼ tν y M = E(S)/σ.
√
b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface
que
µ
¶ ν+1
2
ν
1
b= √
.
2
2π ν + c
7.6. LISTA DE PROBLEMAS
239
c) Relaciona estos resultados con los análogos obtenidos en el caso de
que σ 2 sea conocida (ver ejemplo desarrollado en teorı́a), en el sentido
siguiente: prueba que si ν −→ ∞, entonces la solución encontrada
aquı́ converge a la que se tiene si σ 2 es conocida.
5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con
σ 2 conocida. Se desea estimar θ usando pérdida cuadrática. Sea la distribución a priori de θ, π(θ), una N (µ, τ 2 ) y sea δ π el estimador Bayes de θ.
Prueba las siguientes fórmulas para la función de riesgo y el riesgo Bayes.
a) Para cualesquiera constantes a y b, el estimador δ( X ) = aX +b tiene
e
función de riesgo
R(θ, δ) = a2
σ2
+ (b − (1 − a)θ)2 .
n
b) Sea η = σ 2 /(nτ 2 + σ 2 ). La función de riesgo del estimador de Bayes
es
σ2
R(θ, δ π ) = (1 − η)2
+ η 2 (θ − µ)2 .
n
c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η.
6. (Casella-Berger, 10.9) Sea X ∼ N (µ, 1). Sea δ π el estimador de Bayes de µ
bajo pérdida cuadrática. Calcula y dibuja las funciones de riesgo, R(µ, δ π ),
para π(θ) ∼ N (0, 1) y π(θ) ∼ N (0, 10). Indica cómo la distribución a priori
afecta la función de riesgo del estimador de Bayes.
7. (Casella-Berger, 10.11) Se define la función de pérdida LINEX (LINearEXponential) como
L(θ, a) = ec(a−θ) − c(a − θ) − 1,
con c > 0. Es una función suave que permite ponderar de forma asimétrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde pérdidas muy asimétricas hasta otras casi simétricas.
a) Dibuja L(θ, a) como función de a − θ cuando c = 0,2, 0,5 y 1.
b) Sea X ∼ f (x|θ). Prueba que el estimador de Bayes de θ, usando
pérdida LINEX y distribución a priori π, es
1
δ π = − log E(e−cθ |X).
c
c) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida y distribución a priori sobre θ no informativa: π(θ) = 1. Prueba que el
estimador de Bayes de θ bajo pérdida LINEX es
δ B (X) = X −
cσ 2
.
2n
d ) Compara los riesgos Bayes de δ B (X) y de X usando pérdida LINEX.
240
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
e) Compara los riesgos Bayes de δ B (X) y de X usando pérdida cuadrática.
Admisibilidad. Reglas minimax
8. (Casella-Berger, 10.12) Sea X ∼ N (µ, 1) y consideremos el contraste de
H0 : µ ≤ 0 frente a H1 : µ > 0 usando pérdida 0-1. Sea δc el test que
rechaza H0 si X > c. Se puede probar que la clase de contrastes {δc :
−∞ ≤ c ≤ ∞} es esencialmente completa para este problema. Sea δ el
test que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor que
δ.
9. (Casella-Berger, 10.13) Sea X ∼ N (µ, 1) y consideremos el contraste de
H0 : µ = 0 frente a H1 : µ 6= 0 usando pérdida 0-1. Sea δc,d el test
que acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastes
{δc,d : −∞ ≤ c ≤ d ≤ ∞} es esencialmente completa para este problema.
Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra un
test δc,d que sea mejor que δ.
10. (Casella-Berger, 10.14) Supongamos un problema de decisión con espacio
paramétrico finito, Θ = {θ1 , . . . , θm }. Supongamos que δ π es la regla Bayes
con respecto a una distribución a priori π que da probabilidad positiva a
cada posible valor de θ ∈ Θ. Prueba que δ π es admisible.
11. (Casella-Berger, 10.15) Supongamos que para una cierta distribución a
priori π, cada regla Bayes con respecto a π (si es que hay más de una) tiene
la misma función de riesgo. Prueba que estas reglas Bayes son admisibles.
En otras palabras, si una regla Bayes es única entonces es admisible.
12. (Casella-Berger, 10.16) Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Se desea estimar
µ con pérdida cuadrática. Prueba que la regla δ(x) = 17, que estima µ
como 17 para cualquier valor x observado, es admisible.
13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decisión C es
completa minimal si es completa y ningún subconjunto propio de C es
clase completa. Prueba que si existe una clase de reglas completa minimal,
entonces es la clase de reglas admisibles.
14. (Casella-Berger, 10.20) Sea C una clase de reglas de decisión esencialmente
completa. Prueba que si δ 0 6∈ C es admisible, entonces existe una regla
δ ∈ C tal que δ y δ 0 son equivalentes.
15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera la
estimación de p con pérdida del error absoluto. Sea δ(x) = 1/3 la regla
que estima p como 1/3, sea cual sea la observación x.
a) Prueba que δ(x) es admisible.
7.6. LISTA DE PROBLEMAS
241
b) Prueba que δ(x) es la regla Bayes para alguna distribución a priori
π(p).
16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una población con
esperanza θ y varianza desconocida σ 2 , 0 < σ 2 < ∞. Se desea estimar θ
con pérdida cuadrática.
a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y
b son constantes, es inadmisible.
b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible.
c) Supongamos ahora que σ 2 es conocida. Prueba que un estimador de
esa forma es admisible si a < 1.
17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los
naturales que van de 1 a θ ∈ IN. Sea el espacio paramétrico Θ = {1, 2, . . .}.
Se estima θ considerando pérdida cuadrática.
a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribuciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayes
de θ.
b) Supongamos ahora que el espacio de acciones es A = [1, ∞) y que
la esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es el
estimador Bayes de θ.
c) Prueba que δ0 (x) = x es admisible, independientemente de cuál de los
dos espacios de acciones anteriores sea considerado. (Nota: Prueba
que R(1, δ) es mı́nimo si δ = δ0 y después usa inducción en θ.)
d ) El estimador δ0 (x) = x es el estimador de Bayes con respecto a alguna
distribución a priori. ¿Con respecto a cuál?
e) Prueba que existen otras reglas Bayes respecto a esa misma distribución a priori que tienen funciones de riesgo diferentes a la de δ0 .
18. (Casella-Berger, 10.26) Sea X ∼ N (µ, 1). Se desea contrastar H0 : µ ≥ µ0
frente a H1 : µ < µ0 con función de pérdida 0-1 generalizada mediante
un test que rechace H0 si X < −zα + µ0 . Encuentra el valor de α que da
lugar a un test minimax.
19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼
N (θ, σ 2 ) con σ 2 desconocida. Se desea estimar θ con la función de pérdida
L((θ, σ 2 ), a) =
(a − θ)2
.
σ2
a) Prueba que X es un estimador admisible de θ.
b) Prueba que X es minimax.
20. (Casella-Berger, 10.30, 10.31) Sea πn , n ∈ IN, una sucesión de distribuciones a priori. Sea δn la regla Bayes respecto a πn .
242
CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
a) Prueba que si B(πn , δn ) converge a un número c y δ es una regla de
decisión tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax.
b) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2
conocida. Se desea estimar θ con pérdida cuadrática. Utiliza el resultado del apartado anterior para probar que X es minimax.
21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼
Bern(p). Se desea estimar p con pérdida cuadrática. Sea
p
Pn
Xi + n/4
√
p̂B = i=1
.
n+ n
a) Prueba que p̂B es una regla igualadora.
b) Prueba que p̂B es minimax.
c) Prueba que p̂B es admisible.
22. (Examen junio 2000) Sea la variable aleatoria X con distribución uniforme
en el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el parámetro
θ basándose sólo en una única observación de X y se plantea este problema
como un problema de decisión. La distribución a priori sobre θ tiene como
función de densidad
π(θ) = θe−θ I(0,∞) .
a) Consideramos sólo las reglas de decisión que son funciones de la observación x de la forma dk (x) = kx, con k ≥ 1. Si la función de
pérdida es
L(θ, a) = |a − θ|
calcula la función de riesgo R(θ, dk ). ¿Es posible encontrar una regla
dk∗ que haga mı́nimo el riesgo para cualquier valor de θ?
b) Encuentra la regla Bayes. (Indicación: Usa directamente la definición de regla Bayes como aquella que hace mı́nimo el error Bayes.)
c) Consideremos ahora pérdida cuadrática. Encuentra la regla Bayes.
d ) Si ahora se permite que cualquier función d(x) sea una regla de decisión y se considera pérdida cuadrática, encuentra la regla Bayes.
23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de una
observación de X si el parámetro p es 1/4 o 1/2. La función de pérdida es
0-1.
a) Da la lista de las ocho posibles reglas de decisión e indica los correspondientes valores de la función de riesgo.
b) Indica cuáles de las ocho reglas son inadmisibles.
c) Encuentra la regla Bayes correspondiente a una distribución a priori
con función de probabilidad
2
1
π(1/4) = , π(1/2) = .
3
3
d ) Encuentra la regla minimax para este problema.
Referencias
Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall.
Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scientific.
Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and
selected topics. Prentice Hall.
Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press.
Cristóbal, J.A (1992). Inferencia Estadı́stica. Universidad de Zaragoza.
DeGroot, M. H. (1988). Probabilidad y Estadı́stica. Addison-Wesley.
Garcı́a-Nogales, A. (1998). Estadı́stica Matemática. Universidad de Extremadura.
Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. PrenticeHall.
Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley.
Peña, D. (1995). Estadı́stica: Modelos y Métodos, Volumen 2: Modelos lineales y
series temporales. Alianza Universidad, Madrid. Segunda edición revisada.
Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.).
Duxbury Press.
Sanz, M. (1999). Probabilitats. Barcelona: EUB.
Schervish, M.J. (1995). Theory of Statistics. Springer.
Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to
Statistics. John Wiley & Sons.
Silvey, S.D. (1983). Statistical Inference. Chapman and Hall.
Spivak, M. (1970). Cálculo infinitesimal. Barcelona: Reverté.
Vélez, R. y A. Garcı́a (1993). Principios de Inferencia Estadı́stica. UNED.
243

Documentos relacionados