Apuntes de la asignatura. - Departament d`Estadística i Investigació
Transcripción
Apuntes de la asignatura. - Departament d`Estadística i Investigació
Curso de Inferencia y Decisión Guadalupe Gómez y Pedro Delicado Departament d’Estadı́stica i Investigació Operativa Universitat Politècnica de Catalunya Enero de 2006 Índice abreviado Capı́tulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Capı́tulo 2. Principios para reducir los datos . . . . . . . . . . . . . . . . . . . . 25 Capı́tulo 3. Estimación puntual 1: Construcción de estimadores . 45 Capı́tulo 4. Estimación puntual 2: Evaluación de estimadores . . . . 87 Capı́tulo 5. Contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Capı́tulo 6. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 183 Capı́tulo 7. Introducción a la Teorı́a de la Decisión . . . . . . . . . . . . . 215 Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 i Índice general Índice abreviado I Índice general II Prólogo VII 1. Introducción 1 1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3 1.2.2. Distribución de una variable aleatoria. Funciones de distribución, de probabilidad y de densidad . . . . . . . . . . 4 1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5 1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6 1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7 1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8 1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 12 1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 12 1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 13 1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13 1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16 1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite . . 18 1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18 1.5.2. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . 19 1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20 1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21 iii iv ÍNDICE GENERAL 2. Principios para reducir los datos 25 2.1. Principio de suficiencia . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Estadı́sticos suficientes r-dimensionales 26 . . . . . . . . . . 31 2.1.2. Estadı́sticos suficientes minimales . . . . . . . . . . . . . . 32 2.1.3. Estadı́sticos ancilares . . . . . . . . . . . . . . . . . . . . . 35 2.1.4. Estadı́sticos completos . . . . . . . . . . . . . . . . . . . . 36 2.2. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 38 2.3. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3. Estimación puntual 1: Construcción de estimadores 45 3.1. La función de distribución empı́rica y el método de los momentos 45 3.1.1. Teorema de Glivenko-Cantelli . . . . . . . . . . . . . . . . 47 3.1.2. Principio de sustitución . . . . . . . . . . . . . . . . . . . 50 3.1.3. El método de los momentos . . . . . . . . . . . . . . . . . 51 3.2. Estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 53 3.2.1. Cálculo del estimador máximo verosı́mil . . . . . . . . . . 56 3.2.2. Cálculo numérico de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.2.3. Principio de invariancia del estimador máximo verosı́mil . 70 3.3. Estimación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . 71 3.3.1. Distribuciones a priori y a posteriori . . . . . . . . . . . . 71 3.3.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . 75 3.3.3. Funciones de pérdida . . . . . . . . . . . . . . . . . . . . . 79 3.3.4. Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . 80 3.4. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4. Estimación puntual 2: Evaluación de estimadores 87 4.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . . . . . . . 87 4.1.1. Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . 91 4.2. Mejor estimador insesgado . . . . . . . . . . . . . . . . . . . . . . 94 4.2.1. Teorema de Cramér-Rao. Información de Fisher . . . . . . 96 4.2.2. Versión multivariante del teorema de Cramér-Rao. . . . . 105 4.2.3. Teorema de Rao-Blackwell. Teorema de Lehmann-Scheffé 108 ÍNDICE GENERAL v 4.3. Comportamiento asintótico . . . . . . . . . . . . . . . . . . . . . 114 4.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.3.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . 116 4.3.3. Método delta . . . . . . . . . . . . . . . . . . . . . . . . . 119 4.3.4. Eficiencia relativa asintótica . . . . . . . . . . . . . . . . . 124 4.4. Teorı́a asintótica para el estimador máximo verosı́mil . . . . . . . 125 4.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5. Contrastes de hipótesis 141 5.1. Definiciones básicas. Contraste de hipótesis simples . . . . . . . . 141 5.1.1. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . 142 5.1.2. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 144 5.1.3. Conclusiones de un contraste: el p-valor . . . . . . . . . . 148 5.2. Contrastes uniformemente más potentes . . . . . . . . . . . . . . 149 5.2.1. Lema de Neyman-Pearson para alternativas compuestas . 150 5.2.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin152 5.3. Contrastes insesgados. Contrastes localmente más potentes . . . 155 5.4. Consistencia y eficiencia para contrastes . . . . . . . . . . . . . . 157 5.5. Test de la razón de verosimilitudes . . . . . . . . . . . . . . . . . 158 5.5.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . 159 5.5.2. Propiedades de los contrastes de razón de verosimilitudes 160 5.6. Contrastes relacionados con el de máxima verosimilitud . . . . . 163 5.6.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . 163 5.6.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . 164 5.6.3. Contrastes en presencia de parámetros secundarios. . . . . 166 5.7. Contrastes bayesianos . . . . . . . . . . . . . . . . . . . . . . . . 170 5.7.1. Ventaja a priori y a posteriori. Factor de Bayes . . . . . . 171 5.7.2. Contraste de dos hipótesis simples. . . . . . . . . . . . . . 172 5.7.3. Contraste de dos hipótesis compuestas. . . . . . . . . . . 173 5.7.4. Contraste de hipótesis nula simple frente a alternativa compuesta. . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.8. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 177 vi ÍNDICE GENERAL 6. Estimación por intervalos 183 6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . 183 6.2. Métodos para construir intervalos de confianza . . . . . . . . . . 185 6.2.1. Inversión de un contraste de hipótesis . . . . . . . . . . . 185 6.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . . . . . . 189 6.2.3. Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . 193 6.2.4. Intervalos de verosimilitud . . . . . . . . . . . . . . . . . . 195 6.3. Evaluación de estimadores por intervalos . . . . . . . . . . . . . . 196 6.3.1. Intervalos de longitud mı́nima . . . . . . . . . . . . . . . . 197 6.3.2. Relación con contrastes de hipótesis y optimalidad . . . . 200 6.4. Intervalos de confianza asintóticos . . . . . . . . . . . . . . . . . 202 6.4.1. Intervalos basados en el estimador de máxima verosimilitud203 6.4.2. Intervalos basados en la función score. . . . . . . . . . . . 205 6.5. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 210 7. Introducción a la Teorı́a de la Decisión 215 7.1. Elementos básicos en un problema de decisión . . . . . . . . . . . 215 7.1.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 217 7.2. Teorı́a de la decisión e inferencia estadı́stica . . . . . . . . . . . . 218 7.2.1. Estimación puntual. . . . . . . . . . . . . . . . . . . . . . 218 7.2.2. Contrastes de hipótesis. . . . . . . . . . . . . . . . . . . . 221 7.2.3. Estimación por intervalos. . . . . . . . . . . . . . . . . . . 223 7.3. El problema de decisión bayesiano . . . . . . . . . . . . . . . . . 225 7.4. Admisibilidad de las reglas de decisión . . . . . . . . . . . . . . . 229 7.4.1. Comparación de reglas de decisión. . . . . . . . . . . . . . 229 7.4.2. Búsqueda de reglas admisibles y clases completas. . . . . 230 7.4.3. Admisibilidad de la media muestral bajo normalidad. . . 232 7.5. Reglas minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 7.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Referencias 243 Prólogo Este documento es el fruto de nuestra experiencia como docentes de la asignatura Inferencia y Decisión (Licenciatura en Ciencias y Técnicas Estadı́sticas, Universitat Politècnica de Catalunya) durante los cursos 99-03. Cuando se preparó por primera vez la docencia de Inferencia y Decisión se pensó en seguir lo más fielmente posible algún libro de texto que por contenidos y profundidad se adaptase a los objetivos de esta asignatura. Ante la inexistencia de libros en castellano o catalán dirigidos especı́ficamente para alumnos de Inferencia y Decisión, se optó por usar como texto de referencia el libro de Casella y Berger (1990). Durante el desarrollo del curso se vio en varias ocasiones la necesidad de completarlo con otros libros. Ante esta situación (ausencia de textos en castellano y cierta insatisfacción con el libro elegido) consideramos conveniente escribir este documento. En él se recogen y amplı́an los apuntes preparados para las clases teóricas y las listas de problemas resueltas en las clases prácticas. El objetivo principal de la asignatura Inferencia y Decisión es proporcionar una sólida base teórica de los fundamentos de la Inferencia Estadı́stica y de la Teorı́a de la Decisión. Confiamos en que este Curso de Inferencia y Decisión contribuya a lograrlo. vii Capı́tulo 1 Introducción Referencias: Casella-Berger: 1.4, 2.1, 2.2, 2.3, capı́tulo 3, 5.1, 5.2, 5.4. En este curso de Inferencia y Decisión se desarrollan ideas y herramientas matemáticas que la estadı́stica utiliza para analizar datos. Se estudiarán técnicas para estimar parámetros, contrastar hipótesis y tomar decisiones. Es importante no perder de vista que en la aplicación de la estadı́stica se necesita mucho más que el conocimiento matemático. La recogida y la interpretación de los datos es un arte. Requiere sentido común y puede llegar a plantear cuestiones filosóficas. Ejemplo 1 Se desea estimar la proporción de estudiantes universitarios que no se duchan desde hace dos dı́as o más. Supongamos que podemos entrevistar a 20 estudiantes. ¿Qué se entiende por estudiante? ¿Cómo se puede asegurar que la muestra sea aleatoria? ¿Querrán contestar a la pregunta? Problema de falta de respuesta (missing data). ¿Dirán la verdad? Problema de error de medida (measurement error). Si resulta que entre los 20 estudiantes no hay ninguna mujer, ¿estaremos satisfechos con el estimador que obtengamos? Supongamos que p̂ = 5/20. ¿Qué valores son plausibles para p? En este caso el problema se plantea en términos de la variable aleatoria X = número de personas que no se ducharon ayer ni hoy ∼ B(20, p) 1 2 CAPÍTULO 1. INTRODUCCIÓN y es un ejemplo de estimación en un contexto de inferencia paramétrica. . . Ejemplo 2 Estudio de la aspirina. Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques cardı́acos se desarrolló un estudio controlado entre médicos (aproximadamente 22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un placebo durante cinco años. Los resultados del estudio fueron los siguientes: Aspirina Placebo Sufren ataques cardı́acos 104 189 No sufren ataques cardı́acos 10933 10845 Ataques por cada 1000 personas 9.42 17.13 ¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque de corazón? Se plantea aquı́ un problema de decisión o el contraste de una hipótesis. . . 1.1. Datos y modelos Los datos que aparecen en los problemas estadı́sticos pueden suponerse provenientes de un experimento, es decir, son valores en un espacio muestral. Experimento: Término de acepción muy amplia que incluye cualquier procedimiento que produce datos. Espacio muestral: Conjunto de todos los posibles resultados de un experimento. Ejemplo 3 Se desea estudiar la proporción de enfermos que responde positivamente a una nueva terapia. Se podrı́a pensar en administrar la medicina a todos los enfermos que lo deseen y utilizar como resultado del estudio las respuestas de los pacientes tratados con la nueva terapia, aunque esta muestra responde a un experimento no controlado y puede ser difı́cil obtener resultados extrapolables a toda la población. Serı́a más aconsejable identificar la población a la que está dirigida la 1.2. VARIABLE ALEATORIA 3 nueva terapia y tratar a un subconjunto aleatorio de tamaño n de esa población relevante con la nueva medicina. En los dos casos el espacio muestral es una secuencia de responde/no responde. En el primer caso el número de pacientes es variable y el espacio muestral deberı́a incluir las secuencias de todas las posibles longitudes (tantas como posibles números de pacientes), mientras que en el segundo caso el espacio muestral consistirá en las secuencias de longitud n. . . Definimos un modelo para un experimento como una colección de distribuciones de probabilidad sobre el espacio muestral. Ejemplo 3, página 2. Continuación. Sea p la proporción de individuos que responden positivamente a la nueva terapia. Hay una probabilidad p de observar una respuesta positiva en cada caso muestreado. Si el tamaño de la población de referencia es mucho más grande que el de la muestra, n, es razonable suponer que las respuestas de los individuos son independientes. Entonces el modelo es P = {P (X1 = x1 , . . . , Xn = xn ) = n Y pxi (1 − p)1−xi , 0 < p < 1}. i=1 Se trata de un modelo paramétrico de dimensión finita. El espacio paramétrico es {p : 0 < p < 1} ⊂ IR. Los problemas de inferencia en este modelo consistirán en hacer afirmaciones (en forma de estimación puntual, estimación por intervalos o contrastes de hipótesis) sobre cuán verosı́miles son los posibles valores del parámetro p. . . 1.2. 1.2.1. Variable aleatoria Variables y vectores aleatorios Consideramos un experimento aleatorio cuyos resultados pertenecen al espacio muestral Ω. Modelizamos este proceso suponiendo que existe una terna (Ω, A, P), donde Ω es el espacio muestral, P(Ω) es el conjunto de partes de Ω, A ⊆ P(Ω) es una σ-álgebra, y P : A −→ [0, 1] es una medida de probabilidad que refleja las caracterı́sticas aleatorias del experimento realizado. A esa terna se le llama espacio de probabilidad. Los resultados de un experimento aleatorio no son analizados en bruto, sino que se les da una representación numérica que facilita su tratamiento. Esto se 4 CAPÍTULO 1. INTRODUCCIÓN hace mediante la definición de variables aleatorias. Dado un espacio de probabilidad (Ω, A, P) y el espacio medible (IR, B), donde B es la σ-álgebra de Borel definida sobre la recta real IR, una variable aleatoria es una función X : Ω −→ IR medible, es decir, X −1 (B) ∈ A para todo B ∈ B. Si el espacio muestral Ω es finito o numerable, diremos que es un espacio discreto y las variables aleatorias asociadas al experimento normalmente estarán definidas como X : Ω −→ Z. Si Ω es no numerable, entonces diremos que es un espacio continuo y X : Ω −→ IR. A partir de un mismo experimento se pueden definir diferentes variables aleatorias. Por ejemplo, si lanzamos dos monedas simultáneamente, el espacio muestral asociado a este experimento es Ω = {CC, C+, +C, ++}. Se pueden definir diversas variables aleatorias: X1 = número de caras, X2 = número de cruces, X3 = cuadrado del número de caras = X12 , etc. Usualmente los datos están modelizados por un vector de variables aleatorias X = (X1 , . . . , Xn ), donde las Xi toman valores en Z o en IR. A X le llamaree e mos vector aleatorio o también variable aleatoria multidimensional. 1.2.2. Distribución de una variable aleatoria. Funciones de distribución, de probabilidad y de densidad La realización de un experimento aleatorio da lugar a un resultado ω ∈ Ω que es aleatorio. Por lo tanto X(ω) es un valor de IR también aleatorio. Es decir, la variable aleatoria X induce una medida de probabilidad en IR. A esa medida de probabilidad se le llama distribución de X o ley de X. Una de las formas de caracterizar la distribución de una variable aleatoria es dar su función de distribución FX , que está definida ası́: FX (x) = P(X ≤ x) = P({ω ∈ Ω : X(ω) ≤ x}) = P(X −1 (−∞, x]). En el caso de que X sea una variable aleatoria discreta, es decir, en el caso de que X sólo tome una cantidad finita o numerable de valores de IR, su distribución también puede caracterizarse por su función de probabilidad (o función de masa de probabilidad) fX , definida como fX : IR −→ [0, 1], fX (x) = P(X = x). Esa función sólo es no nula en un conjunto finito o numerable. Supondremos en adelante, sin pérdida de generalidad, que ese conjunto está contenido en Z. A 1.2. VARIABLE ALEATORIA 5 partir de la función de masa de probabilidad se puede calcular la probabilidad de que la variable aleatoria X tome valores en cualquier elemento A de B: X P(X ∈ A) = fX (x). x∈A La función de distribución y la función de masa de probabilidad se relacionan de la siguiente forma: X FX (x) = fX (u), fX (x) = FX (x) − FX (x− ), u≤x donde FX (x− ) = lı́mh−→0+ F (x − h). Una clase relevante de variables aleatorias no discretas son las que poseen función de densidad, es decir, aquellas cuya distribución de probabilidad puede caracterizarse por una función fX (x) ≥ 0 que cumple que Z P(X ∈ A) = fX (x)dx, para todo A ∈ B. x∈A La relación entre FX y fX es la siguiente: Z x d FX (x) FX (x) = fX (u)du, fX (x) = dx −∞ salvo quizás en un número finito de puntos x ∈ IR. Las variables aleatorias que poseen función de densidad se llaman variables aleatorias absolutamente continuas. Abusando del lenguaje, aquı́ nos referiremos a ellas como variables aleatorias continuas. 1.2.3. Esperanza y varianza Si se desea describir totalmente la distribución de probabilidad de una variable aleatoria X acabamos de ver que podemos dar su función de distribución o su función de masa o de densidad, según el caso. Una descripción parcial puede efectuarse calculando algunas caracterı́sticas de la variable aleatoria X, como por ejemplo medidas de posición o de dispersión. Estudiaremos algunas de ellas. Se define la esperanza de una variable aleatoria X como la integral de Lebesgue de X: Z E(X) = X(w)dP(w). Ω En el caso de variables aleatorias discretas la esperanza puede calcularse como X X X kfX (k). kP (X = k) = E(X) = X(ω)P(ω) = w∈Ω k∈Z k∈Z Por otro lado, la esperanza de una variable aleatoria continua se puede calcular ası́: Z E(X) = xfX (x)dx. IR 6 CAPÍTULO 1. INTRODUCCIÓN La esperanza de una variable aleatoria X es una medida de posición de X: es el centro de gravedad de la distribución de probabilidad de X. Si h es una función medible h : IR −→ IR, entonces Y = h(X) es también variable aleatoria y su esperanza se puede calcular a partir de la distribución de X: Z E(h(X)) = h(X(ω))dP(ω) Ω que en el caso de que X sea discreta puede reescribirse como X E(h(X)) = h(k)fX (k). k∈Z Si X es una variable aleatoria continua entonces Z E(h(X)) = h(x)fX (x)dx. IR Si existe µ = E(X) y es finita puede definirse una medida de dispersión de la variable aleatoria X a partir de una transformación h de X. Es lo que se denomina varianza de X y se define ası́: V (X) = E((X − µ)2 ) = E(X 2 ) − µ2 = E(X 2 ) − (E(X)2 ). 1.2.4. Muestra aleatoria simple Sea X = (X1 , . . . , Xn ) un vector aleatorio. Se dice que sus componentes e (X1 , . . . , Xn ) son independientes si P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · P (Xn ≤ xn ) para cualesquiera valores x1 , . . . , xn . Si además la distribución de las n variables aleatorias Xi es la misma, se dice que X1 , . . . , Xn son variables aleatorias independientes e idénticamente distribuidas, o bien que son v.a.i.i.d o simplemente i.i.d. Si X = (X1 , . . . , Xn ) y X1 , . . . , Xn son i.i.d. con función de densidad (en su e caso, de masa) fX , la distribución conjunta de X viene dada por la función de e densidad (en su caso, de masa) conjunta f n Y ( x ) = f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) = fX (xi ). X e i=1 e A un vector X = (X1 , . . . , Xn ) de v.a.i.i.d. con distribución igual a la de e la variable aleatoria X se le denomina también muestra aleatoria simple de X (m.a.s de X). Esto responde al hecho siguiente. Supongamos que se desea estudiar la caracterı́stica X de los individuos de una población de tamaño infinito. Definimos el experimento consistente en elegir aleatoriamente un individuo de la población y llamamos X al valor de la caracterı́stica de interés en 1.2. VARIABLE ALEATORIA 7 ese individuo. X es una variable aleatoria. Si definimos un nuevo experimento consistente en elegir una muestra aleatoria de n individuos y se anota Xi , el valor de la caracterı́stica en el individuo i-ésimo, entonces X = (X1 , . . . , Xn ) e es una colección de n v.a.i.i.d. con distribución igual a la de la variable aleatoria X, es decir, X1 , . . . , Xn es una m.a.s. de X. 1.2.5. Modelo paramétrico Usualmente la ley de probabilidad de una variable aleatoria se supone perteneciente a un modelo matemático que depende sólo de un número finito de parámetros: fX ∈ {f (x|θ) : θ ∈ Θ ⊆ IRk }. Escribiremos alternativamente f (x; θ), f (x|θ) o fθ (x). El conjunto de distribuciones dadas por fθ (x), θ ∈ Θ se llama familia paramétrica de distribuciones. Θ es el conjunto de parámetros. La correspondiente distribución conjunta de una muestra aleatoria simple de X viene dada por la función de densidad (o función de masa de probabilidad, según el caso) n Y f ( x |θ) = fθ (xi ). X e i=1 e A esta función la llamaremos función de verosimilitud de la muestra X . e Utilizaremos este término para referirnos indistintamente a la función de densidad conjunta (si las variables aleatorias son continuas) o a la función de masa conjunta (si son discretas). Ejemplo 4 Si X ∼ N (µ, σ 2 ), fX (x|µ, σ 2 ) = √ 1 2πσ 2 1 2 e− 2σ2 (x−µ) . La distribución de X es conocida salvo por dos parámetros, µ y σ 2 . En este caso k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 . La distribución conjunta de n v.a.i.i.d. con la misma distribución es f Pn 1 1 1 − ||x−1n µ||2 − 12 (xi −µ)2 2σ i=1 e e (2πσ2 )n ( x |µ, σ 2 ) = = 2 n 2 n X e (2πσ ) (2πσ ) e donde 1n = (1, . . . , 1)t ∈ IRn . . . 8 1.2.6. CAPÍTULO 1. INTRODUCCIÓN Sumas de variables aleatorias Cuando se obtiene una muestra aleatoria simple X1 , . . . , Xn normalmente se calculan a partir de ellas cantidades que resumen los valores observados. Cualquiera de estos resúmenes se puede expresar como una función T (x1 , . . . , xn ) definida en el espacio X n ⊆ IRn donde están las imágenes del vector (X1 , . . . , Xn ). Esta función T puede devolver valores de IR, IR2 o, en general, IRk . Ejemplo 5 T (X1 , . . . , Xn ) = T (X1 , . . . , Xn ) n X Xi , X, X + 3, mı́n{X1 , . . . , Xn } i=1 n X = ( i=1 Xi , n X (Xi − X)2 ) i=1 T (X1 , . . . , Xn ) = (mı́n{X1 , . . . , Xn }, T (X1 , . . . , Xn ) = n X i=1 Xi , n X (Xi − X)2 ) i=1 (X1 , . . . , Xn ) . . Las funciones T que dependen de una muestra aleatoria simple X1 . . . , Xn se llaman estadı́sticos. Dependen de los valores observados, pero no de los parámetros desconocidos que determinan la distribución de Xi . Cuando un estadı́stico T es utilizado con el propósito de estimar un parámetro θ diremos que T es un estimador de θ. Ejemplo 6 T (X1 , . . . , Xn ) = X es un estimador de µ = E(X). . . En inferencia estadı́stica interesa saber qué estadı́sticos son suficientes para recoger toda la información que la muestra aporta sobre la distribución de la variable aleatoria X muestreada. La respuesta depende de la distribución de X. Dado que X = (X1 , . . . , Xn ) es una variable aleatoria, se tiene que Y = e T (X1 , . . . , Xn ) será también una variable aleatoria. La ley de probabilidad de Y se denomina distribución en el muestreo de Y (o distribución muestral). Los siguientes resultados dan información sobre algunas caracterı́sticas de estadı́sticos definidos a partir de sumas de variables aleatorias. 1.2. VARIABLE ALEATORIA 9 Pn Teorema 1 Sean x1 , . . . , xn n números reales, sea x = n1 i=1 xi su media Pn aritmética y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral. Pn − a)2 = i=1 (xi − x)2 . Pn Pn (b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 . (a) mı́na Pn i=1 (xi Demostración: (a) n n X X (xi − a)2 = (xi − x + x − a)2 = i=1 n X i=1 (xi − x)2 + n X i=1 i=1 n X n X i=1 (observar que (xi − x)2 + (x − a)2 + 2 n X (xi − x)(x − a) = i=1 (x − a)2 + 2(x − a) i=1 Pn i=1 (xi n X (xi − x) = i=1 − x) = 0) n n n X X X (xi − x)2 + (x − a)2 ≥ (xi − x)2 . i=1 i=1 i=1 Por lo tanto el mı́nimo se alcanza si a = x. (b) Trivial. 2 Lema 1 Sea X1 , . . . , Xn una muestra aleatoria simple de X y sea g(x) una función tal que E(g(X)) y V (g(X)) existen. Entonces, Pn (a) E( i=1 g(Xi )) = nE(g(X)), Pn (b) V ( i=1 g(Xi )) = nV (g(X)), Demostración: (a) Trivial, por propiedades básicas del operador esperanza. (b) Trivial, observando que las variables aleatorias g(Xi ) son independientes y aplicando propiedades básicas del operador varianza. 2 Teorema 2 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X con esperanza µ y varianza σ 2 < ∞. Sean n X= n 1X 1 X Xi , S 2 = (Xi − X)2 , n i=1 n − 1 i=1 la media y la varianza muestrales, respectivamente. Entonces, 10 CAPÍTULO 1. INTRODUCCIÓN (a) E(X) = µ, (b) V (X) = σ 2 /n, (c) E(S 2 ) = σ 2 . Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas de la esperanza y la varianza. (c) (n − 1)S 2 = n X 2 2 Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) = i=1 1 n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 = n (n − 1)σ 2 =⇒ E(S 2 ) = σ 2 . 2 El siguiente resultado expresa la función generatriz de momentos (f.g.m.) de la media muestral en función de la f.g.m. de la variable aleatoria muestreada. Es muy útil cuando esta última f.g.m. es conocida, porque permite determinar completamente la distribución de la media muestral. Teorema 3 Sea X1 , . . . , Xn una muestra aleatoria simple de una población X con función generatriz de momentos MX (t). La función generatriz de momentos de X es n MX (t) = (MX (t/n)) . Demostración: La f.g.m. de X se define como MX (t) = E(etX ) para los valores de t para los que esa esperanza existe. Ası́, à n ! ³ ´ ³ t Pn ´ Y t Xi tX X i n i=1 MX (t) = E e en = =E e =E i=1 (independencia de las v.a. Xi ) n Y ³ E e t n Xi ´ = n Y MXi (t/n) = i=1 i=1 (las Xi son idénticamente distribuidas) n Y n MX (t/n) = (MX (t/n)) . i=1 2 1.2. VARIABLE ALEATORIA 11 Ejemplo 7 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces, MX (t) = exp(µt + Ası́, σ 2 t2 ). 2 ¶n µ σ 2 t2 µt σ 2 (t/n)2 MX (t) = exp( + ) = exp(µt + ) n 2 2n y, por tanto, X ∼ N (µ, σ 2 /n). . . Ejemplo 8 X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces, fX (x) = xα−1 e−x/β , x > 0, E(X) = αβ, V (X) = αβ 2 , Γ(α)β α µ MX (t) = Ası́, µµ MX (t) = 1 1 − βt 1 1 − βt/n ¶α , t< µ ¶α ¶n = 1 . β 1 1 − (β/n)t ¶αn y, por lo tanto, X ∼ γ(nα, β/n). Un caso particular de distribución gamma es la distribución exponencial. Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası́ que la media de exponenciales de media µ será una γ(n, µ/n) que tendrá E(X) = n . µ µ2 µ2 = µ, V (X)n 2 = . n n n . Si el Teorema 3 no se puede aplicar porque o bien la f.g.m. no existe, o bien porque la f.g.m resultante no se corresponde con ninguna distribución conocida, siempre es posible intentar alguna de las dos estrategias siguientes para tratar de determinar la distribución de la media muestral. En primer lugar, se puede trabajar con la función caracterı́stica que siempre existe. En segundo lugar se puede tratar de calcular directamente la función de densidad de la suma como la convolución de las n funciones de densidad (ver el ejemplo de la distribución de Cauchy, Casella-Berger, páginas 210-211). 12 1.3. 1.3.1. CAPÍTULO 1. INTRODUCCIÓN Dos familias de distribuciones importantes Familias de localización y escala Sea Z una variable aleatoria con distribución conocida. A la colección de distribuciones de probabilidad de las variables aleatorias X que se pueden definir de la forma X = µ + σZ, µ, σ ∈ IR σ > 0 se la denomina familia de localización y escala construida a partir de la distribución de Z. En particular, si Z es variable aleatoria absolutamente continua con función de densidad f (x), la familia de funciones de densidad µ ¶ ¾ ½ 1 x−µ f (x|µ, σ) = f : µ ∈ IR, σ > 0 σ σ forman la familia de localización y escala de f (x). El parámetro de escala dilata la distribución si σ > 1 y la contrae si σ < 1. El parámetro de posición µ traslada la densidad |µ| unidades a la derecha (si µ > 0) o a la izquierda (si µ < 0). Proposición 1 (a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ). (b) X ∼ f (x|µ, σ) ⇐⇒ X−µ ∼ f (x). σ Demostración: Trivial, aplicando la fórmula de la función de densidad de la transformación biyectiva de una variable aleatoria univariante. 2 Ejemplo 9 Las siguientes son algunas de las familias de distribuciones usuales que son de localización y escala y se parametrizan habitualmente como tales: normal, doble exponencial, Cauchy. La distribución uniforme U (a, b) también es una familia de localización y escala. En este caso µ = (a + b)/2 y σ = b − a podrı́an servir como parámetros de posición y escala. . . Corolario 1 Sea Z1 , . . . , Zn una m.a.s. de Z ∼ f (x) y sea X1 , . . . , Xn una ¡ ¢ . m.a.s. de X ∼ f (x|µ, σ). Si la ley de Z es g(z) entonces la ley de X es σ1 g x−µ σ Demostración: Observar que Xi ∼ σZi + µ, luego X ∼ σZ + µ. Aplicando la proposición anterior se tiene el resultado. 2 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 1.3.2. 13 Familias exponenciales X pertenece a la familia exponencial si su función de densidad o función de masa de probabilidad depende de un parámetro θ ∈ Θ ⊆ IRp y puede escribirse ası́: k X f (x|θ) = h(x)c(θ) exp wj (θ)tj (x) j=1 para ciertas funciones h, c, wj y tj . Si p = k y wj (θ) = θj , j = 1, . . . , p, entonces diremos que la familia exponencial está parametrizada de forma natural. En ese caso, el espacio paramétrico natural de esa familia es el conjunto Z ∞ k X Θ = {θ ∈ IRk : h(x) exp θj tj (x) dx < ∞}. −∞ j=1 Si X1 , . . . , Xn es muestra aleatoria simple de X, en la familia exponencial, entonces à n ! k n Y X X n f (x1 , . . . , xn |θ) = h(xi ) (c(θ)) exp wj (θ) tj (xi ) . i=1 j=1 i=1 Pn Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, entonces la distribución de (T1 , . . . , Tk ) viene dada por k X n fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp wj (θ)uj , j=1 es decir, T también pertenece a la familia exponencial. Ejemplo 10 Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, binomial negativa, exponencial, normal, gamma, beta. . . 1.4. Muestreo de una distribución normal En el resto del tema supondremos que X1 , . . . , Xn es una m.a.s. de una N (µ, σ 2 ). Teorema 4 (Teorema de Fisher) dependientes. (a) X y Sn2 son variables aleatorias in- 14 CAPÍTULO 1. INTRODUCCIÓN (b) X ∼ N (µ, σ 2 /n). (c) (n − 1)Sn2 /σ 2 ∼ χ2n−1 . Demostración: Suponemos, sin pérdida de generalidad, que µ = 0 y σ = 1, puesto que la familia normal es una familia de posición y escala. (b) Se ha demostrado en el ejemplo 7. (a) Obsérvese que (n − 1)Sn2 = n X 2 2 (Xi − X) = (X1 − X) + i=1 (como Pn i=1 (Xi n X (Xi − X)2 = i=2 − X) = 0) à !2 n n X X (Xi − X) + (Xi − X)2 i=2 i=2 de donde se deduce que Sn2 es función de (X2 − X, . . . , Xn − X). Probaremos ahora que (X2 − X, . . . , Xn − X) y X son independientes, lo cuál implicará que (a) es cierto. Hacemos el cambio de variable Pn Pn Pn y1 = x x1 = nx − i=2 xi = x − i=2 (xi − x) = y1 − i=2 yi x2 = y2 + y1 y2 = x2 − x =⇒ . .. .. . xn = yn + y1 yn = xn − x El jacobiano del cambio de x a y es 1/n. Luego la densidad de la variable aleatoria transformada es fY (y1 . . . , yn ) = fX (y1 − n X yi , y2 + y1 , . . . , yn + y1 )n = i=2 ( ) n n X 1 1X (∗) 2 2 n exp − (y1 − yi ) − (yi + y1 ) = 2 2 i=2 i=2 ( à n !) ¾ ½ n X 1 X 2 n 1 2 2 √ exp − ny1 exp − y +( yi ) . 2 2 i=2 i ( 2π)n i=2 µ 1 √ 2π ¶n Por lo tanto Y1 es independiente de (Y2 , . . . , Yn ) y de aquı́ se sigue que X es independiente de Sn2 . (∗) Falta por justificar el paso marcado con un (∗): (y1 − n X i=2 yi )2 + n X i=2 (yi + y1 )2 = 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 15 n n n n X X X X y12 + ( yi )2 − 2y1 yi + yi2 + (n − 1)y12 + 2y1 yi = i=2 i=2 i=2 n X ny12 + ( i=2 yi )2 + i=2 n X yi2 . i=2 (c) La demostración de este apartado se seguirá mejor después del apartado siguiente en el que se tratan las distribuciones de probabilidad asociadas a la normal. Denotaremos por X n y por Sn2 , respectivamente, la media muestral y la varianza muestral calculadas a partir de una muestra de tamaño n. En primer lugar probaremos que se verifica la siguiente fórmula recursiva: 2 (n − 1)Sn2 = (n − 2)Sn−1 + n−1 (Xn − X n−1 )2 . n En efecto, (n − 1)Sn2 = n X (Xi − X n )2 = n−1 X i=1 (Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 = i=1 2 (n − 2)Sn−1 + (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗) (teniendo en cuenta que (n − 1)X n−1 = nX n − Xn =⇒ (n − 1)(X n−1 − Xn ) = n(X n −Xn ) y que (n−1)(X n−1 −X n ) = (X n −Xn ) = ((n−1)/n)(X n−1 −Xn )) 2 (∗) = (n − 2)Sn−1 + (n − 1) 1 (n − 1)2 2 (X − X ) + (X n−1 − Xn )2 = n−1 n n2 n2 2 (n − 2)Sn−1 + n−1 (Xn − X n−1 )2 . n 2 probaremos por inducción que Una vez probada la relación entre Sn2 y Sn−1 2 2 2 (n − 1)Sn /σ ∼ χn−1 . Para n = 2, la fórmula recursiva nos da S22 = 1 (X2 − X1 )2 . 2 √ Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1) y de ahı́ que √ S22 = ((X2 − X1 )/ 2)2 ∼ χ21 , con lo que queda probado el resultado para n = 2. Supongamos que el resultado es cierto para n = k, es decir, (k − 1)Sk2 /σ 2 ∼ χ2k−1 . 16 CAPÍTULO 1. INTRODUCCIÓN Probemos que es también cierto para n = k + 1. Observar que k 2 kSk+1 = (k − 1)Sk2 + (Xk+1 − X k )2 . | {z } k + 1 ∼χ2k−1 Ası́, el resultado quedará demostrado si se prueba que (k/(k+1))(Xk+1 −X k )2 es una χ21 , puesto que esta variable es independiente de Sk2 , al ser X k independiente de Sk2 (apartado (a)) y ser Xk+1 independiente de las k primeras observaciones. Por esta misma razón, Xk+1 ∼ N (0, 1) es también independiente de X k ∼ N (0, 1/k). Ası́ que µ Xk+1 − X k ∼ N k+1 0, k Ãr ¶ =⇒ !2 k (Xk+1 − X k ) ∼ χ21 k+1 que es precisamente lo que querı́amos probar. 2 Existen demostraciones alternativas de este teorema basadas en la función generatriz de momentos o en la función caracterı́stica. 1.4.1. Distribuciones asociadas a la normal En esta sección se recuerdan las definiciones de las leyes χ2 , t de Student y F de Fisher-Snedecor. También se enuncian algunas de sus propiedades. Las demostraciones pueden encontrarse en la sección 5.4 de Casella-Berger. La ley χ2ν Diremos que X tiene distribución χ2 con ν grados de libertad y se denota X ∼ χ2ν si su función de densidad es fν (x) = 1 x(ν/2)−1 e−x/2 , 0 < x < ∞, Γ(ν/2)2ν/2 es decir, X ∼ γ(ν/2, 2). Lema 2 (a) Si X ∼ N (µ, σ 2 ) entonces (X − µ)2 ∼ χ21 . σ2 (b) Si X1 , . . . , Xn son variables aleatorias independientes y Xi ∼ χ2νi entonces Y = n X i=1 donde ν = Pn i=1 νi . Xi ∼ χ2ν , 1.4. MUESTREO DE UNA DISTRIBUCIÓN NORMAL 17 (c) Sean X1 , . . . , Xn variables aleatorias independientes e idénticamente distribuidas según una N (0, 1). La variable aleatoria Y = n X Xi2 ∼ χ2n . i=1 (Nota: esta propiedad se usa a veces como definición de la distribución χ2 ). La ley tp Diremos que X sigue una distribución t de Student con p grados de libertad y lo denotaremos X ∼ tp , si su función de densidad es fp (x) = 1 Γ((p + 1)/2) 1 , −∞ < x < ∞. √ Γ(p/2) πp (1 + t2 /p)(p+1)/2 Si p = 1 se trata de la distribución de Cauchy. Lema 3 (a) Z ∼ N (0, 1), Y ∼ χ2p , Z e Y independientes, entonces, Z ∼ tp . X=p Y /p (Nota: esta propiedad se usa a veces como definición de la distribución t de Student.) (a) Sean X1 , . . . , Xn una m.a.s. de una N (µ, σ 2 ). Entonces X −µ √ ∼ tn−1 . S/ n La distribución t de Student no tiene f.g.m. porque no tiene momentos de todos los órdenes. Si X ∼ tp entonces sólo existen los momentos de orden estrictamente inferior a p: existe E(X α ) para α < p. Si X ∼ tp , entonces E(X) = 0 si p > 1 y V (X) = p/(p − 2) si p > 2. La ley Fp,q Diremos que X sigue una distribución F con p y q grados de libertad y lo denotaremos X ∼ Fp,q , si su función de densidad es ¡ ¢ µ ¶p/2 Γ p+q p x(p/2)−1 fp,q (x) = ¡ p ¢ 2 ¡ q ¢ , 0 < x < ∞. ³ ´ p+q q Γ 2 Γ 2 2 p 1 + qx Lema 4 (a) Si U ∼ χ2p , V ∼ χ2q y U y V son independientes, entonces X= U/p ∼ Fp,q . V /q (Nota: esta propiedad se usa a veces como definición de la distribución F .) 18 CAPÍTULO 1. INTRODUCCIÓN 2 (b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX ), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ), dos muestras independientes. Entonces 2 2 SX /σX ∼ Fn−1,m−1 . SY2 /σY2 (c) Si X ∼ Fp,q , entonces X −1 ∼ Fq,p . (d) Si X ∼ tp ,entonces X 2 ∼ F1,p . (e) Si X ∼ Fp,q , entonces ³p q ´ p X ∼ Beta , . q 1 + pq X 2 2 (f ) Si X ∼ Fn−1,m−1 , entonces µ E(X) = E χ2n−1 /(n − 1) χ2m−1 /(m − 1) µ n−1 n−1 ¶µ ¶ µ =E m−1 m−3 ¶ = χ2n−1 n−1 ¶ µ E m−1 χ2m−1 ¶ = m−1 . m−3 (g) Si las distribuciones de partida tienen simetrı́a esférica, entonces el cociente de las varianzas muestrales sigue una F (Casella-Berger, p. 227). 1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite En esta sección se enuncian dos resultados fundamentales en inferencia estadı́stica: la Ley Fuerte de los Grandes Números y el Teorema Central del Lı́mite. Dada una sucesión de variables aleatorias definidas sobre el mismo espacio muestral, se llaman leyes de los grandes números a los resultados sobre convergencia de las sucesiones de sus medias aritméticas a una constante. Se conoce como problema del lı́mite central el estudio de la convergencia débil de la sucesión de medias muestrales centradas y tipificadas a una distribución no degenerada. 1.5.1. Leyes de los grandes números Se enuncia a continuación una versión de ley débil de los grandes números que establece la convergencia en media cuadrática (y por tanto, en probabilidad) de la media aritmética de una sucesión de variables aleatorias incorreladas. 1.5. LEYES DE LOS GRANDES NÚMEROS Y TEOREMA CENTRAL DEL LÍMITE19 Teorema 5 (Ley débil de los grandes números) Sea {Xn }n∈IN una sucesión de variables aleatorias incorreladas con momentos de segundo orden acoPn tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces ï ¯ ! ¯ Sn − E(Sn ) ¯2 C ¯ E ¯¯ ≤ ¯ n n y, como consecuencia Sn − E(Sn ) =0 n en el sentido de la convergencia en media cuadrática. lı́m n−→∞ La demostración de este resultado puede verse, por ejemplo, en Sanz (1999). Como caso particular del teorema anterior, se puede probar la convergencia en probabilidad de la frecuencia relativa de un suceso a su probabilidad (ver Sanz 1999). Este resultado se conoce como ley débil de Bernoulli. Los resultados que garantizan la convergencia casi segura de la media muestral se conocen como leyes fuertes de los grandes números. Se enuncia a continuación una ley fuerte para variables con segundos momentos finitos e incorreladas. Teorema 6 (Ley fuerte de los grandes números) Bajo las hipótesis del teorema 5 se tiene que Sn − E(Sn ) lı́m =0 n−→∞ n en el sentido de la convergencia casi segura. En Sanz (1999) puede encontrarse la demostración de este resultado. En ese mismo texto se recoge una versión más general de la ley fuerte de los grandes números, conocida como ley fuerte de los grandes números de Kolmogorov: en el caso i.i.d. basta con que haya eseranza finita para que se dé la convergencia casi segura de la media muestral a la esperanza. 1.5.2. Teorema central del lı́mite En esta sección se presenta el teorema central del lı́mite de LévyLindeberg, válido para sucesiones de variables aleatorias independientes e idénticamente distribuidas con momento de segundo orden finito. Teorema 7 (Teorema central del lı́mite) Sea {Xn }n∈IN una sucesión de variables aleatorias independientes e idénticamente distribuidas con momento de segundo orden finito. Sea µ la esperanza común y σ 2 la varianza común, que Pn supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que Sn − nµ √ −→D Z, σ n donde Z ∼ N (0, 1) y −→D indica convergencia en distribución. 20 CAPÍTULO 1. INTRODUCCIÓN Este resultado puede demostrarse utilizando funciones generadoras de moementos o funciones caracterı́sticas, como se hace en Casella-Berger. En Sanz (1999) se da una demostración (más laboriosa) que no requiere el uso de estas transformaciones. En Casella-Berger puede encontrarse una versión más fuerte del teorema central del lı́mite. El Teorema de De Moivre-Laplace, que establece la convergencia débil de la binomial tipificada a la normal estándar, es una aplicación directa del teorema central del lı́mite de Lévy-Lindeberg. Ejemplos del uso habitual de la aproximación de la binomial por la normal son la estimación del error de aproximar la frecuencia relativa por la probabilidad y el cálculo de tamaños muestrales en encuestas. 1.5.3. Versiones multivariantes Se enuncian a continuación versiones multivariantes de la ley de los griandes números y del teorema central del lı́mite. Teorema 8 Sea { X n }n∈IN una sucesión de variables aleatorias p-dimensionales e independientes e idénticamente distribuidas. Sea X el vector p-diemensional e n media aritmética de las n primeras variables: n 1X X = X i. n i=1 e e n Se tiene lo siguiente: 1. Si existe E( X i ) = µ, entonces X converge a µ casi seguramente. e e n 2. Si, además, X i tiene matriz de varianza y covarianzas finita Σ, entonces e √ n( X − µ) −→D Np (0, Σ). e n La demostración de este resultado puede encontrarse, por ejemplo, en Arnold (1990). Como corolario se puede probar la convergencia de la distribución multinomial (centrada y tipificada) a una normal multivariante (ver Arnold 1990). 1.6. LISTA DE PROBLEMAS 1.6. 21 Lista de problemas Variables aleatorias. Muestras 1. (Casella-Berger, 5.2) Sean X1 , X2 . . . v.a.i.i.d. cada una de ellas con densidad f (x). Supongamos que cada Xi mide la cantidad anual de precipitaciones en un determinado emplazamiento. Da la distribución del número de años que transcurren hasta que las lluvias del primer año, X1 , son superadas por primera vez. 2. (Casella-Berger, 5.5) Sean X1 , . . . , Xn v.a.i.i.d. con densidad fX (x). Sea X su media muestral. Prueba que fX (x) = nfX1 +···+Xn (nx). 3. (Examen parcial 2000; Casella-Berger, 5.9) Sea X1 , . . . , Xn una muestra aleatoria simple de X, a partir de la que se calcula la media y la varianza muestral de la forma usual: n X= n 1X 1 X Xi , S 2 = (Xi − X)2 . n i=1 n − 1 i=1 a) Prueba que n S2 = n XX 1 (Xi − Xj )2 . 2n(n − 1) i=1 j=1 Supongamos que E(X 4 ) < ∞. Sean θ1 = E(X) y θj = E((X − θ1 )j ), j = 2, 3, 4. b) Prueba que 1 V (S ) = n 2 µ ¶ n−3 2 θ4 − θ . n−1 2 c) Da la expresión de Cov(X, S 2 ) en términos de θ1 , . . . , θ4 . ¿Bajo qué condiciones son X y S 2 incorreladas? d ) Si la distribución de X es simétrica respecto de θ1 , ¿es posible que la covarianza de esos estadı́sticos sea no nula? e) Si la distribución de X no es simétrica respecto de θ1 , ¿es posible que la covarianza de esos estadı́sticos sea nula? 4. (Casella-Berger, 5.16) Llamemos X n y Sn2 a la media y la varianza muestrales calculadas a partir de n observaciones X1 , . . . , Xn . Supongamos que se observa un nuevo valor Xn+1 . Demuestra las siguientes fórmulas recursivas. a) X n+1 = 1 (Xn+1 + nX n ). n+1 22 CAPÍTULO 1. INTRODUCCIÓN b) 2 nSn+1 = (n − 1)Sn2 + n (Xn+1 − X n )2 . n+1 5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a partir de dos muestras independientes de tamaño n de una población con varianza σ 2 . Halla el menor valor de n que garantiza que ³ σ´ P |X 1 − X 2 | < 5 es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev como el Teorema Central del Lı́mite. Comenta los resultados obtenidos. 6. (Casella-Berger, 5.29) Sean Xi ∼ N (i, i2 ), i = 1, 2, 3, tres variables aleatorias independientes. Construye a partir de estas variables aleatorias otras que tengan las siguientes distribuciones. a) χ23 . b) t2 . c) F1,2 . 7. (Casella-Berger, 5.36) Sean Ui , i = 1, 2, . . . , variables aleatorias independientes con distribución U (0, 1). Sea X una variable aleatoria con distribución 1 P (X = x) = , x = 1, 2, 3, . . . (e − 1)x! Da la distribución de Z = mı́n{U1 , . . . , UX }. Indicación: Observar que Z|X = x es el primer estadı́stico de orden de una muestra de tamaño x de una U (0, 1). 8. (Casella-Berger, 5.37) Sea X1 , . . . , Xn una muestra aleatoria simple de una población con densidad fX (x) = 1 I(0,θ) (x). θ Sean X(1) , . . . , X(n) los estadı́sticos orden. Prueba que X(1) /X(n) y X(n) son independientes. 9. Demuestra los lemas 2, 3 y 4. Familias exponenciales 10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias exponenciales y describe el espacio paramétrico natural de cada una de ellas. a) Familia normal con alguno de los parámetros µ o σ conocidos. 1.6. LISTA DE PROBLEMAS 23 b) Familia gamma con alguno de los parámetros α o β conocidos. c) Familia beta con alguno de los parámetros α o β conocidos. d ) Familia Poisson. e) Binomial negativa con el parámetro r conocido y 0 < p < 1. 11. (Casella-Berger, 3.30) Considera la familia exponencial expresada en términos de su espacio paramétrico natural con densidad k X f (x; η ) = h(x)c( η ) exp{ ηi ti (x)}. e e i=1 Prueba que ∂ log(c( η )). (t (X)) = − η i ∂ηi e e Indicación: Usa el hecho de que para una familia exponencial se tiene que Z ∞ Z ∞ j ∂j ∂ f (x)dx = f (x)dx. j j η η ∂ηi −∞ −∞ ∂ηi e e 12. Considera la familia de distribuciones normales con media θ y varianza θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es una familia exponencial y determina el espacio paramétrico natural. E 13. Sean X1 , . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia exponencial expresada en términos del espacio paramétrico natural. Prueba que la distribución conjunta de las n variables también pertenece a la familia exponencial. 14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. 16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de distribuciones conjuntas de las n variables es una familia exponencial. Familias de localización y escala 17. (Casella-Berger, 3.31) Considera la función de densidad f (x) = Dibuja el gráfico de 63 6 (x − x8 ), −1 < x < 1. 4 µ ¶ 1 x−µ f σ σ para los siguientes valores de µ y σ en el mismo sistema de ejes cartesianos. 24 CAPÍTULO 1. INTRODUCCIÓN a) µ = 0, σ = 1. b) µ = 3, σ = 1. c) µ = 3, σ = 2. 18. (Casella-Berger, 3.32) Muestra que si f (x) es una función de densidad simétrica alrededor de 0, entonces la mediana de la densidad µ ¶ 1 x−µ f σ σ es µ. 19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se define zα como un número que satisface que Z ∞ α = P (Z > zα ) = f (z)dz. zα Sea X una variable aleatoria con densidad en la familia de localización y escala de f µ ¶ x−µ 1 f σ σ y sea xα = µ + σzα . Prueba que P (X > xα ) = α. (Nota: Ası́, los valores de xα se calculan fácilmente para cualquier miembro de la familia de localización y escala si se dispone de una tabla de valores zα .) 20. (Casella-Berger, 3.34) Considera la distribución de Cauchy, con densidad f (x) = 1 , x ∈ IR, π(1 + x2 ) y la familia de localización y escala definida a partir de ella: X tiene distribución de Cauchy con parámetros µ y σ si su densidad es f (x; µ, σ) = σ , x ∈ IR. π(σ 2 + (x − µ)2 ) No existen la esperanza ni la varianza de estas distribuciones, luego µ y σ 2 no son la media y la varianza. No obstante, tienen un importante significado. a) Prueba que µ es la mediana de X. b) Prueba que µ − σ y µ + σ son los cuartiles primero y tercero, respectivamente, de X. 21. (Casella-Berger, 3.35) Sea f (x) una función de densidad con media µ y varianza σ 2 . Indica cómo crear una familia de localización y escala basada en f (x) tal que la densidad estándar de la familia, f ∗ (x), tenga esperanza 0 y varianza 1. Capı́tulo 2 Principios para reducir los datos Referencias: Casella-Berger, capı́tulo 6. En algunos puntos se han seguido también Cristóbal (1992) (capı́tulo 7), Schervish (1995) (capı́tulo 2) y Garcı́a-Nogales (1998) (capı́tulo 3). El uso de cualquier estadı́stico T ( X ) implica una reducción de los datos e muestrales. Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple (un vector e aleatorio) y sean x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) muestras observadas (reae e lizaciones de X ). Si decidimos usar el estadı́stico T ( X ) en vez de toda la muese e tra, serán tratadas igual dos muestras observadas cualesquiera x , y , siempre e e que T ( x ) = T ( y ). Es decir, al usar el estadı́stico T , en lugar de toda la muese e tra, se pierde información. Se plantea ası́ el problema de buscar estadı́sticos T tales que la información que se pierde al usarlos sea irrelevante para los fines que nos hayamos marcado. Dado el espacio muestral X , la imagen de Ω mediante el vector aleatorio X , reducir los datos en términos de un estadı́stico T es equivalente a dar e una partición de X . En efecto, sea T = {t : t = T (x), para algún x ∈ X }, la imagen de X mediante el estadı́stico T . Entonces {At = T −1 (t) : t ∈ T } es una partición de X inducida por T . Al observar x y limitarnos a registrar el valor e de T ( x ), podremos saber que hemos observado un elemento de A , pero T( x ) e e desconoceremos cuál de ellos. Ejemplo 11 Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0 si sale cruz. El espacio muestral es X = { x = (x1 , . . . , xn ) : xi ∈ {0, 1}}. e 25 26 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Se define T ( x ) = e Pn i=1 xi . Entonces T = {0, 1, 2, . . . , n}. El estadı́stico T ha creado una partición en X de forma que todas aquellas secuencias de resultados con igual número de unos están en la misma clase: At = { x = (x1 , . . . , xn ) ∈ T : e n X xi = t}. i=1 No podemos distinguir entre (1, 0, 0, . . . , 0) y (0, 1, 0, . . . , 0), por ejemplo. . . En este tema estudiaremos dos principios para reducir los datos que garantizan que en el proceso de reducción no se pierde información relevante sobre los aspectos en estudio de la variable aleatoria de interés. Estos principios son el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse el principio de invariancia, que no trataremos aquı́ (puede consultarse la sección 6.3 del Casella-Berger como material de lectura). En adelante supondremos que la variable aleatoria X en estudio tiene distribución perteneciente a una familia paramétrica: X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }. Se supondrá además que se toma una muestra aleatoria simple de X y que a partir de ella se calculan estadı́sticos. 2.1. Principio de suficiencia Un estadı́stico T es suficiente para un parámetro θ si captura toda la información que sobre θ contiene la muestra. Cualquier información adicional (es decir, aparte del valor del estadı́stico T ) que la muestra pueda aportar, no proporciona información relevante sobre θ. Estas consideraciones se concretan en el siguiente principio: Principio de suficiencia: Si T es un estadı́stico suficiente para θ, cualquier inferencia sobre θ ha de depender de la muestra X = (X1 , . . . , Xn ) sólo a través del valor T ( X ). Es decir, e e si x e y son tales que T ( x ) = T ( y ), entonces la inferencia que se haga sobre e e e e θ será la misma tanto si se observa x como si se observa y . e e Formalmente, diremos que un estadı́stico T es suficiente para θ si la distribución condicionada de X dado el valor T ( X ), no depende de θ. e e Veamos, en el caso discreto, que la información que sobre un parámetro aporta un estadı́stico suficiente es toda la información que aportarı́a la muestra 2.1. PRINCIPIO DE SUFICIENCIA 27 completa. En primer lugar, si t es uno de los posibles valores de T ( X ), es decir, e si Pθ (T ( X ) = t) > 0, entonces e ( Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t Pθ ( X = x |T ( X ) = t) = e e e e e 0 si T ( x ) 6= t e e e e Ası́ que sólo son de interés las probabilidades condicionadas Pθ ( X = x |T ( X ) = e e e T ( x )). Si T es suficiente estas probabilidades no dependen de θ, luego, e Pθ ( X = x |T ( X ) = T ( x )) = P ( X = x |T ( X ) = T ( x )) e e e e e e e e para todo θ. En este sentido entendemos que T captura toda la información sobre θ. Supongamos que dos cientı́ficos se interesan por la variable aleatoria X cuya distribución depende del parámetro desconocido θ. Supongamos además que el primer cientı́fico observa toda una muestra x de X, mientras que el segundo e sólo puede estudiar el fenómeno a través de una revista que publica el valor del estadı́stico suficiente T ( x ). La cuestión relevante entonces es saber si ambos e cientı́ficos tienen o no la misma información sobre θ. Veamos que ası́ es. Como P ( X = x |T ( X ) = T ( x )) no depende de θ, esta distribución cone e e e dicional puede calcularse a partir del modelo que sigue X. Por lo tanto ambos cientı́ficos conocen P ( X = y |T ( X ) = T ( x )), para todo y ∈ A = {y : T ( y ) = T ( x )}. T( x ) e e e e e e e Si el segundo cientı́fico quisiera, podrı́a generar un vector aleatorio Y siguiendo e esa distribución y se satisfarı́a que P ( Y = y |T ( X ) = T ( x )) = P ( X = y |T ( X ) = T ( x )), para todo y ∈ A T( x ) e e e e e e e e e Por lo tanto X e Y tendrı́an la misma distribución condicionada a que T ( X ) = e T ( x ). Además, ambas variables tienen la misma distribución incondicional: e Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) = e e e e e e (porque { X = x } ⊆ {T ( X ) = T ( x )}) e e e e Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) = e e e e e e Pθ ( Y = x |T ( X ) = T ( x ))Pθ (T ( X ) = T ( x )) = e e e e e e Pθ ( Y = x , T ( X ) = T ( x )) = e e e e (teniendo en cuenta que { Y = x } ⊆ {T ( X ) = T ( x )}) e e e e Pθ ( Y = x ) e e 28 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Por lo tanto el segundo cientı́fico ha podido observar una variable aleatoria Y que tiene la misma distribución que la variable aleatoria X que observó el e e primer cientı́fico, y ambos cientı́ficos obtienen el mismo valor del estadı́stico T a partir de sus respectivas observaciones. Por lo tanto, ambos cientı́ficos tienen la misma información. Teorema 9 Si f ( x |θ) es la verosimilitud de un vector aleatorio X y q(t|θ) es e e la verosimilitud (función de densidad o de masa) de un estadı́stico T ( X ), se e tiene la siguiente equivalencia. T ( X ) es un estadı́stico suficiente para θ si y e sólo si para cada x del espacio muestral X el cociente e f ( x |θ) e q(T ( x )|θ) e no depende de θ. Demostración: Haremos la prueba para el caso discreto. El caso continuo no presenta dificultades adicionales. Veamos primero que si f ( x |θ)/q(T ( x )|θ) no depende de θ entonces T es e e suficiente. Como ya se vio anteriormente, ( Pθ ( X = x |T ( X ) = T ( x )) si T ( x ) = t Pθ ( X = x |T ( X ) = t) = e e e e e 0 si T ( x ) 6= t e e e e Luego si T ( x ) 6= t la función de masa de probabilidad condicionada vale 0 y, e no depende de θ. En el otro caso, Pθ ( X = x , T ( X ) = T ( x )) e e e e = Pθ (T ( X ) = T ( x )) e e Pθ ( X = x ) f ( x |θ) e e e = Pθ (T ( X ) = T ( x )) q(T ( x )|θ) e e e que tampoco depende de θ, de donde se sigue que T es suficiente. Pθ ( X = x |T ( X ) = T ( x )) = e e e e Para probar el recı́proco, basta con leer la igualdad anterior en orden inverso, f ( x |θ) e = Pθ ( X = x |T ( X ) = T ( x )), e e e e q(T ( x )|θ) e que no depende de θ si T es suficiente. 2 Ejemplo 12 Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El e estadı́stico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ: e Qn f ( x |θ) θxi (1 − θ)1−xi ¢ e = = ¡i=1 n t n−t q(T ( x )|θ) t θ (1 − θ) e 2.1. PRINCIPIO DE SUFICIENCIA (donde se ha definido t = Pn i=1 29 xi ) θt (1 − θ)n−t 1 ¡n¢ = ¡n¢ t (1 − θ)n−t θ t t que no depende de θ. . . Ejemplo 13 Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido. e El estadı́stico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ: © ª Pn f ( x |θ) (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2 © ª = e = n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2 q(T ( x )|θ) e © ¡Pn ¢ª 2 −n/2 2 2 (2πσ ) exp − 2σ1 2 i=1 (xi − x) + n(x − µ) © ª = n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2 © ª Pn (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2 = n1/2 (2πσ 2 )−1/2 ( ) n 1 X 2 −(n−1)/2 −1/2 2 (xi − x) , (2πσ ) n exp − 2 2σ i=1 que no depende de µ. . . El teorema 9 es útil para comprobar si un estadı́stico es suficiente, pero no lo es para buscar estadı́sticos suficientes. El siguiente teorema sı́ podrá usarse para este cometido: permite encontrar estadı́sticos suficientes mediante la inspección de la función de densidad o la función de masa de probabilidad, según el caso. Teorema 10 (Teorema de Factorización) Sea f ( x |θ) la verosimilitud de e X = (X1 , . . . , Xn ). El estadı́stico T ( X ) es suficiente para θ si y sólo si existen e e funciones g(t|θ) y h( x ) tales que para cualquier x ∈ X y cualquier θ ∈ Θ la e e función f ( x |θ) puede factorizarse ası́: e f ( x |θ) = g(T ( x )|θ)h( x ). e e e Demostración: (En el caso discreto). Supongamos primero que T es suficiente. Tomemos g(t|θ) = Pθ (T ( X ) = t) y h( x ) = Pθ ( X = x |T ( X ) = T ( x )), que e e e e e e no depende de θ al ser T suficiente. Con esta elección, f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) = e e e e e e e 30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Pθ ( X = x |T ( X ) = T ( x ))Pθ (T ( X ) = t) = g(T ( x )|θ)h( x ). e e e e e e e Veamos ahora el recı́proco. Supongamos que f ( x |θ) = g(T ( x )|θ)h( x ) y que e e e q(t|θ) es la función de masa de probabilidad de T ( X ). Entonces, e f ( x |θ) f ( x |θ) e e =P = q(t|θ) f (y|θ) y∈A T( x ) e g(T ( x )|θ)h( x ) g(T ( x )|θ)h( x ) h( x ) e e e e e =P =P , g(T ( y )|θ)h( y ) g(T ( x )|θ)h( y ) h( y ) y∈A y∈A y∈A e e e e e T( x ) T( x ) T( x ) e e e que es independiente de θ. Luego T es suficiente para θ. 2 P (Nota: la demostración para el caso continuo puede verse, por ejemplo, en Lehmann 1986 o en Cristóbal (1992), p. 173.) Según el Teorema 10, para encontrar un estadı́stico suficiente se factoriza la función de densidad (o la de masa) en dos partes: una, h( x ), que no contenga al e parámetro θ, y la otra que dependa de la muestra sólo a través de una función suya T ( x ). El estadı́stico suficiente será entonces T ( X ). e e Ejemplo 14 Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La función de masa de probabilidad de X es 1 f (x|θ) = I{1,2,...,θ} (x) θ donde IA (x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en caso contrario. La verosimilitud de la muestra es 1 θn . à f (x1 , . . . , xn |θ) = n 1 Y I{1,2,...,θ} (xi ) = θn i=1 !à ! à n !à n ! Y 1 Y IIN−{0} (xi ) I(−∞,θ] (xi ) = n IIN−{0} (xi ) I[xi ,∞) (θ) = θ i=1 i=1 i=1 i=1 à n ! Y 1 I (θ) IIN−{0} (xi ) n (máx{xi :1≤i≤n},∞) |θ {z } i=1 {z } | g(t|θ), donde t=máxi xi h( x ) e n Y n Y . 2.1. PRINCIPIO DE SUFICIENCIA 31 Ejemplo 15 Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es ( ) n n n o 1 X 2 −n/2 2 f ( x |µ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 2σ i=1 2σ{z e | } | {z } g(t|µ), donde t=x h( x ) e Por lo tanto T ( X ) = X es estadı́stico suficiente para µ. e P n Obsérvese que i=1 Xi = nX también es estadı́stico suficiente: podrı́a defiª © nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 . e . . En general, si T ( X ) es estadı́stico suficiente para θ y τ : T −→ S es una e transformación biyectiva del espacio donde toma valores T , se tiene que S( X ) = e τ (T ( X )) también es estadı́stico suficiente para θ: e f ( x |θ) = g(T ( x )|θ)h( x ) = g(τ −1 (S( x ))|θ)h( x ) = g ∗ (S( x )|θ)h( x ), e e e e e e e de donde se deduce que S( X ) también es estadı́stico suficiente. La función e g ∗ (s|θ) es g ∗ (s|θ) = g(τ −1 (s)|θ). 2.1.1. Estadı́sticos suficientes r-dimensionales Hasta ahora hemos visto únicamente estadı́sticos suficientes con valores reales, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de factorización puede ocurrir que la función g(t|θ) dependa de la muestra a través de más de una función suya. En ese caso la colección de esas funciones, digamos T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadı́stico suficiente r-dimensional. Las e e e definiciones y resultados referentes a la suficiencia ya vistos para el caso unidimensional también se aplican al caso r-dimensional. Usualmente, si el parámetro θ es de dimensión mayor que 1, entonces también lo será el estadı́stico suficiente. Ejemplo 16 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ = (µ, σ 2 ). Ası́, ) ( n o n n 1 X 2 2 2 −n/2 f ( x |µ, σ ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 . 2σ i=1 2σ e Pn Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces, e e ¾ ½ o n n (n − 1) 2 2 2 −n/2 = T ( x ) exp − (T ( x ) − µ) f ( x |µ, σ ) = (2πσ ) exp − 2 1 2σ 2 2σ 2 e e e 32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS g(T1 ( x ), T2 ( x )|µ, σ 2 ) e e y tomando h( x ) = 1 se tiene la factorización de f ( x |µ, σ 2 ) que implica que e e T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente para (µ, σ 2 ) en e e e la distribución normal. Es un estadı́stico bivariante. Obsérvese que el hecho de que un estadı́stico sea o no suficiente para un parámetro depende del modelo que siguen las variables aleatorias implicadas. En el caso de muestrear una normal, podemos anotar únicamente la media y la varianza muestral y estar seguros de que tenemos toda la información relevante sobre los parámetros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros de la normalidad de los datos no deberı́amos conformarnos con conocer únicamente la media y la varianza muestral. . . 2.1.2. Estadı́sticos suficientes minimales La factorización de la función de verosimilitud no es única y como consecuencia de ello, tampoco es único el estadı́stico suficiente para un parámetro. Ya vimos que cualquier transformación biyectiva de un estadı́stico suficiente da lugar a otro estadı́stico suficiente. Pero aún hay muchos más estadı́sticos suficientes. Por ejemplo, la muestra completa X también es estadı́stico suficiente e para el parámetro: f ( x |θ) = g( x |θ)h( x ), e e e donde h( x ) = 1, T ( x ) = x y g( x |θ) = f ( x |θ). e e e e e Un estadı́stico suficiente T ( X ) se llama minimal si para cualquier otro e estadı́stico S( X ) se tiene que T ( X ) es función de S( X ). Es decir, si ocurre e e e que S( x ) = S( y ) entonces forzosamente se tiene que T ( x ) = T ( y ). Otra e e e esto es la siguiente: sea {A : t ∈ T } la partición forma de expresar dele espacio t muestral inducida por el estadı́stico T y sea {Bs : s ∈ S} la partición inducida por S; para casa s ∈ S existe un t ∈ T tal que Bs ⊆ At . La partición inducida por cualquier estadı́stico suficiente es más fina que la inducida por el estadı́stico suficiente minimal. Ejemplo 17 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos. Hemos visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente e e para (µ, σ 2 ). Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) = e X es estadı́stico suficiente para µ. Pero también es cierto que (T1 ( X ), T2 ( X )) = e e (X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducción e 2.1. PRINCIPIO DE SUFICIENCIA 33 de los datos que (T1 ( X ), T2 ( X )). Podemos escribir T1 ( X ) como función de e e e (T1 ( X ), T2 ( X )): T1 ( X ) = τ (T1 ( X ), T2 ( X )) donde τ (a, b) = a. e e e e e Dado que tanto T1 ( X ) como (T1 ( X ), T2 ( X )) son suficientes para µ, ame e e bos contienen la misma información sobre µ. Por lo tanto, la varianza muestral S 2 = T2 ( X ) no aporta ninguna información sobre la media µ cuando σ 2 es e conocida. . . El siguiente teorema proporciona un método para encontrar el estadı́stico suficiente minimal. Teorema 11 Sea f ( x |θ) la función de verosimilitud conjunta de X (disX e e e creta o continua). Supongamos que existe una función T ( x ) tal que para cuale quier par de elementos del espacio muestral x , y , el cociente e e f ( x |θ) X e e f ( y |θ) X e e es constante como función de θ, si y sólo si T ( x ) = T ( y ). Entonces T ( x ) es e e e estadı́stico suficiente minimal para θ. Demostración: Casella-Berger, p. 255 2 Ejemplo 18 Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros dese conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las e e y varianzas muestrales. Recordando la factorización correspondientes medias de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que e n o © n ª f ( x |θ) 2 2 (2πσ 2 )−n/2 exp − (n−1) X e 2σ 2 Sx exp − 2σ 2 (x − µ) o n e = © ª = 2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2 f ( y |θ) (2πσ 2 2 y 2σ 2σ X e e ½ ¾ ¢ 1 ¡ 2 2 2 2 exp = −n(x − µ) + n(y − µ) − (n − 1)(S − S ) x y 2σ 2 ½ ¾ ¢ 1 ¡ 2 2 2 2 exp −n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy ) 2σ 2 Esta expresión es constante como función de (µ, σ 2 ) si y sólo si −n(x2 − y 2 ) + 2nµ(x − y) − (n − 1)(Sx2 − Sy2 ) = 0, 34 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS y recordando que Sx2 = Pn i=1 2nµ(x − y) − x2i − nx2 eso ocurrirá si y sólo si n X i=1 x2i + n X yi2 = 0, para todo µ, i=1 pero un polinomio de grado 1 en µ (el lado izquierdo de la igualdad anterior) es igual a 0 para todo µ si y sólo si sus dos coeficientes son nulos, es decir, si y sólo si n n X X x=y y x2i = yi2 , i=1 i=1 lo que equivale a decir, que x = y y Sx2 = Sy2 . Concluimos pues que (X, S 2 ) es estadı́stico minimal suficiente para (µ, σ 2 ) cuando muestreamos de una normal. . . Ejemplo 19 Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası́, n Y f ( x |θ) = I[θ,θ+1] (xi ) = I[máxi xi −1,mı́ni xi ] (θ). e i=1 Por el teorema de factorización, (T1 ( X ), T2 ( X )) = (mı́ni Xi , máxi Xi ) es un e e estadı́stico suficiente para θ. Para dos muestras x e y, el numerador y el denominador de f ( x |θ)/f (y|θ) e e serán positivos para los mismo valores de θ si y sólo si mı́ni xi = mı́ni yi y máxi xi = máxi yi . En ese caso además el cociente valdrá 1, independientemente del valor de θ. Ası́ que el cociente no dependerá de θ si y sólo si mı́ni xi = mı́ni yi y máxi xi = máxi yi , luego (mı́ni Xi , máxi Xi ) es un estadı́stico suficiente minimal. . . Obsérvese que el estadı́stico minimal no es único: cualquier transformación biyectiva suya también es estadı́stico minimal suficiente. Se puede probar que siempre existen estadı́sticos suficientes minimales. Ver, por ejemplo, el problema 15 del capı́tulo 2 de Schervish (1995), o el teorema 7.2.7, p. 189, de Cristóbal (1992). 2.1. PRINCIPIO DE SUFICIENCIA 2.1.3. 35 Estadı́sticos ancilares Se define un estadı́stico ancilar como aquel cuya distribución no depende del parámetro θ. Los estadı́sticos ancilares son los que resumen la parte de información de la muestra que no recogen los estadı́sticos minimales suficientes. A primera vista, parece que no deben aportar información relevante en la estimación del parámetro de interés θ. Sin embargo, hay ocasiones en que en combinación con otros estadı́sticos sı́ son útiles en la estimación de θ (ver Casella-Berger, ejemplo 6.1.11). Ejemplo 20 Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+ e 1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la muestra. El estadı́stico Rango, definido como R = X(n) − X(1) , sigue una distribución Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estadı́stico ancilar. Esta propiedad se puede generalizar al rango de cualquier familia de localización: Sean X observaciones i.i.d. de una familia de localización con función de distrie bución F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la muestra. Entonces la distribución del rango, definido como R = X(n) −X(1) , no depende de θ por lo que es un estadı́stico ancilar. . . Ejemplo 21 Sean X1 y X2 observaciones independientes de una distribución discreta tal que: Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) = 1 3 donde θ, el parámetro desconocido, es un entero cualquiera. Sean X(1) ≤ X(2) los estadı́sticos de orden de la muestra. Puede demostrarse que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estadı́stico minimal suficiente. Dado que es una familia de localización R es ancilar. Sea un punto muestral (r, m), con m entero. Si consideramos sólo m, para que el punto tenga probabilidad positiva es preciso que θ tome uno de tres valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3 valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1. El saber el valor del estadı́stico ancilar ha aumentado nuestro conocimiento sobre θ, a pesar de que sólo con el valor de R no habrı́amos tenido ninguna 36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS información sobre θ. . 2.1.4. . Estadı́sticos completos Sea fT (t|θ) la función de densidad (o de masa de probabilidad) de un estadı́stico T . Diremos que la familia de distribuciones {fT (t|θ) : θ ∈ Θ} es completa si se da la implicación siguiente: Eθ (g(T )) = 0 para todo θ =⇒ Pθ (g(T ) = 0) = 1 para todo θ. En ese caso diremos que T es un estadı́stico completo. Ejemplo 22 La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p), 0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces, µ ¶ ¶t µ ¶µ n X n t n p n−t n 0 = E(g(T )) = g(t) p (1 − p) = (1 − p) . g(t) t 1−p t t=0 t=0 n X Tenemos entonces que un polinomio de grado n en (p/(1 − p)) ∈ (0, ∞) es idénticamente cero. Esto sólo es posible si todos sus coeficientes son nulos: µ ¶ n g(t) = 0, para todo t ∈ 0, 1, . . . , n t de donde se deduce que g(t) = 0 para todo t ∈ 0, 1, . . . , n, luego Pp (g(T ) = 0) = 1, para todo p, y la familia de distribuciones de T es completa. . . La definición de completitud refuerza la de suficiencia en el sentido de que si un estadı́stico es suficiente y completo entonces, por una parte, es suficiente minimal (el recı́proco no es cierto) y, por otra, ese estadı́stico es independiente de cualquier estadı́stico ancilar. Es decir, en el caso de que exista un estadı́stico suficiente y completo sı́ es cierta la idea intuitiva de que los estadı́stico ancilares no pueden aportar nada relevante a la estimación del parámetro. Esto no ocurre si sólo se tienen estadı́sticos suficientes y minimales. Los siguientes resultados reflejan formalmente estas ideas. Teorema 12 Si T es un estadı́stico suficiente y completo para θ, entonces T es suficiente minimal. 2.1. PRINCIPIO DE SUFICIENCIA 37 Demostración: (Extraı́da de Cristóbal 1992, p. 200.) Sea S un estadı́stico suficiente para θ. Entonces, por la ley de la esperanza iterada, Eθ (T − E(T /S)) = Eθ (T ) − Eθ (T ) = 0, para todo θ ∈ Θ. Por ser T completo, se tiene que Pθ (T − E(T /S) = 0) = 1 =⇒ T = E(T /S) casi seguro, luego T es función de cualquier estadı́stico suficiente S y, por tanto, es minimal. 2 El recı́proco no es cierto, como pone de manifiesto el siguiente ejemplo (Cristóbal 1992, p. 200). Ejemplo 23 2 Sean X ∼ N (µ, σX ) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del 2 teorema 11 se sigue que el estadı́stico (X, Y , SX , SY2 ) es suficiente minimal para + + 2 2 θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque Eθ (X − Y ) = 0 para todo θ y sin embargo Pθ (X = Y ) = 0, para cualquier θ. . . Teorema 13 (Basu) Si T es un estadı́stico suficiente y completo, y S es un estadı́stico ancilar, entonces T y S son independientes. Demostración: Ver Casella-Berger, p. 262, o Cristóbal (1992), p. 201. 2 Acabaremos esta sección dando un resultado que permite encontrar estadı́sticos suficientes y completos para las distribuciones que pertenecen a la familia exponencial, bajo condiciones bastante generales. Teorema 14 Sea X variable aleatoria cuya distribución pertenece a la familia exponencial y viene dada por la función de densidad (o de masa, según el caso) k X f (x|θ) = h(x)c(θ) exp θj tj (x) , θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk , j=1 parametrizada de forma natural. Si el espacio paramétrico natural Θ contiene un abierto no vacı́o de IRk , entonces el estadı́stico n X T ( X ) = (T1 ( X ), . . . , Tk ( X )), donde Tj ( X ) = tj (Xi ), e e e e i=1 es estadı́stico suficiente completo (y por lo tanto, minimal). 38 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Demostración: La prueba de este resultado requiere técnicas de funciones analı́ticas complejas. Ver, por ejemplo, la demostración del teorema 2.74 de Schervish 1995, o las de los teoremas 3.9 de Garcı́a-Nogales 1998 o 7.3.7 de Cristóbal 1992. 2 2.2. Principio de verosimilitud Sea una muestra aleatoria simple X = (X1 , . . . , Xn ) de una variable aleae toria X y supongamos que se ha observado x . Llamamos función de veroe similitud de la muestra a la función de densidad conjunta o a la función de masa de probabilidad conjunta, según sea X continua o discreta, entendida ésta como función del parámetro: −→ IR+ −→ L(θ| x ) = f ( x |θ) e e La función de verosimilitud ası́ definida puede entenderse como un estadı́stico, es decir, como una función L de la muestra que no depende del parámetro: a cada posible muestra observada x , la función de verosimilitud le asocia un e elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente L(·| x ), la función de verosimilitud de esa muestra: e L(·| x ) : e Θ θ L: X x e −→ (IR+ )Θ −→ L(·| x ) e Ası́, L( X ) es una función aleatoria de Θ en IR. Por lo tanto, la función de veroe similitud es una forma más de resumir la información que la muestra contiene acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X e (de dimensión n) a L( X ) (de dimensión igual al cardinal de Θ, normalmente e infinito) no siempre se puede entender como un resumen de la información. En esta sección se desarrollan argumentos que prueban lo siguiente: si se acepta el principio de suficiencia, entonces la inferencia se debe basar en la función de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro se debe basar única y exclusivamente en la función de verosimilitud) se expresa formalmente en el principio de verosimilitud, que especifica cómo debe usarse la verosimilitud en la reducción de la información muestral. Principio de verosimilitud: Si x e y son dos puntos muestrales tales que e e L(θ| x ) = C( x , y )L(θ| y ), para todo θ, e e e e donde C( x , y ) es una función que puede depender de x e y pero no de θ, e e e e entonces la inferencia que se haga sobre θ será la misma tanto si se observa x e como si se observa y . e 2.2. PRINCIPIO DE VEROSIMILITUD 39 Obsérvese que la verosimilitud de una muestra x en el caso discreto es la e colección de las probabilidades de haber observado x bajo los diferentes valores e de θ. Ası́, el cociente de dos valores de la verosimilitud L(θ1 | x ) e L(θ2 | x ) e indica cuantas veces más probable es observar x bajo θ1 que bajo θ2 . En el e caso continuo esto es aproximadamente válido, si hablamos de la probabilidad de observar valores en un entorno de x en lugar de la probabilidad de observar e x: e Pθ1 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ1 ) f ( x |θ1 ) e e e e e ≈ = . Pθ2 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ2 ) f ( x |θ2 ) e e e e e Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho más e e plausible (mucho más verosimil) que θ2 . Ası́, la verosimilitud indica cómo de plausible es un valor del parámetro θ1 en términos relativos (comparada esa plausibilidad con la de otro valor de θ2 ). En este sentido el enunciado del principio de verosimilitud es esencialmente equivalente a decir que la inferencia sobre el parámetro se debe basar única y exclusivamente en la función de verosimilitud: si dos valores muestrales dan lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales), los cocientes de verosimilitudes serán iguales si se observa una u otra, L(θ1 | x ) C( x , y )L(θ1 | y ) L(θ1 | y ) e = e e e = e , L(θ2 | x ) C( x , y )L(θ2 | y ) L(θ2 | y ) e e e e e y por lo tanto, los valores de θ más verosı́miles serán los mismos si se observa x o y . Como consecuencia, x e y deben dar lugar a las mismas inferencias e e e como afirma el principio sobre θ, dee verosimilitud. El siguiente teorema afirma que el principio de suficiencia y el de verosimilitud son equivalentes. Teorema 15 El principio de suficiencia y el principio de verosimilitud son equivalentes. Demostración: Suficiencia =⇒ Verosimilitud. Veamos que la función de verosimilitud, vista como estadı́stico L( X ), es un e estadı́stico suficiente. En efecto, f ( x |θ) = g(L( x )|θ)h( x ), e e e donde h( x ) = 1 y la función g(L( x )|θ) es la que devuelve el valor de L( x ) e e e en el punto θ. Por el teorema de factorización L( X ) es estadı́stico suficiente. e Por el principio de suficiencia, cualquier inferencia sobre θ ha de depender de 40 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS la muestra X = (X1 , . . . , Xn ) sólo a través del valor L( X ), lo cuál implica el e e principio de verosimilitud. Verosimilitud =⇒ Suficiencia. Consideremos un estadı́stico suficiente T ( X ) y dos valores muestrales x e y e e e tales que T ( x ) = T ( y ). Veamos que la inferencia sobre θ que se derive de x e e e e y ha de ser la misma (esta es otra forma de leer el principio de suficiencia). Ene efecto, se tiene que L( x |θ) = g(T ( x )|θ)h( x ) = g(T ( y )|θ)h( x ) = e e e e e h( x ) g(T ( y )|θ)h( y ) e = C( x , y )L( y |θ) e e e e h( y ) e e de donde se deduce por aplicación del principio de verosimilitud que la inferencia que se haga sobre θ será la misma tanto si se observa x como si se observa y . e e 2 En Casella-Berger, sección 6.2, puede encontrarse un desarrollo más detallado sobre las implicaciones que existen entre estos y otros principios de reducción de los datos. Las conclusiones a las que allı́ se llega implican que el principio de verosimilitud es cierto también para inferencias hechas sobre un mismo parámetro a partir de experimentos distintos: si se observan resultados tales que las correspondientes verosimilitudes son proporcionales, la inferencia será la misma. 2.3. LISTA DE PROBLEMAS 2.3. 41 Lista de problemas Suficiencia 1. (Casella-Berger, 6.1) Sea X una observación de una N (0, σ 2 ). ¿Es |X| un estadı́stico suficiente? 2. (Casella-Berger, 6.3) Sea X ∼ (1/σ)f ((x − µ)/σ), donde f (t) es la densidad de una exp(1). Sea X1 , . . . , Xn una m.a.s. de X. Da un estadı́stico bidimensional suficiente para (µ, σ). 3. (Casella-Berger, 6.5) Sean X1 , . . . , Xn variables aleatorias independendientes con densidades fi (x) = 1 I(−i(θ−1),i(θ+1)) (x), i = 1, . . . , n, 2iθ donde θ > 0. a) Encontrar un estadı́stico suficiente para θ de dimensión 2. b) Dar un estadı́stico suficiente para θ de dimensión 1. 4. (Casella-Berger, 6.6) Sea X1 , . . . , Xn una m.a.s. de una γ(α, β). Da un estadı́stico bidimensional suficiente para (α, β). 5. (Casella-Berger, 6.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X con función de densidad o de probabilidad f (x; θ). Prueba que los estadı́sticos de orden X(1) , . . . , X(n) son suficientes para θ. 6. (Casella-Berger, 6.9) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Encontrar estadı́sticos minimales suficientes para el parámetro de localización θ (−∞ < θ < ∞) en los siguientes casos. a) Exponencial: f (x; θ) = e−(x−θ) , x > θ. b) Logı́stica: f (x; θ) = e−(x−θ) /(1 + e−(x−θ) )2 . c) Cauchy: f (x; θ) = 1/(π(1 + (x − θ)2 )). d ) Doble exponencial (o Laplace): f (x; θ) = (1/2)e−|x−θ| . 7. (Examen parcial 2001) Se considera el siguiente modelo de regresión: Yi = α + βxi + εi , i = 1, . . . , n, donde x1 , . . . , xn son cantidades conocidas y ε1 , . . . , εn son v.a.i.i.d. según una N (0, σ 2 ). a) ¿Qué distribución tiene Yi ? Escribe su función de densidad fYi (y). b) Escribe la función de verosimilitud L(y1 , . . . , yn ; α, β, σ 2 ). c) Da un estadı́stico tridimensional suficiente para (α, β, σ 2 ). 42 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS d ) Prueba que la distribución conjunta de (Y1 , . . . , Yn ) pertenece a la familia exponencial. Completitud 8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejemplo 19 se establece que el estadı́stico T ( X ) = (X(1) , X(n) ) es estadı́stico e minimal suficiente para θ. Prueba ahora que no es completo. 9. (Casella-Berger, 6.15) Sea X1 , . . . , Xn una m.a.s. de una N (θ, aθ2 ), donde a > 0 es una constante conocida. Probar que T = (X, S 2 ) es estadı́stico suficiente para θ pero no es completo. 10. (Casella-Berger, 6.16) Sean X1 , . . . , Xn v.a.i.i.d. con distribución geométrica: Pθ (X = x) = θ(1 − θ)x−1 , x = 1, 2, . . . , 0 < θ < 1. Pn a) Probar que T = i=1 Xi es suficiente para θ y encontrar la distribución de T . b) Prueba que T es completo sin usar el resultado general para familias exponenciales. 11. (Examen junio 2000; Casella-Berger, 6.17, 6.23) Sean X1 , . . . , Xn v.a.i.i.d. según una ley Poisson(λ), λ ≥ 0. Pn a) Probar que el estadı́stico T = i=1 Xi es suficiente pera λ. b) Sin hacer uso del resultado general sobre completitud en familias exPn ponenciales, probar que la familia de distribuciones de T = i=1 Xi es completa. c) Consideremos la siguiente familia de distribuciones: P = {Pλ (X = x) : Pλ (X = x) = λx e−λ /x!; x = 0, 1, 2, . . . ; λ = 0 o λ = 1} (Nota: 00 = 1, 0! = 1.) Esta familia es una familia de distribuciones de Poisson con λ restringido a ser 0 o 1. Probar que la familia P no es completa. d ) Indicar si la siguiente afirmación es cierta o falsa y decir por qué: Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈ Θ2 } es completa. 12. (Casella-Berger, 6.18) La variable aleatoria X toma los valores 0, 1 y 2 con probabilidades dadas por una de las siguientes distribuciones: Distribución 1 Distribución 2 P (X = 0) p p P (X = 1) 3p p2 P (X = 2) 1 − 4p 1 − p − p2 0 < p < 1/4 0 < p < 1/2 2.3. LISTA DE PROBLEMAS 43 En cada caso, determina si la familia de distribuciones de X es completa. 13. Considera las variables aleatorias descritas en el problema 14 de la lista 1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo? 14. Considera las variables aleatorias descritas en el problema 15 de la lista 1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo? 15. Considera las variables aleatorias descritas en el problema 16 de la lista 1.6. Encuentra el estadı́stico minimal suficiente para θ. ¿Es completo? 44 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS Capı́tulo 3 Estimación puntual 1: Construcción de estimadores Referencias: Casella-Berger, secciones 7.1 y 7.2, referencia general. DeGroot (1988), secciones de la 6.1 a la 6.4., para inferencia bayesiana. Garthwaite, Jollife y Jones (1995), sección 3.4, presenta métodos de estimadoción no incluidos aquı́. 3.1. La función de distribución empı́rica y el método de los momentos Sea la variable aleatoria X con función de distribución F . Consideramos una muestra aleatoria simple de tamaño n de X, es decir, X1 , . . . , Xn v.a.i.i.d. con distribución dada por F . Sea x1 , . . . , xn una realización de esa m.a.s. Se llama función de distribución empı́rica a la función n Fn (x) = 1 1X #{xi ≤ x : i = 1 . . . n} = I(−∞,x] (xi ), n n i=1 que a cada número real x le asigna la proporción de valores observados que son menores o iguales que x. Es inmediato comprobar que la función Fn ası́ definida es una función de distribución: 1. Fn (x) ∈ [0, 1] para todo x ∈ IR. 2. Fn es continua por la derecha. 45 46CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES 3. Fn es no decreciente. 4. lı́mx−→−∞ Fn (x) = 0. 5. lı́mx−→∞ Fn (x) = 1. Concretamente, Fn es la función de distribución de una variable aleatoria discreta (que podemos llamar Xe ) que pone masa 1/n en cada uno de los n puntos xi observados: xi pi = P(Xe = xi ) x1 1/n x2 1/n ··· ··· xn 1/n A la distribución de Xe se le llama distribución empı́rica asociada al conjunto de valores {x1 , . . . , xn }. Obsérvese que si fijamos el valor de x y dejamos variar la muestra, lo que obtenemos es una variable aleatoria. En efecto, se tiene entonces que n Fn (x) = 1X I(−∞,x] (Xi ), n i=1 donde ½ I(−∞,x] (Xi ) = 1, 0, si Xi ≤ x si Xi > x y, por lo tanto, cada término I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli con probabilidad de éxito p = P(I(−∞,x] (Xi ) = 1) = P(Xi ≤ x) = F (x). De ahı́ se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribución binomial con parámetros n y p = F (x). De lo anterior se sigue que la función de distribución empı́rica es un proceso estocástico: si consideramos un espacio probabilı́stico (Ω, A, P ) donde están definidas las sucesiones de variables aleatorias {Xn }n≥1 a partir de las cuales definiremos la función de distribución empı́rica, tenemos que Fn : (Ω, A, P ) × (IR, B) −→ [0, 1] (ω, x) −→ Fn (x)(ω) = 1 n Pn i=1 I(−∞,x] (Xi (ω)) Fijado x, Fn (x)(·) : (Ω, A, P ) −→ [0, 1] es una variable aleatoria. Fijado ω, Fn (·)(ω) : IR −→ [0, 1] es una función de distribución (en la notación usual se omite la dependencia de ω ∈ Ω). Por lo tanto, la función de distribución empı́rica es una fucnión de distribución aleatoria. 3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS47 3.1.1. Teorema de Glivenko-Cantelli El siguiente teorema recoge algunas de las propiedades de la función de distribución empı́rica. Teorema 16 Sea {Xn }n≥1 , sucesión de variables aleatorias independientes e idénticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con función de distribución común F . Se denota por Fn la función de distribución empı́rica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Sea x ∈ IR. Se verifica lo siguiente: (a) P(Fn (x) = j n) = ¡n¢ j n−j , j = 0, . . . , n. j F (x) (1 − F (x)) (b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)). (c) Fn (x) −→ F (x) casi seguro. (d) √ n(F (x) − F (x)) p n −→D Z, F (x)(1 − F (x)) donde Z es una variable aleatoria con distribución normal estándar y la convergencia es convergencia en distribución. Demostración: Los apartados (a) y (b) son consecuencia inmediata del hecho de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ), se tiene que Fn (x) = Ȳn , la media aritmética de las variables aleatorias Y1 , . . . , Yn . Ası́, el apartado (c) es una aplicación inmediata de la ley fuerte de los grandes números y el apartado (d) es consecuencia del teorema central de lı́mite. 2 El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que la convergencia de Fn (x) a F (x) se da uniformemente. Teorema 17 (Teorema de Glivenko-Cantelli) Sea {Xn }n≥1 una sucesión de variables aleatorias independientes e idénticamente distribuidas definidas en el espacio de probabilidad (Ω, A, P ) con función de distribución común F . Se denota por Fn la función de distribución empı́rica obtenida de las n primeras variables aleatorias X1 , . . . , Xn . Entonces, sup |Fn (x) − F (x)| −→ 0 casi seguro. x∈IR Demostración: Presentamos aquı́ la demostración que hacen Vélez y Garcı́a (1993), p. 36. (otras demostraciones pueden encontrarse en Garcı́a-Nogales 1998, p. 88, y en Cristóbal 1992, p. 66). En el teorema 16 se probó que, por la ley fuerte de los grandes números, Fn (x) −→ F (x) casi seguro, es decir, para cada x ∈ IR existe Ax ∈ A tal que P(Ax ) = 1 y lı́mn Fn (x)(ω) = F (x) si ω ∈ Ax . Se ha denotado por Fn (x)(ω) a la función de distribución empı́rica obtenida 48CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES al observar X1 (ω), . . . , Xn (ω), siendo ω un elemento del espacio Ω. De la ley fuerte de los grandes números también se sigue (tomando ahora I(−∞,x) en vez de I(−∞,x] ) que para cada x ∈ IR, existe Bx ∈ A tal que P(Bx ) = 1 y lı́mn Fn (x− )(ω) = F (x− ) si ω ∈ Bx , donde g(x− ) denota el lı́mite por la izquierda de una función g en x. Para cada número natural k, y cada j = 1, . . . , k, se consideran los puntos ¾ ½ j xjk = mı́n x ∈ IR : F (x− ) ≤ ≤ F (x) k y los sucesos de A siguientes: Ajk = Axjk = {w ∈ Ω : Fn (xjk ) −→ F (xjk )} − Bjk = Bxjk = {w ∈ Ω : Fn (x− jk ) −→ F (xjk )} Dk = k \ (Ajk ∩ Bjk ), D = j=1 ∞ \ Dk . k=1 Dk es el suceso definido por la condición de que la función de distribución empı́rica converja a la teórica para todos los puntos xjk (y también para los lı́mites por la izquierda), para un k fijo. D es el suceso en que esto ocurre simultáneamente para todo k. Según la ley fuerte de los grandes números, P(Ajk ) = P(Bjk ) = 1 para todo j y todo k, luego P(Dk ) = 1 para todo k y, por tanto, P(D) = 1. Obsérvese que si x ∈ [xjk , x(j+1)k ), por ser F y Fn funciones de distribución se tiene que − F (xjk ) ≤ F (x) ≤ F (x− (j+1)k ), y Fn (xjk ) ≤ Fn (x) ≤ Fn (x(j+1)k ). Como además F (x− (j+1)k ) − F (xjk ) ≤ 1/k, − − Fn (x) − F (x) ≤ Fn (x− (j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) + y Fn (x) − F (x) ≥ Fn (xjk ) − F (x− (j+1)k ) ≥ Fn (xjk ) − F (xjk ) − 1 k 1 k (k) con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y − |Fn (x− jk ) − F (xjk )| (para n y k fijos), se tiene que Fn (x) − F (x) ≤ δn(k) + 1 1 y Fn (x) − F (x) ≥ −δn(k) − k k Ası́, para cualquier k ∈ IN, 1 sup |Fn (x) − F (x)| ≤ δn(k) + . k x∈IR Obsérvese que si se verifica el suceso D, para cualquier k ∈ IN y cualquier ε > 0, (k) se tiene que δn < ε a partir de un cierto n, de forma que 1 sup |Fn (x) − F (x)| < ε + k x∈IR 3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS49 a partir de cierto n. Por lo tanto, sup |Fn (x) − F (x)| −→n 0 x∈IR siempre que se verifique D. Como P(D) = 1, se sigue que sup |Fn (x) − F (x)| −→n 0 casi seguro. x∈IR 2 Obsérvese que según el apartado (c) del teorema 16, las distribuciones empı́ricas asociadas a muestras de tamaño n convergen débilmente a la distribución de probabilidad teórica identificada por F , para casi todas las muestras de tamaño infinito que se extraigan de F . Ésta es una de las consecuencias más importantes del citado teorema: la distribución empı́rica converge débilmente con probabilidad 1 a la poblacional cuando el tamaño de la muestra tiende a infinito: Fn −→D F, casi seguro. Esto garantiza la posibilidad de realizar inferencia estadı́stica: los aspectos probabilı́sticos de una caracterı́stica X, medida en una población, se resumen de forma estilizada en una distribución de probabilidad F , la cual puede ser aproximada mediante las distribuciones empı́ricas Fn obtenidas por muestreo de la población en estudio. El teorema de Glivenko-Cantelli afirma que esas aproximaciones son uniformes en x. Por esta razón el teorema de Glivenko-Cantelli se llama a veces Teorema Fundamental de la Estadı́stica Matemática: da una fundamentación de la inferencia estadı́stica, cuyo objetivo principal consiste en extraer información sobre F a partir de las observaciones muestrales. Ejemplo 24 En la figura siguiente se muestra la función de distribución de una variable aleatoria N (0, 1) y la función de distribución empı́rica de dos muestras de esa variable aleatoria una de tamaño n = 10 (la más alejada de la teórica) y la otra de tamaño n = 100. Se aprecia que cuando n crece la proximidad entre la función de distribución empı́rica y la teórica es cada vez mayor. 50CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES F.d. de la N(0,1) y f.d.e. de dos muestras suyas con n=10 y n=100 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −3 −2 −1 0 . 3.1.2. 1 2 . Principio de sustitución En esta sección presentamos una consecuencia importante de la convergencia de Fn a F , la definición de estimadores mediante el principio de sustitución. La convergencia de Fn a F permite construir versiones factibles de caracterı́sticas poblacionales desconocidas. Supongamos que estudiamos una caracterı́stica X en una población y que el resultado de la observación de X puede ser modelizado como una variable aleatoria con distribución desconocida, digamos F . Muchas de las preguntas relevantes acerca de la caracterı́stica X podrı́an ser contestadas si su función de distribución F fuese conocida (por ejemplo el valor esperado, el número de modas de la distribución o la probabilidad de que X sea negativa). Para fijar ideas podemos pensar que nos interesa conocer cantidades numéricas (parámetros) que dependen únicamente de la función de distribución desconocida F : θ = ψ(F ). 3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS51 El teorema de Glivenko-Cantelli nos dice que Fn se acerca a F , a medida que el tamaño muestral crece. Ası́, podemos esperar que también se verifique que θ̂n = ψ(Fn ) −→ θ = ψ(F ), es decir, esperamos que las cantidades numéricas calculadas para la distribución empı́rica (estimadores) se aproximen a las cantidades desconocidas a medida que el tamaño muestral crezca. Se puede probar que este resultado es cierto bajo hipótesis de regularidad bastante generales de las funciones ψ que asignan números a funciones de distribución. Esta forma de obtener estimadores de parámetros poblacionales desconocidos se denomina principio de sustitución (plug-in principle en inglés). Es un procedimiento muy general de obtención de estimadores. Ejemplo 25 Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tamaño n para estimar θ. Un estimador razonable de θ es el máximo de las observaciones, que es estadı́stico minimal suficiente para θ: θ̂2 = máx Xi . i Éste es un estimador de θ basado en el principio de sustitución. En efecto, θ = sup{x ∈ IR : F (x) < 1}, y θ̂2 = máx Xi = sup{x ∈ IR : Fn (x) < 1}. i . 3.1.3. . El método de los momentos Una aplicación del principio de sustitución es la definición de los estimadores basados en momentos. El momento no centrado de orden k de una variable aleatoria X con distribución F se define como Z k µk = EF (X ) = xk dF (x). Si Xe es una variable aleatoria con función de distribución igual a Fn , la función de distribución empı́rica de una m.a.s. de tamaño n de X, se tiene que sus momentos no centrados (a los que llamaremos mk,n ) son de la forma Z mk,n = EFn (Xek ) = n xk dFn (x) = 1X k X , n i=1 i 52CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES y se denominan momentos muestrales no centrados de orden k. Por ejemplo, µ1 es la esperanza poblacional y m1,n la media muestral. La siguiente proposición garantiza que los momentos muestrales convergen a los poblacionales. Proposición 2 Sea X variable aleatoria con E(X 2k ) < ∞. Entonces se verifica que mk,n −→ µk casi seguro. Además, √ n(mk,n − µk ) p −→D Z, µ2k − µ2k con Z ∼ N (0, 1). Se tiene además la convergencia de la distribución conjunta de los k primeros momentos muestrales: ¤ √ £ n (m1,n , . . . , mk,n )t − (µ1 , . . . , µk )t −→D Nk ( 0 , Σ), e donde Σ es una matriz (k × k) con elemento (i, j) genérico σij = µi+j − µi µj . Demostración: La demostración es inmediata. Se basa en la aplicación de la ley fuerte de los grandes números y el teorema central del lı́mite, dado que si definimos Yi = Xik entonces mk,n = Ȳn . La última parte se sigue del teorema central del lı́mite multivariante. 2 Muchas caracterı́sticas poblacionales de interés se pueden expresar como función de los momentos no centrados de órdenes 1, . . . , k: θ = h(µ1 , . . . , µk ). Por ejemplo, la varianza de X se expresa como σ 2 = h(µ1 , µ2 ) = µ2 − µ21 . El estimador de θ basado en el principio de sustitución se conoce como estimador de los momentos de θ y será θ̂n = h(m1,n , . . . , mk,n ). Obsérvese que el estimador de los momentos de θ puede no ser único, porque diferentes funciones h pueden conducir al mismo valor θ. La siguiente proposición establece el comportamiento asintótico del estimador de los momentos de θ. Proposición 3 Consideremos la variable aleatoria X con E(X 2k ) < ∞. Sea θ = h(µ1 , . . . , µk ). Si h es continua en (µ1 , . . . , µk ), entonces θ̂n = h(m1,n , . . . , mk,n ) converge a θ casi seguro. Además, si h es derivable en (µ1 , . . . , µk ), entonces la distribución lı́mite de θ̂n es normal: √ 2 n(θ̂n − θ) −→D N (0, σh,θ ). 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 53 Demostración: La demostración de la convergencia casi segura se sigue directamente de la de continuidad de h y de la convergencia casi segura de los momentos muestrales a los poblacionales. La demostración de la normalidad asintótica queda pospuesta hasta que se haya introducido en la sección 4.3 el método delta. 2 Ejemplo 25, página 51. Continuación. Se toma una m.a.s. de X de tamaño n de una U (0, θ) para estimar θ. El estimador de momentos θ̂M de θ viene dado por la sigiente relación: E(X) = θ̂M θ =⇒ m1,n = =⇒ θ̂M = 2m1,n = 2X. 2 2 . . Ejemplo 26 Otros esimadores basados en el método de los momentos son los siguientes: 1. Para una variable aleatoria X con varianza finita, Vd (X) = (n − 1)Sn2 /n. 2. Si X ∼ Exp(λ) con E(X) = 1/λ, entonces λ̂ = 1/X. 3. Si X ∼ B(n, p) entonces p̂ = X y Vd (X) = p̂(1 − p̂). 4. Si X ∼ Poisson(λ) entonces E(X) = λ. Por lo tanto λ̂1 = X es estimador de momentos. Además, λ = V (X) = µ2 − µ21 . Por tanto, λ̂2 = m2,n − m21,n = (n − 1)Sn2 n es también un estimador basado en momentos. Es preferible λ1 porque en su definición sólo interviene el momento de orden 1. . 3.2. . Estimadores de máxima verosimilitud Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de una variable aleae toria X con función de densidad (o de masa de probabilidad) f ( x |θ), con e θ = (θ1 , . . . , θk ) ∈ Θ ⊆ IRk . Sea X el espacio muestral, es decir, el conjunto 54CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES de todos los posibles valores de X . Hemos definido la función de verosimie litud para x = (x1 , . . . , xn ) ∈ X como e L(·| x ) : e Θ θ −→ IR+ Qn −→ L(θ| x ) = f ( x |θ) = i=1 f (xi |θ) e e Para cada muestra x ∈ X , el estimador de máxima verosimilitud θ̂ de θ e es el valor de Θ que hace máxima la verosimilitud L(·| x ): e L(θ̂| x ) = máx L(θ| x ). θ∈Θ e e Intuitivamente θ̂ es el valor del parámetro que hace más verosı́mil la muestra observada. Veremos más adelante que los estimadores de máxima verosimilitud son muy buenos estimadores y que en general tienen propiedades de optimalidad. Además, en muchas ocasiones el estimador máximo verosı́mil es el que el sentido común nos llevarı́a a proponer. Ejemplo 27 X ∼ exp(λ) =⇒ f (x|λ) = λe−λx I[0,∞) (x), λ > 0. Se toma una muestra de tamaño n = 1 y se observa x = 3. Estudiamos la función de verosimilitud L(λ|3) = λe−3λ y buscamos su máximo para λ > 0. Buscamos los valores de λ que anulan la derivada de L(λ|3): L0 (λ|3) = e−3λ (1 − 3λ); L0 (λ|3) = 0 =⇒ λ = 1 3 Como L(λ|3) ≥ 0 y lı́m L(λ|3) = lı́m L(λ|3) = 0 λ−→0 λ−→∞ se sigue que el punto crı́tico de L(λ|3) es un máximo. Ası́, λ̂ = . 1 . 3 . Ejemplo 28 Nos regalan una bolsa de lacasitos. Nos dicen que la proporción de caramelos de cada color es la misma pero no nos dicen de cuántos colores distintos pueden ser los caramelos. Se trata de estimar por máxima verosimilitud k, el número de colores, a partir de la observación de n caramelos. 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 55 Supongamos que escogemos 3 caramelos y observamos verde, blanco y verde. Anotamos x1 = V BV . Si k es el número de colores, la probabilidad de observar dos colores distintos en los tres caramelos es P(x1 |k) = L(k|x1 ) = P(el segundo diferente al primero)P(el tercero es como el primero) = k−1 k−11 = . k k k2 Esta función de k toma los valores siguientes, y tal como puede apreciarse es decreciente: k (k − 1)/k 2 2 1 = 0,25 4 3 2 = 0,2222 9 4 3 = 0,1875 16 ··· (decrece en k) Ası́, el estimador máximo verosı́mil de k es k̂(V BV ) = 2. Sacamos otro caramelo y vemos que es de color naranja. Anotamos x2 = V BV N . La verosimilitud de la muestra es ahora L(k|x2 ) = P(x2 |k) = k−11k−2 (k − 1)(k − 2) = k k k k3 cuyos primeros valores son los siguientes: k L(k|x2 ) 3 2 = ,0741 27 4 3 = ,0938 32 5 12 = ,096 125 6 5 = ,0926 54 7 30 = ,0875 343 Para k ≥ 6 la función L(k|x2 ) es decreciente en k. Por tanto el estimador máximo verosı́mil de k es k̂(V BV N ) = 5. Obsérvese que, pese a haber observado sólo cuatro caramelos y a haber visto únicamente tres colores distintos, el estimador máximo verosı́mil indica que hay dos colores que aún no hemos visto. . . El problema de hallar el estimador máximo verosı́mil es un problema de optimización. Por lo tanto, todas las técnicas analı́ticas y numéricas de optimización que conocemos pueden resultarnos útiles para estimar por máxima verosimilitud. También hay que tener la misma precaución con lo resultados obtenidos: hay que comprobar las condiciones de segundo orden para asegurarnos de que un punto crı́tico es efectivamente un máximo, puede haber más de un máximo 56CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES global, puede haber varios máximos locales, el óptimo puede estar en la frontera del espacio paramétrico, podemos tener una función objetivo (la verosimilitud) que sea prácticamente plana cerca del máximo y esto dificulta la búsqueda por métodos numéricos. Como norma general, si la dimensión del espacio paramétrico es 1 o 2, es conveniente hacer un gráfico de la función de verosimilitud frente a los diferentes valores de los parámetros. Esto puede ayudar a detectar algunos de los problemas que mencionamos antes. 3.2.1. Cálculo del estimador máximo verosı́mil Si la función de verosimilitud L( θ | x ) es derivable en θi , las soluciones de e e las ecuaciones de primer orden, ∂ L( θ |x) = 0, j = 1, . . . , k, ∂θj e son candidatas a ser el estimador máximo verosı́mil. Los ceros de las primeras derivadas no son necesariamente máximos de la función de verosimilitud: pueden ser máximos locales o globales, mı́nimos locales o globales o puntos de inflexión. Para asegurar que la solución encontrada es un máximo (local o global) hay que comprobar que las segundas derivadas sean definidas negativas. Por otra parte, este procedimientos sólo permite localizar extremos en el interior del espacio paramétrico Θ. Podrı́a ser que L(θ| x ) alcanzase su valor e máximo en la frontera de Θ. Ejemplo 29 X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR: Pn 2 1 L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ) e Calculamos la primera derivada de L respecto a µ: n X d L(µ| x ) = − (xi − µ)L(µ| x ); dµ e e i=1 luego n X d L(µ| x ) = 0 =⇒ (xi − µ) = 0 =⇒ µ̂ = x. dµ e i=1 Ası́ pues, µ̂ = x es un candidato a ser el estimador máximo verosı́mil. Tenemos que comprobar que es un máximo global de L(µ| x ). e En primer lugar, constatamos que x es el único punto crı́tico del interior del espacio paramétrico Θ = IR. En segundo lugar, calculamos la derivada segunda: "à ! # n X d2 2 −n + ( (xi − µ)) L(µ| x ) L(µ| x )|µ=x = = −nL(x| x ) < 0. dµ2 e e e i=1 µ=x 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 57 Ası́ pues, x es un máximo y es el único extremo del interior del espacio paramétrico. Por último, analizamos el comportamiento de L(µ| x ) en la frontera: en este e caso ±∞. Vemos que lı́m L(µ| x ) = 0. x−→±∞ e Concluimos entonces que µ̂ = x es el estimador máximo verosı́mil. La última comprobación (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesae ria, porque si en +∞ o −∞ hubiese un máximo, forzosamente tendrı́a que haber un mı́nimo relativo en el interior de Θ = IR (dado que x es máximo relativo) y eso no ocurre. . . En ocasiones es posible buscar el máximo de L(θ, x ) directamente, usando e propiedades especı́ficas de esa función de verosimilitud concreta. Esto puede ser útil si las ecuaciones obtenidas al igualar a cero las derivadas de L resultan complicadas. No hay una metodologı́a general que seguir y, por tanto, este procedimiento alternativo requiere más habilidad que el basado en el cálculo de derivadas. Por ejemplo, se puede probar que hay una cota superior de la verosimilitud y que ésta se alcanza en un valor del parámetro. Ello implica que ese valor es el estimador máximo verosı́mil. Ejemplo 29, página 56. Continuación. La verosimilitud es decreciente en Pn 2 el estimador máximo verosı́mil es equivalente a i=1 (xi − µ) , luego encontrar Pn encontrar el mı́nimo de i=1 (xi − µ)2 . Obsérvese que, por el Teorema 1, n X i=1 (xi − µ)2 = n X (xi − x)2 + (x − µ)2 ≥ i=1 Pn n X (xi − x)2 . i=1 2 Además, la cota inferior i=1 (xi −x) se alcanza si hacemos µ = x. Se concluye Pn que x es mı́nimo absoluto de i=1 (xi −µ)2 y, por tanto, es también el estimador máximo verosı́mil. . . Muy a menudo es más sencillo trabajar con el logaritmo de la verosimilitud que hacerlo con la propia función. Dado que el logaritmo es una función estrictamente creciente, los extremos de la función de verosimilitud se alcanzan en los mismos puntos (y tienen las mismas caracterı́sticas) en los que se alcancen los extremos de su logaritmo. Denotaremos por l (θ| x ) al logaritmo de la función de verosimilitud: e l (θ| x ) = log L(θ| x ). e e 58CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES Ejemplo 30 X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1]. e Pn Pn L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒ e n n X X l (p| x ) = ( xi ) log p + (n − xi ) log(1 − p) =⇒ e i=1 i=1 Pn Pn n − i=1 xi d i=1 xi l (p| x ) = − . dp p 1−p e Pn Distinguiremos tres casos, según sea el valor de i=1 xi . Si suponemos que Pn 0 < i=1 xi < n Pn n n X X xi d l (p| x ) = 0 =⇒ (1 − p)( xi ) = (n − xi )p =⇒ p̂ = i=1 = x ∈ (0, 1). dp n e i=1 i=1 Pn xi p̂ = i=1 = x es el único extremo en el interior de Θ, es decir, en (0, 1). Con n la segunda derivada comprobamos que se trata de un máximo: Pn · Pn ¸ n − i=1 xi d2 i=1 xi l (p| x )| = − − = p=p̂ dp2 p2 (1 − p)2 e p=p̂ − np̂ n(1 − p̂) 1 − = −n < 0. p̂2 (1 − p̂)2 p̂(1 − p̂) Concluimos que el único valor posible del estimador máximo verosı́mil en (0, 1) es p̂, donde la verosimilitud valdrı́a µ L(p̂| x ) = e p̂ 1 − p̂ ¶np̂ (1 − p̂)n > 0. Estudiamos el valor de L(p| x ) en la frontera, es decir, en p = 0 y p = 1: e L(0| x ) = L(1| x ) = 0 < L(p̂| x ). e e e Concluimos que p̂ es el estimador máximo verosı́mil de p, en el caso de que Pn 0 < i=1 xi < n. Pn En segundo lugar, si i=1 xi = 0, L(p| x ) = (1 − p)n , e función decreciente en p, luego el estimador máximo verosı́mil de p es 0 = x = p̂. Pn Por último, si i=1 xi = n, L(p| x ) = pn , e función creciente en p, luego el estimador máximo verosı́mil de p es 1 = x = p̂. 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 59 En resumen, el estimador máximo verosı́mil de p es Pn xi p̂ = i=1 . n . . Es importante asegurarse que el estimador máximo verosı́mil propuesto pertenece al espacio paramétrico. Ejemplo 31 X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0. Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador máximo verosı́mil de µ es µ̂ = x. Por lo tanto éste también será el estimador máximo verosı́mil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato probar que L(µ| x ) es función decreciente en µ si µ > x. Por lo tanto, en este e caso el estimador máximo verosı́mil de µ es 0. Resumiendo, el estimador máximo verosı́mil de µ cuando θ = [0, ∞) es ½ µ̂ = . 0 x si si x<0 x≥0 . Un caso en el que no es posible realizar la optimización mediante la igualación de las derivadas a cero es aquél en el que el espacio paramétrico Θ es discreto. En este caso aún es posible analizar el problema de forma sistemática. Si es posible considerar un espacio paramétrico ΘA más amplio en el que el parámetro varı́e de forma continua (por ejemplo, si Θ = IN, ΘA podrı́a ser IR+ o IR) y buscar el estimador máximo verosı́mil cuando θ ∈ ΘA , ese valor puede ayudarnos a restringir la lista de puntos de Θ que pueden ser estimador máximo verosı́mil de θ ∈ Θ. Ejemplo 32 X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IN. Como el estimador máximo verosı́mil de µ ∈ IR es x y L(µ| x ) es creciente en (−∞, x) y decreciente en (x, ∞), e se deduce que los únicos puntos que pueden ser estimador máximo verosı́mil de µ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR. . . 60CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES Cuando razonamientos de este tipo no son posibles pero el espacio paramétrico discreto Θ es IN (o en general, si está totalmente ordenado) es útil analizar los cocientes L(k + 1| x ) e L(k| x ) e y estudiar para qué valores de k éstos son menores o mayores que 1. El siguiente ejemplo responde a este modelo. Ejemplo 33 Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos 4 caras; ¿cuántas veces la hemos lanzado? En este caso se tiene X1 , . . . , Xn , una m.a.s. de X ∼ B(k, p), con p conocido y k desconocido. La verosimilitud es n µ ¶ n Y Y k xi k! L(k| x ) = p (1 − p)k−xi = pnx (1 − p)n(k−x) . x x !(k − xi )! e i i=1 i=1 i El hecho, por un lado, de que el parámetro k sea natural y, por otro, la presencia de k! y (k − xi )! en la función de verosimilitud, hace difı́cil la maximización de L. Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n) , es obvio que k ≥ x(n) porque los valores de xi oscilan entre 0 y k. Además, el estimador máximo verosı́mil es un número natural k que satisface L(k| x ) L(k + 1| x ) e e <1 ≥1y L(k − 1| x ) L(k| x ) e e Desarrollando, Qn k! (1 − p)nk i=1 (k−x L(k| x ) i )! e = Qn (k−1)! L(k − 1| x ) (1 − p)n(k−1) i=1 (k−1−x i )! e à n ! Y k (k(1 − p))n n = Qn = (1 − p) ≥ 1, k − xi i=1 (k − xi ) i=1 y L(k + 1| x ) ((k + 1)(1 − p))n e = Qn < 1. L(k| x ) i=1 (k + 1 − xi ) e Ası́, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a pedir (k(1 − p))n ≥ n Y (k − xi ) y ((k + 1)(1 − p))n < i=1 n Y i=1 (k + 1 − xi ). 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 61 Dividiendo por k n y (k + 1)n , son equivalentes a (1 − p)n ≥ n Y (1 − (xi /k)) y (1 − p)n < i=1 n Y (1 − (xi /(k + 1))) i=1 De hecho, queremos encontrar un valor z = 1/k tal que (1 − p)n = n Y (1 − zxi ) i=1 Qn con 0 ≤ z ≤ 1/x(n) , porque k ≥ x(n) . La función g(z) = i=1 (1 − zxi ) es decreciente en z, g(0) = 1, g(1/x(n) ) = 0. Por lo tanto la ecuación g(z) = (1 − p)n ∈ [0, 1], tiene solución única ẑ. Este valor ẑ no tiene por qué ser el inverso de un natural k, pero sı́ nos permite calcular el estimador máximo verosı́mil k̂ de k: k̂ = máx{k ∈ IN : k ≤ 1/ẑ}. Este análisis demuestra que el máximo de L(k| x ) es único. e Supongamos que p = 0,5, que n = 3 y que hemos observado x1 = 4, x2 = 2 y x3 = 3. Hay que resolver la ecuación 1 1 (1 − )3 = = 0,125 = g(z) = (1 − 4z)(1 − 3z)(1 − 2z) = 1 − 9z + 26z 2 − 24z 3 2 8 en z ∈ [0, 1/x(3) ] = [0, 1/4]. Calculamos algunos valores de g(z) con z = 1/k y k ≥ 4: k z = 1/k g(z) 4 0.25 0 5 0.2 0.048 6 0.1667 0.1111 7 0.1429 0.1749 8 0.125 0.2344 9 0.1111 0.2881 10 0.1 0.336 Obsérvese que g(1/6) < 0,125 < g(1/7). Por lo tanto, ẑ ∈ (1/7, 1/6) y k̂ = máx{k ∈ IN : k ≤ 1/ẑ} = 6. . . Si L(θ| x ) no puede maximizarse analı́ticamente pueden usarse técnicas nue méricas de optimización. Nos referiremos más adelante a algunas de estas técnicas. En estos casos es importante comprobar la estabilidad numérica del estimador máximo verosı́mil encontrado. Es decir, es importante saber si la solución cambia sólo ligeramente cuando alteramos ligeramente los datos o si, por el 62CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES contrario, cambios pequeños en los datos dan lugar a grandes cambios en las soluciones. Si éste es el caso, podemos deducir que quizás la función de verosimilitud sea prácticamente plana en una zona alrededor del máximo y estamos obteniendo puntos distintos de esa zona. También puede ocurrir que la función de verosimilitud tenga múltiples máximos locales y al perturbar los datos estemos pasando de uno a otro. Ejemplo 33, página 60. Continuación. En el ejemplo anterior supongamos que p también fuese desconocido. El estimador máximo verosı́mil (k̂, p̂) ∈ IN × [0, 1] puede encontrarse por optimización numérica. Supongamos que n = 5 y que se observa x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 27. Entonces el estimador máximo verosı́mil de k es k̂ = 99. Se vuelve a realizar el experimento y sólo cambia la última observación: x1 = 16, x2 = 18, x3 = 22, x4 = 25, x5 = 28. En este caso el máximo se encuentra en k̂ = 190. Estamos en un caso de un estimador k̂ muy inestable. (Véase Casella-Berger, p. 297.) . . Estimador máximo verosimil de un parámetro multidimensional La forma de proceder en este caso sigue las pautas expuestas anteriormente. Veamos un ejemplo en el que el parámetro θ es bidimensional. Ejemplo 34 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ = (µ, σ 2 ). Pn 2 1 L(µ, σ 2 | x ) = (2πσ 2 )−n/2 e− 2σ2 i=1 (xi −µ) =⇒ e n n n 1 X l (µ, σ 2 | x ) = − log 2π − log σ 2 − 2 (xi − µ)2 2 2 2σ i=1 e Pn ∂ 1 2 i=1 (xi − ∂µ l (µ, σ | x ) = σ 2 e2 1 ∂ n ∂(σ 2 ) l (µ, σ | x ) = − 2σ 2 + 2σ 4 e µ) = 0 Pn 2 i=1 (xi − µ) = 0 ) ½ =⇒ µ̂ = x Pn σ̂ 2 = n1 i=1 (xi − x)2 . Podemos probar que la solución θ̂ = (x, σ̂ 2 ) es máximo global de dos formas. Pn Pn En primer lugar, como para cualquier µ 6= x es i=1 (xi − µ)2 > i=1 (xi − x)2 , se tiene que l (x, σ 2 | x ) > l (µ, σ 2 | x ) para todo σ 2 . e e 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 63 Ahora sólo hay que probar que l (x, σ 2 | x ) alcanza su máximo como función unie variante de σ 2 en σ̂ 2 . De esta forma hemos reducido el problema bidimensional a uno unidimensional. En segundo lugar, podemos probar que (x, σ̂ 2 ) es máximo de l mediante el cálculo de las primeras y segundas derivadas parciales. Hay que comprobar que el punto anula las primeras derivadas y que la matriz hessiana es definida negativa, es decir, se ha de verificar lo siguiente: 1. ¯ ¯ ∂ ¯ l ((θ1 , θ2 )| x )¯ ∂θj e ¯ 2. = 0, j = 1, 2. θ1 =x,θ2 =σ̂ 2 ¯ ¯ ∂2 ¯ l ((θ , θ )| x ) ¯ 1 2 ∂θj2 e ¯ < 0, θ1 =x,θ2 =σ̂ 2 al menos para j = 1 o j = 2. 3. J (2) ¯ ¯ ¯ =¯ ¯ ∂2 l ((θ1 , θ2 )| x ) ∂θ12 e ∂2 l ((θ1 , θ2 )| x ) ∂θ1 ∂θ22 e ∂2 ∂θ1 ∂θ2 l ((θ1 , θ2 )| x ) e ∂2 l ((θ1 , θ2 )| x ) ∂θ22 e ¯ ¯ ¯ ¯ ¯ >0 θ1 =x,θ2 =σ̂ 2 El primer punto ya se comprobó anteriormente, pues (x, σ̂ 2 ) fueron encontrados precisamente como los valores que anulaban las primeras derivadas. Calculemos las segundas derivadas: ∂2 n l ((µ, σ 2 )| x ) = − 2 ∂µ2 σ e n ∂2 n 1 X 2 (xi − µ)2 l ((µ, σ )| x ) = − ∂(σ 2 )2 2σ 4 σ 6 i=1 e n ∂2 1 X l ((µ, σ 2 )| x ) = − 4 (xi − µ). ∂µ∂(σ) σ i=1 e Observad que cuando se particularizan estas derivadas segundas en θ̂ se obtiene lo siguiente: n ∂2 l ((µ, σ 2 )| x )|x,σ̂2 = − 2 < 0 ∂µ2 σ̂ e 1 n ∂2 n l ((µ, σ 2 )| x )|x,σ̂2 = − 6 nσ̂ 2 = − 4 < 0 ∂(σ 2 )2 2σ̂ 4 σ̂ 2σ̂ e ∂2 l ((µ, σ 2 )| x )|x,σ̂2 = 0 ∂µ∂(σ) e 64CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES Ası́, se verifica también el segundo punto de la lista anterior. Veamos el tercero, sobre el signo del determinante de la matriz hessiana: ¯ ¯ ¯ − n2 n2 0 ¯¯ > 0 para todo σ 2 J (2) = ¯¯ σ n ¯= − 2σ4 0 2σ 6 Se concluye que (x, σ̂ 2 ) es el máximo de la función de verosimilitud. Para ser estrictos, aún se deberı́a probar que (x, σ̂ 2 ) es el único punto crı́tico del interior del espacio paramétrico (esto es inmediato, porque es la única solución de las condiciones de primer orden) y que el máximo no se alcanza en la frontera (cuando µ = ±∞, σ 2 = 0 o σ 2 = ∞). Esto último obligarı́a a la existencia de otros puntos crı́ticos en el interior del espacio paramétrico, lo cual es absurdo. En general se intenta probar la condición de máximo sin recurrir al cálculo de las segundas derivadas. . . Estimador máximo verosimil con datos censurados El siguiente es un ejemplo de estimación máximo verosı́mil que se aparta del marco clásico de observaciones i.i.d. Ejemplo 35 Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el estimador máximo verosı́mil de λ es λ̂ = 1/x. Supongamos que no observamos todas las variables, sino sólo las m primeras, y que de las restantes (n − m) sólo sabemos que toman valores mayores que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido censurados. En este caso, la verosimilitud es m n Y Y L(λ| x ) = f (xi |λ) (1 − F (T |λ)) = e i=1 i=m+1 m Y i=1 λe−λxi n Y e−λT = λm e−λ Pm i=1 xi −λT (n−m) e i=,+1 m X l (λ| x ) = m log λ − λ xi − λT (n − m). e i=1 Derivando e igualando a 0: m d m X l (λ| x ) = − xi − T (n − m) = 0 =⇒ dλ λ e i=1 m . x + (n − m)T i=1 i λ̂ = Pm =⇒ 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 65 Comprobamos que es máximo: d2 m l (λ| x ) = − 2 < 0 para todo λ. 2 dλ λ e Concluimos que λ̂ es el estimador máximo verosı́mil de λ en el caso de datos censurados. La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la tasa de fallo, la cantidad de fallos por unidad de tiempo. Obsérvese que tanto en el caso usual sin censura como en el caso con censura el inverso del estimador máximo verosı́mil de λ es el cociente de la suma total de los tiempos de vida (o en funcionamiento) entre el número de muertes (o fallos) observadas. . . 3.2.2. Cálculo numérico de los estimadores de máxima verosimilitud Como ya se dijo anteriormente, en la práctica el cálculo del estimador máximo verosı́mil se reduce a resolver un problema de optimización de una función (en general no lineal) de k variables, posiblemente sujeto a restricciones. Recordaremos en esta sección algunas técnicas numéricas para llevar a cabo esa optimización. Lo expuesto aquı́ está basado en Bertsekas (1999). Buscaremos el máximo del logaritmo de la verosimilitud, dado que esta función es en general más fácil de tratar numéricamente que la verosimilitud. Los algoritmos presentados no contemplan la posibilidad de tener restricciones sobre los parámetros. Si los parámetros están sujetos a restricciones del tipo cotas simples (por ejemplo, α > 0 en una distribución gamma) una transformación logarı́tmica del parámetro transforma el problema en otro sin restricciones en los parámetros (por ejemplo, en la distribución gamma se reparametriza mediante α∗ = log(α) y ası́ el nuevo parámetro α∗ puede tomar cualquier valor real). El problema es siempre máxθ∈IRk l (θ| x ). Como la muestra x está fija en e e todo el proceso, escribiremos l (θ) en lugar de l (θ| x ). Llamaremos θ∗ al máximo e de l (θ). Método de Newton-Raphson Se trata (al igual que los métodos siguientes) de un procedimiento iterativo que proporciona una sucesión {θn }n≥1 que converge al óptimo θ∗ . Consideremos una estimación inicial θ0 de θ∗ que puede haber sido obtenida, por ejemplo, por el método de los momentos. El método de Newton-Raphson aproxima la función l (θ) en un entorno de θ0 por la función cuadrática que en ese punto θ0 tiene en común con l (θ) el valor de la función y los valores de 66CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES las dos primeras derivadas. Llamemos l˜0 (θ) a esa función cuadrática. De hecho, l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 . Ejemplo 36 Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el sistema ˜ l 0 (θ0 ) = l (θ0 ) l˜ 0 (θ ) = l 0 (θ0 ) ˜0 00 0 l 0 (θ0 ) = l 00 (θ0 ) El resultado es el mismo si se hace directamente el desarrollo de Taylor de l : 1 l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ). 2 . . El primer punto en la sucesión, θ1 , es el punto donde se alcanza el máximo de la función cuadrática aproximadora. El proceso se itera y ası́ se construye la sucesión {θn }n≥1 que, bajo condiciones generales (por ejemplo, si la función de verosimilitud es cóncava), converge al óptimo θ∗ : θ0 −→ l˜0 (θ) l˜1 (θ) l˜2 (θ) .. . l˜m−1 (θ) .. . −→ θ1 . −→ θ2 . −→ θ3 . .. .. . . . −→ θm . .. .. . . ↓ θ∗ Veamos que este algoritmo puede resumirse analı́ticamente dando la fórmula que permite calcular cada punto de la sucesión en función del punto anterior. Como hemos dicho, l˜m (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θm : 1 l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm ) 2 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 67 donde ∇l (θm ) ∈ IRk es el vector gradiente de l en θm , que tiene por componente j-ésima la derivada parcial de l respecto a la coordenada j-ésima de θ calculada en el punto θm , y Hl (θm ) es la matriz hessiana de l en θm , una matriz k×k cuyo elemento (i, j) es la segunda derivada de l respecto a las cordenadas i-ésima y j-ésima, calculadas en el punto θm . La maximización de l˜m es factible analı́ticamente. Su gradiente es ∇l˜m (θ) = ∇l (θm ) + Hl (θm )(θ − θm ). Igualándolo a 0 se obtiene el punto θm+1 : −1 ∇l (θm ) + Hl (θm )(θ − θm ) = 0 =⇒ θm+1 = θm − (Hl (θm )) ∇l (θm ). Este punto θm+1 es máximo de l (θm ) si Hl (θm ) es definida negativa, ya que H l˜m (θ) = Hl (θm ). Pero si θm está suficientemente cerca de θ∗ y l (θ) es una función suave (segundas derivadas continuas) entonces Hl (θm ) será definida negativa por serlo Hl (θ∗ ). Ası́, θm+1 = θm − (Hl (θm )) −1 ∇l (θm ) es la fórmula recursiva que nos da θm+1 en función de θm , m ≥ 0. Aplicaremos la recursión hasta convergencia, es decir, hasta que ||θm+1 − θm || < ε, para un ε prefijado. Una condición suficiente, aunque no necesaria, para que el algoritmo converja es que l sea cóncava. Método de los scores de Fisher Se trata de una modificación del método de Newton-Raphson. En la iteración θm+1 = θm − (Hl (θm )) −1 ∇l (θm ) se sustituye el hessiano por su valor esperado. No olvidemos que l (y por lo tanto, su gradiente y su matriz hessiana) depende de θ y también de la muestra x observada. Podemos entonces tomar esperanzas: e D = Eθm (Hl (θm | X )), e que es la matriz de información de Fisher cambiada de signo. La principal ventaja teórica que se deriva de esta sustitución es que se garantiza la convergencia del algoritmo. En efecto, bajo condiciones de regularidad (que permiten intercambiar los signos de la derivada y de la integral; en la sección 4.2 se volverá sobre esto) se puede probar que Eθ (∇l (θ)) = 0, y Vθ (∇l (θ)) = Eθ (∇l (θ)∇l (θ)t ) = −E(Hl (θ| X )) e 68CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES de donde se deduce que D = Eθm (Hl (θm | X )) es definida negativa, lo cual e garantiza la convergencia del algoritmo. No obstante, es posible que la convergencia del algoritmo modificado sea más lenta que la del algoritmo de Newton-Raphson puro, en caso de que ambos converjan. Una ventaja práctica de este algoritmo es que en el cálculo de D sólo intervienen derivadas de primer orden (el gradiente del logaritmo de la verosimilitud) mientras que en el algoritmo original se necesita calcuar la matriz hessiana. Por contra, ahora hay que calcular una esperanza. En este sentido, será preferible uno u otro algoritmo según sea la dificultad de calcular ! à ∂l ∂l dij = −E ∂θi ∂θj y hij = ∂ 2l . ∂θi ∂θj Al vector gradiente, ∇l (θ), también se le llama vector de scores, lo cual justifica el nombre del algoritmo. Ejemplo 37 Veamos que en el caso de familias exponenciales parametrizadas de forma natural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no depende de la muestra observada. La verosimilitud de una muestra es à n ! k Y X h(xi ) c(θ)n exp θj Tj ( x ) , L(θ| x ) = e e i=1 j=1 donde Tj ( x ) = e Pn i=1 tj (xi ), y su logaritmo, k X l (θ| x ) = K + n log c(θ) + θj Tj ( x ), e e j=1 donde K es cierta constante. Ası́, ∂ l (θ) ∂ log c(θ) =n + Tj ( x ) ∂θj ∂θj e y ∂ 2 l (θ) ∂ 2 log c(θ) =n ∂θi ∂θj ∂θi ∂θj que es constante en la muestra, por lo que es igual a su valor esperado. Se sigue que Hl = E(Hl ) = D. . . 3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 69 Método de Nelder-Mead Es un método de búsqueda directa que no requiere ni primeras ni segundas derivadas de la función objetivo, sólo es necesario poder evaluar la función que queremos maximizar. En cada iteración del algoritmo se parte de un conjunto de (k + 1) puntos de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no vacı́o: esos puntos forman un simplex en IRk . El resultado de cada iteración es otro simplex. Se espera que el volumen del simplex vaya decreciendo de iteración en iteración y que el valor de la función objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La iteración tı́pica del algoritmo de Nelder-Mead es como sigue: Paso 0 Se parte de θ1 , . . . , θk+1 . Se definen θmı́n = arg mı́n l (θi ), θmáx = arg máx l (θi ), i=1...k i=1...k Ãk+1 ! 1 X θi − θmı́n θ̂ = k i=1 El punto θ̂ es el punto medio de la cara opuesta a θmı́n . Paso 1 Definir θref = θ̂ + (θ̂ − θmı́n ). Si l (θref ) > l (θmáx ) =⇒ Paso 2. (θref es mejor que los otros puntos del simplex). Si l (θmáx ) > l (θref ) > mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 3. Si l (θref ) < mı́n{l (θi ) : θi 6= θmı́n } =⇒ Paso 4. Paso 2 Intentar expansión. Sustituir θmı́n simplex. θexp = θref + (θref − θ̂) ½ θexp si l (θexp ) > l (θref ) θnew = θref en otro caso por θnew en el simplex. Volver al Paso 0 con el nuevo Paso 3 Usar el punto reflejado. θnew = θref Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo simplex. Paso 4 Contraer el simplex. ( θnew = 1 2 (θmı́n + θ̂) si l (θmı́n ) ≥ l (θref ) 1 2 (θref + θ̂) si l (θmı́n ) < l (θref ) Sustituir θmı́n por θnew en el simplex. Volver al Paso 0 con el nuevo simplex. 70CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES En la práctica funciona bien si la dimensión del espacio paramétrico es pequeña (k ≤ 10), como suele ser el caso en problemas de estimación por máxima versimilitud. No hay resultados teóricos sobre la convergencia de este algoritmo. Si l (θ) es estrı́ctamente cóncava, el algoritmo mejora la verosimilitud en cada iteración. Esto se entiende en el sentido de que ocurre alguna de estas dos cosas: en cada iteración, o bien l (θmı́n ) crece estrictamente, o bien, la cantidad de vértices del simplex θi en los que l (θi ) = l (θmı́n ) decrece en al menos una unidad. 3.2.3. Principio de invariancia del estimador máximo verosı́mil Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ f (x|θ) y sea θ̂ el estimador máximo verosı́mil de θ. Si estamos interesados en estimar una función τ (θ) del parámetro, podemos hacerlo mediante τ (θ̂). Éste es el resultado que garantiza el siguiente teorema y se conoce como principio de invariancia. Teorema 18 (Principio de invariancia) Si θ̂ es el estimador máximo verosı́mil de θ, entonces para cualquier función τ (θ) el estimador máximo verosı́mil de τ (θ) es τ (θ̂). Demostración: Supondremos primero que τ es biyectiva. Definimos η = τ (θ) ⇐⇒ θ = τ −1 (η) y reparametrizamos la verosimilitud usando el nuevo parámetro η en vez de θ: n Y L∗ (η| x ) = f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒ e e i=1 L∗ (η̂| x ) = sup L∗ (η| x ) = sup L(τ −1 (η)| x ) = η η e e e sup L(θ| x ) = L(θ̂| x ) = L∗ (τ (θ̂)| x ). e e e θ Por lo tanto el máximo de L∗ (η| x ) se alcanza cuando η̂ = τ (θ̂), luego el estie mador máximo verosı́mil de η = τ (θ) es τ (θ̂). Consideramos ahora el caso en que τ no es biyectiva. En este caso no es posible definir la verosimilitud L∗ (η| x ) como L(τ −1 (η)| x ) porque τ −1 (η) no e e está definido unı́vocamente. Se define L∗ (η| x ), la verosimilitud inducida e por τ , como L∗ (η| x ) = sup L(θ| x ). e e {θ:τ (θ)=η} Con esta definición se verifica que el estimador máximo verosı́mil de τ (θ), τd (θ), es τ (θ̂). Efectivamente, sea η̂ el estimador máximo verosı́mil de η = τ (θ), es 3.3. ESTIMACIÓN BAYESIANA 71 decir, el valor que verifica L∗ (η̂| x ) = sup L∗ (η| x ). η e e Por definición de L∗ , L∗ (η̂| x ) = sup L∗ (η| x ) = sup sup L(θ| x ) = η η {θ:τ (θ)=η} e e e sup L(θ| x ) = L(θ̂| x ) = sup L(θ| x ) = L∗ (τ (θ̂)| x ), e e e e θ {θ:τ (θ)=τ (θ̂)} es decir, L∗ (η̂| x ) = L∗ (τ (θ̂)| x ), e e luego el máximo de la verosimilitud en η se alcanza si η = τ (θ̂). 2 Ejemplo 38 Si X ∼ N (µ, σ 2 ), el estimador máximo verosı́mil de µ2 es x2 . Si X ∼ B(n, p), el estimador máximo p p verosı́mil de p es p̂ = X/n y el estimador máximo verosı́mil de p(1 − p) es p̂(1 − p̂). . . 3.3. 3.3.1. Estimación Bayesiana Distribuciones a priori y a posteriori Consideremos un problema de inferencia estadı́stica en el que las observaciones se toman de una variable aleatoria X que sigue una distribución con función de densidad (o función de masa de probabilidad) f (x|θ), con θ ∈ Θ. En ocasiones se dispone de información sobre el parámetro θ antes de recoger los datos. Esta información puede ser de tipo histórico (si se han realizado experimentos similares con anterioridad) o bien de tipo subjetivo (el investigador puede creer que ciertos valores de θ ∈ Θ son más plausibles que otros). Una forma de recoger la información previa sobre θ es definir una distribución de probabilidad sobre Θ, que se llama distribución a priori de θ, de forma que las regiones de Θ más probables a priori sean aquellas que contienen los valores de θ más plausibles según la información previa existente, antes de observar ningún valor de X. El concepto de distribución a priori es muy controvertido. Algunos estadı́sticos defienden que en cualquier problema estadı́stico se puede definir siempre una ley a priori para θ. Esta distribución representa la información (histórica o subjetiva) del experimentador y se debe trabajar con ella siguiendo las reglas 72CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES de la probabilidad. Por tanto, el parámetro θ es considerado una variable aleatoria como cualquier otra, con la única peculiaridad de que no es observable. Lo que sı́ se observa es la variable aleatoria X condicionada al valor concreto (no observable) que toma θ. Ası́ pues, el estudio de las observaciones de X aporta información sobre el valor de θ, información que debe combinarse con la distribución a priori del parámetro para modificarla. El resultado de esa actualización de la información se plasma de nuevo en una distribución de probabilidad sobre Θ: la distribución a posteriori de θ, una vez observada la variable aleatoria X. Éstos son los planteamientos básicos que conforman el enfoque bayesiano de la estadı́stica. Otros estadı́sticos creen que en ocasiones no es apropiado hablar de una distribución de probabilidad sobre Θ porque θ es una cantidad fija desconocida para el investigador. Otro de los aspectos de la inferencia bayesiana que a menudo recibe crı́ticas es el grado de subjetividad a que está expuesto por el hecho de que es el experimentador quien define la distribución a priori. En cualquier caso, en lo que hay coincidencia es en que si hay información sobre θ ésta tiene que ser utilizada en la inferencia. Existen distribuciones a priori no informativas (por ejemplo con densidad o función de masa plana en todo Θ) que se construyen sin usar información a priori y permiten hacer inferencia bayesiana objetiva. Para definirlas a veces es necesario recurrir a distribuciones a priori impropias (distribuyen una probabilidad infinita sobre Θ). Pese a su carácter impropio permiten hacer inferencias correctas. Supondremos aquı́ que existe información previa sobre θ y que ésta se expresa mediante una distribución a priori sobre Θ, cuya función de densidad o función de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribución a priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma e de f (x|θ), que indica cómo se distribuye x, condicionada por valores de θ. Por el momento, supondremos que tanto X|θ como θ tienen función de densidad. La ley conjunta de X1 , . . . , Xn se denomina distribución muestral (o verosimilitud de la muestra) dado el valor del parámetro: n Y f ( x |θ) = f (xi |θ). e i=1 La densidad conjunta de X y θ es e f ( x , θ) = f ( x |θ)π(θ). e e Como consecuencia, la marginal de X es e Z m( x ) = f ( x |θ)π(θ)dθ. e e θ 3.3. ESTIMACIÓN BAYESIANA 73 Se define la distribución a posteriori de θ como la ley condicional de θ dadas las observaciones x de X , cuya densidad se puede calcular por simple e e aplicación del Teorema de Bayes: π(θ| x ) = e f ( x |θ)π(θ) e , θ ∈ Θ. m( x ) e En inferencia bayesiana se usa esta distribución para realizar inferencias sobre θ. Por ejemplo, un estimador puntual de θ podrı́a ser E(θ| x ). e La distribución a posteriori nos informa sobre la verosimilitud relativa de que el verdadero valor de θ esté en las distintas regiones del espacio paramétrico Θ después de haber observado X1 , . . . , Xn . Obsérvese que π(θ| x ) es proporcional al producto de la verosimilitud por la e a priori: π(θ| x ) ∝ f ( x |θ)π(θ). e e Esta relación es suficiente para calcular π(θ| x ) dado que la restricción de que e su integral sea 1 permite calcular la constante 1/m( x ). e Ejemplo 39 Sea X el tiempo de vida en horas de un nuevo modelo de lámpara fluorescente. Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La información histórica acumulada sobre tiempos de vida de lámparas similares indica que µ tiene media aproximadamente 5000 horas. De hecho, la distribución que se propone como a priori para λ es igual a λ ∼ γ(α0 , β0 ), con E(λ) = α0 β0 = 1/5000 y V (λ) = α0 β02 = 0,0001, de donde se sigue que α0 β0 = 0,0002 y α0 β02 = 0,0001 =⇒ α0 = 4, β0 = 1/20000. Ası́, λ ∼ γ(4, 1/20000) y su función de densidad es π(λ) = 200004 3 −20000λ λ e , λ > 0. (4 − 1)! Se hace una prueba de vida en la que se ponen a funcionar 25 lámparas del nuevo modelo hasta que se funden. Los resultados son éstos: X1 = x1 , . . . , X25 = x25 , 25 X xi = 150000. i=1 Ası́, la verosimilitud es f (x1 , . . . , x25 |λ) = λ25 e−λ P25 i=1 xi , 74CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES y la densidad a posteriori de λ es f (x1 , . . . , x25 |λ)π(λ) π(λ|x1 , . . . , x25 ) = R ∞ . f (x1 , . . . , x25 |λ)π(λ)dλ o El numerador es f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ 25 X xi } i=1 200004 3 −20000λ λ e = 3! 25 X 200004 28 λ exp{−λ( xi + 20000)}, 6 i=1 y el denominador Z m(x1 , . . . , x25 ) = o ∞ 25 X 200004 28 λ exp{−λ( xi + 20000)}dλ. 6 i=1 P25 Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa integral es, salvo constantes, la integral de la función de densidad de una variable aleatoria γ(α, β). Concretamente, 200004 28! m(x1 , . . . , x25 ) = P25 6 ( i=1 xi + 20000)29 Z o ∞ fγ(α,β) (λ)dλ = 200004 28! . P 29 6 ( 25 i=1 xi + 20000) Ası́, P25 π(λ|x1 , . . . , x25 ) = xi +20000) 200004 28 −λ( i=1 λ e 6 28! 200004 P 25 6 ( xi +20000)29 = i=1 ( P25 i=1 xi + 20000)29 28 −λ(P25 xi +20000) i=1 λ e 28! de donde se deduce que 25 X λ|x1 , . . . , x25 ∼ γ(29, 1/( xi + 20000)). i=1 Por lo tanto, un estimador de λ podrı́a ser λ̂ = E(λ|x1 , . . . , x25 ) = P25 i=1 29 xi + 20000 = 29 , 150000 + 20000 y, como consequencia, una estimación de la vida media de las nuevas lámparas es P25 xi + 20000 1 150000 + 20000 µ̂ = = i=1 = = 5862 horas. 29 29 λ̂ 3.3. ESTIMACIÓN BAYESIANA 75 Si usásemos x como estimador de µ, obtendrı́amos un valor de x= 150000 = 6000 horas. 25 Por lo tanto, la información a priori indica que no se debe ser tan optimista como se desprende del valor x = 6000: a pesar de que el nuevo diseño de lámpara tiene una vida media superior a las anteriores (la estimación de µ es ahora de 5862 horas, superior a las 5000 horas iniciales) la información a priori rebaja la vida media desde las 6000 horas observadas hasta las 5862. . . Observaciones secuenciales En muchos experimentos (en particular, en muchos ensayos clı́nicos) las observaciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciación permite actualizar progresivamente la información que se tiene sobre el parámetro θ. En un principio la información a priori sobre θ es π(θ). Se observa X1 = x1 . Entonces π(θ|x1 ) ∝ f (x1 |θ)π(θ) recoge a partir de ese instante la información acumulada sobre θ. Por lo tanto π(θ|x1 ) actúa como distribución a priori antes de obtener la segunda observación. Cuando se observa X2 = x2 , π(θ|x1 , x2 ) ∝ f (x2 |θ)π(θ|x1 ) ∝ f (x2 |θ)f (x1 |θ)π(θ). Tras haber observado X1 = x1 , . . . , Xn = xn , π(θ|x1 , x2 , . . . , xn ) ∝ f (xn |θ)π(θ|x1 , x2 , . . . , xn−1 ) ∝ f (xn |θ) · · · f (x2 |θ)f (x1 |θ)π(θ) = f ( x |θ)π(θ). e Se observa ası́ que la distribución a posteriori tras haber tomado n observaciones de X es la misma tanto si se toman éstas de forma secuencial como si se toman simultáneamente. 3.3.2. Distribuciones conjugadas Sea F la clase de las funciones de densidad (o de masa de probabilidad) de un modelo paramétrico f (x|θ) indexadas por θ: F = {f (x|θ) : θ ∈ Θ}. Sea una clase Π de distribuciones sobre Θ. Se dice que Π es una familia de distribuciones conjugadas para F si la distribución a posteriori de θ dada la muestra x pertenece a Π para toda muestra x ∈ X , para toda a priori π ∈ Π e e y para toda verosimilitud f ∈ F. 76CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES Teorema 19 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(θ), 0 < θ < 1. Sea θ ∼ Beta(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una à ! n n X X Beta α + xi , β + n − xi . i=1 i=1 Nota: Recordar que U (0, 1) ≡ Beta(1, 1). Demostración: Γ(α + β) α−1 θ (1 − θ)β−1 Γ(α)Γ(β) Pn Pn =⇒ f ( x |θ) = θ i=1 xi (1 − θ)n− i=1 xi = L(θ| x ) e e π(θ) = f (xi |θ) = θxi (1 − θ)1−xi Ası́, Pn Γ(α + β) α−1 θ (1 − θ)β−1 = (1 − θ)n− i=1 xi Γ(α)Γ(β) Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 , Γ(α)Γ(β) f ( x , θ) = θ e y Z Pn i=1 xi Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 dθ = Γ(α)Γ(β) 0 Pn Pn Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β) × Γ(α)Γ(β) Γ(α + β + n) Pn Pn Γ(α + β + n) Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 dθ = Γ(α + i=1 xi )Γ(n − i=1 xi + β) {z } ∞ m( x ) = e Z | 0 ∞ =1 Pn Pn Γ(α + β) Γ(α + i=1 xi )Γ(n − i=1 xi + β) Γ(α)Γ(β) Γ(α + β + n) Calculamos ahora la densidad a posteriori: Γ(α)Γ(β) Γ(α + β + n) P P π(θ| x ) = × Γ(α + β) Γ(α + ni=1 xi )Γ(n − ni=1 xi + β) e Pn Γ(α + β) Pn xi +α−1 θ i=1 (1 − θ)n− i=1 xi +β−1 = Γ(α)Γ(β) Pn Pn Γ(α + β + n) Pn Pn θ i=1 xi +α−1 (1 − θ)n− i=1 xi +β−1 Γ(α + i=1 xi )Γ(n − i=1 xi + β) Pn Pn y por lo tanto, θ| x tiene distribución Beta(α + i=1 xi , β + n − i=1 xi ). 2 e Teorema 20 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ), 0 < θ. Sea θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una à ! n X −1 −1 γ α+ xi , (β + n) . i=1 3.3. ESTIMACIÓN BAYESIANA 77 Demostración: Para ciertas constantes K1 , K2 y K3 , se tiene que Pn π(θ) = K1 θα−1 e−θ/β , L(θ| x ) = K2 e−nθ θ i=1 xi =⇒ e Pn Pn −1 π(θ| x ) = K3 e−nθ θ i=1 xi θα−1 e−θ/β = K3 θα+ i=1 xi −1 e−(β +n)θ e ¢ ¡ Pn que corresponde con la densidad de una γ α + i=1 xi , (β −1 + n)−1 . 2 Los valores de las constantes usadas en la demostración son Pn (α + i=1 xi − 1)! 1 1 Pn Q K1 = , K = , K = , 2 3 n (α − 1)!β α i i=1 xi ! (n + (1/β))α+ i=1 xi aunque no es necesario conocerlos para probar el resultado. Teorema 21 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), −∞ < θ < ∞, σ 2 > 0 conocido. Sea θ ∼ N (µ, ν 2 ). La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una N (µ1 , ν12 ) con µ1 = σ 2 µ + nν 2 x σ2 nν 2 = 2 µ+ 2 x, 2 2 2 σ + nν σ + nν σ + nν 2 ν12 = σ2 ν 2 . σ 2 + nν 2 Demostración: Ver DeGroot (1988), sección 6.3. 2 Obsérvese que si σ 2 −→ ∞ entonces µ1 = µ, y que si nν 2 −→ ∞ entonces µ1 = x. Por su parte, la precisión de la distribución a posteriori es la suma de la precisión a priori y la precisión de X: 1 1 n = 2 + 2. 2 ν1 ν σ Ejemplo 40 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido. Notémos que en la notación del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcularemos la distribución a posteriori de θ y analizaremos para qué valores de τ serı́a esta distribución menos informativa. Del teorema 21 se desprende que µ Pn ¶ 1 i=1 xi θ| x ∼ N , . n + τ2 n + τ2 e Esta distribución será tanto menos informativa cuanta mayor varianza tenga, es decir, cuanto menor sea τ . El caso lı́mite serı́a τ = 0, que corresponde a una distribución a priori impropia (normal con varianza infinita) no informativa 78CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES (π(θ) es constante en IR). En ese caso obtendrı́amos el mismo resultado que si realizásemos inferencia fiducial (ver Casella-Berger, sección 6.2.1). Al inverso de la varianza se le denomina precisión de la distribución. En este ejemplo, τ 2 es la precisión de la distribución a priori. Si ponemos τ = 0 estamos asumiendo que la precisión de la información a priori es nula. Entonces el procedimiento de inferencia no la tiene en cuenta. . . Teorema 22 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ), θ = (E(X))−1 > 0. Sea θ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de θ dadas las observaciones X1 = x1 , . . . , Xn = xn es una à !−1 n X 1 . γ α + n, + xi β i=1 Demostración: Ver DeGroot (1988), sección 6.3. 2 Ejemplo 28, página 54. Continuación. Consideremos de nuevo el problema de estimar el número de colores diferente que tienen los caramelos de la bolsa. Supongamos que basándonos en nuestra experiencia pensamos que el número de colores es 5 con probabilidad 1/10, 6 con probabilidad 3/10, 7 con probabilidad 3/10 y 8 con probabilidad 3/10. De nuevo suponemos que hemos observado (V BV ). k 5 6 7 8 π(k) 0.1 0.3 0.3 0.3 f (V BV |k) = (k − 1)/k 2 0.160 0.139 0.122 0.109 f (V BV, k) 0.016 0.042 0.037 0.033 P f (V BV, k) = 0,128 k π(k|V BV ) 0.125 0.328 0.289 0.258 Tomamos otro caramelo y es naranja. Repetimos el análisis: k 5 6 7 8 π(k) 0.125 0.328 0.289 0.258 f (V BV N |k) = (k − 1)(k − 2)/k 3 0.096 0.093 0.087 0.082 f (V BV N, k) 0.012 0.031 0.025 0.021 P f (V BV N, k) = 0,089 k π(k|V BV N ) 0.135 0.348 0.281 0.236 Se observa que la distribución de probabilidad sobre {5, 6, 7, 8} no se ha modificado mucho desde π(k) hasta π(k|V BV N ). Esto indica que la observación de 3.3. ESTIMACIÓN BAYESIANA 79 sólo cuatro caramelos es poco informativa sobre el número k de colores. Si continuásemos muestreando, la distribución a posteriori se irı́a concentrando cada vez más en torno al verdadero valor del parámetro k. . . 3.3.3. Funciones de pérdida Acabamos de ver cómo derivar la distribución a posteriori del parámetro dados los datos, a partir de la verosimilitud y la distribución a priori. Nos planteamos ahora cómo usar la distribución a posteriori para construir un estimador puntual del valor del parámetro, es decir, cómo resumir toda la distribución a posteriori del parámetro en un solo punto de Θ. Consideremos por un momento que no hemos observado la muestra y que sobre Θ hay definida una distribución de probabilidad π. En este contexto queremos elegir un punto a ∈ Θ como representante de toda la distribución π sobre Θ. Una propiedad deseable es que ese valor a esté cerca de los puntos θ ∈ Θ. Para medir cómo de lejos está a del valor θ del parámetro definiremos una función de pérdida o función de coste: C : Θ×A (θ, a) −→ R+ −→ C(θ, a), donde A es el conjunto o espacio de acciones a posibles, y C(θ, a) es el coste de dar a como estimación de un valor concreto θ ∈ Θ. Dado que θ es desconocido y puede tomar los valores de Θ según indica la distribución π, para tener una idea global del coste de a se considera la función de pérdida esperada: Z Eπ(θ) (C(θ, a)) = C(θ, a)π(θ)dθ. Θ La elección de la función de pérdida es a menudo arbitraria. Las tres más usuales son éstas: Función de pérdida cero-uno: C(θ, θ̂) = αI(β,∞) (|θ̂ − θ|) donde α > 0 y β ≥ 0 son constantes. Función de pérdida del error absoluto: C(θ, θ̂) = α|θ̂ − θ| donde α > 0 es constante. Función de pérdida cuadrática: C(θ, θ̂) = α(θ̂ − θ)2 donde α > 0 es constante. 80CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES El parámetro α podrı́a tomarse igual a 1, sin pérdida de generalidad. Estas tres funciones son decrecientes en |θ̂ − θ| y simétricas alrededor de θ̂ = θ. Se pueden definir funciones de pérdida asimétricas que reflejen, por ejemplo, que las consecuencias de estimar un parámetro por defecto sean peores que las de estimarlo por exceso. Este serı́a el caso de la estimación del grosor de la capa de hielo que recubre un lago sobre el que se desea patinar. Un ejemplo en el que subestimar es preferible es el de la estimación del precio futuro de una acción cuando se quiere decidir si se invierte o no en dicha acción. 3.3.4. Estimadores de Bayes Supongamos que tenemos información a priori π(θ) sobre θ ∈ Θ y que observamos una muestra aleatoria simple X1 , . . . , Xn de X ∼ f (x|θ). La distribución a posteriori vienen dada por π(θ| x ) ∝ L(θ| x )π(θ). Supongamos que el coste de e e estimar θ por a es C(θ, a). Ası́, el coste esperado de estimar θ mediante a, dado que hemos observado x , será e Z E(C(θ, a)| x ) = C(θ, a)π(θ| x )dθ. e e Θ A esta cantidad se le llama pérdida esperada a posteriori. Se define un estimador de Bayes de θ como aquel valor a = a( x ) ∈ Θ e que minimiza la pérdida esperada a posteriori, es decir, E(C(θ, a( x ))| x ) = mı́n E(C(θ, a)| x ). a∈Θ e e e A ese valor a( x ) se le suele denotar por θ∗ ( x ). Obsérvese que este estimador e e de Bayes depende de la muestra a través de la distribución a posteriori. Teorema 23 Si la función de pérdida es cuadrática, entonces el estimador de Bayes es la esperanza a posteriori: θ∗ ( x ) = E(θ| x ). e e Demostración: h i E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x ) e e e e Derivando respecto a a e igualando a 0: −2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ), e e que es un mı́nimo porque la segunda derivada es 2 > 0. 2 Teorema 24 Si la función de pérdida es el error absoluto, entonces el estimador de Bayes es la mediana de la distribución a posteriori: θ∗ ( x ) = mediana(θ| x ). e e 3.3. ESTIMACIÓN BAYESIANA 81 Demostración: Ver DeGroot (1988), teorema 1 de la sección 4.5. 2 Ejemplo 41 Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn = xn . Suponemos que la distribución a priori de θ es θ ∼ Beta(α, β) =⇒ E(θ) = Tal como vimos en el teorema 19, à n X α . α+β n X θ| x ∼ Beta α + xi , β + n − xi e i=1 i=1 ! . Por tanto, el estimador de Bayes basado en pérdida cuadrática será Pn α + i=1 xi = θ̂1 = E(θ| x ) = α+β+n e α+β n α x+ . α+β+n α+β+nα+β Obsérvese que θ̂1 es una media ponderada de la media a priori y de la media muestral. El peso de cada cantidad depende de los parámetros en la distribución a priori y del tamaño muestral. A medida que n crece se tiene que θ̂1 tiende hacia x. La estimación de θ basada en la pérdida del error absoluto requiere la determinación por métodos numéricos de la mediana de la distribución Beta(α + Pn Pn i=1 xi ). i=1 xi , β + n − . . Ejemplo 42 Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribución a posteriori es θ| x ∼ N (µ1 , ν12 ) con e µ1 = σ 2 µ + nν 2 x 2 σ2 ν 2 , ν1 = 2 . 2 2 σ + nν σ + nν 2 El estimador de Bayes con pérdida cuadrática es σ 2 µ + nν 2 x θ̂1 ( x ) = E(θ| x ) = = σ 2 + nν 2 e e nν 2 σ2 µ. x + σ 2 + nν 2 σ 2 + nν 2 82CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES De nuevo el estimador de Bayes es una media ponderada de la media a priori y de la media muestral. Si ponemos una a priori poco informativa, es decir, con varianza ν 2 grande, se tendrá que θ̂1 ( x ) será aproximadamente igual a la media e muestral. En este caso la elección de la función de pérdida del error absoluto conduce al mismo estimador θ̂1 ( x ) porque la mediana y la media a posteriori coinciden e (dado que la distribución a posteriori es simétrica). . . 3.4. LISTA DE PROBLEMAS 3.4. 83 Lista de problemas Método de los momentos 1. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador de momentos de µ. 2. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 , 0 < θ ≤ x < ∞. a) Da un estadı́stico suficiente para θ. b) Halla el estimador de momentos de θ. 3. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, λ) = λe−λx+1 , x > 1/λ. Hallar el estimador de momentos de λ. 4. Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, p), k ∈ IN, 0 < p < 1. Encuentra los estimadores de momentos de (k, p). 5. En el ejemplo 26 se mencionan dos estimadores para la varianza de una B(n, p): (n − 1)Sn2 /n y p̂(1 − p̂). ¿Qué relación hay entre ellos? Máxima verosimilitud 6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| . Hallar el estimador máximo verosı́mil de µ. 7. (Casella-Berger, 7.6) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, θ) = θx−2 , 0 < θ ≤ x < ∞. Halla el estimador de máxima verosimilitud de θ. 8. (Casella-Berger, 7.7) Sea X1 , . . . , Xn una m.a.s. de X, que sigue una de las dos distribuciones siguientes. Si θ = 0 entonces f (x; θ) = I(0,1) (x). Si √ θ = 1 entonces f (x; θ) = 1/(2 x)I(0,1) (x). Encontrar el estimador máximo verosı́mil de θ. 9. (Casella-Berger, 7.10) Las variables aleatorias independientes X1 , . . . , Xn tiene función de distribución común si x < 0 0 F (x; α, β) = P (X ≤ x|α, β) = (x/β)α si 0 ≤ x ≤ β , 1 si x > β donde α > 0, β > 0. a) Encontrar un estadı́stico suficiente para (α, β) de dimensión 2. b) Dar el estimador máximo verosı́mil de (α, β). c) La longitud (en milı́metros) de los huevos de gorrión puede modelizarse con esa distribución. Para los siguientes datos de longitudes de huevos, estima por máxima verosimilitud α y β: 84CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES 22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5, 23.0, 23.0. 10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias independientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e Y no son directamente observables, sino que se observan Z y W definidas como ½ 1 si Z = X Z = mı́n{X, Y }, W = . 0 si Z = Y Se dice entonces que las variables X e Y están censuradas. a) Da la distribución conjunta de Z y W . b) Prueba que Z y W son independientes. c) Se observa una m.a.s. de tamaño n de (Z, W ). Calcula los estimadores máximo verosı́miles de λ y θ. 11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de la lista 1.6. Encuentra el estimador máximo verosı́mil de θ en cada caso. 12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones transmite secuencias de longitud n de dı́gitos binarios, 0 y 1. Se produce un error en la transmisión cada vez que se transmite un 1, pero se recibe un 0, o viceversa. Supongamos que la probabilidad de error de transmisión en cada dı́gito transmitido es p, y que los errores en la transmisión de dı́gitos diferentes se producen de forma independiente. Como medida de seguridad, cada secuencia se transmite dos veces. Llamaremos X a la cantidad de diferencias entre las dos cadenas de dı́gitos leı́das por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse con las cadenas 00110000 y 00100001, y en este caso X valdrı́a 2. a) Calcula la probabilidad de que un dı́gito concreto sea diferente en una y otra cadena. b) Encuentra el estimador de máxima verosimilitud de p cuando la longitud de las cadenas es n y se observa X. ¿Es único este estimador de máxima verosimilitud? c) Da la estimación de p en el ejemplo anterior. d ) ¿Cómo se interpretarı́a un valor de X más grande que n/2? 13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron los siguientes nacimientos durante las semanas naturales del mes de febrero de un año no bisiesto: Semana 1 2 3 4 5 Número de nacimientos 19 32 28 25 10 3.4. LISTA DE PROBLEMAS 85 Como la primera semana de febrero puede empezar en un dia cualquiera de lunes a domingo, de hecho constan 5 semanas, con la primera y la quinta incompletas. Definimos el espacio paramétrico Θ = {1, 2, . . . , 7}, donde el 1 corresponde al lunes, el 2 al martes, etc. Supondremos que un nacimiento tiene la misma probabilidad de ocurrir cualquier dı́a del mes. Dar el estimador máximo verosı́mil del dı́a de la setmana en que cayó el primero de febrero de ese año. Estimadores bayesianos 14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qué distribución sigue X1 condicionada a que X1 + X2 = x? 15. Si X ∼ γ(α, β), α > 0, β > 0, entonces se dice que Y = X −1 tiene distribución gamma invertida con parámetros (α, β), y se denota como IG(α, β). a) Prueba que la densidad de Y es f (y; α, β) = 1 1 −1/(βy) e I(0,∞) (y). Γ(α)β α y α+1 b) Calcula la esperanza y la varianza de Y . 16. (Casella-Berger, 7.24) Si S 2 es la varianza muestral basada en una muestra de tamaño n de una población normal, sabemos que (n − 1)S 2 /σ 2 se distribuye como una χ2n−1 . Vamos a probar que la distribución a priori conjugada para σ 2 es la gamma invertida. a) Prueba que si la distribución a priori de σ 2 es IG(α, β), entonces la a posteriori es à · ¸−1 ! n − 1 (n − 1)S 2 1 IG α + , + . 2 2 β b) Calcula el estimador de Bayes bajo pérdida cuadrática de σ 2 . 17. (Ex. parcial 2000) Sea X una variable aleatoria con función de densidad f (x|θ) = 1 −x e θ, θ donde θ es un parámetro que puede tomar valores en el conjunto Θ = {1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5. a) Calcula el estimador de máxima verosimilitud de θ y llámalo θ̂1 . 86CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES b) Calcula el estimador Bayes de θ basado en la función de pérdida C(θ, a) = I{θ6=a} (que vale 0 si θ = a y 1 en caso contrario), cuando la distribución a priori de θ es uniforme en los números {1, 2, . . . , 20} y llámalo θ̂2 . c) ¿Qué relación hay entre θ̂1 y θ̂2 ? ¿Cómo cambiarı́a esta relación si cambia la función de verosimilitud? ¿Y si consideramos una distribución a priori que no sea plana, es decir, que no sea constante en θ? ¿Y si consideramos otra función de pérdida? 18. (Ex. parcial 2001) Supongamos que el número de minutos que una persona tiene que esperar el autobús cada mañana tiene una distribución uniforme en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que la función de densidad a priori de θ viene dada por: ½ 192 per θ ≥ 4, θ4 ξ(θ) = 0 altrament. Los tiempos esperados en tres mañanas sucesivas son de 5, 3, 8 minutos. a) Calcular la función de densidad a posteriori de θ. Especificar el dominio de definición de esta función y las constantes que en ella aparecen. b) Si se quiere estimar el valor de θ usando como función de pérdida el error cuadrático, ¿qué forma tiene el estimador de Bayes de θ? Calcular el valor estimado de θ a partir de los tres tiempos esperados dados. Capı́tulo 4 Estimación puntual 2: Evaluación de estimadores Referencias: Casella-Berger, secciones 7.3 y 7.4, referencia general. Bickel y Doksum (1977), sección 4.4, para eficiencia; Arnold 1990, capı́tulo 6, o Schervish 1995, sección 7.1, para las propiedades asintóticas generales; (Garthwaite, Jollife y Jones 1995), secciones 3.2 y 3.3, Cristóbal (1992), sección 8.3; Arnold (1990), sección 7.3; Schervish (1995), sección 7.3; Vélez y Garcı́a (1993), sección 7.4., para propiedades del estimador de máxima verosimilitud Una vez se han presentado diferentes métodos de estimación surge la necesidad de desarrollar criterios para evaluarlos y compararlos de acuerdo a estos criterios. En este tema estudiaremos medidas de la calidad de un estimador. Lo haremos primero para muestras finitas para pasar después a proponer medidas asintóticas de calidad. 4.1. Error cuadrático medio Se define el error cuadrático medio (ECM) de un estimador W de un parámetro θ como ¡ ¢ Eθ (W − θ)2 . Ésta es una medida intuitiva del comportamiento de un estimador: cuanto menor sea el error cuadrático medio mejor será el estadı́stico W . De hecho, para cualquier función φ creciente con φ(0) = 0, Eθ (φ(|W − θ|)) es una medida razonable de lo alejadas que estarán, en promedio, las estimaciones de θ que proporcione W. En general, se prefiere el error cuadrático medio a otras medidas por ser más tratable analı́ticamente. Además el error cuadrático medio puede descomponerse 87 88CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES de forma fácilmente interpretable: ¡ ¢ ¡ ¢ ¡ ¢ Eθ (W − θ)2 = Eθ (W − Eθ (W ))2 + Eθ (Eθ (W ) − θ)2 = 2 Vθ (W ) + (Bθ (W )) . El término Bθ (W ) = Eθ (W ) − θ se llama sesgo (en ingés bias) de W cuando se estima θ y es una medida de la desviación sistemática que se tiene cuando se estima θ por W . Si un estimador tiene sesgo nulo para cualquier valor del ¡ ¢ parámetro se dice que es un estimador insesgado. En tal caso, Eθ (W − θ)2 = Vθ (W ). Ası́, el error cuadrático medio de un estimador es la suma de su varianza (una medida de su dispersión) más el cuadrado de su sesgo (medida de la desviación sistemática o de la exactitud del estimador). Es una medida conjunta de precisión y exactitud del estimador. Por lo tanto, parece sensato buscar estimadores que tengan error cuadrático medio pequeño, porque de esta manera controlaremos tanto la dispersión como la exactitud de las estimaciones. Ejemplo 43 En el siguiente gráfico se muestran cuatro situaciones en las que se combinan niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor valor del error cuadrático medio. D E F G 4.1. ERROR CUADRÁTICO MEDIO 89 . . Ejemplo 44 X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ = (µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 : n n 1X 1 X Xi , S 2 = (Xi − X)2 . n i=1 n − 1 i=1 X= También hemos calculado sus esperanzas: E(X) = µ, E(S 2 ) = σ 2 . Concluimos que X y S 2 son estimadores insesgados de µ y σ 2 , respectivamente. Su error cuadrático medio coincide entonces con su varianza: ¡ ¢ σ2 Eθ (X − µ)2 = Vθ (X) = , n ¡ ¢ 2σ 4 . Eθ (S 2 − σ 2 )2 = Vθ (S 2 ) = n−1 . . Ejemplo 45 A veces vale la pena permitir un poco de sesgo en un estimador para obtener una reducción importante de la varianza y, por lo tanto, del error cuadrático medio. Éste es uno de esos casos. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ = (µ, σ 2 ). Sea n−1 2 σ̂ 2 = S , n el estimador máximo verosı́mil de σ 2 . Calculemos su error cuadrático medio: µ ¶ n−1 2 1 1 2 E(σ̂ ) = σ = 1− σ 2 =⇒ Bθ (σ̂ 2 ) = − σ 2 ; n n n µ 2 V (σ̂ ) = n−1 n ¶2 V (S 2 ) = 2(n − 1) 4 σ . n2 Ası́, el error cuadrático medio de σ̂ 2 es E(σ̂ 2 − σ 2 ) = 2(n − 1) 4 1 2n − 1 4 2 σ + 2 σ4 = σ < σ4 . 2 2 n n n n−1 90CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Se concluye que σ̂ 2 tiene menor error cuadrático medio que S 2 . La comparación de los errores cuadráticos medios no nos debe conducir a pensar que hay que usar siempre σ̂ 2 en vez de S 2 . Aunque es cierto que, en promedio, σ̂ 2 ofrecerá estimaciones más cercanas a σ 2 que S 2 , también lo es que en promedio σ 2 estima el parámetro por defecto. Por otra parte, el criterio del error cuadrático medio es discutible cuando se estima una varianza porque el error cuadrático medio penaliza las desviaciones del parámetro de igual forma tanto si son por exceso como si son por defecto. Sin embargo, las desviaciones por defecto no pueden ser arbitrariamente grandes porque el valor cero es una cota natural para los estimadores. . . Ejemplo 46 Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador máximo verosı́mil de p y el estimador bayesiano derivado de suponer pérdida cuadrática y una beta como distribución a priori de p: Pn Xi + α p̂ = X, p̂B = i=1 . α+β+n Calculamos errores cuadráticos medios: ¢ ¡ p(1 − p) Ep (X − p)2 = V (X) = , n µ Pn ¶ µ µ Pn ¶¶2 ¡ ¢ i=1 Xi + α i=1 Xi + α Ep (p̂B − p)2 = V + Bp = α+β+n α+β+n µ ¶2 np + α np(1 − p) + − p = (α + β + n)2 α+β+n np(1 − p) + (α(1 − p) + βp)2 . (α + β + n)2 Supongamos que no tenemos una información a priori suficientemente rica como para determinar los valores de α y β y que, como consecuencia, decidimos elegir los valores α y β tales que el error cuadrático medio de p̂B sea constante en p, ¡ ¢ si ello es posible: Ep (p̂B − p)2 = K(n). Busquemos esos valores: si p = 0 =⇒ α2 = K(n), (α + β + n)2 si p = 1 =⇒ β2 = K(n), (α + β + n)2 de donde se sigue que α = β y α2 = K(n). (2α + n)2 4.1. ERROR CUADRÁTICO MEDIO 91 Si hacemos ahora p = 1/2: p= n 12 + α2 (1 − 12 − 12 )2 1 n/4 =⇒ 2 = = K(n). 2 (2α + n)2 (2α + n)2 Por lo tanto √ α=β= n 2 Con esta elección, √ Pn n i=1 Xi + 2 √ p̂B = n+n y su error cuadrático medio es ¡ ¢ 1 √ Ep (p̂B − p)2 = K(n) = para todo p ∈ (0, 1). 4(1 + n)2 −4 n= 4 0.06 6 0.05 5 0.04 4 n= 400 x 10 ECM 7 ECM 0.07 0.03 3 0.02 2 0.01 1 0 0 0.2 0.4 0.6 0.8 1 0 0 0.2 0.4 p K(4) = 0.6 0.8 p 1 1 = 0,028, K(400) = = 0,000567 36 4(21)2 ¡ ¢ 1/4 ¢ 1/4 ¡ 1 Ep=1/2 (X − p)2 = = = 0,0625, Ep=1/2 (X − p)2 = = 0,000625 4 16 400 Estas figuras ilustran el comportamiento de p̂ y p̂B : si n es pequeño, el estimador de Bayes es preferible a no ser que haya una fuerte evidencia de que p está en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador frecuentista a menos que se sospeche fundadamente que p ≈ 0,5. . . 4.1.1. Eficiencia relativa Un estimador W de θ se denomina inadmisible si existe otro estimador V de θ tal que ¡ ¢ ¡ ¢ Eθ (V − θ)2 ≤ Eθ (W − θ)2 para todo θ ∈ Θ, 1 92CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES y además existe algún θ0 ∈ Θ tal que ¡ ¢ ¡ ¢ Eθ0 (V − θ0 )2 < Eθ0 (W − θ0 )2 . Es decir, un estimador W es inadmisible si existe otro estimador V que es al menos igual de bueno que W para todo posible valor del parámetro θ y lo supera cuando el valor concreto del parámetro es θ0 . Se dice también que V domina a W uniformemente en θ. Un estimador es admisible cuando no es inadmisible, es decir, cuando no existe otro que lo domine uniformemente en θ. Ejemplo 47 T es inadmisible S es admisible 1 1 0.9 0.9 0.8 0.8 0.7 0.7 T1 T 0.6 ECM ECM 0.6 0.5 0.5 0.4 0.4 0.3 0.3 T2 S 0.2 S 0.2 0.1 0.1 0 0 T3 no existe 0 0.2 0.4 θ 0.6 0.8 1 0 0.2 . 0.4 θ 0.6 . Ejemplo 48 Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana muestral Mn son estimadores insesgados de µ. Para n = 21, se tiene que Vµ (X) = 1/n = 0,048 < Vµ (Mn ) ≈ ,075, para todo µ. Por lo tanto, la mediana muestral es inadmisible como estimador de µ en el caso de normalidad. (Nota: Se ha usado la expresión asintótica para calcular 0.8 1 4.1. ERROR CUADRÁTICO MEDIO 93 la varianza de la mediana muestral; véase, por ejemplo, el teorema 7.25 de Schervish 1995 o el problema 10.10 en Rice 1995. Para la distribución exacta de la mediana muestral, véase la sección 5.5 de Casella-Berger). Se puede probar (se verá en el tema 7, sobre teorı́a de la decisión) que la media muestral es admisible. Esto no implica que no existan otros estimadores con menor error cuadrático medio que X en ciertas regiones del espacio paramétrico. Por ejemplo, si definimos W ≡ 3 (el estimador que siempre estima µ como 3, independientemente de la muestra observada), se tiene que ¢ ¡ Eµ (W − µ)2 = (3 − µ)2 . ¢ ¡ Como Eµ (X − µ)2 = 1/n, para todo µ, se tiene que W es preferible a X para los valores de µ que cumplen 1 1 1 ⇐⇒ 3 − √ < µ < 3 + √ . n n n √ √ Fuera del intervalo [3 + (1/ n), 3 − (1/ n)] es preferible X. Por lo tanto, ninguno de estos dos estimadores domina uniformemente al otro. . . (3 − µ)2 < Si W1 y W2 son dos estimadores insesgados de θ, se define la eficiencia relativa de W1 respecto a W2 como RE(θ, W1 , W2 ) = Vθ (W2 ) = Vθ (W1 ) 1 Vθ (W1 ) 1 Vθ (W2 ) . Ası́, RE(θ, W1 , W2 ) > 1 si y sólo si Vθ (W2 ) > Vθ (W1 ), si y sólo si W1 usa los datos de modo más eficiente que W2 . Ejemplo 49 Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a la media muestral X para estimar el parámetro de centralidad µ de cuatro distribuciones simétricas (el parámetro de centralidad es la mediana poblacional y coincide con la esperanza cuando ésta existe). Se ofrecen los resultados en función del tamaño muestral n. Los valores de la varianza de la mediana son aproximados y se han calculado mediante la fórmula V (Mn ) ≈ Normal estándar Logı́stica (β = 1) Doble exponencial (λ = 1) Cauchy estándar 1 4f 2 (µ) V (X) 1/n π 2 /(3n) 2/n ∞ . V (Mn ) π/(2n) 4/n 1/n π 2 /(4n) RE(θ, Mn , X) 2/π = 0,64 π 2 /12 = 0,82 2 ∞ 94CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Se concluye que la media muestral es más eficiente que la mediana en las leyes normal y logı́stica, y lo es menos en la doble exponencial y la Cauchy. . . 4.2. Mejor estimador insesgado Acabamos de ver que la comparación de estimadores basada en error cuadrático medio puede llevar a conclusiones poco razonables (por ejemplo, no podemos desechar el estimador constante W ≡ 3 porque ése es el mejor estimador en el caso de que el parámetro sea igual a 3) o a la imposibilidad de elegir un único estimador (el estimador W ≡ 3 es insuperable si θ = 3 pero también lo es W ≡ 4 cuando θ = 4). Estos problemas surgen del hecho de que estamos comparando todos los estimadores posibles de un parámetro: hay estimadores cuya definición está alejada de toda lógica pero que en determinadas situaciones muy concretas dan resultados sensatos. Por lo tanto, para que el criterio de comparación de estimadores mediante su error cuadrático medio dé lugar a la recomendación de un único estimador, preferible a los demás, debemos limitar el conjunto de estimadores que se tienen en cuenta. Se debe exigir un mı́nimo de sensatez a un estimador antes de admitirlo para ser comparado con los restantes estimadores. Una forma de restringir la clase de estimadores es exigir que sean insesgados. Veremos que si nos restringimos a esta clase de estimadores sı́ llegaremos a resultados satisfactorios a partir de la comparación de su error cuadrático medio, que para estos estimadores coincide con su varianza. Se trata de elegir el estimador insesgado del parámetro θ que tenga la varianza más pequeña. Además, se caracterizará el mejor estimador insesgado (el de menor varianza). Dada una transformación τ del parámetro θ, restringimos la clase de estimadores considerados a Cτ = {W : Eθ (W ) = τ (θ)}, la clase de estimadores insesgados de τ (θ). Dado W ∈ Cτ , ¡ ¢ Eθ (W − τ (θ))2 = Vθ (W ) y la comparación de estimadores con el criterio del error cuadrático medio se reduce a la comparación de sus varianzas. Diremos que un estimador W ∗ es el mejor estimador insesgado de τ (θ), o el UMVUE (estimador insesgado de τ (θ) uniformemente de mı́nima varianza), si Eθ (W ∗ ) = τ (θ) para todo θ ∈ Θ y si para cualquier otro estimador W , tal que Eθ (W ) = τ (θ) para todo θ ∈ Θ, se tiene que Vθ (W ∗ ) ≤ Vθ (W ), para todo θ ∈ Θ. 4.2. MEJOR ESTIMADOR INSESGADO 95 Ejemplo 50 Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) = λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos cuál de ellos es mejor, en el sentido de tener menor varianza. La varianza de X es V (X) = V (X) λ = . n n Para determinar la varianza de S 2 los cálculos son algo más tediosos. En general, si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar que (ver problema 3 del Capı́tulo 1) µ ¶ 1 n−3 2 2 V (S ) = θ4 − θ . n n−1 2 Concretaremos este resultado para el caso de la distribución de Poisson. Se tiene que θ1 = θ2 = λ. Calculemos θ3 y θ4 . En primer lugar, E(X 3 ) = ∞ X ∞ k 3 e−λ k=1 k=0 λ ∞ X (h + 1)2 e−λ h=0 X λk λk = k 2 e−λ = k! (k − 1)! λh = λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) = h! λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ. Ası́, θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) = λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ. Calculemos E(X 4 ): E(X 4 ) = ∞ X k 4 e−λ k=0 λ ∞ X (h + 1)3 e−λ h=0 λk = k! λh = λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) = h! λ(λ3 + 3λ2 + λ + 3(λ + λ2 ) + 3λ + 1) = λ(λ3 + 6λ2 + 7λ + 1) = λ4 + 6λ3 + 7λ2 + λ Ası́, θ4 = E((X − λ)4 ) = E(X 4 ) − 4λE(X 3 ) + 6λ2 E(X 2 ) − 4λ3 E(X) + λ4 = λ4 + 6λ3 + 7λ2 + λ − 4λ(λ3 + 3λ2 + λ) + 6λ2 (λ + λ2 ) − 3λ4 = 3λ2 + λ. Por tanto, 1 V (S ) = n 2 µ ¶ µ ¶ n−3 2 1 n−3 2 2 θ4 − θ = 3λ + λ − λ = n−1 2 n n−1 96CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES λ 2λ2 λ + > = V (X) si n ≥ 2. n n−1 n Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a S2. . . En el ejemplo anterior sólo hemos comparado dos estimadores insesgados entre sı́. Ahora estudiaremos toda una clase de estimadores insesgados, aunque esta familia no incluye a todos los estimadores insesgados. Ejemplo 50, página 95. Continuación. Consideremos la clase de estimadores Wa = aX + (1 − a)S 2 , con a ∈ IR. Se tiene que para toda a, Eλ (Wa ) = aλ + (1 − a)λ = λ, luego ésta es una clase de estimadores insesgados para λ. Si buscamos el mejor de todos estos estimadores podrı́amos llegar a la conclusión de que existe un a∗ tal que Wa∗ es el mejor estimador insesgado de λ entre aquellos que tienen la forma Wa . Las expresiones de Cov(X, S 2 ) halladas en el problema 3 del Capı́tulo 1 resultan útiles para el cálculo de Vλ (Wa ). Esto no proporcionará una respuesta global a la pregunta de cuál de todos los estimadores insesgados de λ es el que menor varianza tiene. . . 4.2.1. Teorema de Cramér-Rao. Información de Fisher El último ejemplo muestra que la búsqueda del UMVUE no debe consistir en repasar todos los estimadores insesgados posibles. El siguiente resultado aborda el problema de un modo diferente: establece una cota inferior para la varianza de todos los estimadores insesgados de un parámetro. Ası́, si encontramos un estimador insesgado cuya varianza iguale esa cota podremos concluir que ese estimador es el UMVUE. Teorema 25 (Teorema de Cramér-Rao.) Sea X = (X1 , . . . , Xn ) una vae riable aleatoria n-dimensional con función de densidad conjunta f ( x |θ), θ ∈ e Θ ⊆ IR. Sea W ( X ) un estimador insesgado para τ (θ), es decir, Eθ (W ( X )) = e e τ (θ) para todo θ, donde τ es una función de θ que cumple H1: τ (θ) es diferenciable en θ. Se supone además que la verosimilitud conjunta f ( x |θ) verifica e 4.2. MEJOR ESTIMADOR INSESGADO 97 H2: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que e e · ¸ Z Z Z Z d ∂ · · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn . dθ e e e ∂θ e Entonces, ¡ Vθ (W ( X )) ≥ e ·³ Eθ ∂ ∂θ ¢2 d dθ τ (θ) ´2 ¸ . log f ( X |θ) e A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota de Cramér-Rao. Demostración: Se basa en la desigualdad de Cauchy-Schwarz, que expresada en términos estadı́sticos establece que para cualquier par de variables aleatorias X e Y definidas sobre el mismo espacio muestral, se tiene que 2 (Corr(X, Y )) ≤ 1, o equivalentemente, que dada la variable aleatoria X, V (X) ≥ (Cov(X, Y )) V (Y ) 2 para toda variable aleatoria Y . La demostración del teorema es inmediata poniendo W ( X ) en el papel de e la variable aleatoria X anterior, haciendo Y = ∂ log f ( X |θ), ∂θ e y viendo que se verifican A y B: A. µ V B. "µ ¶ ¶2 # ∂ ∂ log f ( X |θ) = Eθ log f ( X |θ) . ∂θ ∂θ e e µ ¶ ∂ d Cov W ( X ), log f ( X |θ) = τ (θ). ∂θ dθ e e Probemos A. Para ello hay que demostrar que · ¸ ∂ Eθ log f ( X |θ) = 0. ∂θ e En efecto, · Eθ " ∂ # ¸ ∂ ∂θ f ( X |θ) e log f ( X |θ) = Eθ = ∂θ e f ( X |θ) e 98CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Z Z ∂ ∂θ f ( x |θ) e f ( x |θ)dx1 . . . dxn = e f ( x |θ) e Z Z (H2,h( x )=1) ∂ f ( x |θ)dx1 . . . dxn =e ··· ∂θ e Z Z d d · · · f ( x |θ)dx1 . . . dxn = 1 = 0. dθ dθ e{z | } ··· =1 Veamos ahora que también es cierto B: ¶ ¸ µ · ∂ ∂ log f ( X |θ) = Eθ W ( X ) log f ( X |θ) = Cov W ( X ), e ∂θ e e ∂θ e " # ∂ ∂θ f ( X |θ) e Eθ W ( X ) = e f ( X |θ) e Z Z H2,h( x )=W ( x ) ∂ e= e · · · W ( x ) f ( x |θ)dx1 . . . dxn e ∂θ e Z Z d d · · · W ( x )f ( x |θ)dx1 . . . dxn = τ (θ). dθ dθ e {z e | } =Eθ (W ( X ))=τ (θ) e 2 Nota: El teorema de Cramér-Rao es igualmente válido en el caso discreto. En este caso la hipótesis H2 afirma que pueden intercambiarse el sumatorio y la diferenciación. Un estimador insesgado para τ (θ) se denomina eficiente si su varianza es la mı́nima posible, es decir, si es igual a la cota de Cramér-Rao. La eficiencia de un estimador insesgado se define como el cociente entre la cota de Cramér-Rao y su varianza. Es un valor menor o igual que 1 si se dan las hipótesis del teorema de Cramér-Rao. A esa cantidad también se la llama eficiencia de Bahadur del estimador. La eficiencia relativa entre dos estimadores insesgados es el inverso del cociente de sus varianzas, como ya se definió anteriormente. A la derivada parcial del logaritmo de la verosimilitad L(θ| x ) = f ( x |θ) e e respecto al parámetro se le llama también función score: ∂ S(θ| x ) = log L(θ| x ). ∂θ e e En la demostración del teorema de Cramér-Rao se ha probado que Eθ (S(θ| X )) = 0. e Obsérvese que para obtener el estimador máximo verosı́mil de θ lo que se hace es resolver la ecuación S(θ| x ) = 0, e 4.2. MEJOR ESTIMADOR INSESGADO 99 lo que equivale a buscar el valor de θ para el cual el valor de S(θ| x ) coincide e con su valor esperado. Cuando se aplica a las familias exponenciales el resultado general que dice que la esperanza de la función score es cero, se obtiene el siguiente resultado (ver también el problema 11 del Capı́tulo 1): Corolario 2 Sea X una variable aleatoria perteneciente a la familia exponencial parametrizada en forma natural con parámetro η ∈ IR: f (x|θ) = h(x)c(η) exp (ηt(x)) para ciertas funciones h, c y t. Entonces Eη (t(X)) = − d log c(η). dη Si X1 , . . . , Xn es muestra aleatoria simple de X y se define el estadı́stico T (X1 , . . . , Xn ) = n X t(Xi ) i=1 entonces d Eη (T ( X )) = −n log c(η). dη e Demostración: El resultado sobre T ( X ) es trivial a partir del resultado sobre e t(X). El logaritmo la verosimilitud de x es l (θ|x) = log f (x|θ) = log h(x) + log c(η) + ηt(x) y la función score S(θ|x) = ∂ d l (θ|x) = log c(η) + t(x). ∂η dη Como Eη (S(θ|X)) = 0, se sigue el resultado del corolario. 2 A la cantidad que aparece en el denominador de la cota de Cramér-Rao se le denomina cantidad de información de Fisher que sobre θ contiene el vector X : e "µ ¶2 # µ ¶ ∂ ∂ log f ( X |θ) =V log f ( X |θ) = V (S(θ| X )). I (θ) = Eθ X e X e X ∂θ ∂θ e e e e Se denomina cantidad de información de Fisher que sobre θ contiene la variable Xi a "µ ¶2 # ¶ µ ∂ ∂ IXi (θ) = Eθ log fXi (X|θ) log fXi (X|θ) = V (S(θ|Xi )). =V ∂θ ∂θ 100CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Cuando X = (X1 , . . . , Xn ) es una muestra aleatoria simple de X se verifica que e la información de Fisher contenida en la muestra es la suma de las informaciones contenidas en cada una de las observaciones y, dado que éstas son idénticamente distribuidas, se tiene que I (θ) = nIX1 (θ). X e Este resultado es consecuencia del siguiente corolario del teorema de CramérRao: Corolario 3 Bajo las hipótesis del teorema de Cramér-Rao, si X = (X1 , . . . , Xn ) e es una muestra aleatoria simple de X con distribución dada por f (x|θ) entonces "µ "µ ¶2 # ¶2 # ∂ ∂ Eθ log f ( X |θ) = nEθ log fX (X|θ) . X e ∂θ ∂θ e Demostración: Por independencia, la verosimilitud de X es el producto de e verosimilitudes, luego n n X ∂ ∂ X ∂ log f ( x |θ) = log fX (xi |θ) = log fXi (xi |θ). X e ∂θ ∂θ i=1 ∂θ i=1 e Por lo tanto, à !2 ¶2 # n X ∂ ∂ Eθ = Eθ log f ( X |θ) log fXi (Xi |θ) = X e ∂θ ∂θ i=1 e " "µ µ ¶2 # X ¶2 # n X ∂ ∂ ∂ Eθ + Eθ . log fXi (Xi |θ) log fXi (Xi |θ) log fXj (Xj |θ) ∂θ ∂θ ∂θ i=1 "µ i6=j Pero el segundo sumatorio es igual a cero debido a la independencia entre Xi y Xj y dado que las funciones score tienen esperanza 0, según se vio en la demostración del teorema de Cramér-Rao. Una demostración alternativa de este resultado se basa en la expresión de la información de Fisher como varianza de los scores: à n ! µ ¶ X ∂ ∂ V log f ( X |θ) = V log fXi (Xi |θ) X e ∂θ ∂θ i=1 e que por independencia es igual a la suma de las varianzas: µ ¶ ∂ nV log fX (X|θ) . ∂θ 2 El siguiente resultado facilita a veces el cálculo de la cota de Cramér-Rao. Lema 5 Si la función de verosimilitud satisface 4.2. MEJOR ESTIMADOR INSESGADO 101 H3: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que e e · 2 ¸ Z Z Z 2 Z ∂ ∂ · · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn . ∂θ2 e e e ∂θ2 e Entonces, "µ IX (θ) = Eθ ¶2 # · 2 ¸ ∂ ∂ log fX (X|θ) = −Eθ log f (X|θ) . X ∂θ ∂θ2 Demostración: ∂ ∂2 log fX (x|θ) = ∂θ2 ∂θ −1 2 (x|θ) fX µ · ¸ 1 ∂ fX (x|θ) = fX (x|θ) ∂θ ¶2 ∂ 1 ∂2 fX (x|θ) + fX (x|θ). ∂θ fX (x|θ) ∂θ2 Por otro lado, · ¸ Z 2 Z 1 ∂2 ∂2 H3 d Eθ f (X|θ) = f (x|θ)dx = = fX (x|θ)dx = 0. X X fX (X|θ) ∂θ2 ∂θ2 dθ2 Ası́ pues, · Eθ " ¸ µ ¶2 # ∂2 ∂ 1 log fX (X|θ) = −Eθ fX (X|θ) = 2 (X|θ) ∂θ2 fX ∂θ "µ −Eθ ¶2 # ∂ = −IX (θ) log fX (X|θ) ∂θ 2 Nota 1. Cuando este lema se aplica a la información de Fisher contenida en una muestra, se tiene que · 2 ¸ · 2 ¸ ∂ ∂ I (θ) = −Eθ log f ( X |θ) = −nE log f (X|θ) = nIX (θ). X θ X X ∂θ2 ∂θ2 e e Nota 2. Las familias exponenciales satisfacen la hipótesis H3. Ejemplo 51 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası́, E(X) = λ. Consideramos τ (λ) = λ, luego τ 0 (λ) = 1. Por lo tanto, à !2 · 2 ¸ n Y ∂ ∂ log f (Xi |λ) = −nEλ log f (X|λ) = Eλ ∂λ ∂λ2 i=1 102CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES · −nEλ ∂2 log ∂λ2 µ e−λ λX X! ¶¸ · ¸ ∂2 = −nEλ (−λ + X log λ − log X!) = ∂λ2 · ¸ X n −nEλ − 2 = . λ λ Por lo tanto, para cualquier W , estimador insesgado de λ, se tendrá que Vλ (W ) ≥ 1 λ = . n/λ n Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n. Se deduce de ahı́ que la media muestral es el mejor estimador insesgado (UMVUE) de λ. . . Ejemplo 52 No siempre es posible intercambiar los signos de la integral y de la derivada. Veamos un ejemplo. Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). Ası́, f (x|θ) = 1/θ, si 0 < x < θ, y de ahı́, ¸ · ∂ 1 1 ∂ 2 log f (x|θ) = − =⇒ Eθ ( log f (X|θ)) = 2 . ∂θ θ ∂θ θ Si la cota de Cramér-Rao es aplicable, ésta dice que para cualquier W , estimador insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n. Sin embargo, es posible encontrar un estimador insesgado de θ con varianza menor que θ2 /n. En efecto, sea Y = máxi Xi . Su función de densidad es fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası́, W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza: " µ ¶2 # (n + 1)2 (n + 1)2 n 2 Vθ (W ) = Vθ (Y ) = Eθ (Y ) − θ = n2 n2 n+1 (n + 1)2 n2 " n 2 θ − n+2 µ n n+1 ¶2 # θ2 = (n + 1)2 n 2 θ − θ2 = n2 n+2 (n + 1)2 − n(n + 2) 2 1 1 θ = θ2 < θ2 . n(n + 2) n(n + 2) n La contradicción proviene de que Z θ Z θ d ∂ h(x)f (x|θ)dx 6= h(x) f (x|θ)dx. dθ 0 ∂θ 0 y por lo tanto el teorema de Cramér-Rao no es aplicable. . . 4.2. MEJOR ESTIMADOR INSESGADO 103 En general, el teorema de Cramér-Rao no es aplicable si el soporte de f (x|θ) depende del parámetro θ debido a que la derivada y la integral no son intercambiables si los lı́mites de integración dependen de θ. Véase, por ejemplo en la sección 2.4 del Casella-Berger, la fórmula de Leibnitz que permite calcular derivadas de integrales en las que los lı́mites de integración dependen de la variable respecto a la cuál se deriva. Ahı́ se dan también resultados sobre condiciones que permiten intercambiar los signos de integración y derivación. Aunque el teorema de Cramér-Rao pueda ser aplicado y la cota de CramérRao sea efectiva, no hay garantı́as de que esta cota sea alcanzada por algún estimador insesgado del parámetro. En los casos en los que no se encuentra un estimador insesgado que alcance la cota de Cramér-Rao, el problema es decidir si dado un estimador insesgado éste es ya el mejor posible. Ejemplo 53 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con e ambos parámetros desconocidos. Consideramos el problema de estimar σ 2 . La distribución normal satisface las hipótesis del teorema de Cramér-Rao. Calculamos la cota de Cramér-Rao: · ¸ ∂2 IX (σ 2 ) = −E log f (x|θ) = ∂(σ 2 )2 · µ ¶¸ (x−µ)2 ∂2 1 − 2 2σ −E log e = ∂(σ 2 )2 (2πσ 2 )1/2 µ ¶¸ · 1 (x − µ)2 ∂2 2 log K − log σ − = −E ∂(σ 2 )2 2 2σ 2 · µ ¶¸ ∂ 1 (x − µ)2 −E − 2+ = ∂σ 2 2σ 2σ 4 ¸ · (x − µ)2 −1 σ2 1 1 −E − = + 6 = . 4 6 4 2σ σ 2σ σ 2σ 4 Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 = Pn e2 e i=1 (Xi − X) /(n − 1), ha de verificar 1 2σ 4 V (W ( X )) ≥ = . nIX (σ 2 ) n e En particular, S 2 no alcanza la cota de Cramér-Rao: V (S 2 ) = 2σ 4 2σ 4 > . n−1 n Surge la pregunta de si existe algún estimador insesgado de σ 2 que alcance la cota de Cramér-Rao. Si esto no ocurre queda abierta otra pregunta: ¿es S 2 el mejor estimador insesgado de σ 2 ? . . 104CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES El siguiente resultado ayuda a contestar la primera de las dos preguntas surgidas en el ejemplo anterior. Corolario 4 Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X con e distribución dada por f (x|θ), θ ∈ IR, donde f satisface las hipótesis del teorema Qn de Cramér-Rao. Sea L(θ| x ) = i=1 f (xi |θ) la función de verosimilitud. Sea e W ( X ) = W (X1 , . . . , Xn ) un estimador insesgado de τ (θ). e Entonces W ( X ) alcanza la cota de Cramér-Rao si y sólo si existe una fune ción a(θ) tal que se tiene la igualdad ∂ a(θ)(W ( x ) − τ (θ)) = log L(θ| x ) ∂θ e e para todo θ. que Además, esto ocurre si y sólo si existen funciones h(θ), k(θ) y u( x ) tales e L(θ| x ) = u( x )h(θ) exp(W ( x )k(θ)), e e e es decir, si y sólo si la distribución de partida pertenece a la familia exponencial. Demostración: En la demostración del teorema de Cramér-Rao se usa el hecho de que µ µ ¶¶2 ∂ Corr W ( X ), log L(θ| x ) ≤ 1, e ∂θ e para probar la desigualdad de Cramér-Rao que se dará con igualdad si y sólo si la correlación anterior es igual a 1 o -1, lo que equivale a decir que existe una relación lineal perfecta entre las dos variables, es decir, existen constantes a y b (que podrı́an depender del valor de θ) tales que ∂ log L(θ| x ) = aW ( X ) + b, con probabilidad 1, ∂θ e e luego, µ 0=E ∂ log L(θ| x ) ∂θ e ¶ = aE(W ( x )) + b = aτ (θ) + b, e de donde se sigue que b = −aτ (θ). Ası́, ³ ´ ∂ log L(θ| x ) = a W ( x ) − τ (θ) , con probabilidad 1. ∂θ e e Para probar la última parte del corolario, resolvemos la ecuación diferencial ∂ log L(θ| x ) = a(θ)(W ( x ) − τ (θ)) = a(θ)W ( x ) + b(θ). ∂θ e e e Existirán funciones A(θ) y B(θ) tales que A0 (θ) = a(θ) y B 0 (θ) = b(θ) y por lo tanto log L(θ| x ) = A(θ)W ( x )+B(θ)+C( x ) =⇒ L(θ| x ) = exp(A(θ)W ( x )+B(θ)+C( x )), e e e e e e 4.2. MEJOR ESTIMADOR INSESGADO 105 de donde se sigue el resultado buscado para h(θ) = exp(B(θ)), k(θ) = A(θ) y u( x ) = exp(C( x )). 2 e e Ejemplo 53, página 103. Continuación. La función de verosimilitud es Pn 1 −( (xi −µ)2 )/(2σ 2 ) i=1 L(µ, σ 2 | x ) = e 2 n/2 (2πσ ) e y la derivada respecto a σ 2 de su logaritmo es µ Pn ¶ ³ ´ 2 ∂ n 2 2 i=1 (xi − µ) −σ . log L(µ, σ | x ) = ∂σ 2 2σ 4 n e Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzarı́a la cota de Cramér-Rao serı́a n 1X W(X ) = (xi − µ)2 n i=1 e que es calculable si y sólo si µ es conocido. Por lo tanto, si µ es desconocido la cota de Cramér-Rao en la estimación de σ 2 no es alcanzable. Como ya dijimos antes, queda abierta la cuestión de saber si S 2 es el mejor estimador insesgado de σ 2 . A esto se dará respuesta más adelante, en la sección 4.2.3. . . 4.2.2. Versión multivariante del teorema de Cramér-Rao. Consideramos ahora el problema de estimación en el caso de que la familia paramétrica de distribuciones venga dada por un parámetro multidimensional θ = (θ1 , . . . , θk ). En este contexto, la extensión natural de la información e de Fisher es la matriz de información de Fisher, definida como la matriz I( θ ) de dimensión k × k cuyo elemento (i, j) es e "à !à !# ∂ log f ( x | θ ) ∂ log f ( x | θ ) e e e e Iij = E . ∂θi ∂θj Si definimos S( X , θ ) = ∇ log f ( x | θ ), el vector de scores, es decir, el θ e e e e e vector gradiente del logaritmo de la función de verosimilitud (el vector columna de derivadas parciales respecto a θ1 , . . . , θk ) se tiene que la matriz de información de Fisher es I( θ ) = E[S( X , θ )S( X , θ )t ] = Cov(S( X , θ )). e e e e e e e También es cierto que si se verifican las hipótesis de regularidad H2 y H3, entonces I( θ ) = −E(H log f ( x | θ )) θ e e e e 106CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES donde H log f ( x | θ ) es la matriz hessiana de log f ( x | θ ): la matriz k × k θ e e e e e cuyo elemento (i, j) es ∂2 log f ( x | θ ). ∂θi θj2 e e Consideremos ahora una función univariante de θ : τ = τ ( θ ) = τ (θ1 , . . . , θk ). e e Sea ∇τ ( θ ) el gradiente de τ : e µ ¶t ∂ ∂ ∇τ (θ) = τ( θ ) . τ ( θ ), . . . , ∂θ1 e ∂θk e El siguiente resultado es la versión del teorema de Cramér-Rao aplicable en este contexto. Teorema 26 Sea W ( X ) un estimador insesgado de una transformación unie variante τ ( θ ) del parámetro k-dimensional θ . Si se dan las condiciones de e e regularidad H1 , H2 y H3 , entonces −1 V (W ( X )) ≥ (∇τ (θ))t I( θ ) (∇τ (θ)), e e con igualdad si y sólo si existe una función a( θ ) univariante tal que e t a( θ )(W ( X ) − τ ( θ )) = (∇τ ( θ )) (I( θ ))−1 S( X , θ ). e e e e e e e Demostración: Ver, por ejemplo, Arnold (1990), sección 7.3.2, o Vélez y Garcı́a (1993), páginas 233 y siguientes, para una extensión de este teorema en la que se estima una función τ r-dimensional. 2 Ejemplo 54 Sea θ̂i un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos e por I ij al elemento (i, j) de (I( θ ))−1 . Según el teorema anterior, será e V (θ̂i ) ≥ I ii . El teorema de Cramér-Rao univariante nos decı́a que V (θ̂i ) ≥ Iii−1 . Sabemos que en general se cumple que I ii ≥ Iii−1 , con igualdad si y sólo si la matriz I( θ ) es diagonal. (Véase, por ejemplo, Vélez e y Garcı́a 1993, p. 235). Por lo tanto la versión multivariante del teorema de Cramér-Rao mejora la cota de Cramér-Rao univariante. Se puede probar también que si c θ es un estimador insesgado de θ entonces e e ˆ −1 Cov( θ ) − I( θ ) es una matriz definida positiva. e e . . 4.2. MEJOR ESTIMADOR INSESGADO 107 Ejemplo 55 Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n y que θ1 + θ2 + θ3 = 1, luego hay dos parámetros efectivos, θ1 y θ2 por ejemplo, pues θ3 = 1 − θ1 − θ2 . La función de verosimilitud es ésta: L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) = n! θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 . x1 !x2 !x3 ! 1 2 | {z } K Su logaritmo es log L = log K + x1 log θ1 + x2 log θ2 + (n − x1 − x2 ) log(1 − θ1 − θ2 ). Calculamos el vector de scores y la matriz hessiana: Sj = Hjj = ∂ xj n − x1 − x2 log L = − , j = 1, 2. ∂θj θj 1 − θ1 − θ2 −xj n − x1 − x2 ∂2 log L = 2 − , j = 1, 2. ∂θj2 θj (1 − θ1 − θ2 )2 n − x1 − x2 ∂2 log L = − . ∂θj (1 − θ1 − θ2 )2 H12 = Ası́, la matriz de información de Fisher es à −X ! n−X1 −X2 n−X1 −X2 1 − (1−θ − (1−θ 2 2 θ12 1 −θ2 ) 1 −θ2 ) I(θ1 , θ2 ) = −E(H) = −E = n−X1 −X2 −X2 n−X1 −X2 − (1−θ − (1−θ 2 2 θ22 1 −θ2 ) 1 −θ2 ) à ! n n n + θ1 1−θ1−th2 1−θ1−th2 n n n 1−θ1−th2 θ2 + 1−θ1−th2 Ası́, à −1 I(θ1 , θ2 ) = θ1 (1−θ1 ) n θ1 θ2 n θ1 θ2 n θ2 (1−θ2 ) n ! . Por el teorema de Cramér-Rao multivariante, θ1 (1 − θ1 )/n es la cota para la varianza de cualquier estimador insesgado de θ1 . Si tomamos θ̂1 = X1 /n, tendremos un estimador insesgado cuya varianza es V (θ̂1 ) = θ1 (1 − θ2 )/n. Por lo tanto θ̂1 es eficiente. Si hacemos sólo el estudio univariante de la cota de Cramér-Rao para esti−1 madores de θ, tendremos que esa cota es I11 : µ ¶−1 1 1 1 θ1 (1 − θ1 − θ2 ) θ1 (1 − θ1 ) −1 I11 = + = ≤ = I 11 . n θ1 1 − θ1 − θ2 (1 − θ2 )n n La cota de Cramér-Rao multivariante es más precisa que la cota de Cramér-Rao univariante, en el sentido de que es una cota inferior mayor. . . 108CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES 4.2.3. Teorema de Rao-Blackwell. Teorema de LehmannScheffé En esta sección veremos qué papel juegan los estadı́sticos suficientes en la búsqueda del mejor estimador insesgado de un parámetro. En muchos casos los resultados que veremos aquı́ permiten escoger un estimador insesgado y garantizar que es el mejor posible aunque su varianza no alcance la cota de Cramér-Rao. Teorema 27 (Teorema de Rao-Blackwell) Sea X1 , . . . , Xn una m.a.s. de X, con densidad (o masa de probabilidad) f (x|θ). Sea T ( X ) un estadı́stico e suficiente para θ y sea W ( X ) un estimador insesgado de τ (θ). Definimos e WT = Eθ (W |T ). Entonces, i. WT es función únicamente de T ( X ) (es decir, no depende de θ y depende e de la muestra X sólo a través del valor de T ( X )). e e ii. Eθ (WT ) = τ (θ). iii. Vθ (WT ) ≤ Vθ (W ) para todo θ ∈ Θ. Demostración: i. Como T es suficiente para θ la distribución de X condicionada a T no e depende del parámetro θ. Por lo tanto, la distribución condicionada de W ( X ) dado T ( X ) tampoco depende de θ. Por otra parte, E(W |T ) es e e función de T . ii. Por la ley de la esperanza iterada, Eθ (WT ) = Eθ (E(W |T )) = Eθ (W ) = τ (θ). iii. Por la ley de la esperanza iterada, Vθ (W ) = Vθ (E(W |T ))+Eθ (Vθ (W |T )) = Vθ (WT )+Eθ (Vθ (W |T )) ≥ Vθ (WT ). 2 La consecuencia fundamental de este teorema es que en la búsqueda del estimador UMVUE, basta con restringirnos a aquellos estimadores insesgados que son función de un estadı́stico suficiente: si trabajamos con un estadı́stico insesgado que no es función de uno suficiente, tomando esperanzas condicionadas podemos conseguir otro que es al menos tan bueno como el anterior y es función del estadı́stico suficiente. Este proceso se llama a veces Rao-Blackwellización. 4.2. MEJOR ESTIMADOR INSESGADO 109 Ejemplo 56 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Pn Sabemos que T ( X ) = i=1 Xi es estadı́stico suficiente para λ. Observemos e además que P (X1 = 0) = e−λ y por tanto el estimador W ( X ) = I{X1 = 0} es e un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo Pn n X P (X1 = 0, i=1 Xi = t) Pn θ̂ = E(W ( X )|T ( X ) = t) = P (X1 = 0| = Xi = t) = P ( i=1 Xi = t) e e i=1 Pn Pn P (X1 = 0, i=2 Xi = t) P (X1 = 0)P ( i=2 Xi = t) Pn Pn = = P ( i=1 Xi = t) P ( i=1 Xi = t) Pn (recordar que i=1 Xi ∼ Poisson(nλ)) µ t e−λ e−(n−1)λ [(n−1)λ] t! e−nλ [nλ] t! Por lo tanto µ θ̂ = t n−1 n = ¶Pn i=1 n−1 n ¶t . Xi es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} . e . . El siguiente resultado es consecuencia del teorema de Rao-Blackwell y garantiza la unicidad del estimador UMVUE en caso de que éste exista. Teorema 28 Si W es el mejor estimador insesgado de τ (θ) (es el UMVUE) y su varianza es finita, entonces W es único. Demostración: Supongamos que existe otro estimador W0 insesgado que tiene también varianza mı́nima. Entonces ha de ser igual a la de W : Vθ (W ) = Vθ (W0 ), para todo θ (observar que esta varianza mı́nima no tiene por qué coincidir con la cota de Cramér-Rao). Definimos W ∗ = (W +W0 )/2, que es también estimador insesgado de τ (θ). Calculemos su varianza: 1 1 1 V (W ) + V (W0 ) + Cov(W, W0 ) ≤ 4 4 2 ¶ µ 1 1 1p 1 1 1 V (W ) + V (W0 ) + + + V (W ) = V (W ). V (W )V (W0 ) = 4 4 2 4 4 2 V (W ∗ ) = La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE. Pero la igualdad se da si y sólo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y sólo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso, E(W0 ) = a(θ)τ (θ) + b(θ) = τ (θ) 110CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Por otra parte, V (W ) = p V (W )V (W0 ) = Cov(W, W0 ) = Cov(W, a(θ)W + b(θ)) = Cov(W, a(θ)W ) = a(θ)V (W ), de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que b(θ) = 0, luego W = W0 . 2 Nos planteamos ahora estudiar cuándo es posible mejorar un estimador que ya es insesgado. Ello nos ayudará a saber si un estimador insesgado es el mejor: como mı́nimo debemos estar seguros de que no puede ser mejorado. Sea U un estadı́stico tal que Eθ (U ) = 0 para todo θ. Diremos que U es un estimador insesgado de 0, o que U es un ruido blanco. Consideremos además W un estimador insesgado de τ (θ). Definimos ahora WU = W + aU , que es también un estimador insesgado de τ (θ). Calculemos su varianza: Vθ (WU ) = Vθ (W + aU ) = Vθ (W ) + a2 Vθ (U ) + 2aCovθ (W, U ). Intentaremos elegir a de forma que WU sea mejor que W al menos para algún valor del parámetro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir 0<a<− 2Covθ0 (W, U ) . Vθ0 (U ) De esta manera Vθ0 (WU ) < Vθ0 (W ) lo cuál implica que W no puede ser el mejor estimador insesgado (UMVUE) de τ (θ). Del mismo modo puede procederse si Covθ0 (W, U ) > 0 para algún valor θ0 del parámetro. El siguiente resultado establece que las covarianzas de los estimadores insesgado con los estimadores insesgados de 0 caracterizan los mejores estimadores insesgados. Teorema 29 Sea W estimador insesgado de τ (θ) para todo θ. W es el mejor estimador insesgado de τ (θ) (UMVUE) si y sólo si W está incorrelacionado con todos los estimadores insesgados de 0, para todo θ. Demostración: Sea W1 estimador insesgado de τ (θ) incorrelacionado con los estimadores insesgados de 0. Sea W2 otro estimador insesgado de τ (θ). Entonces W2 − W1 es estimador insesgado de 0. Escribimos W2 = W1 + (W2 − W1 ). Ası́, Vθ (W2 ) = Vθ (W1 ) + 2 Covθ (W1 , W2 − W1 ) +Vθ (W2 − W1 ) ≥ Vθ (W1 ). | {z } =0 Por lo tanto W1 es UMVUE. 4.2. MEJOR ESTIMADOR INSESGADO 111 El recı́proco se prueba por reducción al absurdo siguiendo el argumento desarrollado antes del enunciado del teorema: si W es UMVUE y existiese U , un estimador insesgado del 0 con Covθ0 (W, U ) 6= 0 entonces serı́a posible mejorar a W en θ0 , lo cuál contradice el hecho de que W1 es UMVUE. 2 Los estimadores insesgados de 0 son simplemente ruidos que no aportan información alguna sobre el parámetro. Es razonable pensar que un buen estimador de τ (θ) no pueda ser mejorado añadiéndole uno de estos ruidos. En la definición de estadı́sticos completos aparece también el concepto de estimador insesgado de 0. Se dice que la familia de distribuciones {fT (t|θ), θ ∈ Θ} de un estadı́stico T es completa si se verifica la siguiente implicación: si Eθ (g(T )) = 0 para todo θ ∈ Θ entonces Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ. Es decir, el estadı́stico T es completo si la única función suya que es estimador insesgado de 0 es precisamente la función idénticamente 0. El teorema de Rao-Blackwell establece que basta con buscar el estimador UMVUE entre aquellos estimadores que son función de un estadı́stico suficiente. Si este estadı́stico suficiente es además completo se tiene que no habrá estimadores de 0 que sean función suya y, por tanto, no debemos esperar que un estimador sea mejorado al sumarle un estimador insesgado de 0 (pues éste no será función del estadı́stico suficiente). Bajo ciertas condiciones (existencia de estadı́sticos suficientes y completos y de estimadores insesgados), esta combinación de los conceptos de estadı́stico completo y de estadı́stico suficiente garantiza la existencia de estimadores UMVUE de una función τ (θ) del parámetro y da un método para construirlos. El siguiente teorema establece este resultado. Podemos decir que este teorema resuelve teóricamente el problema de la estimación puntual, entendida ésta como la búsqueda del UMVUE. Teorema 30 (Teorema de Lehmann-Scheffé) Si T ( X ) es un estadı́stico e suficiente y completo para θ y W ( X ) es un estimador insesgado cualquiera de e τ (θ), entonces WT ( X ) = Eθ (W |T ) e es el mejor estimador insesgado (UMVUE) de τ (θ). Si, además, V (WT ) < ∞ para todo θ, entonces WT es único. Demostración: Como ya se vio anteriormente, WT ( X ) es insesgado: por la e ley de la esperanza iterada, Eθ (WT ( X )) = Eθ (Eθ (W |T )) = Eθ (W ) = τ (θ). e Veamos ahora que sea cual sea el estimador insesgado W que se use en la definición de WT ( X ), se obtiene siempre el mismo estimador WT ( X ). Sea W 0 e e otro estimador insesgado de τ (θ) y sea WT0 = Eθ (W 0 |T ). Definimos g(T ) = Eθ (W |T ) − Eθ (W 0 |T ). Ası́, Eθ (g(T )) = τ (θ) − τ (θ) = 0 y por ser T completo 112CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con probabilidad 1. Concluimos que existe un único estimador insesgado de τ (θ) función del estadı́stico suficiente y completo. Veamos que este estimador es el UMVUE. Sea W 0 un estimador insesgado de τ (θ) cualquiera. Por el teorema de Rao-Blackwell, Vθ (E(W 0 |T )) ≤ Vθ (W 0 ), para todo θ, pero acabamos de ver que WT = E(W 0 |T ), luego Vθ (WT ) ≤ Vθ (W 0 ), para todo θ, y WT es UMVUE. La unicidad de WT está garantizada por el teorema 28. 2 La demostración del teorema de Lehmann-Scheffé se basa en el hecho de que, si existen estimadores insesgados, esencialmente sólo existe uno que sea función del estadı́stico suficiente y completo, pues condicionando cualquiera de los insesgados al estadı́stico suficiente y completo se obtiene siempre el mismo resultado. El teorema de Rao-Blackwell garantiza que al tomar esperanzas condicionadas se ha reducido la varianza, llegando ası́ al UMVUE. La principal conclusión del teorema de Lehmann-Scheffé es que si existe un estimador insesgado de τ (θ) que sea función de un estadı́stico suficiente y completo, entonces es el único UMVUE de τ (θ). El siguiente resultado se deriva trivialmente del teorema de Lehmann-Scheffé: Corolario 5 Si T ( X ) es un estadı́stico suficiente y completo, cualquier función e suya que tenga esperanza finita es el UMVUE de su esperanza. Ejemplo 56, página 109. Continuación. Sea X1 , . . . , Xn m.a.s. de X ∼ Pn Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Sabemos que T ( X ) = i=1 Xi e es estadı́stico suficiente para λ y además es completo, por ser la Poisson una familia exponencial. Hemos visto que µ ¶Pn Xi i=1 n−1 θ̂ = n es un estimador insesgado de θ. Como es una función del estadı́stico suficiente y completo, es el UMVUE de θ = e−λ . Veamos que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos. El corolario 4 nos permite probarlo. Puesto que X es eficiente para λ (ver ejemplo 50) por el corolario 4 sabemos que la derivada del logaritmo de la verosimilitud puede escribirse ası́: ∂ log L(λ| x ) = a(λ)(X − λ) ∂λ e 4.2. MEJOR ESTIMADOR INSESGADO 113 para todo λ y cierta función a(λ). Podemos transformar esa expresión ası́: ∂ log L(λ| x ) = (a(λ)λeλ ) ∂λ e µ e−λ X − e−λ λ ¶ de donde se deduce que no existe ningún estimador eficiente de e−λ puesto que −λ de haberlo tendrı́a que ser e λ X y esa cantidad no es un estadı́stico al depender del parámetro desconocido λ. Concluimos que θ̂ no alcanza la cota de CramérRao. . . Ejemplo 57 Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad de obtener exactamente un éxito, es decir, τ (θ) = Pθ (X = 1) = kθ(1 − θ)k−1 . El estadı́stico T = n X Xi ∼ B(nk, θ) i=1 es suficiente y completo para θ. El estimador W = I{X1 =1} es insesgado para τ (θ). Por lo tanto, el estimador " # à n ! n X X WT = E IX1 =1 | Xi = φ Xi i=1 i=1 es el mejor estimador insesgado de τ (θ) = P (X = 1). Calculemos WT : " # à ! n n X X φ(t) = E IX1 =1 | Xi = t = P X1 = 1| Xi = t = i=1 i=1 ¡ ¢ t−1 Pn θ (1 − θ)k(n−1)−(t−1) kθ(1 − θ)k−1 k(n−1) P (X1 = 1)P ( i=2 Xi = t − 1) t−1 Pn = = ¡kn¢ t kn−t P ( i=1 Xi = t) t θ (1 − θ) µ k ¡k(n−1)¢ t−1 ¡kn ¢ t . k =⇒ WT = k(n − 1) Pn i=1 Xi − 1 µ ¶ kn Pn i=1 Xi ¶ . . 114CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES El teorema de Lehmann-Scheffé resuelve el problema de la búsqueda del UMVUE cuando existen simultáneamente un estimador insesgado y un estadı́stico suficiente y completo. Sin embargo estas dos condiciones no siempre se cumplen. Es posible encontrar ejemplos en los que no existen estimadores insesgados del parámetro de interés (ver el ejemplo 2.16 de Garthwaite, Jollife y Jones 1995, donde se prueba que no existe estimador insesgado del cociente p/(1−p) –odds en inglés; podrı́a traducirse como ventajas, aunque no existe una traducción unánimemente aceptada– en un experimento binomial). Además, no está garantizada la existencia de estadı́sticos suficientes completos (ver el ejemplo 6.9 de Vélez y Garcı́a 1993, donde se prueba la imposibilidad de encontrar un estimador UMVUE en el muestreo de la U (θ, θ + 1), donde no existe un estadı́stico suficiente completo). En el caso de familias exponenciales el teorema 14 sı́ garantiza la existencia de estadı́sticos suficientes y completos. Incluso en el caso de que exista un estimador insesgado y un estadı́stico suficiente y completo, la aplicación del teorema de Lehmann-Scheffé puede dar lugar a un estimador UMVUE poco sensato. Ası́, Cristóbal (1992) (p. 202) cita el siguiente ejemplo. En el muestreo de la N (µ, 1), el UMVUE de µ2 es (X)2 − (1/n), que no es un estimador recomendable pues puede tomar valores negativos. Además el estimador máx{0, (X)2 − (1/n)} tiene menor error cuadrático medio, lo cuál hace inadmisible al estimador UMVUE. Véanse también los ejemplos 2.17 de Garthwaite, Jollife y Jones (1995) y 5.7 de Schervish (1995). La existencia de estos ejemplos patológicos se debe a que la condición de insesgadez puede ser en ocasiones muy restrictiva y obliga a seleccionar únicamente estimadores con propiedades poco deseables. Pagar el precio de cierto sesgo puede permitir considerar otros estimadores con mejores propiedades (en términos de error cuadrático medio, por ejemplo, o en comportamiento asintótico). 4.3. 4.3.1. Comportamiento asintótico Consistencia Una sucesión de estimadores Wn = Wn (X1 , . . . , Xn ) es una sucesión de estimadores consistentes para el parámetro θ si para cada ε > 0 y para cada θ ∈ Θ, se tiene que lı́m Pθ (|Wn − θ| < ε) = 1, n−→∞ o equivalentemente, si lı́m Wn = θ en probabilidad para todo θ ∈ Θ. n−→∞ Obsérvese que en esta definición las distribuciones de probabilidad de las sucesiones de variables aleatorias {Wn }n varı́an con θ. 4.3. COMPORTAMIENTO ASINTÓTICO 115 La propiedad de consistencia es un requerimiento mı́nimo que debe verificar cualquier sucesión de estimadores, puesto que equivale a pedir que el parámetro pueda estimarse con una precisión prefijada a base de aumentar el tamaño muestral tanto como sea necesario. El siguiente resultado establece una condición suficiente para que una sucesión de estimadores sea consistente. Denotamos por B(W ) el sesgo de un estimador W de θ: B(W ) = E(W ) − θ. Teorema 31 Si la sucesión Wn de estimadores de θ verifica que a) lı́mn−→∞ Vθ (Wn ) = 0 para todo θ, b) lı́mn−→∞ Bθ (Wn ) = 0 para todo θ, entonces Wn es una sucesión de estimadores consistentes de θ. Demostración: Obsérvese que Eθ ((Wn − θ)2 ) = Vθ (Wn ) + Bθ2 (Wn ). Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0 y todo θ ∈ Θ, Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤ Eθ ((Wn − θ)2 ) = ε2 1 (Vθ (Wn ) + Bθ2 (Wn )) −→n 0, ε2 lo que equivale a decir que lı́m Pθ (|Wn − θ| < ε) = 1. n−→∞ 2 Los siguientes resultados se derivan de propiedades de la convergencia en probabilidad de variables aleatorias y son útiles para determinar la consistencia de transformaciones de estimadores consistentes. Teorema 32 Sea {Wn }n una sucesión consistente para θ. 1. Si {an }n y {bn }n son sucesiones de números reales tales que lı́mn an = 1 y lı́mn bn = 0, entonces, {an Wn + bn }n es consistente para θ. 2. Si g es una función continua definida en Θ, entonces {g(Wn )}n es una sucesión consistente para g(θ). 3. Si {Vn }n es una sucesión de estimadores consistentes para δ y g(θ, δ) es una función continua para todo (θ, δ), entonces {g(Wn , Vn )}n es una sucesión consistente para g(θ, δ). 116CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Demostración: Los dos primeros apartados se deducen del tercero. La prueba de éste, basada en las definiciones de convergencia en probabilidad y de continuidad de una función, puede verse, por ejemplo, en Arnold (1990) (teorema 6-8). 2 Ejemplo 58 Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se define el odds ratio (podrı́a traducirse como tasa de ventajas, aunque no existe una traducción unánimemente aceptada) ψ = ψ(p1 , p2 ) = p2 1−p2 p1 1−p1 = p2 1 − p1 . 1 − p2 p1 Podemos estimar pj mediante p̂j = Xj /nj , que por la ley débil de los grandes números es estimador consistente de pj , j = 1, 2. Usando entonces el estimador basado en el principio de sustitución, tenemos el siguiente estimador de ψ: ψ̂ = ψ(p̂1 , p̂2 ) = X2 /n2 (1 − X1 /n1 ) X2 (n1 − X1 ) = . (1 − X2 /n2 )X1 /n1 (n2 − X2 )X1 Si n1 y n2 tienden simultáneamente a ∞ (es decir, si lı́m nj /(n1 + n2 ) = aj > 0, j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ̂: ψ̂ = ψ(p̂1 , p̂2 ) −→ ψ(p1 , p2 ) = ψ en probabilidad, es decir, ψ̂ es estimador consistente de ψ. . 4.3.2. . Normalidad asintótica El estudio de la distribución de un estimador para un tamaño muestral n finito es a menudo complejo y en ocasiones involucra cálculos prácticamente imposibles de llevar a cabo. Por otra parte, la comparación de medias y varianzas de estimadores para n finito puede ser poco adecuada (por ejemplo, el estimador de pj /(1−pj ) visto en el ejemplo 58 no estará definido con probabilidad positiva, puesto que P (Xj = nj ) > 0). En muchas ocasiones sólo es posible realizar estudios del comportamiento asintótico (cuando n tiende a infinito) de los estimadores. Ya hemos estudiado una propiedad asintótica: la consistencia. Veremos ahora que es posible medir la velocidad de convergencia de estimadores consistentes y ası́ seleccionar los que convergen al verdadero valor del parámetro más rápidamente. Ejemplo 59 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este 4.3. COMPORTAMIENTO ASINTÓTICO 117 modelo, el estimador de momentos de λ coincide con el máximo verosı́mil: λ̂n = X n . La distribución exacta de λ̂ es conocida: es la de una Poisson(nλ) dividida por n. Sin embargo ésta es poco manejable y resulta mucho más útil aproximarla por una distribución más sencilla a la que se acerca asintóticamente. La versión del teorema central del lı́mite para variables aleatorias independientes e idénticamente distribuidas puede aplicarse porque V (X) = λ < ∞. Ası́, √ n(λ̂n − λ) √ −→ N (0, 1) débilmente, λ es decir, para todo λ ∈ Θ y para todo w ∈ IR, µ√ ¶ n(w − λ) √ Pλ (λ̂ ≤ w) ≈ φ λ donde φ es la función de distribución de la normal estándar. La aproximación es tanto mejor cuanto mayores son n o λ. Obsérvese que λ̂n es consistente pues, por las leyes de los grandes números, λ̂n = X n −→P E(X) = λ. Ası́, λ̂n − λ −→ 0 en probabilidad y también en distribución. Esta convergencia a la distribución degenerada en 0 no nos informa de la velocidad a la que λ̂n se acerca a λ ni de cómo lo hace (¿se distribuyen las observaciones de λ̂n simétricamente alrededor de λ?, por ejemplo). √ El hecho de que V ( n(λ̂n − λ)) = λ para todo n indica que la velocidad a √ la que λ̂n se acerca a λ es la misma con la que 1/ n se acerca a 0: multiplicar √ por n es la forma de estabilizar las diferencias (λ̂n − λ), es la estandarización adecuada. El resultado derivado del teorema central del lı́mite, la distribución asintóti√ ca de n(λ̂n − λ) es N (0, λ), responde a la pregunta de cómo es la aproximación λ̂n a λ: los valores del estimador se distribuyen alrededor del verdadero valor del parámetro igual que los valores de una variable aleatoria N (0, λ) se distribuyen alrededor de 0. . . Ejemplo 60 En la estimación del parámetro θ de una U (0, θ), los siguientes son estimadores consistentes: Tn = 2X n , Wn = máxi=1...n Xi . De ellos, el primero converge a θ más lentamente que el segundo: por el teorema central del lı́mite √ Tn0 = n(Tn − θ) converge débilmente a una distribución no degenerada (con√ cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en probabilidad a la distribución degenerada en 0 (la varianza de Wn0 y su sesgo como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la √ misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor 118CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES velocidad. . . A menudo será posible también comparar estimadores que convergen a la misma velocidad mediante lo que llamaremos varianza asintótica. Ejemplo 60, página 117. Continuación. El estadı́stico basado en la mediana, Sn = 2 · mediana{X1 , . . . , Xn }, también es estimador consistente de θ y además se puede probar (ver, por ejemplo, Arnold 1990, toerma 6-6) que √ Sn0 = n(Sn − θ) −→ N (0, θ2 ) débilmente. √ Por lo tanto, Tn y Sn convergen a θ a la misma velocidad (como 1/ n va a 0), pero la varianza de la distribución a la que converge Tn0 (la versión centrada y normalizada de Tn ) es menor que la varianza de la distribución lı́mite de Sn0 . Se dirá entonces que Tn tiene menor varianza asintótica que Sn y, por lo tanto, será Tn será preferible a Sn . . . En la práctica la gran mayorı́a de los estimadores usuales, convenientemente centrados y normalizados, tienen distribución asintótica normal. Se dice que presentan normalidad asintótica y se denota θ̂n ∼ AN(θ, vn ) cuando 1 √ (θ̂n − θ) −→D N (0, 1). vn A la cantidad vn se la llama varianza asintótica de θ̂n . El teorema central del lı́mite es el responsable de la normalidad asintótica de muchos estimadores. La normalidad asintótica no sólo aparece en estimadores univariantes, sino también en estimadores multivariantes, como muestra el siguiente ejemplo. Ejemplo 61 Sean {(Xn , Yn )t }n∈IN una sucesión de variables aleatorias bivariantes independientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t = (E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t , i = 1, . . . , n. La distribución de una variable aleatoria bivariante está caracterizada por las distribuciones de las combinaciones lineales arbitrarias de sus componentes 4.3. COMPORTAMIENTO ASINTÓTICO 119 (esto se debe a que el cálculo de la función generatriz de momentos bivariante de (X, Y )t en el punto (s, t)t equivale a calcular la función generatriz de momentos de sX + tY en el punto 1). Del mismo modo, para encontrar la distribución asintótica de una sucesión de variables aleatorias bivariantes sólo es necesario encontrar la distribución asintótica de combinaciones lineales arbitrarias de sus componentes. Ası́ se reduce el problema bivariante a problemas univariantes. Calculemos la distribución asintótica de µµ ¶ µ ¶¶ √ Xn µX n − . Yn µY Sean a, b números reales arbitrarios. Las variables aleatorias aXi + bYi , i = 1, . . . , n son una muestra aleatoria simple de la variable aleatoria aX + bY , y por el teorema central del lı́mite à n ! √ 1X n (aXi + bYi ) − E(aX + bY ) −→D N (0, V (aX + bY )), n i=1 que puede reescribirse ası́: ´ ³ √ √ a n(X n − µX) + b n((Y )n − µY ) −→D N (0, a2 V (X) + b2 V (Y ) + 2abCov(X, Y )) Consideremos la variable aleatoria normal bivariante µ ¶ µµ ¶ µ ¶¶ U 0 V (X) Cov(X, Y ) ∼ N2 , . Cov(X, Y ) V (Y ) V 0 √ La distribución de aU + bV es la misma que la distribución lı́mite de a n(X n − √ µX) + b n(Y n − µY ), de donde se sigue que √ √ a n(X n − µX) + b n(Y n − µY ) −→D aU + bV, y como a y b son arbitrarios se sigue que √ µµ n normal bivariante. . 4.3.3. Xn Yn ¶ µ ¶¶ µ ¶ µX U − −→D , µY V . Método delta En muchos casos, sólo será de interés el comportamiento del estimador alrededor del verdadero valor del parámetro. Si además el estimador es una función 120CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES suave de un estadı́stico cuyo comportamiento asintótico es conocido, esa función podrá linealizarse en un entorno del verdadero valor del parámetro, lo cuál facilitará enormemente el estudio asintótico del estimador. Ejemplo 59, página 116. Continuación. Queremos estimar θ = P (X = 0) = e−λ . Por el principio de invariancia, el estimador máximo verosı́mil de θ es θ̂n = e−X n , dado que X n es el estimador máximo verosı́mil de λ. El teorema 32 garantiza la consistencia de θ̂n , porque X n es consistente para λ y g(λ) = e−λ es una función continua. Estamos interesados ahora en encontrar la distribución asintótica de √ n(θ̂n − θ) = √ n(e−X n − e−λ ). La herramienta en la que nos basaremos para hallar esa distribución asintótica es el método delta. . . Presentaremos en primer lugar el método delta univariante y, más adelante, se generalizará al caso multivariante. En ambos casos, el fundamento teórico que sustenta el método delta es el desarrollo en serie de Taylor de una función. Sea f una función con derivada en el punto a ∈ IR. El desarrollo de primer orden en serie de Taylor de f alrededor del punto a es f (x) ≈ f (a) + f 0 (a)(x − a), es decir, la recta tangente a f (x) en x = a. Si existe f 00 (a), el desarrollo de orden 2 en serie de Taylor de f alrededor de a es 1 f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 , 2 aproximación cuadrática de f (x). El siguiente teorema justifica la aproximación de una función mediante sus desarrollos de Taylor. Teorema 33 (Fórmula de Taylor) Si f (x) es una función con r + 1 derivadas en un intervalo I de IR, para cada par de puntos x, a en I, se tiene que 1 f (x) = f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + . . . + 2 1 (r) 1 f (a)(x − a)r + f (r+1) (α(x, a))(x − a)r+1 , r! (r + 1)! donde α(x, a) es un punto de I situado entre x y a, luego |α(x, a) − a| ≤ |x − a|. 4.3. COMPORTAMIENTO ASINTÓTICO Demostración: Véase, por ejemplo, Spivak (1970), teorema 19.4. 121 2 El uso que haremos de este teorema será para desarrollos de primer y segundo orden. El siguiente resultado será útil a la hora de establecer la distribución asintótica de algunos estimadores. En particular, se usa en la demostración del método delta. Teorema 34 (Teorema de Slutzky) Sean {Xn }n e {Yn }n sucesiones de variables aleatorias, sea X variable aleatoria y sea a una constante. Si Xn −→D X e Yn −→P a, entonces Xn + Yn −→D X + a, Xn Yn −→D aX, si g(x, y) es una función de IR2 en IR continua en (x, a) para todo x del soporte de X, entonces g(Xn , Yn ) −→D g(x, y). Demostración: Los apartados 1 y 2 se deducen de 3. La prueba de 3 se sigue del teorema de la aplicación continua para variables aleatorias definidas en espacios métricos (ver, por ejemplo, Schervish 1995, teorema B.88). En ese contexto, la definición de convergencia en distribución (ver, por ejemplo, Schervish 1995, definiciones B.80 y B.81) difiere formalmente de la que habitualmente se usa cuando se tratan variables aleatorias definidas en IR. En Bickel y Doksum (1977), teorema A.14.9, puede verse una demostración de los apartados 1 y 2 en la que se usa la definición de convergencia en distribución basada en la convergencia de las funciones de distribución. 2 Pasamos ahora a enunciar y probar el resultado conocido como método delta. Teorema 35 (Método delta) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea θ̂n una sucesión de estimadores de θ tales que an (θ̂n − θ) −→D N (0, σθ2 ) y sea g(x) una función con primera derivada continua en un intervalo que contiene a θ. Entonces an (g(θ̂n ) − g(θ)) −→D N (0, (g 0 (θ))2 σθ2 ). Demostración: Por el desarrollo de Taylor de primer orden, g(θ̂n ) = g(θ)+g 0 (α(θ, θ̂n ))(θ̂n −θ) =⇒ an (g(θ̂n )−g(θ)) = g 0 (α(θ, θ̂n ))an (θ̂n −θ), 122CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES donde |α(θ, θ̂n ) − θ| ≤ |θ̂n − θ|. Obsérvese que θ̂n −→P θ. En efecto, θ̂n − θ = 1 an (θ̂n − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒ an θ̂n − θ −→P 0 =⇒ α(θ, θ̂n ) −→P θ. Se ha usado el teorema de Slutzky para las sucesiones Yn = 1/an −→P 0 y Xn = an (θ̂n − θ). Ahora, aplicando el teorema 32, por ser g 0 continua en θ se tiene que g 0 (α(θ, θ̂n )) −→P g 0 (θ). Aplicando de nuevo el teorema de Slutzky se obtiene el resultado deseado: an (g(θ̂n ) − g(θ)) = g 0 (α(θ, θ̂n )) 0 g (θ)an (θ̂n − θ) −→D g 0 (θ) | {z } −→P 1 g 0 (θ)N (0, σθ2 ) =D N (0, (g 0 (θ))2 σθ2 ). 2 La sucesión an que habitualmente aparece es an = √ n. Ejemplo 59, página 116. Continuación. Estimamos θ = P (X = 0) = e−λ √ mediante θ̂n = e−X n . Por otra parte, n(λ̂n − λ) −→D N (0, λ). Además g(λ) = e−λ es derivable con derivada continua: g 0 (λ) = −e−λ . Aplicamos el método delta para determinar la distribución asintótica de θ̂n : √ √ n(θ̂n − θ) = n(e−X n − e−λ ) −→D N (0, e−2λ λ). . . Veremos ahora el método delta multivariante, aplicable cuando el espacio paramétrico es multidimensional y se desea estimar una función real del parámetro. Sea f : IRk −→ IR una función con segundas derivadas parciales en el punto a = (a1 , a2 , . . . , ak ). La versión multivariante del teorema de Taylor garantie za que esa función puede aproximarse por su desarrollo en serie de Taylor de segundo orden alrededor de a : e 2 k X ∂f( a ) 1 ∂ f( a ) e (xi − ai ) + e (xi − ai )(xj − aj ) f (x1 , . . . , xk ) ≈ f ( a ) + ∂xi 2 ∂xi xj e i=1 si x = (x1 , . . . , xk )t está en un entorno de a . La aproximación anterior se puede e e escribir en forma vectorial y matricial: f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ), e e e e e e e e e e 4.3. COMPORTAMIENTO ASINTÓTICO 123 donde ∇f ( a ) es el gradiente de f en a , el vector de derivadas parciales e e à !t ∂f( a ) ∂f( a ) e ,..., e ∇f ( a ) = , ∂x1 ∂xk e y Hf ( a ) es la matriz hessiana de f en a : e e à 2 ! ∂ f( a ) e Hf ( a ) = ∂xi xj e 1≤i≤k, 1≤j≤k La aproximación de primer orden se expresa ası́, f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ), e e e e e y es útil para probar el siguiente resultado. Teorema 36 (Método delta multivariante) Sea {an }n una sucesión de números reales tales que an −→n ∞ y con an 6= 0 para todo n. Sea ˆθ = (θ̂n1 , . . . , θ̂nk ) en una sucesión de estimadores de θ tales que e ˆ an ( θ − θ ) −→D Nk ( 0 , V ), en e e y sea g( x ) una función con primeras derivadas parciales continuas en una bola e abierta que contiene a θ. Entonces an (g( ˆθ ) − g( θ )) −→D Nk ( 0 , (∇g(θ))t V (∇g(θ))). e e en Demostración: Ver, por ejemplo, Arnold (1990), teorema 6-16. Lo más usual es que la sucesión an sea an = √ 2 n. Ejemplo 58, página 116. Continuación. Buscaremos la distribución asintótica del estimador del odds-ratio ψ = ψ(p1 , p2 ) = (p2 /(1 − p2 ))((1 − p1 )/p1 ): µ ¶ X1 X2 X2 (n1 − X1 ) ψ̂n = ψ , = . n1 n2 (n2 − X2 )X1 En primer lugar, de lo visto en el ejemplo 61 se sigue que õ ¶ à p (1−p ) ¶ µ 1 1 √ X2 0 X1 γ1 − p1 , − p2 −→D N2 , n n1 n2 0 0 0 p2 (1−p2 ) γ2 !! , donde γj = lı́m(nj /(n1 + n2 )) > 0, j = 1, 2. El gradiente de la función ψ(x, y) = (y(1 − x))/(x(1 − y)) tiene por componentes −y ∂ ψ(x, y) 1−x ∂ ψ(x, y) = , = . ∂x (1 − y)x2 ∂y (1 − y)2 x 124CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Ası́, √ n(ψ̂n − ψ) −→D N (0, σ 2 ), donde la varianza σ 2 es µ ¶Ã −p2 1 − p1 2 σ = , (1 − p2 )p21 (1 − p2 )2 p1 µ p1 (1−p1 ) γ1 0 0 !à p2 (1−p2 ) γ2 −p2 (1−p2 )p21 1−p1 (1−p2 )2 p1 ! = ¶2 µ ¶2 −p2 p1 (1 − p1 ) 1 − p1 p2 (1 − p2 ) + = 2 2 (1 − p2 )p1 γ1 (1 − p2 ) p1 γ2 µ ¶2 µ ¶ p2 (1 − p1 ) 1 1 + = (1 − p2 )p1 p1 (1 − p1 )γ1 p2 (1 − p2 )γ2 µ ¶ 1 1 ψ2 + . p1 (1 − p1 )γ1 p2 (1 − p2 )γ2 Por lo tanto, la varianza asintótica de ψ̂n es µ ¶ σ2 1 1 2 ≈ψ + . n p1 (1 − p1 )n1 p2 (1 − p2 )n2 . . 4.3.4. Eficiencia relativa asintótica Sea Tn ( X ) = Tn (X1 , . . . , Xn ) una sucesión de estimadores de una función e τ (θ) que verifica lo siguiente: √ n(Tn ( X ) − τ (θ)) −→D N (b(θ), σ 2 (θ)). e Si b(θ) = 0 diremos que Tn ( X ) es asintóticamente insesgado (en econometrı́a √ e se dice que Tn es n-consistente). En caso contrario, diremos que Tn ( X ) es e asintóticamente sesgado. Ejemplo 62 Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e idénticamente dis√ tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una e constante a 6= 0. Se tiene que √ √ n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1), e luego Tn es asintóticamente sesgado: la diferencia entre la esperanza del esti√ mador y el parámetro estimado, multiplicada por n, no tiende a 0. Obsérvese que, no obstante, Tn es un estimador consistente de µ: √ Tn ( X ) = X n + a/ n −→P µ + 0 = µ. e . . 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL125 Sean dos sucesiones Tn ( X ) y Sn ( X ) de estimadores de τ (θ) asintóticamente e e normales: ´ √ ³ n Tn ( X ) − τ (θ) −→D N (0, σT2 (θ)), e ´ √ ³ n Sn ( X ) − τ (θ) −→D N (0, σS2 (θ)). e Se define la eficiencia relativa asintótica de Sn respecto a Tn como ARE(θ, Sn , Tn ) = 1/σS2 (θ) σT2 (θ) = . 1/σT2 (θ) σS2 (θ) El valor de la eficiencia relativa asintótica puede interpretarse como el cociente de los tamaños de muestra necesarios para obtener la misma precisión asintótica (o la misma varianza asintótica) mediante los dos estimadores en la estimación de τ (θ). En efecto, si elegimos tamaño muestral m para T y n para S, las varianzas asintóticas son, respectivamente, σT2 (θ)/m y σS2 (θ)/n. Si forzamos a que ambas sean iguales, se tiene que σT2 (θ) σ 2 (θ) m σ 2 (θ) = S ⇐⇒ = T2 = ARE(θ, Sn , Tn ). m n n σS (θ) Es decir, si ARE(θ, Sn , Tn ) = 0,5 entonces S es menos eficiente que T asintóticamente: para tener la misma precisión con el estimador S hace falta una muestra el doble de grande que si utilizásemos T (ARE = 0,5 = m/n =⇒ n = 2m). 4.4. Teorı́a asintótica para el estimador máximo verosı́mil Sea X una variable aleatoria con función de densidad (o de masa) f (x|θ), Qn θ ∈ Θ. Sea L(θ| x n ) = i=1 f (xi |θ) la función de verosimilitud de una muestra e de tamaño n de X: X1 , . . . , Xn . Teorema 37 Supongamos que se verifican las siguientes condiciones: C1: El parámetro θ es identificable, en el sentido de que distintos valores de θ dan lugar a distintas distribuciones de probabilidad para X. C2: El conjunto {x : f (x|θ) > 0} es el mismo para todo θ ∈ Θ. C3: La cantidad · e(θ0 , θ) = Eθ0 log existe para todo par θ, θ0 en Θ. Entonces, para todo θ 6= θ0 se verifica que µ f (X|θ) f (X|θ0 ) ¶¸ 126CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES a) " Eθ0 log à L(θ| X n ) e L(θ0 | X n ) e !# < 0. b) lı́m Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1. e e n−→∞ Demostración: Probemos a). Si f (x|θ) es una función de densidad, se tiene que ¸ Z · f (x|θ) f (X|θ) = f (x|θ0 )dx = 1. Eθ0 f (X|θ0 ) f (x|θ0 ) Análogo resultado se obtiene si f (x|θ) es función de masa. Como log u < u − 1, para todo u ∈ IR − {1}, se tiene que µ ¶ µ ¶ f (x|θ) f (x|θ) log < −1 f (x|θ0 ) f (x|θ0 ) salvo si f (x|θ) = f (x|θ0 ). Por la hipótesis C1 eso no puede ocurrir en un conjunto de x’s de medida 1, luego " à !# · µ ¶¸ · ¸ L(θ| X n ) f (x|θ) f (x|θ) e Eθ0 log = nEθ0 log < nEθ0 − 1 = 0, f (x|θ0 ) f (x|θ0 ) L(θ0 | X n ) e y a) queda probado. Veamos ahora b). Por la ley débil de los grandes números, ! à µ ¶ n L(θ| X n ) 1X 1 f (Xi |θ) e = log log −→n e(θ0 , θ) en probabilidad. n n i=1 f (Xi |θ0 ) L(θ0 | X n ) e Por a), el lı́mite e(θ0 , θ) es estrictamente menor que 0. Por tanto, si se toma ε, con 0 < ε < −e(θ0 , θ), se tiene que ¯ ( à ! ) (¯ à ! ) ¯ ¯1 L(θ| X n ) L(θ| X n ) 1 ¯ ¯ e e Pθ0 log > 0 < Pθ0 ¯ log − e(θ0 , θ)¯ > ε −→n 0, ¯n ¯ n L(θ0 | X n ) L(θ0 | X n ) e e porque si x > 0, e < 0 y ε < −e, entonces |x − e| = x − e > −e > ε. Pero ( ) L(θ| X n ) e Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1 − Pθ0 >1 = e e L(θ0 | X n ) e ! ) ( à L(θ| X n ) 1 e > 0 −→n 1, 1 − Pθ0 log n L(θ0 | X n ) e lo que completa la prueba. 2 Observar que el apartado b) del teorema puede interpretarse ası́: la verosimilitud es máxima en el verdadero valor θ0 del parámetro, si la muestra es suficientemente grande. 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL127 Teorema 38 Supongamos que además de C1, C2 y C3, se verifican también C4: Θ es un conjunto abierto. C5: ∂f (x|θ)/∂θ es continua en θ. Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una sucesión {θ̂n }n de raı́ces de la ecuación del score ∂ log L(θ| X n ) = 0 ∂θ e (la que se resuelve para hallar el estimador de máxima verosimilitud de θ) que converge al verdadero valor del parámetro θ0 en probabilidad. Demostración: Por C4, existe ε > 0 tal que (θ0 − ε, θ0 + ε) ⊂ Θ. Se definen los conjuntos Sn = { x n ∈ X : L(θ0 | x n ) > L(θ0 − ε| x n ) y L(θ0 | x n ) > L(θ0 + ε| x n )}. e e e e e Por el teorema 37, Pθ0 ( X n ∈ Sn ) −→n 1. e La condición C5 implica la continuidad de L(θ| x n ) y de su derivada parcial e respecto a θ. Ası́, para todo x n ∈ Sn , debe existir θ̃n = θ̃n ( x n ) ∈ (θ0 −ε, θ0 +ε), e e máximo local de L(θ| x n ). Ese máximo local ha de satisfacer e ¯ ¯ ∂ log L(θ| X n )¯¯ = 0. ∂θ e θ=θ̃n Puede haber más de un máximo local en (θ0 − ε, θ0 + ε) y, por lo tanto, más de una solución de la ecuación del score (también puede haber mı́nimos locales entre las soluciones). Llamemos θ̂n = θ̂n ( x n ) a la solución más cercana a θ0 que e sea máximo local. Entonces |θ̂n − θ0 | < ε y esto es cierto para todo x n ∈ Sn . e Por lo tanto Pθ0 {Xn : |θ̂n ( X n ) − θ0 | < ε} ≥ Pθ0 {Xn ∈ Sn } −→ 1 e de donde se sigue que θ̂n −→P θ. 2 El teorema 38 demuestra que siempre existe una raı́z de la ecuación de score (que además es máximo local) que es consistente. Sin embargo, cuando la raı́z no es única (cuando no es el único máximo local) la determinación de θ̂n depende del verdadero valor θ0 , lo cuál hace que θ̂n no sea un estimador del parámetro. El teorema 38 es realmente interesante cuando la ecuación del score tiene raı́z única, porque en este caso esa raı́z es el estimador máximo verosı́mil de θ y el 128CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES teorema garantiza su consistencia. Si la función de verosimilitud es estrictamente cóncava, entonces se tiene la unicidad, y como consecuencia la consistencia del estimador máximo verosı́mil. El siguiente teorema establece la normalidad asintótica de las sucesiones consistentes de raı́ces de la ecuación del score, cuya existencia garantiza el teorema 38. Teorema 39 Supongamos que además de verificarse C1, C2, C3, C4 y C5, se verifican también las hipótesis H1 y H2 del teorema de Cramér-Rao (teorema 25) y la siguiente hipótesis: 3 ∂ C6: Existe ∂θ 3 log fθ (x), cuyo valor absoluto está acotado por una función K(x) tal que Eθ [K(X)] ≤ k. Sea {θ̂n }n una sucesión consistente de raı́ces de la ecuación del score: θ̂n −→P θ0 , si θ0 es el verdadero valor del parámetro. Entonces µ ¶ √ 1 n(θ̂n − θ0 ) −→D N 0, , I(θ0 ) donde I(θ0 ) = lı́m n−→∞ 1 I (θ0 ) = IX (θ0 ). n Xn e Demostración: Hacemos el desarrollo de Taylor de segundo orden de la función score ∂ S(θ| X n ) = log L(θ| X n ) ∂θ e e en torno a θ0 y la evaluamos en θ̂n : 0 = S(θ̂n | X n ) = S(θ0 | X n )+ e e ∂ 1 ∂2 (θ̂n − θ0 ) S(θ0 | X n ) + (θ̂n − θ0 )2 2 S(θ∗ (θ̂n , θ0 )| X n ) ∂θ 2 ∂θ e e √ donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. Dividiendo la expresión anterior por n se obtiene la siguiente: 1 0 = √ S(θ0 | X n )+ n e ¸ · 2 √ 1 ∂ 1 ∂ ∗ S(θ0 | X n ) + S(θ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) . n(θ̂n − θ0 ) n ∂θ 2n ∂θ2 e e Por otra parte, el teorema central del lı́mite implica que ¯ n 1 1 X ∂ log f (Xi |θ) ¯¯ √ S(θ0 | X n ) = √ −→D N (0, IX (θ0 )), ¯ ∂θ n n i=1 e θ=θ0 puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e idénticamente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞. 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL129 Además, por la ley débil de los grandes números, − ¯ n 1 ∂ 1 X ∂ 2 log f (Xi |θ) ¯¯ S(θ0 | X n ) = − −→P ¯ n ∂θ n i=1 ∂θ2 e θ=θ0 " # ¯ ∂ 2 log f (X|θ) ¯¯ IX (θ0 ) = E − . ¯ ∂θ2 θ=θ0 Usando de nuevo la ley de los grandes números, se tiene que ¯ n ¯ 1 X ¯¯ ∂ 3 log f (Xi |θ) ¯¯ 1 ∂2 ∗ | S(θ (θ̂n , θ0 )| X n )| ≤ ¯ ∗≤ n ∂θ2 n i=1 ¯ ∂θ3 e θ=θ n 1X K(Xi ) −→P E(K(X)) ≤ k, n i=1 2 ∂ ∗ de donde se sigue que n1 | ∂θ 2 S(θ (θ̂n , θ0 )| X n )| está acotado en probabilidad por e k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε tiende a 1. En definitiva, y dado que θ̂n −→P θ0 , se tiene que 1 ∂2 S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) −→P 0. 2n ∂θ2 e Combinado los resultados anteriores, podemos escribir √ n(θ̂n − θ0 ) = −1 1 ∂ 1 ∂2 − S(θ | X ) S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) − 0 n n ∂θ 2 | {z e } |2n ∂θ {z e } −→P 0 −→P IX (θ0 ) 1 √ S(θ0 | X n ) n e | {z } −→D N (0,IX (θ0 )) y, por el teorema de Slutzky, concluir que √ n(θ̂n − θ0 ) −→D N µ 0, 1 IX (θ0 ) ¶ . 2 El enunciado del teorema 39 puede generalizarse al caso de variables aleatorias no idénticamente distribuidas. Por eso se expresa la varianza lı́mite del estimador máximo verosı́mil en términos de I(θ0 ) en lugar de hacerlo directamente en términos de la información de Fisher de X. El resultado del teorema 39 puede expresarse diciendo que el estimador máximo verosı́mil θ̂n de θ0 es asintóticamente normal: θ̂n ∼ AN(θ0 , (nIX (θ0 ))−1 ). Obsérvese que el estimador máximo verosı́mil es asintóticamente insesgado y asintóticamente eficiente, puesto que su varianza lı́mite coincide con la cota de Cramér-Rao. 130CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Para basar la inferencia sobre el parámetro θ en ese resultado es preciso estimar la información de Fisher I (θ0 ) = nIX (θ0 ). El siguiente resultado X e proporciona dos estimadores de esa cantidad. Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los estadı́sticos On y En definidos como ¯ ∂ 2 log L(θ| X n ) ¯¯ e , On = − ¯ ¯ ∂θ2 θ=θ̂n En = I (θ̂ ), Xn n e divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la información observada evaluada en el máximo, como En , la información esperada evaluada en el máximo, estiman consistentemente la información de Fisher contenida en la muestra acerca del parámetro. Demostración: ¯ 2 On 1 ∂ log L(θ| X n ) ¯¯ e =− = ¯ ¯ n n ∂θ2 θ=θ̂n ¯ ¯ 2 3 ¯ 1 ∂ log L(θ| X n ) ¯ 1 ∂ log L(θ| X n ) ¯¯ e e − − ¯ ¯ ¯ ¯ ∗ n ∂θ2 n ∂θ3 θ=θ0 (θ̂n − θ0 ) θ=θ (θ0 ,θ̂n ) donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. El término de las derivadas terceras tiende a 0 en probabilidad mientras que el primer término converge en probabilidad a IX (θ0 ), por la ley de los grandes números (ver la demostración del teorema 39). Por otra parte, 1 En = I (θ̂n ) = IX (θ̂n ) −→P IX (θ0 ) n n Xn e por la consistencia de θ̂n y la continuidad de IX (θ), (garantizada por la condición C6). 2 Podemos escribir entonces que el estimador máximo verosı́mil θ̂n de θ es ¶ µ ¶ µ 1 1 o θ̂n ∼ AN θ0 , . θ̂n ∼ AN θ0 , On En En general, si se está estimando una transformación suave del parámetro τ (θ) por máxima verosimilitud se tiene que µ ¶ √ (τ 0 (θ0 ))2 n(τ (θ̂n ) − τ (θ0 )) −→D N 0, . IX (θ0 ) 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL131 Ejemplo 63 Estimación máximo verosı́mil de un parámetro de la distribución de Weibull. Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β): 2 −x2 /β xe , 0 ≤ x ≤ ∞, β > 0. β à n ! Pn 2 2n Y L(β| x n ) = n xi e−( i=1 Xi )/β β e i=1 f (x, β) = n 1X 2 l (β| x n ) = K − n log β − X β i=1 i e n n 1 X 2 ∂ S(β| x n ) = l (β| x n ) = − + 2 X ∂β β β i=1 i e e n 1X 2 X S(β| X n ) = 0 =⇒ β̂n = n i=1 i e à !¯ n ¯ ¯ X n 2 n ¯ 2 ¯ S 0 (β| X n )¯ = <0 − X =− ¯ i 2 3 ¯ β β β= β̂ n e β̂n2 i=1 β=β̂n Por lo tanto la verosimilitud es estrictamente cóncava y β̂n es la única solución de la ecuación del score, ası́ que es un máximo (es el estimador máximo verosı́mil) y es estimador consistente de β. La información observada es − n ∂ 2 l (β|Xn ) n 2 X 2 0 X = −S (β| X ) = − + n ∂β 2 β2 β 3 i=1 i e que evaluada en el estimador máximo verosı́mil vale à !¯ n ¯ n 2 X 2 ¯¯ ¯ 0 On = −S (β| X n )¯ = − 2+ 3 X ¯ β β i=1 i ¯ β=β̂n e = β=β̂n n β̂n2 n3 = Pn i=1 Xi2 . Por su parte, la información esperada (la información de Fisher, de hecho) es n 2n n 2n n (β) = −E(S 0 (β| X n )) = − 2 + 3 E(X 2 ) = − 2 + 3 β = 2 , Xn β β β β β e e que evaluada en el estimador máximo verosı́mil vale I En = I X e n (β̂n ) = n β̂n2 n3 = Pn i=1 Xi2 = On . Ası́ pues, en este ejemplo, tanto la información observada como la esperada valen lo mismo al ser evaluadas en el estimador máximo verosı́mil y, por lo tanto, sólo tenemos un estimador consistente de la información de Fisher. 132CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES Volvamos a la expresión del logaritmo de la verosimilitud para deducir (por el corolario 4) que el estimador máximo verosı́mil también es el UMVUE en este problema: n ∂ 1X 2 X =⇒ l (β| x n ) = l (β| x n ) = K − n log β − β i=1 i ∂β e e µ Pn ¶ n 2 1 X 2 n n i=1 Xi −β . − + 2 Xi = 2 β β i=1 β n Por otra parte, 1 β0 l (β| X n ) −→P − log β − = Eβ0 [log f (X|β)] n β e y si derivamos respecto a β, ∂ β0 − β Eβ0 [log f (X|β)] = ∂β β2 de donde se sigue que Eβ0 [log f (X|β)] alcanza su máximo en β = β0 . Tenemos ası́ que l (β| X n )/n se maximiza en β̂n y que Eβ0 [log f (X|β)] se e maximiza en β0 . Además, la diferencia entre l (β| X n )/n y Eβ0 [log f (X|β)] es e pequeña y va a 0 cuando n crece, y las dos funciones varı́an suavemente en β. De ello se desprende que la diferencia entre los puntos que las maximizan, β0 y β̂n , han de ser también pequeñas y deben ir a 0 cuando n crece, por lo tanto β̂n −→P β0 . Eβ(log f(X|β)) l(β|Xn,1)/n β . β β l(β|Xn,2)/n β . 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL133 Ejemplo 64 En este ejemplo extendemos los resultados uniparamétricos al caso multiparamétrico. Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi ), i = 1, . . . , n, que siguen el modelo de regresión logı́stico, es decir, existen covariantes Z1 , . . . , Zn y parámetros desconocidos α y β tales que ¶ µ pi = α + βZi , i = 1, . . . , n. log 1 − pi Es posible despejar pi : pi = exp(α + βZi ) . 1 + exp(α + βZi ) Ello permite escribir la verosimilitud de la muestra: ¶yi n n µ Y Y pi L(α, β) = pyi i (1 − pi )1−yi = (1 − pi ). 1 − pi i=1 i=1 El logaritmo de la verosimilitud es µ ¶ ¶ n µ X pi l (α, β) = yi log + log(1 − pi ) = 1 − pi i=1 µ n µ X yi (α + βZi ) + log i=1 1 1 + exp(α + βZi ) ¶¶ Las ecuaciones de los scores son éstas: ¶ X n µ n ∂ l (α, β) X exp(α + βZi ) = = Yi − (Yi − pi ), ∂α 1 + exp(α + βZi ) i=1 i=1 ¶ X n µ n Zi exp(α + βZi ) ∂ l (α, β) X = Yi Zi − = Zi (Yi − pi ). ∂β 1 + exp(α + βZi ) i=1 i=1 Estas ecuaciones se resuelven por métodos numéricos genéricos o bien aplicando algoritmos especı́ficos para este problema que consisten en la iteración de estimaciones por mı́nimos cuadrados ponderados. Sobre este tema pueden verse, por ejemplo, la sección 10.3 de Garthwaite, Jollife y Jones (1995), o la sección 14.5.2 de Peña (1995). Las componentes de la matriz de información observada son n − ∂ 2 l (α, β) X = pi (1 − pi ), ∂α2 i=1 n − ∂ 2 l (α, β) X = Zi pi (1 − pi ), ∂αβ i=1 134CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES n − ∂ 2 l (α, β) X 2 = Zi pi (1 − pi ). ∂β 2 i=1 Como la matriz de información observada no depende de las variables aleatorias Yi , esta matriz coincide con su esperanza: la matriz de información de Fisher. La matriz de información asintótica tiene por componente (l, m), l = 1, 2, m = 1, 2, n 1 X l+m−2 Ilm (α, β) = n lı́m Zi pi (1 − pi ) n−→∞ n i=1 y son necesarias condiciones sobre la sucesión de covariantes Zi que garantizen la existencia de estos lı́mites. Una posibilidad es suponer que las Zi son variables aleatorias independientes e idénticamente distribuidas, con lo cual el problema se convierte en uno de variables aleatorias independientes e idénticamente distribuidas puro. . . Ejemplo 56, página 109. Continuación. Veremos ahora que el método de máxima verosimilitud no es el único que da lugar a estimadores asintóticamente eficientes. Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ . Sabemos que µ ¶Pn Xi i=1 n−1 θ̂n = n es el UMVUE de θ = e−λ . Sabemos también que no alcanza la cota de CramérRao, es decir, no es eficiente para tamaños de muestra finitos. Estudiaremos su distribución asintótica tomando logaritmos y usando el método delta: log(θ̂n ) = n X i=1 Sabemos que ejemplo, √ Xi log n−1 = X n (n log(1 − 1/n)) . n n(X n − λ) −→D N (0, λ) y que, como veremos al final de este n log(1 − 1/n) −→n −1 y √ n [1 + n log(1 − 1/n)] −→n 0. Ası́, √ n(log θ̂n − log θ) = √ n(log θ̂n + λ) = ¢ √ ¡ n X n n log(1 − 1/n) + λ = √ √ [n log(1 − 1/n)] n(X n − λ) + λ n [1 + n log(1 − 1/n)] −→D N (0, λ). 4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL135 Por lo tanto, aplicando el método delta para τ (λ) = e−λ , √ n(θ̂n − e−λ ) −→D N (0, e−2λ λ). Ya habı́amos visto que la cota de Cramér-Rao es (τ 0 (λ))2 = λe−2λ , I(λ) Luego se tiene que θ̂n es asintóticamente eficiente, al igual que lo era el estimador de máxima verosimilitud e−X n tal como se vio en el ejemplo 59, página 116. √ Falta por comprobar que se da la convergencia n [1 + n log(1 − 1/n)] −→n 0. Para probarlo, llamemos l al lı́mite y observemos que ¡ ¢x 1 + log 1 − x1 √ l = lı́m . x−→∞ 1/ x Aplicando la regla de l’Hôpital y operando se llega a que " # ¡ ¢x x 1 − x−1 1 + log 1 − x1 √ √ = −2l − 2 · 0 = −2l, l = 2 − lı́m − lı́m x−→∞ x−→∞ 1/ x 1/ x de donde se sigue que l = 0. . . 136CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES 4.5. Lista de problemas Error cuadrático medio. Estimadores insesgados. Optimalidad 1. Sea X ∼ N (0, σ 2 ). Se toma una m.a.s. de X de tamaño n. a) Construye a partir de ella dos estimadores insesgados de σ, uno dependiente de la suma de los cuadrados de las observaciones y otro de la suma de sus valores absolutos. b) Compara sus varianzas. 2. Considera los tres estimadores máximo verosı́miles de θ correspondientes a los problemas 14, 15 y 16 de la lista 1.6 (fueron calculados en el problema 11 de la lista 3.4). Prueba que cada estimador es insesgado en cada una de las tres situaciones descritas en esos problemas y calcula la varianza de cada estimador en cada situación. 3. (Casella-Berger, 7.20, 7.21, 7.22) Considera Y1 , . . . , Yn variables aleatorias independientes que satisfacen Yi = βxi + εi , i = 1, . . . , n, donde x1 , . . . , xn son constantes conocidas, ε1 , . . . , εn son v.a.i.i.d. según N (0, σ 2 ), σ 2 desconocido. a) Da un estadı́stico bidimensional suficiente para (β, σ 2 ). b) Halla el estadı́stico máximo verosı́mil de β (llámalo β̂1 ), prueba que es centrado y da su distribución. c) Comprueba que Pn Yi β̂2 = Pi=1 n i=1 xi es estimador insesgado de β. d ) Comprueba que n β̂3 = 1 X Yi n i=1 xi es estimador insesgado de β. e) Compara las varianzas de los tres estimadores de β. 4. (Casella-Berger, 7.39) Sea X1 , . . . , Xn una muestra de una población con esperanza µ ∈ IR y varianza σ 2 > 0. Pn a) Prueba que un estimador de la forma i=1 ai Xi es insesgado para µ Pn si y sólo si i=1 ai = 1. b) Entre todos los estimadores de esta forma (llamados estimadores lineales insesgados) encuentra aquél que tenga varianza mı́nima. 4.5. LISTA DE PROBLEMAS 137 5. (Casella-Berger, 7.40) Sean W1 , . . . , Wk estimadores insesgados de un parámetro θ con varianzas V (Wi ) = σi2 , y Cov(Wi , Wj ) = 0 si i 6= j. P a) Prueba que entre todos los estimadores de θ de la forma ai Wi con P a1 , . . . , ak constantes y E( ai Wi ) = θ, el que menor varianza tiene es P Wi /σi2 ∗ . W = P 1/σi2 b) Calcula la varianza de W ∗ . 6. (Casella-Berger, 7.41) Sea X1 , . . . , Xn una muestra de X ∼ N (θ, σ 2 = 1). a) Comprueba que la cota de Cramér-Rao para la estimación de θ2 es 4θ2 /n. 2 b) Muestra que el mejor estimador insesgado de θ2 es X − (1/n). c) Calcula su varianza (Indicación: Usa la identidad de Stein, que puedes encontrar en Casella-Berger, sección 4.7). d ) Comprueba que este estimador no alcanza la cota de Cramér-Rao para la estimación de θ2 . 7. (Casella-Berger, 7.42) Sean X1 , X2 y X3 una m.a.s. de una U (θ, 2θ), θ > 0. a) Dar el estimador de los momentos de θ y llámalo θ̂1 . b) Dar el estimador máximo verosı́mil de θ, al que llamaremos θ̂2 , y encontrar una constante k tal que k θ̂2 sea insesgado para θ. c) ¿Cuál de esos dos estimadores puede ser mejorado mediante el uso de un estadı́stico suficiente? ¿Cómo se mejora? Llama θ̂3 al etimador mejorado. d ) Se han observado los valores 1.29, 0.86, 1.33, procedentes de una U (θ, 2θ). Utiliza los tres estimadores propuestos en los apartados anteriores para estimar θ a partir de esos datos. 8. (Casella-Berger, 7.43) Se mide el radio de un cı́rculo con un error aleatorio distribuido como una N (0, σ 2 ). Se toman n medidas independientes del radio. a) Proponer un estimador insesgado del área del cı́rculo. b) ¿Es el mejor estimador insesgado? c) ¿Alcanza la cota de Cramér-Rao? 9. En cada una de las tres situaciones descritas en los problemas 14, 15 y 16 de la lista 1.6, ¿alcanza el estimador máximo verosı́mil correspondiente la cota de Cramér-Rao? (Nota: los estimadores fueron calculados en el problema 11 de la lista 3.4.) 10. (Casella-Berger, 7.51) Sean X1 , . . . , Xn v.a.i.i.d. según una Bern(p). 138CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES a) Muestra que el estimador máximo verosı́mil de p es insesgado y alcanza la cota de Cramér-Rao. b) Para n ≥ 4, prueba que el producto X1 X2 X3 X4 es un estimador insesgado de p4 . c) Utiliza el apartado anterior para encontrar el mejor estimador insesgado de p4 . 11. (Casella-Berger, 7.44) Sean X1 , . . . , Xn v.a.i.i.d. con función de distribución F (x; θ) y sean Y1 , . . . , Ym v.a.i.i.d. con función de distribución G(x; µ). Se supone que ambos grupos de variables son independientes. Se supone que los estadı́sticos T = T (X1 , . . . , Xn ) y W = W (X1 , . . . , Xn ) son estadı́sticos suficientes y completos para θ y µ, respectivamente, y que Eθ (T ) = θ, Vθ (T ) < ∞, Eµ (W ) = µ, Vµ (W ) < ∞. Encuentra el mejor estimador insesgado de θµ. 12. (Ex. junio 2000) Sea X ∼ N (µ, 1). Queremos estimar θ = µ2 a partir de una observación de X. a) Indica si los tres estimadores de θ siguientes, θ̂1 = X 2 − 1, θ̂2 = X 2 , θ̂3 = X 2 + 1, se pueden obtener como resultado de buscar los siguientes estimadores de θ: 1) el estimador máximo verosı́mil, 2) el estimador insesgado uniformemente de mı́nima varianza (UMVUE), 3) el estimador Bayes si la función de pérdida es cuadrática y la distribución a priori de µ es plana (es decir, π(µ) es constante). b) Calcula el error cuadrático medio de los estimadores θ̂i , i = 1, 2, 3. ¿Hay algún estimador inadmisible? c) Da un estimador que sea mejor que los tres anteriores en términos de error cuadrático medio. (Indicación: Recuerda que θ = µ2 > 0. ¿Con qué probabilidad será negativo θ̂1 ?). d ) ¿El estimador UMVUE alcanza la cota de Cramér-Rao? Comportamiento asintótico 13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que Eθ (Xi ) = θ + b, Vθ (Xi ) = σ 2 < ∞, con b 6= 0 conocida. 4.5. LISTA DE PROBLEMAS 139 a) Prueba que X no es un estimador consistente de θ. b) Define un estimador insesgado de θ que sea consistente. 14. (Casella-Berger, 7.62) Sea la m.a.s. X1 , . . . , Xn de X ∼ f (x; θ) = 0,5(1 + θx)I(−1,1) (x), donde −1 < θ < 1. Dar un estimador consistente de θ y probar que lo es. 15. (Casella-Berger, 7.63) Se toma una m.a.s. X1 , . . . , Xn de X ∼ N (θ, θ), con V (X) = θ > 0. a) Prueba que el estimador máximo verosı́mil de θ, θ̂, es una raı́z de la Pn ecuación de segundo grado θ2 +θ−W = 0, donde W = (1/n) i=1 Xi2 , y determina cuál de las dos raı́ces es el estimador máximo verosı́mil. b) Da una aproximación de la varianza de θ̂ utilizando las propiedades asintóticas del estimador máximo verosı́mil. c) Da una aproximación de la varianza de θ̂ utilizando aproximaciones por series de Taylor. 16. (Casella-Berger, 7.64) Una variación del modelo propuesto en el ejercicio 3 consiste en permitir que los regresores sean variables aleatorias independientes e idénticamente distribuidas: se tienen n variables aleatorias Y1 , . . . , Yn que satisfacen Yi = βXi + εi , i = 1, . . . , n, donde X1 , . . . , Xn son v.a.i.i.d. según una N (µ, τ 2 ), µ 6= 0, y ε1 , . . . , εn son v.a.i.i.d. según una N (0, σ 2 ), y las variables X’s y las ε’s son independientes. La varianza de los tres estimadores que se proponı́an en aquel ejercicio es difı́cil de calcular exactamente, por lo que es conveniente encontrar sus valores aproximados. Aproxima en términos de µ, σ 2 y τ 2 las esperanzas y varianzas de los estimadores siguientes: Pn Xi Yi / i=1 Xi2 . Pn b) Yi / i=1 Xi . Pn c) (1/n) i=1 (Yi /Xi ). a) Pn i=1 Pn i=1 17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p̂ el estimador máximo verosı́mil de p construido a partir de X. La varianza de p̂ es p(1 − p)/n, que puede estimarse mediante p̂(1 − p̂)/n. a) Calcula la esperanza de p̂(1 − p̂). b) Usa un desarrollo de Taylor para aproximar la varianza de p̂(1 − p̂). c) ¿Presenta la aproximación anterior algún problema? 140CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES 18. (Examen junio 2000) Consideremos muestras de tamaño n de X ∼ N (µ, 1) y el problema de estimar γ = eµ . Tomamos como estimador de γ γ̂ = eX . Da su distribución asintótica y usa el método delta para aproximar su sesgo. 19. (Examen julio 2000) Sea X una variable aleatoria con función de densidad f (x; a, λ) = λe−λ(x−a) I[a,∞) (x) con a ∈ R y λ > 0. a) Calcula los estimadores de máxima verosimilitud de a y λ. A partir de ahora supondremos que a es conocido. b) Da la expresión del estimador máximo verosı́mil de λ, λ̂, e indica cuál es su distribución asintótica. c) Queremos estimar σ 2 = V (X) = 1/λ2 . ¿Qué estimador es asintóticamente más recomendable, σ̂12 o σ̂22 , donde σ̂12 = 1 λ̂2 n , σ̂22 = S 2 = 1 X (Xi − X)2 ? n − 1 i=1 Indicaciones: El coeficiente de apuntamiento de una v.a. Y se define como CAp(Y ) = E[(Y − E(Y ))4 ]/V (Y )2 . Si Y ∼ Exp(λ) entonces CAp(Y ) = 9. Si θ4 = E[(Y − E(Y ))4 ] y θ2 = V (Y ), entonces µ ¶ 1 n−3 2 V (S 2 ) = θ4 − θ2 n n−1 Si Y es la media aritmética de una m.a.s. de tamaño n de Y ∼ Exp(λ), entonces 4 E(Y ) = 6n2 + 3n + 14 1 + λ4 n 3 λ4 d ) Usa el método delta para dar la expresión aproximada del sesgo de e1/(X−a) como estimador de eλ . Capı́tulo 5 Contrastes de hipótesis Referencias: Casella-Berger, capı́tulo 8 y Garthwaite, Jollife y Jones (1995), capı́tulo 4, referencias generales; Garthwaite, Jollife y Jones (1995), sección 7.4., para contrastes bayesianos; Una hipótesis estadı́stica es una conjetura o una afirmación sobre la distribución de una o más variables aleatorias. Un contraste de hipótesis (o un test de hipótesis o una prueba de hipótesis) es un procedimiento para decidir si se acepta o se rechaza una hipótesis. 5.1. Definiciones básicas. Contraste de hipótesis simples Usualmente se dispone de una muestra X1 , . . . , Xn de una variable aleatoria X con distribución F y función de densidad (o función de masa) f . Sobre la distribución de X se realizan dos afirmaciones entre las que se debe decidir. En general esas dos afirmaciones serán excluyentes. El tratamiento que se da a las dos hipótesis no es simétrico y esto se refleja en el nombre que reciben: una se llama hipótesis nula y la otra hipótesis alternativa. Se denotan por H0 y H1 , respectivamente. Se dice que en un test de hipótesis se contrasta H0 frente a H1 . La hipótesis nula es más conservadora en el sentido de que no será rechazada a menos que la evidencia muestral en su contra sea muy clara. Esta hipótesis suele establecer un modelo sencillo para la distribución de X (por ejemplo, si F pertenece a una familia paramétrica, H0 fija el valor del parámetro) o bien propone como distribución de X aquella que es comúnmente aceptada como una buena descripción del fenómeno que modeliza X. La hipótesis alternativa especifica el tipo de alejamiento de la hipótesis nula que podrı́a presentar la distribución de X. Puede expresar un modelo gene141 142 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS ral que incluya a H0 como caso particular. Si un investigador considera que un fenómeno aleatorio no ha estado adecuadamente modelizado hasta ese momento y cree tener una explicación más satisfactoria, propondrá ésta como hipótesis alternativa y el modelo vigente como hipótesis nula. Sólo si hay evidencia muestral suficiente para rechazar la hipótesis nula, será aceptada la hipótesis alternativa. Podemos distinguir tres tipos de pruebas de hipótesis: A. Suponemos que F (y f ) pertenecen a una cierta familia paramétrica indexada por un parámetro θ ∈ Θ y planteamos el contraste ½ H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. B. Contrastes de bondad de ajuste (goodness-of-fit tests, en inglés): ½ H0 : f = f 0 H1 : f 6= f0 C. Para dos distribuciones f0 y f1 que no necesariamente pertenecen a la misma familia paramétrica, se plantea el contraste ½ H0 : f = f 0 H1 : f = f 1 Una hipótesis simple es aquella que especifica completamente la distribución de X. En otro caso, se dice que la afirmación es una hipótesis compuesta. Por ejemplo, si f ∈ {fθ : θ ∈ Θ ⊆ IR}, la hipótesis H : θ = θ0 es una hipótesis simple. La hipótesis H : θ > θ0 es compuesta. Supongamos que se contrasta H0 frente a H1 . Cuando se observa la muestra x = (x1 , . . . , xn ) se debe decidir si ésta presenta o no evidencia suficiente para e rechazar H0 . El subconjunto C del espacio muestral X n de muestras para las cuáles se decide rechazar la hipótesis nula en favor de la alternativa se llama región crı́tica o región de rechazo del contraste. El complementario de C se llama región de aceptación. Un contraste queda definido por su región crı́tica C. 5.1.1. Tipos de errores Al realizar un contraste de hipótesis se pueden cometer dos tipos de errores: rechazar la hipótesis nula siendo ésta cierta (error de tipo I), o no rechazarla cuando es falsa (error de tipo II). El error de tipo I se considera más grave que el error de tipo II, dado que la hipótesis nula es siempre la más conservadora. El siguiente esquema ilustra las diversas situaciones. 5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES143 REALIDAD H0 cierta H0 falsa DECISIÓN Aceptar H0 Rechazar H0 Decisión Error de correcta TIPO I Error de Decisión TIPO II correcta Las probabilidades de cometer un error son P ( X ∈ C|H0 cierta) y P ( X 6∈ C|H0 falsa). e e Es deseable disponer de contrastes que tengan probabilidades de errores bajas. Pero en general no es posible diseñar contrastes que tengan ambas probabilidades pequeñas: cuando un contraste se modifica para reducir su probabilidad de error de tipo I, esta modificación conlleva un aumento de la probabilidad de error de tipo II, y viceversa. Obsérvese que si se desea reducir la probabilidad del error de tipo I, α = PF ( X ∈ C|H0 ), se habrán de reducir los puntos de e la región crı́tica C, pero ello implica que el conjunto C, complementario de C, aumenta y ası́ la probabilidad de error de tipo II, β = PF ( X ∈ C|H1 ), también e crecerá en general. Dado que el error de tipo I se ha considerado más grave que el error de tipo II, la práctica habitual en el contraste de hipótesis es considerar únicamente pruebas que garantizan que la probabilidad de cometer un error de tipo I será inferior a un valor dado α suficientemente pequeño (por ejemplo, α = 0,01, 0.05 o 0.1) y buscar entre todas ellas aquélla que hace mı́nima la probabilidad de cometer un error de tipo II. Al valor α se le llama nivel de significación del test. Si el menor valor obtenido β para la probabilidad de error de tipo II es inaceptablemente grande, pueden tomarse dos medidas para reducirlo: aumentar la probabilidad de error de tipo I α permitida, o aumentar el tamaño de la muestra. Supongamos que la distribución de X pertenece a una familia paramétrica {fθ : θ ∈ Θ} y se contrasta ½ H0 : θ ∈ Θ 0 H1 : θ ∈ Θ 1 donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Se define la función de potencia η(θ) del contraste como ½ probabilidad de error de tipo I si θ ∈ Θ0 η(θ) = Pθ ( X ∈ C) = 1 − probabilidad de error de tipo II si θ ∈ Θ1 e Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene tamaño α si sup η(θ) = α. θ∈Θ0 144 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Para 0 ≤ α ≤ 1, un contraste de hipótesis con función de potencia η(θ) tiene nivel de significación α si sup η(θ) ≤ α. θ∈Θ0 El conjunto de contrastes con nivel de significación α contiene las pruebas de tamaño α. Un contraste que minimiza β = Pθ ( X ∈ C|H1 ) entre aquellos que tienen e tamaño α se dice que es el contraste más potente de tamaño α o el mejor contraste de tamaño α. 5.1.2. Lema de Neyman-Pearson El siguiente resultado determina cuál es el contraste más potente cuando se contrasta una hipótesis nula simple frente a una alternativa simple. Teorema 41 (Lema de Neyman-Pearson) Sea X1 , . . . , Xn una muestra aleatoria simple de X con función de densidad (o función de masa de probabilidad) f (x; θ). Se desea contrastar H0 : θ = θ0 frente a H1 : θ = θ1 . Si L(θ| x ) es la e función de verosimilitud, el mejor contraste de tamaño α tiene región crı́tica de la forma ( ) L(θ1 | x ) n e ≥A C= x ∈X : e L(θ0 | x ) e para algún A > 0. Demostración: Haremos la demostración sólo en el caso de distribución absolutamente continua. La prueba en el caso discreto es análoga (basta cambiar integrales por sumatorios y funciones de densidad por funciones de masa de probabilidad) si el nivel α puede alcanzarse exactamente con los valores de la función de masa bajo H0 (en caso contrario hay que recurrir a un contraste aleatorizado; sobre este tema se darán referencias cuando se presente el ejemplo 66). En Vélez y Garcı́a (1993), páginas 338-339, puede verse una demostración válida para el caso discreto y el absolutamente continuo. Sea A tal que Pθ0 ( x ∈ C) = α, donde C = { x ∈ X n : L(θ1 | x )/L(θ0 | x ) ≥ e e e e A}. Sea C ∗ la región crı́tica de otro test de tamaño α. Queremos probar que β = Pθ1 ( x ∈ C) ≤ β ∗ = Pθ1 ( x ∈ C ∗ ). e e Calculemos la diferencia β ∗ − β: Z Z β∗ − β = L(θ1 | x )d x − L(θ1 | x )d x = e e e e x ∈C ∗ x ∈C e e Z Z L(θ1 | x )d x + L(θ1 | x )d x − e e e e x ∈C ∗ ∩C x ∈C ∗ ∩C e e 5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES145 Z Z L(θ1 | x )d x − L(θ1 | x )d x = e e e e x ∈C∩C ∗ x ∈C∩C ∗ Ze Ze L(θ1 | x )d x − L(θ1 | x )d x ≥ e e e e x ∈C ∗ ∩C x ∈C∩C ∗ Ze Z e A L(θ0 | x )d x = A L(θ0 | x )d x − e e e e x ∈C∩C ∗ x ∈C ∗ ∩C e e" Z Z A Z "Z x ∈C ∗ ∩C e x ∈C∩C ∗ e L(θ0 | x )d x + e e L(θ0 | x )d x − e e L(θ0 | x )d x − e e x ∈C ∗ e A Z Z x ∈C ∗ ∩C e L(θ0 | x )d x − e e # L(θ0 | x )d x e e x ∈C∩C ∗ e # x ∈C e = L(θ0 | x ) = A(α − α) = 0. e 2 El contraste que se propone en el Lema de Neyman-Pearson se denomina también test de la razón de verosimilitudes. Ejemplo 65 Test Z. Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 . Nuestra intuición nos dice que se debe rechazar H0 si se observan valores grandes de x. Veamos que la aplicación del Lema de Neyman-Pearson conduce a esta solución. La función de verosimilitud de una muestra es ½ ¾ 1 L(µ| x ) = (2πσ 2 )−n/2 exp − 2 Σni=1 (xi − µ)2 2σ e y el cociente de verosimilitudes ª © L(µ1 | x ) (2πσ 2 )−n/2 exp − 2σ1 2 Σni=1 (xi − µ1 )2 © 1 n ª= e = (2πσ 2 )−n/2 exp − 2σ2 Σi=1 (xi − µ0 )2 L(µ0 | x ) e ¾ ½ ¢ 1 n ¡ 2 2 = Σ (xi − µ0 ) − (xi − µ1 ) exp 2σ 2 i=1 ½ ¾ ¢ 1 ¡ 2 2 2 exp n 2x(µ − µ ) + (µ − µ ) 1 0 0 1 2σ 2 Ası́, la región crı́tica del test de Neyman-Pearson tiene la forma C = { x : exp{n(2x(µ1 − µ0 )2 + (µ20 − µ21 ))/2σ 2 } ≥ A}. e 146 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Vemos que el cociente de verosimilitudes es función creciente del estadı́stico minimal suficiente x porque µ1 − µ0 > 0, y por tanto la región crı́tica puede escribirse ası́: C = { x : x ≥ B}. e En este caso las constantes A y B se relacionan de este modo: B= µ1 + µ0 σ 2 log(A) + . n(µ1 − µ0 ) 2 Sin embargo no es necesario calcular B a partir de A, sino que es posible determinar su valor teniendo en cuenta que el contraste que se propone tiene tamaño α: P (C|H0 ) = P (X ≥ B|H0 ) = α Bajo H0 la distribución de la media muestral es X ∼ N (µ0 , σ 2 /n), de donde se deduce que el valor de B debe ser σ B = µ0 + zα √ . n Supongamos que µ0 = 5, µ1 = 6, σ 2 = 1 y α = 0,05 y se toman muestras de tamaño n = 4. Acabamos de ver que rechazaremos H0 : µ = 5 en favor de √ H1 : µ = 6 si X ≥ µ0 + zα σ/ n = 5,8225, o equivalentemente si Z= X n − µ0 Xn − 5 √ √ ≥ 1,645. = σ/ n 1/ 4 Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media e muestral vale x = 5,2. Como z= x−5 √ = 0,4 6≥ 1,645 1/ 4 no se rechaza H0 . Este contraste se denomina test Z porque usa el estadı́stico Z = µ0 )/σ, que tiene distribución N (0, 1) bajo H0 . . √ n(X n − . Ejemplo 66 Sean Y1 , . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar ½ H0 : p = p0 H1 : p = p1 Pn con p1 > p0 . Sea X = i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es µ ¶ n x L(p|x) = p (1 − p)n−x . x 5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES147 Calculamos el logaritmo del cociente de verosimilitudes: µ ¶ µ x ¶ L(p1 |x) p1 (1 − p1 )n−x log = log = L(p0 |x) px0 (1 − p0 )n−x x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 )) Ası́, la región crı́tica del test de Neyman-Pearson será C = {x : x log(p1 /p0 ) + (n − x) log((1 − p1 )/(1 − p0 )) ≥ log A} = {x : x[log(p1 /p0 ) − log((1 − p1 )/(1 − p0 ))] ≥ −n log((1 − p1 )/(1 − p0 )) + log A} = log(A) − n log((1 − p1 )/(1 − p0 )) ³ ´ x:x≥B= log p1 (1−p0 ) p0 (1−p1 ) Para determinar el valor de B usaremos el hecho de que la distribución de X es conocida bajo H0 y que se desea definir un test con tamaño α. Supongamos que n = 10, p0 = 0,5 y p1 = 0,8. Para diferentes valores de B se obtienen contrastes con diferentes tamaños α y potencias β: B α β 0 1.000 0.000 3 0.945 <0.001 7 0.172 0.121 8 0.055 0.322 9 0.011 0.624 Vemos que no es posible construir un contraste de tamaño α para todos los valores α ∈ [0, 1]. Si por ejemplo queremos tener un contraste de tamaño α = 0,05 hay tres formas de actuar: considerar que α = 0,055 es suficientemente próximo a 0,05 y rechazar H0 si x ≥ 8, Pensar que 0.05 es la máxima probabilidad de error de tipo I aceptable y, por tanto, rechazar H0 si x ≥ 9, dando lugar a α = 0,011, Rechazar H0 si x ≥ 9, aceptar H0 si x ≤ 7 y en el caso de que x = 8 aleatorizar la decisión: rechazar H0 con probabilidad τ y aceptarla con probabilidad (1 − τ ), eligiendo τ de forma que se consiga un tamaño exactamente igual a α = 0,05. En este ejemplo τ es 0,8864. Este tipo de contrastes se denominan tests aleatorizados. En este curso no consideraremos los tests aleatorizados. En el capı́tulo 18 de Cristóbal (1992), por ejemplo, se desarrolla la teorı́a de los contrastes de hipótesis incluyendo la posibilidad de que éstos sean aleatorizados. . . 148 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS En los dos ejemplos anteriores hemos visto que el mejor test de tamaño α depende de las observaciones sólo a través del valor que en ellas toma el estadı́stico minimal suficiente del parámetro de interés. El siguiente corolario establece esto como resultado general. Corolario 6 En las hipótesis del Lema de Neyman-Pearson, si T es un estadı́stico suficiente del parámetro de interés θ con función de densidad (o de probabilidad) g(t|θ), el mejor test para el contraste ½ H0 : θ = θ0 H1 : θ = θ1 tiene región crı́tica de la forma ½ ¾ g(t|θ1 ) C = t = T(x) : ≥A g(t|θ0 ) e para algún A ≥ 0. Demostración: Trivial a partir del Lema de Neyman-Pearson y del Teorema de Factorización (teorema 10). 2 5.1.3. Conclusiones de un contraste: el p-valor Una forma de informar de los resultados de un contraste de hipótesis es mediante el tamaño α del test usado y la decisión tomada sobre si se rechazó o no H0 . Si α es pequeño la decisión de rechazar H0 es muy convincente, pero si α es grande la probabilidad de cometer un error de tipo I es grande, lo cuál resta fuerza al test si la decisión adoptada es la de rechazar H0 . Por otro lado, para α muy pequeño, el hecho de no rechazar H0 no se interpretará como un apoyo indiscutible a esta hipótesis sino como que no fue posible encontrar evidencia suficiente en su contra como para superar la barrera tan restrictiva impuesta por ese valor de α. Una forma alternativa de presentar los resultados de un contraste de hipótesis es dar el p-valor o valor de probabilidad del test, definido éste como el supremo de los valores α para los cuáles se rechazarı́a la hipótesis nula si ésta se contrastase a nivel α. El p-valor depende de los datos muestrales. Puede interpretarse como la probabilidad de observar otra muestra que sea al menos tan poco favorable a la hipótesis nula como la que se ha observado. A partir del p-valor se puede tomar la decisión de rechazar (respectivamente, aceptar) H0 si el p-valor es pequeño (respectivamente, grande). es Por ejemplo, el p-valor de un contraste dado por el Lema de Neyman-Pearson ( ) L(θ1 | X ) L(θ1 | x ) e ≥ e p = Pθ0 . L(θ0 | X ) L(θ0 | x ) e e 5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 149 En general, cuando la región crı́tica de un contraste de tamaño α es tal que se rechaza H0 si y sólo si W ( x ) ≥ cα , donde W ( X ) es un estadı́stico y cα se e e elige para que el test tenga tamaño α, entonces el p-valor del contraste para una muestra observada x es e p( x ) = sup Pθ (W ( X ) ≥ W ( x )). e e e θ∈Θ0 Ejemplo 65, página 145. Continuación. En el ejemplo del test Z el p-valor es µ ¶ µ ¶ xn − µ0 xn − µ0 √ √ P (X n ≥ xn |µ = µ0 ) = P Z ≥ =1−Φ σ/ n σ/ n donde Φ es la función de distribución de Z ∼ N (0, 1). En el caso concreto de que σ = 1, µ0 = 5, n = 4 y x = 5,2 se tiene que el p-valor es µ p( x ) = P e X4 − 5 5,2 − 5 √ ≥ √ 1/ 4 1/ 4 ¶ = P (Z ≥ 0,4) = 0,3446 y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta hipótesis. . . 5.2. Contrastes uniformemente más potentes Nos ocuparemos ahora de los contrastes de hipótesis en los que la hipótesis alternativa es compuesta. Queremos contrastar ½ H0 : θ ∈ Θ 0 H1 : θ ∈ Θ 1 donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅. Por ejemplo, si Θ = [0, ∞) podemos contrastar ½ H0 : θ = θ 0 H1 : θ > θ 0 Diremos que se trata de un contraste unilateral. Si Θ = IR, los contrastes ½ H0 : θ ≤ θ 0 H1 : θ > θ 0 ½ y H0 : θ ≥ θ0 H1 : θ < θ0 150 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS son también unilaterales y el contraste ½ H0 : θ = θ0 H1 : θ 6= θ0 se dice que es bilateral. Diremos que un contraste de hipótesis es uniformemente más potente (UMP) de tamaño α para contrastar H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 si su función de potencia η(θ) verifica que sup η(θ) = α θ∈Θ0 y para cualquier otro contraste con función de potencia η ∗ que sea también de tamaño α, es decir, que cumpla sup η ∗ (θ) = α, θ∈Θ0 se tiene que η(θ) ≥ η ∗ (θ), para todo θ ∈ Θ1 . 5.2.1. Lema de Neyman-Pearson para alternativas compuestas El siguiente resultado es una extensión del Lema de Neyman-Pearson al caso de hipótesis alternativa compuesta. Teorema 42 (Lema de Neyman-Pearson para alternativas compuestas) Se desea contrastar ½ H0 : θ = θ 0 H1 : θ ∈ Θ1 = Θ − {θ0 } Para cada θ1 ∈ Θ1 , se consideran los conjuntos ( ) L(θ1 | x ) e ≥ A(θ1 ) , C(θ1 ) = x : e L(θ0 | x ) e las regiones crı́ticas de los contrastes más potentes de tamaño α para contrastar ½ H0 : θ = θ0 H1 : θ = θ1 dadas por el Lema de Neyman-Pearson. Si esas regiones crı́ticas no dependen de θ1 , es decir, si C(θ1 ) = C para todo θ1 ∈ Θ1 , entonces la prueba estadı́stica que tiene región crı́tica C es UMP de tamaño α. 5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 151 Demostración: Sea η(θ) la función de potencia del test que tiene región crı́tica C. Por la definición de C se tiene que este test tiene tamaño α. Sea η ∗ la función de potencia de cualquier otro test de tamaño α. Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson el test con región crı́tica C es el mejor para contrastar ½ H0 : θ = θ 0 H1 : θ = θ 1 y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que η(θ1 ) ≥ η ∗ (θ1 ) para todo θ1 ∈ Θ1 , luego el test C es UMP de tamaño α. 2 Ejemplo 67 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se desea contrastar ½ H0 : µ = µ 0 H1 : µ > µ 0 En el ejemplo 65 se vió que para cualquier µ1 > µ0 el mejor test para contrastar H0 : µ = µ0 frente a H10 : µ = µ1 tiene por región crı́tica σ C = { x : x ≥ B}, con B = µ0 + zα √ . n e Por lo tanto, la región crı́tica es la misma para todos los posibles valores µ1 ∈ Θ1 = (µ0 , ∞). Se sigue que el contraste con región crı́tica C es UMP de tamaño α para contrastar H0 frente a H1 . La función de potencia del test UMP es σ η(µ) = P ( X ∈ C|µ) = P (X n ≥ µ0 + zα √ |µ) = n e ¶ µ ¶ µ Xn − µ µ0 − µ µ0 − µ √ ≥ √ + zα |µ = P Z ≥ √ + zα , P σ/ n σ/ n σ/ n siendo Z ∼ N (0, 1). . . El siguiente resultado extiende el anterior al caso en el que la hipótesis nula es también compuesta. Corolario 7 Se contrasta una alternativa compuesta frente a otra compuesta: ½ H0 : θ ∈ Θ 0 . H1 : θ ∈ Θ 1 Supongamos que existe un procedimiento de contraste basado en un estadı́stico suficiente T con región crı́tica C que satisface las hipótesis siguientes: 152 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS 1. el test tiene tamaño α, 2. existe θ0 ∈ Θ0 tal que Pθ0 (T ∈ C) = α, 3. si g(t|θ) denota la función de densidad (o de probabilidad) de T , para el valor θ0 cuya existencia garantiza la hipótesis anterior y para cada θ1 ∈ Θ1 existe un A(θ1 ) ≥ 0 tal que si g(t|θ1 ) > A(θ1 ) =⇒ t ∈ C, y g(t|θ0 ) si g(t|θ1 ) < A(θ1 ) =⇒ t ∈ C. g(t|θ0 ) Entonces esta prueba es UMP de tamaño α para contrastar H0 frente a H1 . Demostración: Sea η(θ) la función de potencia del contraste que tiene región crı́tica C y sea η ∗ (θ) la función de potencia de otro contraste que tiene tamaño α. Se verificará pues que η ∗ (θ0 ) ≤ α. Fijamos un θ1 ∈ Θ1 y contrastamos H00 : θ = θ0 frente a H10 : θ = θ1 . Por el corolario al Lema de Neyman-Pearson, la región crı́tica C corresponde al mejor test, luego η(θ1 ) ≤ η ∗ (θ1 ). Esto es válido para todo θ1 ∈ Θ1 , luego el test con región crı́tica C es UMP. 2 5.2.2. Razón de verosimilitud monótona. Teorema de KarlinRubin En esta sección veremos que bajo determinadas condiciones es posible encontrar tests UMP para contrastes unilaterales cuyas regiones crı́ticas son fácilmente expresables en función de un estadı́stico suficiente. Las condiciones necesarias hacen referencia a la monotonı́a de la razón de verosimilitudes como función del estadı́stico suficiente. Una familia de funciones de densidad o de probabilidad {g(t|θ) : θ ∈ Θ} para una variable aleatoria T tiene razón de verosimilitudes monótona (RVM) si para cada θ2 > θ1 el cociente g(t|θ2 )/g(t|θ1 ) es una función no decreciente de t para los valores t tales que g(t|θ2 ) > 0 o g(t|θ1 ) > 0. Teorema 43 (Teorema de Karlin-Rubin) Se desea contrastar H0 : θ ≤ θ0 frente a H1 : θ > θ0 . Supongamos que T es un estadı́stico suficiente para θ y que la familia {g(t|θ) : θ ∈ Θ} de funciones de densidad de T tiene RVM. Entonces para cada t0 el test que rechaza H0 si y sólo si T > t0 es UMP de tamaño α = Pθ0 (T > t0 ). Demostración: Veamos en primer lugar que la función de potencia η(θ) = P (T > t0 |θ) es creciente. Sea θ1 < θ2 . Queremos comprobar que η(θ1 ) ≤ η(θ2 ). 5.2. CONTRASTES UNIFORMEMENTE MÁS POTENTES 153 El Lema de Neyman-Pearson para contrastar H00 : θ = θ1 frente a H10 : θ = θ2 establece que el mejor test tiene región crı́tica C = { x : (L(θ2 | x )/L(θ1 | x )) ≥ e e e A}. Como T es suficiente para θ, será L(θ| x ) = g(T ( x )|θ)h( x ). Dado que T e e e tiene RVM el conjunto C es ( ) g(T ( x )|θ2 ) e C= x : ≥ A = { x : T ( x ) ≥ t0 }. e g(T ( x )|θ1 ) e e e Este contraste tiene tamaño α0 = P (T > t0 |θ1 ) = η(θ1 ). Consideremos un contraste que rechaza H00 con probabilidad α0 sea cuál sea el valor x observado. e Su función de potencia es η ∗ (θ) = α0 y se trata de un test de tamaño α0 . Por el Lema de Neyman-Pearson se tiene que η(θ2 ) = P (T > t0 |θ2 ) ≥ η ∗ (θ) = α0 = η(θ1 ) y se concluye que la función de potencia η(θ) es creciente. Para demostrar que el test con región crı́tica { x : T ( x ) > t0 } es UMP e e para contrastar H0 frente a H1 usaremos el corolario 7. Para aplicarlo hay que comprobar que se cumplen sus tres hipótesis: 1. El test tiene tamaño α. Como η(θ) es no decreciente, se tiene que sup η(θ) = η(θ0 ) = α = P (T > t0 |θ0 ). θ≤θ0 2. Existe θ0 tal que Pθ0 (T ∈ C) = P (T > t0 |θ0 ) = α. Esto es cierto por definición de t0 . 3. Para cada θ1 ∈ Θ1 , existe A(θ1 ) tal que t ∈ C si y sólo si (g(t|θ1 )/g(t|θ0 )) > A(θ1 ). Esto se verifica si definimos A(θ1 ) = ı́nf t∈T g(t|θ1 ) , g(t|θ0 ) donde T = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si g(t|θ1 )/g(t|θ0 ) > A(θ1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces g(t|θ1 )/g(t|θ0 ) > ı́nf t g(t|θ1 )/g(t|θ0 ) = A(θ1 ). 2 Acabamos de ver que frecuentemente se encontrarán pruebas UMP para pruebas unilaterales. Sin embargo, no es tan sencillo tener pruebas UMP para pruebas bilaterales, como pone de manifiesto el siguiente ejemplo. Ejemplo 68 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se desea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 . 154 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Si contrastamos H0 frente a H10 : µ0 > µ1 , la región crı́tica del test UMP es C1 = { x : xn ≤ A1 }. Si contrastamos H0 frente a H10 : µ0 < µ1 , la región e crı́tica del test UMP es C2 = { x : xn ≥ A2 }. e Para contrastar H0 frente a H1 parece razonable rechazar H0 si se observan valores de la media muestral mucho mayores o mucho menores que µ0 : C = { x : xn ≤ A1 o xn ≥ A1 }, e donde A1 y A2 se eligen para que el test tenga tamaño α: P (X n ≤ A1 |µ = µ0 ) + P (X n ≥ A2 |µ = µ0 ) = α. La forma de fijar A1 y A2 puede atender a distintos criterios. Una posibilidad es elegir A1 y A2 de forma que P (X n ≤ A1 |µ = µ0 ) = P (X n ≥ A2 |µ = µ0 ) = α , 2 √ √ es decir, A1 = µ0 − zα/2 σ/ n, A2 = µ0 + zα/2 σ/ n. √ Entonces se rechazará H0 si |X n − µ0 | ≥ zα/2 σ/ n. La función de potencia es tal como se refleja en la figura siguiente (curva de trazo continuo). µ0=0, σ=1 1 Funciones de potencia 0.8 0.6 0.4 0.2 α 0 −4 −3 −2 −1 0 µ 1 2 3 4 Este contraste no es UMP porque, por ejemplo, si rechazamos H0 cuando √ X n ≥ µ0 + zα σ/ n este contraste tiene potencia superior para µ > µ0 , como puede verse en la figura anterior (curva de trazo discontinuo). . . 5.3. CONTRASTES INSESGADOS. CONTRASTES LOCALMENTE MÁS POTENTES155 Vemos en el ejemplo anterior que no es posible atender las desviaciones bilaterales de la hipótesis nula y, a la vez, superar en potencia a los contrastes que han sido diseñados para detectar desviaciones en una sola dirección. En los casos en los que no existen tests UMP es posible aún elegir contrastes que tengan propiedades deseables. Una posibilidad (que será desarrollada en la sección 5.5) es construir pruebas que sean válidas en muchas situaciones, fácilmente aplicables y con buenas propiedades teóricas. Otra posibilidad es restringir la clase de contrastes considerada y buscar el test UMP dentro de esa clase. La sección 5.3 se ocupa de esta alternativa. 5.3. Contrastes insesgados. Contrastes localmente más potentes Un contraste de hipótesis para H0 : θ ∈ Θ0 frente a H1 : θ ∈ Θ1 de tamaño α y con función de potencia η(θ) es un contraste insesgado si η(θ) ≥ α para todo θ ∈ Θ1 . Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la potencia nunca es menor bajo la hipótesis alternativa que bajo la nula: siempre es más probable rechazar la hipótesis nula si ésta es falsa que si no lo es. Es entonces lógico restringir la clase de contrastes que se consideran a aquella que contiene sólo contrastes insesgados. Entre éstos se buscarán los tests UMP. Si se adopta este enfoque, puede probarse que en el muestreo de la normal con σ 2 conocida (ver ejemplo 68) el contraste que rechaza H0 : µ = µ0 si √ |X n − µ0 | ≥ zα/2 σ/ n es insesgado y es UMP en la clase de los contrastes insesgados. Para una demostración de este hecho, véase por ejemplo CasellaBerger, ejemplo 8.3.9. En la búsqueda de contrastes UMP, un planteamiento alternativo al de reducir la clase de contrastes considerados (que nos lleva, por ejemplo, a buscar tests insesgados UMP) consiste en reducir las hipótesis alternativas que se tienen en cuenta. En este sentido, es lógico buscar procedimientos que sean uniformemente más potentes sólo para las hipótesis alternativas cercanas a la hipótesis nula. Serán estos contrastes los más potentes para detectar pequeñas desviaciones de la hipótesis nula. En cada caso concreto se ha de especificar qué se entiende por hipótesis cercanas a la nula. Supongamos que el parámetro θ es real. Se dice que un test con función de potencia η(θ) es el más potente localmente para contrastar H0 : θ ≤ θ0 (o H0 : θ = θ0 ) frente a H1 : θ > θ0 si, para cualquier otro contraste con función de potencia η 0 (θ) tal que η(θ0 ) = η 0 (θ0 ), existe un δ > 0 tal que η(θ) ≥ η 0 (θ) para todo θ ∈ (θ0 , θ0 + δ]. 156 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Veamos cómo podemos encontrar el test más potente localmente en este caso. Restringimos la hipótesis alternativa del siguiente modo: ½ H0 : θ = θ0 H1 : θ = θ0 + δ para δ > 0 cercano a 0. Por el lema de Neyman-Pearson el mejor test tiene región crı́tica de la forma L(θ0 + δ; x ) e ≥ A ⇐⇒ log L(θ0 + δ; x ) − log L(θ0 ; x ) ≥ log A. e e L(θ0 ; x ) e Desarrollando por Taylor alrededor de δ = 0, se tiene que ¯ ∂ log L ¯¯ log L(θ0 + δ; x ) ≈ log L(θ0 ; x ) + δ ∂θ ¯θ=θ0 e e y por tanto el test localmente más potente se basa en la función score ¯ ∂ log L ¯¯ S(θ0 ; x ) = ∂θ ¯θ=θ0 e y tiene por región crı́tica, aproximadamente, S(θ0 ; x ) ≥ B = zα e p Iθ0 ya que, bajo H0 , E[S(θ0 ; x )] = 0, V [S(θ0 ; x )] = Iθ0 y S(θ0 ; x ) es aproximadae e e mente normal. Ejemplo 69 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con función de densidad 1 f (x|θ) = . π(1 + (x − θ)2 ) Se desea contrastar ½ H0 : θ = θ 0 . H1 : θ > θ 0 La verosimilitud y su logaritmo son n n Y X ¡ ¢ 1 L(θ; x ) = , l (θ; x ) = − log π + log(1 + (xi − θ)2 ) . 2 π(1 + (xi − θ) ) e e i=1 i=1 La función score es S(θ; x ) = e n X i=1 y la información de Fisher Iθ = 2(xi − θ) 1 + (xi − θ)2 n . 2 5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES 157 Asintóticamente la prueba localmente más potente rechaza H0 : θ = θ0 en favor de H1 : θ > θ0 si y sólo si r n X 2(xi − θ0 ) n ≥ zα/2 . 2 1 + (xi − θ0 ) 2 i=1 . . Observemos que las pruebas localmente más potentes son útiles sólo para alternativas unilaterales. Si θ es un vector, serán útiles cuando nos preocupa una dirección especı́fica en la que el parámetro pueda alejarse de θ0 . 5.4. Consistencia y eficiencia para contrastes Las propiedades deseables de los contrastes no se limitan a ser UMP o ser localmente más potente. La siguiente es también una propiedad que cualquier test razonable deberı́a cumplir. Supongamos que un contraste depende del tamaño n de la muestra y que su función de potencia se denota por ηn (θ). Diremos que un contraste es consistente si lı́m ηn (θ) = 1 n−→∞ para todo θ ∈ Θ1 . Las pruebas derivadas del Lema de Neyman-Pearson son consistentes (ver, por ejemplo, el teorema 6.6.1 de Bickel y Doksum 1977). Esta definición lleva aparejado un concepto de eficiencia relativa entre contrastes. Sean H0 y H1 dos hipótesis simples. Dados dos contrastes T1 y T2 , ambos de tamaño α y consistentes para contrastar H0 frente a H1 , se consideran respectivamente los tamaños muestrales n1 y n2 más pequeños necesarios para obtener potencia mayor o igual que η, un valor fijo. Se define la eficiencia relativa de T1 comparado con T2 como n2 . n1 Se define la eficiencia relativa asintótica de T1 comparado con T2 como n2 lı́m , η−→1 n1 es decir, es el lı́mite del cociente n2 /n1 cuando ambos tamaños muestrales tienden a infinito conjuntamente, en el sentido de que ambos garantizan potencia η y η tiende a 1. Existen otros conceptos de eficiencia relativa entre contrastes que contemplan la posibilidad de que la hipótesis alternativa tienda hacia la nula cuando n tiende a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver, por ejemplo, Shorack y Wellner 1986). 158 5.5. CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Test de la razón de verosimilitudes Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con función de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea hacer el contraste ½ H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Se define el estadı́stico de la razón de verosimilitudes como máxθ∈Θ0 L(θ| x ) e . λ = λ( x ) = e máxθ∈Θ L(θ| x ) e El test de la razón de verosimilitudes (también llamado test de la razón de verosimilitudes generalizado, para distinguirlo del test de NeymanPearson, o test de la razón de las máximas verosimilitudes) establece una región crı́tica de la forma C = { x : λ( x ) ≤ A} e e para alguna constante A que se determinará para que el test tenga el tamaño α deseado. La idea intuitiva que sustenta este método de contraste es simple. Obsérvese que 0 ≤ λ ≤ 1 y que cuanto más cercano a 1 sea el valor de λ, más verosı́mil es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creı́ble será la hipótesis alternativa θ ∈ Θ1 . Ejemplo 70 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ), µ y σ 2 desconocidos: el parámetro es θ = (µ, σ 2 ). Se desea contrastar ½ H0 : µ = µ0 H1 : µ 6= µ0 La verosimilitud es: ( 2 −n/2 L(θ| x ) = (2πσ ) e n 2 X exp − 2 (xi − µ)2 2σ i=1 ) . El estimador de máxima verosimilitud (MV) bajo H0 es θ̃ = (µ0 , σ̃ 2 ), donde n σ̃ 2 = 1X (xi − µ0 )2 n i=1 y el valor de la verosimilitud en ese punto es n no máx L(θ| x ) = (2πσ̃ 2 )−n/2 exp − . θ∈Θ0 2 e 5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES 159 El estimador MV en general es θ̂ = (x, σ̂ 2 ), donde n n−1 2 1X σ̃ = S = (xi − x)2 , n n i=1 2 y el máximo de la verosimilitud es n no máx L(θ| x ) = (2πσ̂ 2 )−n/2 exp − . θ∈Θ 2 e Por lo tanto, µ Pn ¶−n/2 (xi − µ0 )2 i=1 λ = λ( x ) = = Pn = 2 e i=1 (xi − x) µ Pn ¶ µ ¶−n/2 2 2 −n/2 t2 i − x) + n(x − µ0 ) i=1 (x P = 1 + , n 2 n−1 i=1 (xi − x) √ H donde t = n(x − µ0 )/S ∼0 . Por lo tanto, el estadı́stico λ es decreciente en |t|. µ σ̃ 2 σ̂ 2 ¶−n/2 La prueba de razón de verosimilitudes rechaza H0 si λ < A para algún A, lo cuál ocurrirá si y sólo si |t| > B para algún B. Por lo tanto, la prueba de razón de verosimilitudes rechaza H0 si |x − µ0 | √ >B S/ n y B se elige para que el tamaño del test sea α. Por lo tanto, este test coincide con el test t bilateral clásico en el muestreo de la normal. . . 5.5.1. Relación con el Lema de Neyman-Pearson. Cuando H0 y H1 son hipótesis simples, el estadı́stico λ( x ) vale lo siguiente: e ( ) L(θ0 | x ) L(θ0 | x ) e e λ( x ) = = mı́n 1, . e máx{L(θ0 | x ), L(θ1 | x )} L(θ1 | x ) e e e El test que rechaza H0 cuando λ ≤ A tiene la misma región crı́tica (y, por tanto, es el mismo contraste) que el que la rechaza cuando L(θ1 | x )/L(θ0 | x ) ≥ (1/A), e e que es la región crı́tica dada por el test de Neyman-Pearson. La única distorsión es que no se pueden construir pruebas de la razón de verosimilitudes con niveles α ∈ (1 − p, 1), donde p es ¯ ! à ¯ L(θ0 | x ) e > 1¯¯ H0 , p=P ¯ L(θ1 | x ) e ya que si rechazamos H0 cuando λ( x ) ≤ A < 1, entonces ¯ !e ¯ ! à à ¯ ¯ L(θ0 | x ) L(θ0 | x ) ¯ e ≤ A¯ H0 ≤ P e ≤ 1¯¯ H0 = 1 − p α=P ¯ ¯ L(θ1 | x ) L(θ1 | x ) e e y si tomamos A = 1 entonces el tamaño es α = 1. 160 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS 5.5.2. Propiedades de los contrastes de razón de verosimilitudes El estadı́stico λ( x ) del test de la razón de verosimilitudes depende de x e e sólo a través del estadı́stico minimal suficiente para θ. Las propiedades de estos contrastes para muestras pequeñas dependen de la modelización paramétrica concreta de que se trate. La siguiente es una propiedad común a todos los contrastes de razón de verosimilitudes: Si H0 es simple y existe una prueba UMP para contrastar H0 frente a H1 , entonces el test de razón de verosimilitudes coincide con el test UMP. (Véase Garthwaite, Jollife y Jones 1995, página 84, y las referencias allı́ citadas para una demostración de esta propiedad.) Muchas de las propiedades asintóticas de los contrastes de la razón de verosimilitudes son comunes a todos ellos. Citemos las siguientes: Bajo las condiciones de regularidad que garantizan que el estimador de máxima verosimilitud es consistente, se tiene que el test de razón de verosimilitudes es un test consistente. (Véase Cristóbal 1992, página 589). El test razón de verosimilitudes es asintóticamente la prueba insesgada más potente. (Véase Garthwaite, Jollife y Jones 1995, página 84.) El test razón de verosimilitudes es asintóticamente eficiente, en el sentido de la eficiencia relativa asintótica definida al final de la sección 5.3. (Véase Garthwaite, Jollife y Jones 1995, página 85.) Probaremos el siguiente resultado asintótico, que es útil para determinar el valor crı́tico A de la definición del test de la razón de verosimilitudes. Teorema 44 Sea X1 , . . . , Xn muestra aleatoria simple de X, variable aleatoria con función de densidad (o de probabilidad) f (x|θ) para algún θ ∈ Θ. Se desea hacer el contraste ½ H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 donde Θ = Θ0 ∪ Θ1 y Θ0 ∩ Θ1 = ∅. Bajo las condiciones H1, H2, C1, C2, C3, C4, C5 y C6 de los teoremas 37, 38 y 39 sobre el comportamiento asintótico del estimador MV (esas hipótesis aseguran la existencia y continuidad de las derivadas respecto al parámetro de la función de verosimilitud, y que el soporte de las distribuciones no depende del parámetro) se tiene que el estadı́stico Qn = −2 log λ( X n ) −→n χ2d e bajo la hipótesis nula, donde d = dim(Θ) − dim(Θ0 ). 5.5. TEST DE LA RAZÓN DE VEROSIMILITUDES 161 Demostración: Haremos la prueba para el caso dim(Θ) = 1, dim(Θ0 ) = 0 (luego d = 1). Para el caso general, puede verse, por ejemplo, Cristóbal (1992), Teorema 1.2, página 596. Consideramos el modelo X ∼ f ∈ {fθ : θ ∈ Θ ⊆ IR} y el contraste ½ H0 : θ = θ 0 H1 : θ 6= θ0 Ası́, d = 1 − 0 = 1. Obsérvese que ³ ´ Qn = −2 log λ( X n ) = 2 log L(θ̂n | x n ) − log L(θ0 | x n ) , e e e donde θ̂n es el estimador máximo verosı́mil de θ. Desarrollamos l (θ0 | x n ) = e log L(θ0 | x n ) en serie de Taylor alrededor de θ̂n : e l (θ0 | x n ) = l (θ̂n | x n ) + e e 2 ∂ l (θ̂n | x n ) 1 ∂ l (θ̃| x n ) e (θ0 − θ̂n )2 e (θ0 − θ̂n ) + ∂θ 2 ∂θ2 donde θ̃ es un valor entre θ̂n y θ0 . Ası́, 2 ∂ l (θ̂n | x n ) 1 ∂ l (θ̃| x n ) e (θ0 − θ̂n )2 e (θ0 − θ̂n ) − Qn = 2 − = 2 2 ∂θ | ∂θ {z } =0 − ∂ 2 l (θ̃| x n ) e (θ0 − θ̂n )2 . ∂θ2 En el teorema 39 se probó que el estimador máximo verosı́mil θ̂n es consistente. Como además |θ̃ − θ0 | ≤ |θ̂n − θ0 | se tendrá que bajo H0 θ̃ −→P H0 θ0 . En el teorema 39 se probó que bajo H0 2 1 ∂ l (θ̃| x n ) e − −→P IX (θ0 ), n ∂θ2 y que √ n(θ̂n − θ0 ) −→D N (0, 1T overIX (θ0 )) , De donde se sigue, por el Teorema de Slutzky, que Qn = − 2 ´2 1 ∂ l (θ̃| x n ) ³√ e n( θ̂ − θ ) −→D χ21 . n 0 n ∂θ2 2 El cálculo de d, la diferencia entre las dimensiones de Θ y Θ0 , suele hacerse como d = ν1 − ν0 , 162 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS donde νi es el número de parámetros estimados bajo Hi menos las restricciones que relacionan unos parámetros con otros, para i = 1, 2. Ejemplo 71 P5 Modelos log-lineales. Sea θ ∈ Θ = {(p1 , p2 , p3 , p4 , p5 ) ∈ IR5 : j=1 pj = 1, y pj ≥ 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas independientes e idénticamente distribuidas tales que Pθ (Xi = j) = pj = f (j|θ) es la función de probabilidad de Xi . La verosimilitud asociada a una muestra de tamaño n es n Y L(θ| x ) = f (xi |θ) = py11 py22 py33 py44 py55 e i=1 donde yj = #{xi , i = 1, . . . , n : xi = j}, j = 1, . . . , 5. Se desea contrastar ½ H0 : p1 = p2 = p3 , p4 = p5 H1 : H0 es falsa El espacio paramétrico Θ tiene dimensión 4, porque los parámetros tienen una P5 ligadura lineal: j=1 pj = 1. Para definir Θ0 , observemos que bajo H0 se cumple que p1 + p2 + p3 = 3p1 ≤ 1, luego 0 ≤ p1 ≤ 1/3. Además, como los pj deben sumar 1, se tiene que 3p1 + 2p4 = 1, luego p4 = (1 − 3p1 )/2. Ası́, Θ0 es Θ0 = {(p1 , p1 , p1 , p4 , p4 ) : 0 ≤ p1 ≤ 1/3, y p4 = (1 − 3p1 )/2} luego Θ0 tiene dimensión 1. Ası́ d = dim(Θ) − dim(Θ0 ) = 4 − 1 = 3. Es sencillo verificar que el EMV global de pj es p̂j = yj /n. Calculemos ahora el EMV bajo H0 . La verosimilitud es µ L(p1 | x ) = e p1y1 +y2 +y3 1 − 3p1 2 ¶y4 +y5 de donde se sigue que el EMV de p1 bajo H0 es p̂10 = y1 + y2 + y3 , 3n que p̂20 = p̂30 = p̂10 = y que p̂40 = p̂50 = y1 + y2 + y3 3n 1 − 3p̂10 y4 + y5 = . 2 2 , 5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD163 El estadı́stico λ( x ) es entonces e λ( x ) = e µ y1 + y2 + y3 3y1 ¶y1 µ ³ ´y4 +y5 1−3p̂10 2 pˆ1 y1 pˆ2 y2 pˆ3 y3 pˆ4 y4 pˆ5 y5 y1 +y2 +y3 p̂10 y1 + y2 + y3 3y2 ¶y2 µ y1 + y2 + y3 3y3 = ¶y3 µ y4 + y5 2y4 ¶y4 µ y4 + y5 2y5 ¶ y5 El estadı́stico Qn = −2 log λ( x ) es e µ ¶ 5 X yj Qn = −2 log λ( x ) = 2 yj log , mj e j=1 donde yj = np̂j , j = 1, . . . , 5, son las estimaciones de las frecuencias en cada una de las categorı́as j = 1, . . . , 5 y mj = np̂j0 , j = 1, . . . , 5 son las estimaciones bajo la hipótesis nula. El test de razón de verosimilitudes rechaza H0 si −2 log λ( x ) ≥ e χ23,α . Este es un ejemplo de una familia de modelos conocidos como modelos loglineales. En esta familia el estadı́stico Qn del test de razón de verosimilitudes tiene siempre la forma que acabamos de ver. . . 5.6. Contrastes relacionados con el de máxima verosimilitud El contraste basado en la razón de verosimilitudes no es el único procedimiento general para realizar contrastes de hipótesis. En esta sección veremos otros dos métodos válidos para contrastar una hipótesis nula simple frente a una alternativa compuesta. Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f Se desea contrastar 5.6.1. ( H0 : θ = e H1 : θ = 6 e θ e θ e θ e , θ ∈ Θ ⊆ Rk . e 0 0 Test del score. Cuando en la sección 5.3 buscábamos procedimientos localmente más potentes, llegamos a un test basado en la función score: Sn (θ; x n ) = e ∂ log L(θ; x n ) e ∂θ . 164 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS si θ ∈ IR, o à Sn ( θ ; x n ) = e e ∂ log L( θ ; x n ) ∂ log L( θ ; x n ) e e ,..., e e ∂θ1 ∂θk !t si θ = (θ1 , . . . , θk ) ∈ IRk . e Para contrastar H0 : θ = θ 0 frente a H1 : θ 6= θ 0 se propone el e e e e estadı́stico S t −1 Tn = (Sn ( θ 0 ; x n )) (In ( θ 0 )) Sn ( θ 0 ; x n ), e e e e e que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regularidad, se distribuye asintóticamente como una χ2k dado que Sn ( θ ; x n ) ≈ Nk (0, In ( θ 0 )). e e e Para el caso k = 1 se tiene que bajo H0 à !2 ∂ log L(θ; x n ) −1 S e ≈ χ21 . Tn = (In ( θ 0 )) ∂θ e El test del score rechaza H0 si TnS ( x n ) > χ2k,α . e Cualquier estimador consistente de la matriz de información asintótica podrı́a ser usado en lugar de In (θ0 ). Por ejemplo, pueden usarse la información observada On que se definió en el teorema 40. Los tests del score se conocen en econometrı́a como tests de los multiplicadores de Lagrange. 5.6.2. Test de Wald. El contraste de H0 : θ = θ 0 frente a H1 : θ 6= θ 0 puede basarse también e e e e en alguna distancia entre θ 0 y el estimador de máxima verosimilitud de θ , e e ˆθ . Dado que bajo H la distribución aproximada de ˆθ es 0 en en ˆθ ≈ N ( θ , (I ( θ ))−1 ), k 0 n 0 en e e el estadı́stico Wn = ( ˆθ − θ 0 )t In ( θ 0 )( ˆθ − θ 0 ) en e e en e ˆ mide la distancia de Mahalanobish entre θ 0 y θ . El test de Wald se basa e en en este estadı́stico. Bajo H0 , Wn ≈ χ2k . Se rechaza H0 si Wn ( x n ) > χ2k,α . e Aquı́, al igual que ocurrı́a con el test del score, la matriz In ( θ 0 ) puede e ser sustituida por otro estimador consistente de la matriz de información. Por ˆ ejemplo, puede usarse In ( θ ) o la matriz de información observada On . en 5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD165 Obsérvese que para calcular el estadı́stico Wn sólo es necesario calcular el estimador máximo verosı́mil global. Por este motivo se le llama a veces test de la máxima verosimilitud. Obsérvese que la expresión del test de la razón de verosimilitudes es completamente diferente de las expresiones de los test del score o de Wald. Sin embargo, es fácil ver (usando desarrollos de Taylor) que los tres contrastes son asintóticamente equivalentes en el sentido siguiente: TnS + 2 log λ( x n ) −→P 0, Wn + 2 log λ( x n ) −→P 0. e e En muestras finitas los tres tests pueden presentar diferencias. Ejemplo 72 En un experimento de Bernoulli con probabilidad de éxito p que se repite n veces, se llama X al número de éxitos observados: X ∼ B(n, p). Se trata de contrastar las hipótesis ½ H0 : p = p 0 H1 : p 6= p0 mediante los contrastes de la razón de verosimilitudes, del score y de Wald. Calculamos el logaritmo de la verosimilitud, µ ¶ n l (p, x ) = log + x log p + (n − x) log(1 − p), x e y sus primeras derivadas respecto al parámetro, ∂ l (p, x ) x n−x x − np e = − = , ∂p p 1−p p(1 − p) ∂ 2 l (p, x ) x n−x x(2p − 1) − np2 e = − + = . ∂p2 p2 (1 − p)2 p2 (1 − p)2 Ası́, el EMV es p̂ = x . n y la información de Fisher es à In (p) = E ∂ 2 l (p, x ) e − ∂p2 ! = n . p(1 − p) El estadı́stico del test del score es à TnS = (In (p0 ))−1 p0 (1 − p0 ) n µ ∂ l (p, x ) e − ∂p x − np0 p0 (1 − p0 ) ¶2 = !2 = (x − np0 )2 , np0 (1 − p0 ) 166 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS y el del test de Wald Wn = (p̂ − p0 )2 n (x − np0 )2 = . p̂(1 − p̂) np̂(1 − p̂) Por su parte, el estadı́stico del test de la razón de verosimilitudes es λ(x) = máxp=p0 L(p|x) L(p0 |x) = , máxp∈(0,1) L(p|x) L(p̂|x) y Qn = −2 log λ(x) = 2 (log L(p̂|x) − log L(p0 |x)) = 2 (l (p̂|x) − l (p0 |x)) = 2 (x log p̂ + (n − x) log(1 − p̂) − x log p0 − (n − x) log(1 − p0 )) = 2x (log p̂ − log(1 − p̂) − log p0 + log(1 − p0 )) + 2n (log(1 − p̂) − log(1 − p0 )) = 2x log 1 − p0 p0 1 − p0 − 2x log − 2 log . 1 − p̂ p̂ 1 − p̂ Desarrollando la función log en serie de Taylor hasta el orden 2 alrededor del 1, se obtiene que la expresión aproximada de Qn coincide con Wn . . . 5.6.3. Contrastes en presencia de parámetros secundarios. Acabamos de ver dos métodos generales (el test del score y el test de Wald) para construir contrastes cuando la hipótesis nula es simple. Hemos visto que están relacionados con el contraste de la razón de verosimilitudes. Sin embargo éste último test es aplicable aun cuando la hipótesis nula sea compuesta. Veremos ahora que los tests del score y de Wald también pueden aplicarse aunque no todos los parámetros del modelo queden fijados en la hipótesis nula. Aquellos parámetros a los que H0 no hace referencia se denominan parámetros secundarios o parámetros nuisance, en inglés. Suponemos que el vector de parámetros θ puede subdividirse en dos subconjuntos, θt = (αt , β t ), con dimensión de α igual a p < k, y que se desean contrastar las hipótesis ½ H0 : α = α 0 H1 : α 6= α0 Sea (α̂n , β̂n ) el EMV de (α, β) construido a partir de una muestra de tamaño n. Entonces se tiene que ¶ µ ¶ µµ ¶ α̂n α −1 . ≈ Nk , (In (α, β)) β β̂n Se trata ahora de derivar contrastes basados en la distribución asintótica de √ n(α̂n − α). 5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD167 Escribimos la matriz de información de Fisher en bloques, µ ¶ In,αα (α, β) In,αβ (α, β) In (α, β) = In,βα (α, β) In,ββ (α, β) de forma que In,αα (α, β) es la matriz de varianzas-covarianzas de las componentes α de la función score. Afirmaciones análogas son ciertas para los restantes bloques. Obsérvese que In,βα (α, β) = In,αβ (α, β)t . Para facilitar la notación, llamaremos Iij al bloque (i, j) de In (α, β), para i = 1, 2 y j = 1, 2. Invertimos la matriz In (α, β) mediante las fórmulas de una matriz dividida en bloques y obtenemos que el bloque correspondiente a la varianza de α̂n es ¡ ¢−1 −1 I11 − I12 I22 I21 . Ası́, definimos la información sobre α ajustada después de haber estimado β como el inverso de esa matriz: −1 In,αα|β (α, β) = I11 − I12 I22 I21 . La distribución marginal aproximada de α̂n es ³ £ ¤−1 ´ α̂n ≈ Np α, In,αα|β (α, β) . El estadı́stico del test de Wald es t Wn = (α̂n − α0 ) In,αα|β (α̂n , β̂n ) (α̂n − α0 ) , que bajo H0 tiene distribución aproximada χ2p . Se rechazará H0 a nivel τ ∈ (0, 1) si Wn > χ2p,τ . Vamos ahora a deducir la expresión del test del score apropiado para esta situación. Se estima β mediante β̂0 , el EMV de β calculado suponiendo que α = α0 , es decir, resolviendo en β el sistema de ecuaciones Sn,β (α0 , β) = 0. De las propiedades usuales de los estimadores máximo verosı́miles se deduce que bajo H0 ¡ ¢ Sn,α (α0 , β̂0 ) ≈ Np 0, In,αα|β (α0 , β) . Por tanto, el estadı́stico del test del score es £ ¤−1 TnS = [Sn,α (α0 , β̂0 )]t In,αα|β (α0 , β0 ) [Sn,α (α0 , β̂0 )] que bajo H0 es aproximadamente χ2p (de hecho, es asintóticamente equivalente a Wn ). Se rechazará H0 a nivel τ ∈ (0, 1) si TnS > χ2p,τ . Para deducir la prueba de la razón de verosimilitudes hay que ajustar tanto el modelo global como el reducido: Qn = −2 log λ( x n ) = 2[l (α̂n , β̂n ) − l (α0 , β̂0 )], e que bajo H0 es aproximadamente χ2p y asintóticamente equivalente a Wn y a TnS . 168 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Ejemplo 73 Modelo de regresión exponencial. Supongamos que en n individuos independientes se mide el valor de una covariable xi y el de una variable respuesta Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de fallo 1/E[Yi ] = exp(α + βxi ), donde α, β ∈ IR. Interesa saber si la covariable está asociada con la respuesta, ası́ que se plantea el contraste ½ H0 : β = 0 H1 : β 6= 0 Buscaremos el test de Wald, el del score y el de máxima verosimilitud. Calculamos la verosimilitud: L(α, β|(yi , xi ), 1 ≤ i ≤ n) = n Y exp(α + βxi ) exp(−yi exp(α + βxi )) =⇒ i=1 l (α, β|(yi , xi ), 1 ≤ i ≤ n) = n X {α + βxi − yi exp(α + βxi )} = i=1 nα + β n X xi − i=1 n X yi exp(α + βxi ) i=1 Calculamos las funciones score: Sα (α, β) = n X ∂l =n− yi exp(α + βxi ), ∂α i=1 n n X X ∂l Sβ (α, β) = = xi − yi xi exp(α + βxi ). ∂β i=1 i=1 Los componentes de la matriz de información observada vienen dados por las derivadas de los scores: n X ∂ l yi exp(α + βxi ), 2 = ∂α i=1 2 − n − X ∂ 2l = yi xi exp(α + βxi ), ∂α∂β i=1 n − X ∂2l = yi x2i exp(α + βxi ). ∂β 2 i=1 Como E(Yi ) = 1/ exp(α + βxi ) para cada i, tomando esperanzas de las expresiones anteriores se obtiene la matriz de información: µ ¶ Pn n x Pn Pni=1 2i In (α, β) = i=1 xi i=1 xi La información para β ajustada por α es −1 Iββ|α = Iββ − Iβα Iαα Iαβ = n X n n X X 1 x2i − ( xi )2 = (xi − x)2 n i=1 i=1 i=1 5.6. CONTRASTES RELACIONADOS CON EL DE MÁXIMA VEROSIMILITUD169 El estimador de máxima verosimilitud conjunto (α̂n , β̂n ) se calcula resolviendo numéricamente el sistema de ecuaciones ½ ½ Pn Sα (α, β) = 0 n = i=1 yi exp(α + βxi ) Pn Pn ⇐⇒ Sβ (α, β) = 0 i=1 xi = i=1 xi yi exp(α + βxi ) Por su parte, el estimador de máxima verosimilitud de α bajo la hipótesis nula de que β = 0 puede calcularse explı́citamente, pues en ese caso Yi son una m.a.s. de Y ∼ exp(exp(α)), y sabemos que en este caso el EMV es α̂0 = log(n/ n X yi ). i=1 Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular los estadı́sticos de los trest contrastes: Test de Wald. Wn = (β̂n − β0 )t Iββ|α (β̂n − β0 ) = β̂n2 n X H0 (xi − x)2 ≈ χ21 . i=1 Test del score. El score calculado en el EMV bajo H0 es Sβ (α̂0 , 0) = n X xi − i=1 n X n yi xi Pn i=1 i=1 yi = µ ¶ yi xi 1 − y i=1 n X y tiene varianza aproximadamente igual a Iββ|α = n X (xi − x)2 , i=1 ası́ que ´ ³ yi x 1 − i=1 i y Sβ (α̂0 , 0) p = pPn ≈H0 N (0, 1), 2 Iββ|α i=1 (xi − x) Pn luego à TnS = µ ¶!2 X n H0 yi xi 1 − (xi − x)2 ≈ χ21 . y i=1 i=1 n X Test de la razón de verosimilitudes. −2 log λ = " 2 nα̂n + β̂n n X i=1 xi − n X yi exp(α̂n + β̂n xi ) − n log(n/ i=1 n X # yi ) − n i=1 que bajo H0 es aproximadamente χ21 . . . 170 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS 5.7. Contrastes bayesianos El enfoque bayesiano de los contrastes de hipótesis es conceptualmente diferente del enfoque frecuentista que hemos desarrollado hasta ahora. Sean H0 y H1 las hipótesis que se van a contrastar, que en un modelo paramétrico serán afirmaciones sobre el parámetro θ de la forma θ ∈ Θ0 y θ 6∈ Θ0 , respectivamente. En un marco frecuentista las hipótesis son siempre ciertas o estrictamente falsas, dado que si θ ∈ Θ0 entonces H0 es cierta y por tanto P (H0 es cierta|x) = 1 para todo x, y P (H1 es cierta|x) = 0 para todo x, mientras que si θ 6∈ Θ0 esas probabilidades son, respectivamente, 0 y 1 sea cual sea el valor de x observado. En un marco bayesiano, sin embargo, tiene perfecto sentido hablar de P (H0 es cierta|x) y P (H1 es cierta|x), las probabilidades de que cada una de las hipótesis sean ciertas después de haber observado los datos x. Estas probabilidades proporcionan información útil sobre la veracidad de H0 y H1 . Sea X1 , . . . , Xn una muestra aleatoria simple de X ∼ f (x|θ) y θ una variable aleatoria con función de densidad (o de probabilidad) a priori π(θ). El contraste de H0 frente a H1 se basará en la distribución a posteriori π(θ| x ), donde x es e e la m.a.s. de X observada. El contraste planteado es ½ H0 : θ ∈ Θ 0 H1 : θ ∈ Θ1 = Θc0 Las probabilidades a posteriori de cada una de las hipótesis son Z P (H0 es cierta| x ) = P (θ ∈ Θ0 | x ) = π(θ| x )dθ, e e e Θ0 Z P (H1 es cierta| x ) = P (θ ∈ Θ1 | x ) = π(θ| x )dθ. e e e Θ1 El procedimiento para aceptar o rechazar H0 podrı́a ser, por ejemplo, rechazar H0 si P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ) e e y aceptarla en caso contrario. Con la terminologı́a introducida en las secciones anteriores, el estadı́stico del contraste serı́a T ( X ) = P (θ 6∈ Θ0 | X ) e e y la región crı́tica { x : P (θ 6∈ Θ0 | x ) > 1/2}. e e Un procedimiento más conservador consiste en rechazar H0 sólo si la probabilidad de que sea falsa, dados los datos x , es mayor que c > 1/2 (por ejemplo, e puede tomarse c = 0,95 o c = 0,99). 5.7. CONTRASTES BAYESIANOS 171 Ejemplo 74 Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribución a priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos ½ H0 : θ ≤ θ 0 H1 : θ > θ 0 Tal como se vió en la sección 3.3, la distribución a posteriori de θ es N (µp , τp2 ), donde τ 2 σ2 nτ 2 x + σ 2 µ , τ = . µp = p nτ 2 + σ 2 nτ 2 + σ 2 Rechazar H0 si y sólo si P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ), e e es equivalente a hacerlo si y sólo si 1 P (θ ≤ θ0 | x ) < , 2 e y como π(θ| x ) es simétrica y centrada en µp , esto es cierto si y sólo si e µp = nτ 2 x + σ 2 µ σ 2 (θ0 − µ) > θ0 ⇐⇒ x > θ0 + . 2 2 nτ + σ nτ 2 . . 5.7.1. Ventaja a priori y a posteriori. Factor de Bayes En el marco de la inferencia bayesiana, la forma de proceder es determinar la ventaja a posteriori de H0 (en inglés, posterior odds), Q∗ = P (H0 | x ) e P (H1 | x ) e y la conclusión del contraste se expresa diciendo que H0 es Q∗ veces más probable que H1 , dados los datos. Alternativamente, y dado que P (H0 | x ) + P (H1 | x ) = 1, se tiene que e e 1 Q∗ = P (H0 | x ), y = P (H1 | x ) 1 + Q∗ 1 + Q∗ e e son, respectivamente, las probabilidades a posteriori de que H0 y H1 sean ciertas. Obsérvese que en el enfoque bayesiano se tratan las dos hipótesis, la nula y la alternativa, de forma simétrica. 172 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Mediante el teorema de Bayes, podemos expresar Q∗ de la forma siguiente: x |H0 )P (H0 ) e h( x ) P (H0 | x ) P (H0 ) f ( x |H0 ) ∗ e = e e Q = = = Q · B, P (H1 ) f ( x |H1 ) P (H1 | x ) f ( x |H1 )P (H1 ) e e e h( x ) e f( donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la creencia del investigador sobre qué hipótesis es cierta antes de realizar el experimento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina cómo e e los datos observados han cambiado esas creencias sobre qué hipótesis es cierta. A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las dos hipótesis. El interés se centra entonces en el factor de Bayes, pues este valor es el que determina cómo los datos modifican las creencias sobre qué hipótesis es cierta. En general H0 especifica el modelo muestral f0 (x|θ) y una distribución a priori para θ, mientras que H1 especifica otro modelo paramétrico f1 (x|φ) y una distribución a priori sobre φ. Con esta formulación, los contrastes bayesianos permiten comparar modelos paramétricos diferentes. Por ejemplo, en un problema de regresión lineal se podrı́an comparar dos conjuntos de regresores diferentes. Veremos ahora cómo se concretan los contrastes bayesianos en tres situaciones en las que el modelo paramétrico bajo ambas hipótesis es el mismo: el contraste de dos hipótesis simples, el de dos compuestas y el de una simple frente a una compuesta. 5.7.2. Contraste de dos hipótesis simples. Se trata de contrastar ½ H0 : θ = θ0 H1 : θ = θ1 Dar una distribución a priori para el parámetro consiste en fijar valores para P (H0 ) y P (H1 ). En este caso el factor de Bayes es B= f ( x |θ0 ) e , f ( x |θ1 ) e que es el cociente de verosimilitudes que sirve de estadı́stico al test derivado del Lema de Neyman-Pearson. 5.7. CONTRASTES BAYESIANOS 173 Ejemplo 75 Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). Ası́, ( n X n ) f ( x |θ) = θ exp −θ xi e i=1 y µ B= θ0 θ1 ( ¶n exp (θ1 − θ0 ) n X ) xi . i=1 La ventaja a posteriori de H0 es P (H0 ) Q∗ = P (H1 ) µ θ0 θ1 ¶n ( exp (θ1 − θ0 ) n X ) xi . i=1 . . 5.7.3. Contraste de dos hipótesis compuestas. Se trata de contrastar ½ H0 : θ ∈ Θ0 H1 : θ ∈ Θ1 = Θc0 Para cada hipótesis se debe determinar una distribución a priori del parámetro θ (éstas podrı́an coincidir). Sean π0 (θ|H0 ) y π1 (θ|H1 ), la distribuciones a priori de θ bajo H0 y bajo H1 , respectivamente. Ası́, Z Z f ( x |H0 ) = f (x, θ|H0 )dθ = f (x|θ)π0 (θ|H0 )dθ, e Θ0 Θ0 y Z f ( x |H1 ) = e Z f (x, θ|H1 )dθ = Θ1 Por lo tanto, el factor de Bayes es R B = RΘ0 Θ1 5.7.4. f (x|θ)π1 (θ|H1 )dθ, Θ1 f (x|θ)π0 (θ|H0 )dθ f (x|θ)π1 (θ|H1 )dθ . Contraste de hipótesis nula simple frente a alternativa compuesta. Se trata de contrastar ½ H0 : θ = θ 0 H1 : θ 6= θ0 174 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este caso f (x|θ0 ) B=R . f (x|θ)π 1 (θ|H1 )dθ θ6=θ0 Obsérvese que si la distribución a priori de θ es absolutamente continua entonces la probabilidad a posteriori de H0 será igual a 0, lo cuál implica que Q∗ será siempre 0, sean cuales sean los datos observados, y H0 será rechazada siempre. Sin embargo el factor de Bayes B sı́ es calculable y recoge la información esencial que los datos aportan sobre la veracidad de H0 y H1 . En este caso es posible establecer a priori un valor para Q y definir Q∗ como el producto de Q por B. Ejemplo 76 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar ½ H0 : θ = θ0 H1 : θ 6= θ0 La verosimilitud es Pn xi i=1 θ . f ( x |θ) = e−nθ Qn e i=1 xi ! Se considera la distribución a priori de θ bajo H1 como la distribución conjugada, una γ(α1 , α2 ): 1 1 π1 (θ|H1 ) = θα1 e−θ/α2 . Γ(α1 + 1) α2α1 +1 El numerador del factor de Bayes es f ( x |θ0 ) y el denominador e Z f (x|θ)π1 (θ|H1 )dθ = θ6=θ0 Pn Z θ i=1 xi 1 1 α1 −θ/α2 e−nθ Qn dθ = α1 +1 θ e Γ(α + 1) x ! α2 1 θ6=θ0 i=1 i Pn Γ(α1 + i=1 xi + 1) Pn × Qn α1 + xi +1 α1 +1 i=1 x !Γ(α + 1)α (n + 1/α ) i 1 2 2 i=1 Pn Pn Z ∞ α1 + xi +1 α1 + xi (n+1/α2 )θ i=1 i=1 (n + 1/α2 ) θ e Pn dθ = Γ(α1 + i=1 xi + 1) 0 Pn Γ(α1 + i=1 xi + 1) Pn . Qn α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1 Ası́, Pn e B= Qn α1 +1 α2 i=1 −nθ0 θQ 0 Γ(α1 + i=1 n Pn i=1 i=1 xi xi ! = xi +1) α1 + xi !Γ(α1 +1)(n+1/α2 ) Pn i=1 xi +1 5.7. CONTRASTES BAYESIANOS 175 Pn Pn xi α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1 Pn . Γ(α1 + i=1 xi + 1) Supongamos que se observan seis datos, x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2, de donde P xi = 19, y que se quieren contrastar ½ H0 : θ = 2 H1 : θ 6= 2 con π1 (θ|Θ1 ) ∼ γ(α1 = 2,6, α2 = 1/0,6). La esperanza y la varianza a priori son, respectivamente, E= 2,6 + 1 2,6 + 1 = 6, V = = 10. 0,6 0,62 Ası́, el factor de bayes es B= 219 e−6·2 Γ(2,6 + 1)(6 + 0,6)2,6+19+1 = 0,77. 0,62,6+1 Γ(2,6 + 19 + 1) Supongamos que la ventaja a priori de H0 es Q = 0,5. Entonces, la ventaja a posteriori es Q∗ = Q · B = 0,5 · 0,77 = 0,385 y se concluirı́a que H1 es la hipótesis cierta. Supongamos que la distribución a priori tuviese parámetros α1 = 35 y α2 = 1/6. Entonces E = 6 y V = 1. En este caso se llegarı́a a que B = 3,16 y Q∗ = 1,58, luego se seguirı́a que H0 es la hipótesis correcta. El siguiente gráfico ilustra las diferencias entre las dos situcaiones que acabamos de considerar. 176 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Distribuciones a priori 0.5 0.45 0.4 0.35 p(θ|H1,α1=35, α2=6) p(θ|H1) 0.3 0.25 0.2 0.15 p(θ|H1,α1=2.6, α2=0.6) 0.1 0.05 0 0 θ Media de x ,...,x 5 1 n θ 10 15 . . En el contraste de una hipótesis nula simple frente a una alternativa compuesta el factor de bayes puede calcularse de un modo alternativo, tal y como especifica por el siguiente teorema. Teorema 45 Si f (x|θ) es continua en θ = θ0 , entonces B = lı́m θ−→θ0 π(θ| x , H1 ) e π(θ|H1 ) donde π(θ| x , H1 ) es la densidad a posteriori de θ y π(θ|H1 ) es la a priori. e Demostración: Por la hipótesis de continuidad se tiene que f ( x |H0 ) = lı́m f ( x |θ, H1 ). θ−→θ0 e e Como f ( x |θ, H1 ) = f ( x |H1 )π(θ| x , H1 )/π(θ|H1 ), se tiene que e e e f ( x |H0 ) = f ( x |H1 ) lı́m θ−→θ0 e e π(θ| x , H1 ) π(θ| x , H1 ) f ( x |H0 ) e e e = lı́m =⇒ B = . θ−→θ π(θ|H1 ) π(θ|H1 ) 0 f ( x |H1 ) e 2 5.8. LISTA DE PROBLEMAS 5.8. 177 Lista de problemas Definiciones básicas. Contrastes más potentes 1. (Garthwaite, Jollife y Jones 1995, 4.1) Utiliza el Lema de Neyman-Pearson para encontrar la región crı́tica del test más potente para contrastar H0 frente a H1 en las siguientes situaciones. a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 , θ1 > θ 0 . b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 , H1 : θ = θ 1 , θ 1 > θ 0 . c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼ N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas. H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos. 2. (Garthwaite, Jollife y Jones 1995, 4.2) En el último apartado del ejercicio anterior, supongamos que σ 2 = τ 2 = δ = 1, que n = m y que hacemos el contraste óptimo a nivel α = 0,01. a) Calcula la potencia del test si n = 10. b) Calcula el menor valor de n tal que la potencia sea mayor o igual que 0,95. 3. (Garthwaite, Jollife y Jones 1995, 4.3) Sea X1 , . . . , Xn una m.a.s. de una distribución gamma de parámetros (3, θ) con densidad f (x; θ) = 1 2 −x/θ x e I(0,∞) (x). 2θ3 a) Encuentra el test más potente para contrastar H0 : θ = θ0 frente a H1 : θ = θ1 , donde θ1 > θ0 . b) Utiliza los resultados obtenidos para dar el test uniformemente más potente para contrastar H0 frente a H10 : θ > θ0 . 4. (Garthwaite, Jollife y Jones 1995, 4.5) Sea X1 , . . . , Xn una m.a.s. de una distribución lognormal de parámetros (µ, 1). Prueba que existe un test uniformemente más potente para contrastar H0 : µ = µ0 frente a H1 : µ > µ0 e indica qué forma tiene. 5. (Garthwaite, Jollife y Jones 1995, 4.7) Sea X1 , . . . , Xn una m.a.s. de una variable aleatoria X. Se considera el contraste ½ H0 : X ∼ U (0, 1) H1 : X ∼ f (x; θ) = θeθx /(eθ − 1), 0 ≤ x ≤ 1, θ > 0, θ desconocido Prueba que hay un test uniformemente más potente y da la región crı́tica aproximada para n suficientemente grande. 178 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS 6. (Garthwaite, Jollife y Jones 1995, 4.12) Sea X ∼ f (x), una función de densidad desconocida. Se toma una muestra de tamaño n para contrastar H0 : f (x) = f0 (x) frente a H1 : f (x) = f1 (x), donde f0 y f1 son densidades conocidas con el mismo soporte. a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1], para expresar H0 y H1 como hipótesis paramétricas. b) Considera x2 1 1 f0 (x) = √ e− 2 , f1 (x) = e−|x| , 2 2π y prueba que entonces la región crı́tica del test más potente para contrastar H0 frente a H1 es de la forma R = { x ∈ IRn : e n X (|xi | − 1)2 ≥ k} i=1 para algún k. c) Evalúa esa región crı́tica para n = 1 y k = 1. ¿Es el test insesgado? d ) Evalúa esa región crı́tica para n = 1 y k = 1/4.¿Es el test insesgado? Contrastes de la razón de verosimilitudes, scores y Wald 7. Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ) con ambos parámetros desconocidos. a) Considera el contraste ½ H0 : µ = µ0 H1 : µ 6= µ0 Comprueba que el test de la razón de verosimilitudes conduce al test t usual, que tiene región crı́tica √ n(x − µ0 ) n Rα = { x ∈ IR : −tn−1,α/2 ≤ ≤ tn−1,α/2 }c , S e donde Ac denota el complementario del conjunto A. b) Considera el contraste ½ H0 : σ 2 = σ02 H1 : σ 2 6= σ02 Comprueba que el test de la razón de verosimilitudes tiene región crı́tica (n − 1)S 2 Rα = { x ∈ IRn : C1 ≤ ≤ C2 }c , σ02 e para constantes C1 y C2 elegidas convenientemente. 5.8. LISTA DE PROBLEMAS 179 8. Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ) y Y1 , . . . , Ym m.a.s. de Y ∼ N (θ, τ 2 ). Las dos muestras son independientes. Los cuatro parámetros son desconocidos. a) Suponiendo que σ 2 = τ 2 , comprueba que el test de la razón de verosimilitudes para contrastar ½ H0 : µ = θ H1 : µ 6= θ conduce al contraste usual para la diferencia de medias. b) Da la región crı́tica del test de la razón de verosimilitudes para contrastar ½ H0 : σ 2 = τ 2 H1 : σ 2 6= τ 2 c) En el caso especial de n = m, comprueba que el test anterior se reduce al test F usual para contrastar igualdad de varianzas. 9. Sean dos muestras independientes, X1 , . . . , Xm m.a.s. de X ∼ Exp(λ1 ), e Y1 , . . . , Yn m.a.s. de Y ∼ Exp(λ2 ) (los parámetros son las inversas de las esperanzas). Sean X m e Y n las respectivas medias muestrales. Consideramos el test ½ H0 : λ 1 = λ 2 H1 : λ 1 < λ 2 a) Probar que bajo H0 Xm ∼ F2m,2n Yn (indicación: Probar que si X es exponencial con esperanza 2, entonces X es también χ2 con dos grados de libertad. Probar que si X e Y son variables aleatorias independientes e idénticamente distribuides según una Exp(λ), entonces (X/Y ) ∼ F2,2 ). b) Probar que la región crı́tica del test de la razón de verosimilitudes para contrastar H0 frenta a H1 puede expresarse en función del cociente X m /Y n y de cuantiles de una distribución F con grados de libertad convenientes. c) Los siguientes datos corresponden a tiempos de llegada a un incidente de dos servicios de urgencia: guardia urbana y bomberos. Tiempo (minutos) de llegada de la guardia urbana a un accidente de tráfico urbano Tiempo (minutos) de llegada de los bomberos a un incendio en el casco urbano. 2,65 2,98 5,61 6,61 2,50 0,65 3,74 1,12 5,34 0,40 1,93 4,87 6,89 3,48 4,91 5,04 9,17 2,20 1,05 6,09 180 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS Se supone que los tiempos de llegada se distribuyen según una ley exponencial. Usar el test de razón de verosimilitudes para contrastar si los tiempos medios de llegada de ambos servicios son iguales frente a que la guardia urbana llega en promedio antes que los bomberos. Hacerlo a un nivel de significación α = 0,05. 10. Se toma una muestra de tamaño n de una variable aleatoria Poisson(θ) para contrasrtar H0 : θ = θ0 frente a H1 : θ 6= θ0 . Encontrar el estadı́stico de los siguientes tests. a) Test de razón de verosimilitudes. b) Test del score. c) Test de Wald. 11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara, pero no contagiosa, suceden aleatoria y uniformemente en una población, el número de muertes en una región con población igual a P (es decir, con un número de habitantes igual a P ) se modela con una ley de Poisson de media µP , µ ∈ [0, 1]. a) Suponemos que el número de muertes observadas en n regiones con poblaciones P1 , P2 , . . . , Pn son Y1 , Y2 , . . . , Yn . Deriva una expresión para el estimador de máxima verosimilitud de µ. Llámalo µ̂. La siguiente tabla da el número de muertos por cáncer de hı́gado (el cáncer de hı́gado se puede considerar una enfermedad rara) durante 4 años en las regiones de Ontario (Canadá). Regionses Región 1 Región 2 Región 3 Región 4 Región 5 Región 6 Región 7 Región 8 Región 9 Región 10 Pi 423.447 175.685 1.245.379 413.465 216.476 242.810 213.591 166.045 265.880 116.371 Muertes 37 11 72 40 12 14 16 9 15 12 b) Encuentra µ̂ para estos datos y calcula el número de muertes esperadas en cada región. c) Supongamos ahora que Y1 , Y2 , . . . , Yn son variables aleatorias de Poisson de medias λ1 , λ2 , . . . , λn y sean P1 , P2 , . . . , Pn constantes positivas conocidas. Considera la hipótesis: H0 : λ1 = µP1 , λ2 = µP2 , . . . , λn = µPn 5.8. LISTA DE PROBLEMAS 181 donde µ es desconocido. Demuestra que el estadı́stico del test de la razón de verosimilitudes para contrastar esta hipótesis es −2 log Λ = 2 n X Yi log(Yi /λ̂i ) i=1 donde λ̂i = µ̂Pi y µ̂ es el estimador de máxima verosimilitud encontrado en el apartado (a). d ) Aplica este último resultado para concluir si las tasas de muerte (proporción de muertos en cada población) de las 10 regions son proporcionales a las poblaciones de las regiones. 12. (Examen julio 2000) Sea X v.a. con densidad f (x; β) = β I[1,∞) (x), β > 0. xβ+1 a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )). b) Se observa una muestra de tamaño n de X. Contrasta a nivel α ½ H0 : β = 1 H1 : β 6= 1 usando el test de la razón de verosimilitudes, el test de Wald y el test del score. c) Aplica los tests anteriores para α = 0,05 al caso de haber observado los siguientes datos: 2,2263, 1,6464, 1,1788, 1,5014, 3,1677, 1,3762, 5,0698, 1,7471, 1,8849, 16,0879 (Suma de los datos= 35.8865; producto de los datos= 7595.66). Contrastes bayesianos 13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido. Una de las dos hipótesis siguientes es cierta: H0 : θ = 1 3 o H1 : θ = . 2 4 Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que su probabilidad a priori si y sólo si x log 3 < n log 2. 14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una distribución exponencial de esperanza 1/θ, θ > 0. Se desea contrastar H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipótesis tienen probabilidades 182 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS a priori P (H0 ) = p y P (H1 ) = 1 − p. Si la distribución a priori de θ es γ(α, β), con α y β conocidos, determina la ventaja a posteriori P (H0 | x ) e = Q · B, P (H1 | x ) e donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas distintas: aplicando primero directamente la definición del factor de Bayes y, después, calculando B como lı́mite de cocientes entre probabilidades a posteriori y a priori bajo H1 . Q∗ = 15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una N (θ, 1). Se consideran dos hipótesis: H0 : θ = 1 y H1 , con P (H0 ) = p y P (H1 ) = 1 − p. a) Suponiendo que H1 especifica que θ = −1, prueba que Pn pe i=1 xi Pn . P (H0 | x ) = Pn e pe i=1 xi + (1 − p)e− i=1 xi b) Suponiendo que H1 especifica que θ 6= 1 y que bajo H1 la distribución a priori de θ es N (0, 1), determina P (H0 | x ) en el caso especial de Pn e que i=1 xi = n. Capı́tulo 6 Estimación por intervalos Referencias: Casella-Berger, capı́tulo 9 y Cristóbal (1992), capı́tulo 15. En los capı́tulos 3 y 4 se han estudiado los estimadores puntuales. Estos estimadores ofrecen un único valor como estimación del parámetro desconocido θ. En este capı́tulo se aborda el problema de la estimación por conjuntos, donde se estudian estimadores que proporcionan un conjunto como estimación de θ. El resultado de una estimación por conjuntos es una afirmación del tipo “θ ∈ C”, donde C = C( x ) es un subconjunto del espacio paramétrico Θ que e depende de los datos observados x . En el caso de que Θ ⊆ IR los conjuntos que e se suelen usar para realizar inferencias sobre θ son intervalos. 6.1. Intervalos de confianza Un estimador por intervalos de un parámetro θ ∈ Θ ⊆ IR es cualquier par de funciones reales L( x ) y U ( x ) definidas en el espacio muestral X tales e e que L( x ) ≤ U ( x ) para todo x = (x1 , . . . , xn ) ∈ X . Si se observa el valor e e e X = x , mediante este estimador se hace la inferencia “L( x ) ≤ θ ≤ U ( x )”. e e e e Al intervalo aleatorio [L( X ), U ( X )] se le llama estimador por intervalos e e de θ (o intervalo estimador de θ), mientras que al valor que ha tomado en la muestra observada [L( x ), U ( x )] se le llama estimación por intervalos e e de θ (o intervalo estimación de θ). Ejemplo 77 Sea X1 , X2 , X3 , X4 una muestra de tamaño 4 de X ∼ N (µ, 1). Un estimador por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 , la estimación por intervalos de µ es [x − 1, x + 1]. . . 183 184 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Obsérvese que si se estima un parámetro θ mediante un intervalo, la inferencia es menos precisa que si se estima con un estimador puntual: ahora nos limitamos a afirmar que el parámetro está en un cierto conjunto, mientras que antes dábamos un valor concreto como estimación suya. Dado que se pierde en precisión, cabe preguntarse qué se gana al estimar un parámetro θ mediante un intervalo, respecto a hacerlo con un estimador puntual. La respuesta es que se gana en confianza: en general, la probabilidad de que un estimador sea exactamente igual al parámetro que desea estimar es 0, mientras que la probabilidad de que un estimador por intervalos cubra al parámetro será positiva. Ejemplo 77, página 183. Continuación. Si se estima µ por X, se tiene que P (X = µ) = 0, porque X ∼ N (µ, 1/4). Sin embargo, P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) = µ ¶ X −µ √ ≤ 2 = 0,9544. P −2 ≤ 1/ 4 A costa de algo de precisión, el paso de un estimador puntual a uno por intervalos ha permitido aumentar la confianza que tenemos en que sea correcta la afirmación hecha en la inferencia. . . Se llama probabilidad de cobertura de un estimador por intervalos [L( X ), U ( X )] del parámetro θ a la probabilidad de que ese intervalo aleatorio e e cubra al verdadero valor del parámetro θ: Pθ (θ ∈ [L( X ), U ( X )]). e e Obsérvese que esa probabilidad de cobertura puede variar con θ. Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como e e estimador del parámetro θ al ı́nfimo de las probabilidades de cobertura: ı́nf Pθ (θ ∈ [L( X ), U ( X )]). e e θ∈Θ Intervalo de confianza es el nombre que recibe usualmente un estimador por intervalos junto con su coeficiente de confianza. También se nombra ası́ a veces a la estimación a que da lugar el estimador por intervalos aplicado a una muestra concreta. Además de C( x ), se usará también la notación IC1−α (θ) se e usará para referirse a un intervalo de confianza (1 − α) para θ. Si se desea construir un intervalo para una transformación invertible τ (θ) del parámetro y [L( x ), U ( x )] es un intervalo de confianza (1 − α) para θ, entonces e e el intervalo [τ (L( x )), τ (U ( x ))] e e es un intervalo de confianza (1 − α) para τ (θ). 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 185 Obsérvese que en las expresiones del tipo Pθ (θ ∈ [L( X ), U ( X )]), el valor e e del parámetro está fijo y lo que son variables aleatorias son los extremos del intervalo: Pθ (θ ∈ [L( X ), U ( X )]) = Pθ ({L( X ) ≤ θ} ∩ {U ( X ) ≥ θ}). e e e e 6.2. Métodos para construir intervalos de confianza En esta sección veremos cuatro métodos para construir estimadores por intervalos de un parámetro θ ∈ Θ ⊆ IR. 6.2.1. Inversión de un contraste de hipótesis Como veremos a continuación, hay una estrecha relación entre la estimación por intervalos y los contrastes de hipótesis. En general, se puede decir que cada método de construcción de un intervalo de confianza corresponde a un método de contraste de un hipótesis, y viceversa. Ejemplo 78 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido. Consideramos el contraste ½ H0 : µ = µ0 . H1 : µ 6= µ0 Para hacer el contraste a nivel α el test insesgado uniformemente de máxima √ potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la región del espacio muestral X en donde se acepta H0 es el conjunto de x tales que e σ σ x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ . n n Dado que el test tiene tamaño α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α. Por lo tanto, para todo µ0 ¯ µ ¶ σ σ ¯ P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α, n n de donde se sigue que ¶ µ σ σ =1−α Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √ n n √ √ para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por intervalos de confianza 1 − α para µ. . . 186 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS La correspondencia entre intervalos de confianza y contrastes de hipótesis se debe a que ambos procedimientos persiguen la consistencia entre los valores observados en la muestra y los parámetros de la distribución poblacional, aunque desde perspectiva distintas. En un contraste de hipótesis se fijan los parámetros y se buscan qué valores muestrales son acordes con ellos (esto es, se busca la región de aceptación), mientras que en la estimación por intervalos se toma como fija la muestra observada y se buscan los valores de los parámetros que hacen esta muestra plausible (esto es, se busca el intervalo de confianza). El siguiente resultado prueba la relación existente entre contrastes e intervalos. Teorema 46 Para cada valor θ0 ∈ Θ se denota por A(θ0 ) a la región de aceptación a nivel α de un test que contrasta H0 : θ = θ0 . Para cada x ∈ X se e define el conjunto C( x ) ⊆ Θ como e C( x ) = {θ0 ∈ Θ : x ∈ A(θ0 )}. e e Entonces el conjunto aleatorio C( X ) es un estimador por conjuntos de confiane za 1 − α para θ. Recı́procamente, sea C( X ) un estimador por conjuntos de confianza 1 − α e para θ. Para cada θ0 ∈ Θ se define A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}. e e Entonces A(θ0 ) es la región de aceptación a nivel α de un test que contrasta H0 : θ = θ 0 . Demostración: Veamos la primera parte. Por ser A(θ0 ) el complementario de la región de rechazo de un test de nivel α se tiene que Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α. e Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar de θ0 . Como x ∈ A(θ) si y sólo si θ ∈ C( x ), se tiene que e e Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α, e e y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α. e Veamos la segunda parte. La probabilidad de error de tipo I del test cuya región de aceptación es A(θ0 ) es Pθ0 ( X 6∈ A(θ0 )) = Pθ0 (θ0 6∈ C( X )) ≤ α, e e ası́ que este es un test de nivel α. 2 El procedimiento de construcción de intervalos de confianza (o de conjuntos de confianza, en general) a partir de la inversión de contrastes de hipótesis es muy 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 187 útil en la práctica porque en general es más sencillo un problema de contraste de hipótesis que uno de estimación: el hecho de poder trabajar suponiendo la hipótesis nula cierta facilita la tarea. Cualquiera de los métodos de contraste de hipótesis vistos en el tema 5 puede invertirse para dar lugar a conjuntos de confianza. Obsérvese que, aunque sea θ ∈ IR, este mecanismo de inversión no garantiza que los conjuntos de confianza obtenidos sean intervalos. Ejemplo 79 Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a partir de una observación x de X. Para ello se invierte el test de tamaño α que contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por región de aceptación los valores x que son más probables bajo H0 hasta completar una probabilidad de (1 − α). Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla da las regiones de aceptación A(p) para los distintos valores de p especificados en H0 : p [0, ,238] (,238, ,305) [,305, ,362] (,362, ,366) [,366, ,634] (,634, ,638) [,638, ,695] (,695, ,762) [,7,621] A(p) 0 0,1 1 0,1 1,2 2,3 2 2,3 3 Invirtiendo estas regiones de aceptación se obtienen los siguientes conjuntos de confianza C(x): x 0 1 2 3 C(x) [0, ,305) ∪ (,362, ,366) (,238, ,634] [,366, ,762) (,634, ,638) ∪ (,695, 1] Observar que no todos los conjuntos de confianza que pueden aparecer son intervalos. . . En la práctica, sin embargo, con frecuencia sı́ encontraremos intervalos. Por otra parte, el tipo de intervalo encontrado dependerá de la hipótesis alternativa 188 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS que se consideró para definir el contraste. Si la hipótesis alternativa es bilateral, en general se obtendrá un intervalo de longitud finita, mientras que si la alternativa es unilateral, los intervalos que se encuentran tienen uno de sus extremos en −∞ o ∞. Ejemplo 80 Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ e mediante la inversión de un test de tamaño α. Se toma una muestra de tamaño n de X. El test de la razón de verosimilitudes para contrastar ½ H0 : λ = λ 0 H1 : λ 6= λ0 tiene por estadı́stico 1 − e λn 0 supλ Pn i=1 1 − λn e xi /λ0 Pn i=1 µ Pn i=1 nλ0 xi /λ xi = 1 − e λn 0 Pn ( ¶n en e− Pn i=1 xi /λ0 1 e−n xi /n)n = i=1 Pn i=1 xi /λ0 . Para un valor λ0 fijo, la región de aceptación del test es ½ µ Pn ¶n Pn ¾ i=1 xi A(λ0 ) = x : e− i=1 xi /λ0 ≥ k ∗ , λ0 e donde la constante k ∗ se elige para que el test tenga tamaño α, o lo que es lo mismo, para que Pλ0 ( X ∈ A(λ0 )) = 1 − α. e Obsérvese que la expresión de la región de aceptación depende de la muestra P y del parámetro sólo a través de v = xi /λ0 . Además, la distribución de Pn Pn V = i=1 Xi /λ0 no depende del parámetro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 , luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 . Invirtiendo la región de aceptación se obtiene el conjunto de confianza 1 − α: ½ µ Pn ¾ ¶n Pn − xi /λ ∗ i=1 xi i=1 C( x ) = λ : ≥k . e λ e La función g(v) = v n e−v es positiva en todo IR+ , vale 0 en v = 0 y tiende a 0 si v tiende a infinito. Además, tiene un único punto crı́tico en v = n. Se sigue que tiene un único máximo en v = n y que los conjuntos de la forma {v ≥ 0 : g(v) ≤ k ∗ }, con k ∗ ≤ g(n) = nn e−n , son intervalos de la forma [l, u], con l ≥ n ≥ u y g(l) = g(u) = k ∗ . De ello se deduce que A(λ0 ) es un intervalo para cualquier valor de λ0 , y que los conjuntos de confianza C( x ) también son intervalos para cualquier valor de Pn e i=1 xi . 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 189 Ası́ pues, el intervalo de confianza obtenido será de la forma ( ) n n n X X X C( xi ) = λ : L( xi ) ≤ λ ≤ U ( xi ) , i=1 con i=1 i=1 Pn Pn n n X X xi i=1 xi L( xi ) = , U( xi ) = i=1 . u l i=1 i=1 Los valores l y u son las soluciones del sistema de ecuaciones no lineales ½ g(l) = g(u) P (l ≤ V ≤ u) = 1 − α Si n = 2, V ∼ γ(2, 1) y el sistema se transforma en éste: ½ 2 −l l e = u2 e−u e−l (l + 1) − e−u (u + 1) = 1 − α Si hacemos 1 − α = 0,9 y resolvemos el sistema, se obtiene l = 0,4386 y u = 5,4945, luego el intervalo de confianza 0.90 para λ es X X [0,182 Xi , 2,28 Xi ] ≡ [0,364X 2 , 4,56X 2 ]. . 6.2.2. . Cantidades pivotales Uno de los métodos más comunes de construcción de intervalos de confianza es el uso de cantidades pivotales. Sea X = (X1 , . . . , Xn ) una m.a.s. de X ∼ F (x; θ). Una función Q( X , θ) e e de la muestra y del parámetro es una cantidad pivotal si la distribución de probabilidad de Q( X , θ) no depende del parámetro θ, es decir, Q( X , θ) tiene e e la misma distribución para cualquier valor de θ. Dada una cantidad pivotal Q( X , θ), para cualquier conjunto A del espacio e imagen de Q se tiene que Pθ (Q( X , θ) ∈ A) no depende de θ. Por lo tanto si se e elige un conjunto Aα tal que Pθ (Q( X , θ) ∈ A) = 1 − α, para todo θ, e y se observa la muestra X = x , entonces el conjunto e e C( x ) = {θ : Q( x , θ) ∈ A} e e es un conjunto de confianza 1 − α para θ. En el caso de que θ ∈ IR, el uso de cantidades pivotales no garantiza en general que el conjunto de confianza sea un intervalo. 190 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Ejemplo 81 Si X tiene distribución perteneciente a una familia de localización y escala, entonces es posible definir diferentes cantidades pivotales. Entre ellas señalaremos las siguientes: Familia de localización: fµ (x) = f (x − µ) Q( x , µ) = X − µ e Familia de escala: fσ (x) = (1/σ)f (µ/σ) Q( x , σ) = X/σ e Familia de localización y escala: fµ,σ (x) = (1/σ)f ((x − µ)/σ) Q1 ( x , µ, σ) = (X − µ)/σ, e Q2 ( x , µ, σ) = (X − µ)/S e Para ver que esas funciones son cantidades pivotales basta escribir Xi = µ+σYi , con Yi ∼ f , y comprobar que las funciones Q sólo dependen de Y1 , . . . , Yn . . . Ejemplo 80, página 188. Continuación. En el ejemplo 80 el intervalo de confianza construido se basó en Pn Xi V = i=1 , λ cuya distribución es γ(n, 1) para cualquier valor de λ, ası́ que V es una cantidad pivotal y el intervalo de confianza construido allı́ es un ejemplo de intervalo basado en una cantidad pivotal. Si se define T = 2V , entonces T ∼ γ(n, 2), es decir T ∼ χ22n . Es más fácil encontrar tabulada la distribución χ22n que la distribución gamma, por lo que T resultará más útil en la práctica. . . En la práctica, la forma en la que se construye un intervalo de confianza a partir de una cantidad pivotal es la siguiente. Supondremos que Q( x , θ) ∈ IR y e θ ∈ IR. Para un valor α dado, se buscan números a y b tales que Pθ (a ≤ Q( X , θ) ≤ b) = 1 − α. e Observar que a y b no dependen de θ por ser Q cantidad pivotal, y que la elección de a y b no será única en general. Para cada θ0 , el conjunto A(θ0 ) = { x : a ≤ Q( x , θ) ≤ b} e e es la región de aceptación de un test de tamaño α para contrastar H0 : θ = θ0 basado en el estadı́stico T ( X ) = Q( X , θ0 ). Invirtiendo este contraste obtenee e mos el conjunto de confianza 1 − α para θ: C( x ) = {θ : a ≤ Q( x , θ) ≤ b}. e e 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 191 Si g (θ) = Q( x , θ) es una función monótona de θ para cada x fijo, entonces x e e e se tiene garantı́a de que C( x ) sea un intervalo. Si g (θ) es creciente, entonx e e ces C( x ) = [L( x , a), U ( x , b)], mientras que si g (θ) es decreciente, entonces x e e e e C( x ) = [L( x , b), U ( x , a)]. Si g (θ) es invertible, entonces x e e e e C( x ) = [mı́n{g −1 (a), g −1 (b)}, máx{g −1 (a), g −1 (b)}]. x x x x e e e e e Ejemplo 80, página 188. Continuación. En este ejemplo Q( X , λ) = Pn e 2 i=1 Xi /λ ∼ χ22n . Ası́, podemos elegir a = χ22n,1−α/2 y b = χ22n,α/2 , donde P (Y ≥ χ22n,p ) = p para p ∈ (0, 1), y la variable Y es una χ22n . En este caso 2 i=1 xi (λ) = Q( x , λ) = , x λ e e es invertible y decreciente, luego el intervalo de confianza (1 − α) g es decir g x e para λ será Pn # " P Pn n 2 i=1 xi 2 i=1 xi C( x ) = [g (b), g (a)] = , . χ2n,1−α/2 χ2n,α/2 x x e e e −1 −1 En el caso de n = 2 y α = 0,1, χ24,,05 = 9,49 y χ24,,95 = ,71, luego el intervalo de confianza 0.90 es · ¸ 4x 4x C( x ) = , = [0,4215x, 5,63x]. 9,49 ,71 e . . Obsérvese que el intervalo que se acaba de calcular difiere del construido en el ejemplo 80, pese a que ambos se basan (en la práctica) en la misma cantidad pivotal. Ello se debe a que, como se señaló antes, la forma de elegir los valores a y b no es única. Aquı́ se han tomado de forma que el intervalo fuese simétrico en probabilidad, es decir, la probabilidad α que queda fuera del intervalo C( X ) se reparte a partes iguales entre valores menores y mayores que los del e intervalo. Esta forma de elegir a y b es la más usada en la práctica, aunque veremos más adelante que no da lugar, en general, a los intervalos más cortos posibles. Ejemplo 82 Intervalos de confianza para la media y la varianza de la distribución normal. 192 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Si X ∼ N (µ, σ) con σ conocida, entonces la distribución de X es de una familia de localización y, por tanto, Q( X , µ) = (X − µ)/σ es una cantidad pivotal. e Además, √ √ n(X − µ) Z = nQ( X , µ) = ∼ N (0, 1). σ e El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva de esta cantidad pivotal es σ σ IC1−α (µ) = C( x ) = [x − zα/2 √ , x + zα/2 √ ]. n n e Si σ es desconocido, una cantidad pivotal es Q( X , µ) = (X − µ)/S. Además, e √ √ n(X − µ) ∼ tn−1 . t = nQ( X , µ) = S e El intervalo de confianza (1 − α) para µ simétrico en probabilidad que se deriva de esta cantidad pivotal es S S IC1−α (µ) = C( x ) = [x − tn−1,α/2 √ , x + tn−1,α/2 √ ]. n n e Si se desea dar un intervalo de confianza para σ 2 o para σ, puede usarse la cantidad pivotal Q( x , σ) = (n − 1)S 2 /σ 2 ∼ χ2n−1 . e Si se eligen a y b para que el intervalo sea simétrico en probabilidad se obtienen " # 2 2 (n − 1)S (n − 1)S IC1−α (σ 2 ) = , , χ2n−1,α/2 χ2n−1,1−α/2 "s IC1−α (σ) = (n − 1)S 2 , χ2n−1,α/2 s # (n − 1)S 2 . χ2n−1,1−α/2 . . Uno de los casos en los que la cantidad pivotal es monótona en el parámetro para una muestra fija es aquél en que existe un estadı́stico T = T ( X ) (es e deseable que sea un estadı́stico suficiente para el parámetro) con distribución absolutamente continua y tal que su función de distribución sea monótona en el parámetro. En este caso, se toma como cantidad pivotal Q( x , θ) = FT (T ( x ); θ). e e Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es e e cantidad pivotal, y por otra g (θ) = Q( x , θ) es monótona en θ. Este método x e es útil para construir intervalose de confianza para parámetros de posición. 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193 Veamos ahora una forma genérica de definir una cantidad pivotal que es válida para cualquier distribución poblacional absolutamente continua y que siempre da lugar a un intervalo de confianza si el parámetro es real. Supongamos que X es una variable aleatoria absolutamente continua con función de distribución F (x; θ) y que esta función es continua y monótona en θ. Sea X1 , . . . , Xn m.a.s. de X. Entonces Ui = F (Xi ; θ) ∼ U (0, 1) para todo θ, y Yi = − log Ui ∼ exp(1) ≡ γ(1, 1). Por lo tanto, n X Yi ∼ γ(n, 1) y 2 i=1 n X Yi ∼ χ22n . i=1 Ası́, se tiene que n n X X Q( x , θ) = 2 Yi = −2 log F (Xi ; θ) e i=1 i=1 es cantidad pivotal y g (θ) = Q( x , θ) es monótona en θ. x e e Obsérvese que Ui = 1 − F (Xi ; θ) ∼ U (0, 1), por lo que también se puede definir Q a partir de los logaritmos de la función (1 − F (Xi ; θ)). Ejemplo 80, página 188. Continuación. Sea Xi es exponencial con media λ. En este caso es más cómodo trabajar con Ui = 1 − F (Xi ; λ) = e−Xi /λ . Ası́, Pn n X 2 i=1 Xi Q( x , λ) = −2 log(1 − F (Xi ; θ)) = ∼ χ22n , λ e i=1 que es la misma cantidad pivotal que habı́amos encontrado en el ejemplo 80. . . 6.2.3. Intervalos bayesianos En el marco bayesiano el parámetro θ es una variable aleatoria cuya distribución a priori es π(θ). Las observaciones tienen distribución condicionada con densidad (o función de masa) f (x|θ). Tras la observación de una muestra X = x , la distribución de probabilidad de θ se modifica con la información ree e cibida y pasa a tener la distribución a posteriori π(θ| x ). Ası́, cualquier intervalo e (o en general, cualquier conjunto) A ⊂ Θ tal que Z P (θ ∈ A| x ) = π(θ| x )dθ = 1 − α e e A será un intervalo bayesiano de probabilidad 1 − α. El conjunto A depende de la muestra observada a través de π(θ| x ). e 194 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Obsérvese que ahora ya no se habla de coeficiente de confianza, como en el enfoque clásico: ahora (1 − α) es realmente la probabilidad de que el parámetro pertenezca al intervalo A y ahora el parámetro es la variable aleatoria, mientras que la muestra (y por tanto el conjunto A) es fija puesto que ya ha sido observada. Por este motivo, a los intervalos bayesianos se les denomina intervalos de credibilidad (o más en general, conjuntos de credibilidad). De los infinitos intervalos A que podemos elegir de forma que P (θ ∈ A| x ) = 1 − α e dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo simétrico en probabilidad, es decir, aquél que deja a su izquierda una probabilidad de α/2 y otra tanta a su derecha. También puede buscarse el intervalo de credibilidad (1−α) que tenga mayor densidad a posteriori. Es decir, {λ : π(λ| x ) ≥ cα }, e donde cα se elige de forma que Z {λ:π(λ| x )≥cα } e π(λ| x )dλ = 1 − α. e Ejemplo 83 Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0, β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn es una ! à n X γ α+ xi , (β −1 + n)−1 , i=1 según se vio en el teorema 20. Si tomamos como distribución a priori la γ de parámetros α = β = 1, Pn entonces la a posteriori de λ es γ(1 + i=1 xi , (n + 1)−1 ), luego (2(n + 1)λ| x ) ∼ χ22(P x +1) . i e Si tomamos intervalos simétricos en probabilidad, obtenemos el intervalo de credibilidad (1 − α) 2 χ2(P x +1),1−α/2 χ22(P x +1),α/2 i i . , 2(n + 1) 2(n + 1) Pn Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077]. 6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195 Con los mismos datos se obtiene el intervalo de credibilidad 90 % con mayor densidad a posteriori para λ siguiente: [,253, 1,005]. Obsérvese que este intervalo es más corto que el intervalo que deja fuera dos colas con la misma probabilidad. En la siguiente figura se representan ambos. Intervalos de credibilidad (1−α)=0.9 para λ 1.8 1.6 Densidad a posteriori de λ 1.4 1.2 1 0.8 0.6 cα=0.44 0.4 IC1−α(λ) de mayor densidad 0.2 IC1−α(λ) simétrico en probabilidad 0 0 0.2 0.4 0.6 0.8 λ . 6.2.4. 1 1.2 1.4 1.6 . Intervalos de verosimilitud A partir de la función de verosimilitud se puede estimar un parámetro mediante un intervalo (o, más en general, mediante un conjunto) de una forma alternativa a los intervalos de confianza vistos hasta ahora. Estos estimadores alternativos se conocen como intervalos de verosimilitud. Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x; θ). La función de verosimilitud de una muestra observada x es e n Y L(θ; x ) = f (xi ; θ). e i=1 Esta función, para x fijo, representa cómo de verosı́mil es la muestra x para e e cada uno de los posibles valores de θ. El estimador máximo verosı́mil de θ es el valor θ̂ que hace máxima la verosimilitud y es un buen estimador de θ, como vimos en la sección 4.4. Si se desea 196 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS estimar θ mediante un conjunto, parece lógico considerar el de los valores θ que hagan más verosı́mil la muestra observada x . e Para un valor cualquiera de θ se define la verosimilitud relativa de la muestra x según θ como e L(θ; x ) e . R(θ; x ) = e L(θ̂; x ) e Dada una proporción p ∈ (0, 1), se define el conjunto de verosimilitud al 100p % para θ al conjunto V ( X ) = {θ : R(θ; x ) ≥ p}. e e Si θ ∈ IR, estos conjuntos de verosimilitud serán intervalos si la función de verosimilitud es cóncava para cualquier x ∈ X . e Obsérvese que hay una equivalencia clara entre los conjuntos de verosimilitud al 100p % y los intervalos de confianza (1−α) construidos a partir de la inversión del test de razón de verosimilitudes para contrastar H0 : θ = θ0 frente a H0 : θ 6= θ0 , donde entre p y α existe una relación biyectiva. Ejemplo 80, página 188. Continuación. Sea X ∼ exp(λ), λ = E(X). e Los cálculos realizados en el ejemplo 80 nos permiten escribir la verosimilitud relativa como Pn xi /λ 1 − i=1 e λn Pn R(λ; x ) = = e supλ λ1n e− i=1 xi /λ µ Pn ¶n Pn i=1 xi en e− i=1 xi /λ . nλ Ası́, el intervalo de verosimilitud al 100p % será ¾ ½ µ Pn ¶n Pn i=1 xi V (x) = λ : en e− i=1 xi /λ ≥ p . nλ e Este intervalo tiene una confianza (1 − α) que depende de p. Del mismo modo, el intervalo de confianza 0.9 que se calculó en la página 188 para n = 2, [0,364X 2 , 4,56X 2 ], es también un intervalo de verosimilitud al 100p %, y p depende del valor (1 − α) elegido. Concretamente, en este caso p = 0,23. . . 6.3. Evaluación de estimadores por intervalos Los intervalos de confianza (1 − α) posibles para un parámetro dada una muestra x son múltiples. Se plantea la cuestión de cómo evaluar la calidad de e cada intervalo y, si es posible, elegir el mejor. 6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 197 En estimación por intervalos (o por conjuntos) hay dos cantidades que indican la calidad de un estimador: la longitud (o tamaño) del intervalo y su probabilidad de cobertura. Es deseable tener intervalos cortos (precisión) con alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la precisión hay que disminuir la confianza y viceversa. 6.3.1. Intervalos de longitud mı́nima Una práctica habitual es fijar la confianza deseada para los intervalos y buscar qué intervalo con esa confianza es el que tiene longitud mı́nima. Se trata de un problema de optimización con la restricción de que la confianza sea una dada. La siguiente proposición da la solución bajo ciertas condiciones. Proposición 4 Supongamos que se construye un intervalo de confianza (1 − α) para un parámetro θ ∈ IR a partir de la cantidad pivotal Q( x , θ) ∈ IR y que e la distribución de Q( X , θ) es absolutamente continua con función de densidad e fQ . Se supone además que la función g (θ) = Q( x , θ) es creciente, derivable x e e h : IR −→ Θ ⊆ IR. e invertible y que su inversa es la función Si la función fQ /h0 es unimodal, entonces el intervalo de confianza (1 − α) de longitud mı́nima para θ es C( x ) = [h(a∗ ), h(b∗ )] e donde a∗ y b∗ son los valores de IR que verifican fQ (a∗ ) fQ (b∗ ) = h0 (a∗ ) h0 (b∗ ) y Z b∗ a∗ fQ (q)dq = 1 − α. Demostración: Sea FQ la función de distribución de Q( X , θ). Tal como vimos e en el apartado de la sección 6.2 dedicado a las cantidades pivotales, los intervalos de la forma [h(a), h(b)], con FQ (b) − FQ (a) = 1 − α, son intervalos de confianza (1 − α) para θ. Ası́ que b depende de a de forma que FQ (b(a)) − FQ (a) = 1 − α. Derivando respecto a a obtenemos fQ (b(a))b0 (a) = fQ (a). 198 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Si buscamos el valor de a que minimiza la longitud del intervalo, hay que minimizar h(b(a)) − h(a). Los puntos crı́ticos a∗ de esta función son los que cumplen h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒ fQ (b∗ ) fQ (a∗ ) = , h0 (a∗ ) h0 (b∗ ) donde b∗ = b(a∗ ). Además sólo hay un punto a∗ que cumpla simultáneamente esa condición y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0 unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o bien está estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente. En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α). Veamos ahora que la solución única (a∗ , b(a∗ )) es un mı́nimo. Calculamos la segunda derivada de h(b(a)) − h(a): h00 (b(a))b0 (a)2 + h0 (b(a))b00 (a) − h00 (a) = à ! 0 0 fQ (a)fQ (b(a)) − fQ (b(a))b0 (a)fQ (a) fQ (a) 00 0 0 h (b(a))b (a) −h00 (a). +h (b(a)) 2 (b(a)) fQ (b(a)) fQ Si tenemos en cuenta que en (a∗ , b(a∗ )) se verifica que fQ (a)/h0 (a) = fQ (b)/h0 (b), la expresión anterior se transforma en ésta: 0 0 h0 (a)fQ (a) − h00 (a)fQ (a) h0 (b(a))fQ (b(a))b0 (a)fQ (a) h00 (b(a))fQ (b(a))b0 (a)fQ (a) − + = 2 2 (b(a)) fQ (a) fQ (b(a)) fQ (h0 (a))2 fQ (a) µ 0 0 h0 (a)fQ (a) − h00 (a)fQ (a) h0 (b(a))fQ (b(a)) − h00 (b(a))fQ (b(a)) 0 − b (a) 0 2 (h (a)) (h0 (b(a)))2 à ¯ ¯ ! (h0 (a))2 ∂ (fQ (q)/h0 (q)) ¯¯ ∂ (fQ (q)/h0 (q)) ¯¯ − ¯ ¯ fQ (a) ∂q ∂q q=a 0 y esta cantidad es positiva por ser fQ /h unimodal. q=b 2 Las modificaciones necesarias para que este resultado sea aplicable a transformaciones g decrecientes son inmediatas. x e Un caso particular importante es aquél en que la transformación g (θ) = x e Q( x , θ) es lineal. En este caso h es también lineal y su derivada es constante, de e donde se sigue que la condición para que el intervalo tenga longitud mı́nima es que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, además, la distribución de Q es simétrica, entonces los intervalos de menor longitud serán también simétricos en probabilidad. Esto ocurre, por ejemplo, en la estimación por intervalos de la media poblacional de la normal. Obsérvese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de mı́nima e e longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza e e (1 − α) para τ (θ), pero éste no tiene por qué ser el de mı́nima longitud. ¶ = 6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 199 En la estimación por intervalos de un parámetro de escala a veces interesa más tener el intervalo [L, U ] de mı́nima escala, es decir, el que tiene el menor valor de U/L posible, en lugar del intervalo de mı́nima longitud. El resultado anterior se puede usar tomando la reparametrización λ = log θ. El intervalo de mı́nima longitud para λ será de la forma [h̃(a∗ ), h̃(b∗ )], donde h̃ = log h y h es la inversa de g (θ) = Q( x , θ). Ası́ que el intervalo [h(a∗ ), h(b∗ )] es el de x e e menor escala para θ. La condición fQ (a)/h̃0 (a) = fQ (b)/h̃0 (b) se puede expresar en términos de h como fQ (b)h(b) fQ (a)h(a) = . h0 (a) h0 (b) Ejemplo 84 Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal (n − 1)S 2 Q( X , σ 2 ) = ∼ χ2n−1 . 2 σ e En este caso la transformación g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es x e (n − 1)S 2 . h(q) = q La condición que deben cumplir los cuantiles a y b de la distribución χ2n−1 para dar lugar al intervalo más corto es fQ (a)a2 = fQ (b)b2 , además de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es fácil encontrar valores de n y α para los que este intervalo no es simétrico en probabilidad. Si se desea el intervalo más corto para σ, entonces s p (n − 1)S 2 1 h(q) = =⇒ h0 (q) = − (n − 1)S 2 p . q 2 q3 La condición que deben cumplir a y b es fQ (a)a3/2 = fQ (b)b3/2 . Si se desea el intervalo de menor escala para σ 2 la condición que deben cumplir a y b es fQ (a)a = fQ (b)b. y si se quiere el de mı́nima escala para σ, entonces fQ (a)a2 = fQ (b)b2 . . . 200 6.3.2. CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Relación con contrastes de hipótesis y optimalidad El criterio de la longitud no es el único con el que se puede evaluar un intervalo. Un concepto alternativo nace a partir de la estrecha relación existente entre intervalos de confianza y contrastes de hipótesis. Se trata de la probabilidad de falso cubrimiento que fue introducida por Neyman. Sea X ∼ f ( x ; θ) y C( x ) un intervalo de confianza (1 − α) para θ basado e e e en la inversión de un test con región de aceptación A(θ). La probabilidad de verdadera cobertura es la función de θ definida como Pθ (θ ∈ C( X )). La e probabilidad de falsa cobertura es la probabilidad de que un intervalo 0 cubra θ cuando θ es el verdadero valor del parámetro. Es una función que depende de dos valores del parámetro θ y θ0 . Formalmente se define como Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), U ( X )] y θ0 6= θ, e e e e Pθ (θ0 ∈ C( X )), si C( X ) = [L( X ), ∞) y θ0 < θ, e e e Pθ (θ0 ∈ C( X )), si C( X ) = (∞, U ( X )] y θ0 > θ. e e e Un intervalo de confianza (1−α) que minimiza la probabilidad de falso cubrimiento para todos los valores de θ y θ0 sobre una clase de intervalos de confianza (1 − α) se denomina intervalo uniformemente más acurado (UMA). Estos intervalos de confianza se consiguen invirtiendo contrastes uniformemente más potentes, como pone de manifiesto el siguiente resultado. Teorema 47 Sea X ∼ f ( x ; θ), θ ∈ Θ ⊆ IR. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) e e la región de aceptación del contraste UMP para contrastar H0 : θ = θ0 frente a H1 : θ > θ0 a nivel α. Sea C ∗ ( x ) el intervalo de confianza (1 − α) construie do invirtiendo las regiones de aceptación UMP. Entonces para cualquier otro intervalo C( x ) de confianza (1 − α) se tiene que e Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X )) e e para todo θ0 < θ. En particular, el intervalo C ∗ ( x ) es UMA entre los que son e de la forma C( x ) = [L( X ), ∞). e e Demostración: Sea θ0 < θ y A(θ0 ) la región de aceptación del test conseguido al invertir los intervalos C( x ). Como A∗ (θ0 ) es UMP para contrastar H0 : θ = θ0 e frente a H1 : θ > θ0 , y θ > θ0 se tiene que Pθ (θ0 ∈ C ∗ ( X )) = Pθ ( X ∈ A∗ (θ0 )) ≤ Pθ ( X ∈ A(θ0 )) = Pθ (θ0 ∈ C( X )). e e e e 2 Para intervalos de la forma (−∞, U ( X )] se puede establecer un resultado e análogo. Obsérvese que los intervalos UMA no siempre existen, dado que en la sección 5.2 vimos que no está garantizada la existencia de tests UMP. 6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 201 Cuando se estudiaron los contrastes UMP se puso de manifiesto la conveniencia de restringir la atención sólo a los contrastes insesgados a la hora de buscar el contraste UMP para contrates bilaterales. En el estudio de los intervalos de confianza UMA existe un concepto análogo de insesgadez: se dice que C( x ) es conjunto insesgado de confianza (1 − α) si e Pθ (θ0 ∈ C( X )) ≤ 1 − α para todo θ 6= θ0 . e Es decir, un conjunto de confianza es insesgado si la probabilidad de falso cubrimiento es siempre menor o igual que la probabilidad de cubrimiento verdadero. Se dice que un conjunto C ∗ ( x ) de confianza (1 − α) es insesgado y unie formemente más acurado si es UMA entre la clase de conjuntos insesgados de confianza (1 − α). El siguiente teorema establece la correspondencia entre conjuntos insesgados UMA y contrastes insesgados UMP. Teorema 48 Sea X ∼ f ( x ; θ), θ ∈ Θ. Para cada θ0 ∈ Θ, sea A∗ (θ0 ) la región e e de aceptación del contraste insesgado UMP para contrastar H0 : θ = θ0 frente a H1 : θ 6= θ0 a nivel α. Sea C ∗ ( x ) el conjunto de confianza (1 − α) construido e invirtiendo las regiones de aceptación del test insesgado UMP. Entonces para cualquier otro conjunto insesgado C( x ) de confianza (1 − α) se tiene que e Pθ (θ0 ∈ C ∗ ( X )) ≤ Pθ (θ0 ∈ C( X )) e e para todo θ0 6= θ, es decir, el intervalo C ∗ ( x ) es insesgado UMA. e Demostración: La demostración es análoga a la del teorema 47 y puede dejarse como ejercicio. 2 Para terminar esta sección, se establecerá la relación existente entre la longitud de un intervalo de confianza y su probabilidad de cobertura. Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribución paramétrica dada por la función de densidad (o función de masa) f ( x ; θ), θ ∈ e Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor θ∗ se tiene que Z Eθ∗ (U (X) − L(X)) = Pθ∗ (θ ∈ C( X ))dθ. e θ6=θ ∗ Demostración: Z ÃZ Z ∗ Eθ∗ (U (X) − L(X)) = U (x) (U (x) − L(x))f (x; θ )dx = X X L(x) ! dθ f (x; θ∗ )dx 202 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Obsérvese que θ ∈ {θ : L(X) ≤ θ ≤ U (x)} ⇐⇒ x ∈ {x : U −1 (θ) ≤ x ≤ L−1 (θ)}, puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto, cambiando el orden de integración la integral anterior puede calcularse como ! Z ÃZ −1 Z L Θ (θ) f (x; θ∗ )dx dθ = U −1 (θ) Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ = Θ Z Z P (θ ∈ C(X))dθ = θ∗ Θ θ6=θ ∗ Pθ∗ (θ ∈ C(X))dθ. 2 El teorema anterior justifica que a los intervalos que minimizan la probabilidad de falsa cobertura se les llame también intervalos más cortos en el sentido de Neyman. 6.4. Intervalos de confianza asintóticos Estudiaremos en esta sección técnicas que proporcionan intervalos de confianza aproximada (1 − α). Se basan en propiedades asintóticas de algunos estadı́sticos. Sea X n = (X1 , . . . , Xn ) una m.a.s. de tamaño n de X ∼ f (x; θ). Se dice e que Qn ( x n , θ) es una cantidad pivotal asintótica si para todo θ e Qn ( X n , θ) −→D Q, e donde Q es una variable aleatoria de distribución conocida que no depende de θ. Si se construyen intervalos de confianza (1 − α) a partir de Qn sustituyendo su distribución por la de Q, diremos que los intervalos resultantes tienen aproximadamente confianza (1 − α). En general, cuanto mayor sea n mejor será la aproximación. Un caso particular importante lo constituyen las cantidades pivotales asintóticas de la forma T ( X n ) − EθA (T ( X n )) e eq Qn = VθA (T ( X n )) e que son asintóticamente normales, donde T ( X n ) es algún estadı́stico de la muese tra tal que Vθ (T ( X n )) e −→P 1. T ( X n ) − EθA (T ( X n )) −→P 0, A e e Vθ (T ( X n )) e 6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 6.4.1. 203 Intervalos basados en el estimador de máxima verosimilitud Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de e X ∼ f (x, θ). Sea θ̂n el estimador de máxima verosimilitud de θ, y sea ¶ µ 2 ∂ log L(θ; X ) , In (θ) = −Eθ n ∂θ2 e la información de Fisher que sobre θ contiene una muestra de tamaño n. Entonces θ̂n − θ V =p QEM −→D Z ∼ N (0, 1), n (In (θ))−1 V luego QEM es una cantidad pivotal derivada del estimador máximo verosı́mil. n Un conjunto de confianza aproximadamente (1 − α) para θ es V {θ : −zα/2 ≤ QEM ≤ zα/2 }. n No siempre podrá derivarse de ahı́ un intervalo de confianza. Una forma de garantizar un intervalo de confianza aproximadamente (1 − α) para θ es construirlo como q q −1 ˆ [θ̂n − zα/2 (In (θ)) , θ̂n + zα/2 (Iˆn (θ))−1 ], donde Iˆn (θ) es algún estimador consistente de la información de Fisher. Ejemplo 85 Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada (1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tamaño n es Pn √ x2 log L(σ, x n ) = −n log 2π − n log σ − i=12 i . 2σ e La función score es ∂ log L(σ, x n ) n e =− + ∂σ σ Pn i=1 σ3 x2i , por lo que el estimador máximo verosı́mil es v u n u1 X σ̂n = t X 2, n i=1 i y la información de Fisher es ! à 2 ∂ log L(σ, x n ) n 3n 2n e = − 2 + 4 Eσ (X 2 ) = 2 . In (σ) = −Eσ 2 ∂σ σ σ σ 204 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Ası́, la cantidad pivotal asintótica es q P n 1 V QEM n n ( x n , σ) = e i=1 x2i − σ √ σ/ 2n , que, fijada la muestra, es una función invertible de σ. El intervalo de confianza para σ es q P n 1 2 i=1 xi − σ n √ ≤ zα/2 = σ : −zα/2 ≤ σ/ 2n q P n 1 n i=1 x2i 1 + zα/2 q P n 1 n , i=1 x2i 1 − zα/2 . Si se construye el intervalo de confianza para σ 2 basado en su estimador de máxima verosimilitud se observa que los extremos de este intervalo no son los cuadrados de los extremos del intervalo construido para σ. . . V Hay una relación estrecha entre los intervalos de confianza basado en QEM n y los intervalos de verosimilitud definidos en la página 195. El logaritmo de la verosimilitud relativa es r(θ; x ) = log R(θ; x ) = log L(θ; x ) − log L(θ̂; x ), e e e e que bajo condiciones de regularidad puede ser aproximada en torno a θ̂n como 1 r(θ; x ) ≈ − (θ − θ̂n )2 In (θ̂n ). 2 e El conjunto de verosimilitud al 100p % para θ es V ( X ) = {θ : R(θ; x ) ≥ p} = {θ : r(θ; x ) ≥ log p} ≈ e e e q q {θ : (θ̂n −θ)2 In (θ̂n ) ≤ −2 log p} = [θ̂n − −2 log p/In (θ̂n ), θ̂n + −2 log p/In (θ̂n )]. Este intervalo de verosimilitud coincide con el intervalo de confianza construido a partir del EMV si hacemos zα/2 = p −2 log p. Tomar α = 0,05 equivale a tomar p = 0,1465, tomar α = 0,1 es equivalente a fijar p = 0,2585. 6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 6.4.2. 205 Intervalos basados en la función score. Sea L( X n , θ) la función de verosimilitud de una muestra de tamaño n de e X ∼ f (x, θ). Sea Sn ( X n , θ) la función score: e ∂ log L(θ; X n ). Sn ( X n , θ) = ∂θ e e Recordemos que Eθ (Sn ) = 0, Vθ (Sn ) = In (θ), donde In (θ) es la información de Fisher. Además, QSn = Sn ( X n , θ) pe −→D Z ∼ N (0, 1), In (θ) luego QSn es cantidad pivotal asintótica. El conjunto C( x ) = {θ : −zα/2 ≤ QSn ( x , θ) ≤ zα/2 } e e es un conjunto de confianza aproximadamente igual a (1 − α). Si QSn ( x , θ) es e función invertible de θ para x fijo, entonces ese conjuntos será un intervalo. e El método de construcción de intervalos de confianza basado en la función score tiene la particularidad de que si se utiliza para dar un intervalo para θ y se obtiene [L( x ), U ( x )], cuando se usa para dar un intervalo para τ (θ) el intervalo e e que se obtiene es justamente [τ (L( x )), τ (U ( x ))]. Esto se debe a que e e ∂ ∂τ ∂τ Sn ( x , τ ) = log L(θ; X n ) = Sn ( x , θ) , ∂θ ∂θ ∂θ e e e " # µ ¶ 2 ∂2 ∂θ ∂ ∂2τ In (τ ) = −Eτ log L(θ; X n ) + log L(θ; X n ) 2 = ∂θ2 ∂τ θ ∂θ ∂θ e e µ ¶2 ∂τ In (θ) , ∂θ de donde se sigue que QSn ( x , θ) = QSn (τ (θ)). e Esta propiedad no la verifican todos los métodos de construcción de intervalos de confianza, tal y como se señaló en el ejemplo 85, página 203. Ejemplo 85, página 203. Continuación. La función score es Pn x2 n Sn = − + i=13 i σ σ y la información de Fisher es In = 2n . σ2 206 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Ası́, el conjunto de confianza basado en el score es Pn 2 xi − nσ + i=1 3 q σ ≤ zα/2 = σ : −zα/2 ≤ 2n σ2 v u u t 1 n Pn v u u q ,t 2 i=1 xi 1 + zα/2 2 n 1 n Pn 2 i=1 xi 1 − zα/2 q . 2 n Este intervalo es diferente del que se encontró en la página 203. Obsérvese que si se construye el intervalos basado en la función score para σ 2 , se obtiene un intervalo cuyos extremos son los cuadrados de los extremos del intervalo para σ. . . El siguiente teorema establece que entre una amplia familia de intervalos basado en cantidades pivotales asintóticamente normales, los más cortos son los basado en la función score. Teorema 50 Sea X ∼ f (x; θ). Se suponen las condiciones de regularidad H1, H2 y H3 introducidas en el Teorema de Cramér-Rao. Sea h(X, θ) una función tal que Eθ (h(X, θ)) = 0 y 0 < Vθ (h) = Vθ (h(X, θ)) < ∞. Se define Pn i=1 h(Xi , θ) Qh ( X , θ) = p e nVθ (h) Se define h0 (X, θ) = ∂ log f (x, θ). ∂θ Entonces se verifica lo siguiente: 1. Qh ( X , θ) es asintóticamente N (0, 1). e 2. QSn = Qh0 . 3. La cantidad ¯ µ ¶¯ ¯ ¯ ¯Eθ ∂ Qh ¯ ¯ ∂θ ¯ se hace máxima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con k 6= 0. 4. Los intervalos de confianza basados en la función score son los más cortos asintóticamente, entre los basados en las cantidades pivotales asintóticas Qh . 6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 207 Demostración: El apartado 1 se sigue del TCL. El 2 es inmediato. Veamos que se cumple 3. La derivada parcial de Ah respecto a θ es à n ! n X ∂ h(Xi , θ) ∂ Qh (X, θ) 1 1 ∂ Vθ (h) X =p − h(Xi , θ) . ∂θ ∂θ 2Vθ (h) ∂θ i=1 nVθ (h) i=1 Como Eθ (h(X, θ)) = 0, su esperanza será · ¸ r · ¸ ∂ Qh (X, θ) n ∂ h(X, θ) Eθ = E . ∂θ Vθ (h) ∂θ Obsérvese además que ¸ · 1 ∂θ 1 ∂ h(Xi , θ) √ −→P p , E ∂θ n ∂Qh (X, θ) Vθ (h) lo cuál implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en probabilidad. Este hecho será necesario para probar el punto 4. Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se obtiene lo siguiente: Z Z Z ∂ ∂ h(x, θ) ∂ f (x; θ) 0= h(x, θ)f (x; θ)dx = f (x; θ)dx + h(x, θ)dx, ∂θ ∂θ ∂θ de donde se sigue que · ¸ Z ∂ h(Xi , θ) ∂ f (x; θ) E =− h(x, θ)dx = ∂θ ∂θ Z − h(x, θ) ∂ log f (x; θ) f (x; θ)dx = −Cov(h(X, θ), h0 (X, θ)). ∂θ De ahı́ se deduce, por una parte, que · ¸ p ∂ Qh0 (X, θ) Eθ = − nVθ (h0 ) < 0, ∂θ y por otra que · Eθ ¸ √ Cov(h(X, θ), h0 (X, θ)) ∂ Qh (X, θ) p =− n , ∂θ Vθ (h) luego, h Eθ Eθ y por lo tanto h ∂ Qh (X,θ) ∂θ i ∂ Qh0 (X,θ) ∂θ i = Corr(h(X, θ), h0 (X, θ)), ¯ · ¸¯ ¯ · ¸¯ ¯ ¯ ¯ ¯ ¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ . ¯ ¯ ¯ ¯ ∂θ ∂θ Esto concluye la demostración de 3. 208 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Probemos ahora 4. Sea θ0 el verdadero valor del parámetro. Si θ es suficientemente próximo a θ0 , ¯ ∂ Qh ¯¯ Qh ( X , θ) ≈ Qh ( X , θ0 ) + (θ − θ0 ) , ∂θ ¯θ0 e e El intervalo de confianza basado en Qh es entonces ) ( ¯ ∂ Qh ¯¯ ≤ zα/2 , θ : −zα/2 ≤ Qh ( X , θ0 ) + (θ − θ0 ) ∂θ ¯θ0 e cuya longitud tiende a 0 porque, según vimos más arriba, el valor absoluto de (∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ que están dentro del intervalo sean cada vez más próximos a θ0 , con lo que la anterior aproximación de Qh ( X , θ) por su desarrollo de Taylor de primer orden e será cada vez más precisa, cuando n crece. La longitud asintótica del intervalo es 2z ¯ µ α/2¯ ¶¯ . ¯ ¯ ¯E ∂ Qh ¯¯ ¯ ∂θ ¯ θ0 ¯ Basta entonces aplicar el punto 3 del teorema para obtener 4. 2 Podemos dar las siguientes reglas prácticas para calcular intervalos de confianza asintóticos. En primer lugar, es recomendable que éstos se basen en la función score. Tanto en ese caso como si se usan otras cantidades pivotales, se recomienda evitar cuanto sea posible la sustitución de cantidades que dependen del parámetro por estimadores consistentes de éstas. Ejemplo 86 Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asintótico para p que se deriva de la función score. La verosimilitud es µ ¶ n x L(θ; x) = p (1 − p)n−x x y el score, S(θ, x) = ∂ log L(θ; x) x − np = . ∂p p(1 − p) La información de Fisher es · ¸ ∂ 2 log L(θ; x) n I(p) = −E = . ∂p2 p(1 − p) Ası́, la cantidad pivotal asintótica derivada de la función score es √ n(p̂ − p) S(θ, x) =p , QS (x, p) = p I(p) p(1 − p) 6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 209 donde p̂ = x/n. El intervalo de confianza que da lugar es ( ) √ n(p̂ − p) C1 = p : −zα/2 ≤ p ≤ zα/2 p(1 − p) El siguiente es también un intervalo de confianza (1 − α) asintóticos para el parámetro p de X ∼ B(n, p): ( ) " # p √ p̂(1 − p̂) n(p̂ − p) √ C2 = p : −zα/2 ≤ p ≤ zα/2 = p̂ ∓ zα/2 n p̂(1 − p̂) El primero de estos dos conjuntos necesita un desarrollo adicional hasta quedar expresado explı́citamente como un intervalo. Definimos la función g(p) = (p − p p̂) n/(p(1 − p)). Es fácil comprobar que esa función es estrictamente creciente en p. Resolviendo las ecuaciones g(p) = ±zα/2 se obtiene que ³ p ´ 2 p̂(1−p̂)+(zα/2 /4n) √ n 2 p̂ + (zα/2 /2n) ∓ zα/2 ³ ´ C1 = 2 /n) 1 + (zα/2 . El premio por este trabajo extra es que la longitud de C1 será, en general, menor que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la de C2 es q 2 /4np̂(1 − p̂)) 1 + (zα/2 , 2 /n) 1 + (zα/2 que para valores de p̂ cercanos a 0.5 es aproximadamente igual a 1 q 2 /n) 1 + (zα/2 < 1. Cuando n crece los intervalos C1 y C2 son prácticamente coincidentes. . . 210 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS 6.5. Lista de problemas Métodos de construcción 1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn de X se puede contruir un intervalo de confianza 0.95 para µ de la forma √ x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observación Xn+1 independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor, igual o mayor que 0.95? 2. Utiliza los resultados obtenidos en el problema 7 de la lista 5.8 para construir intervalos de confianza para la media y la varianza de una distribución normal. 3. Utiliza los resultados obtenidos en el problema 8 de la lista 5.8 para construir intervalos de confianza para la diferencia de medias y el cociente de varianzas de dos distribuciones normales. 4. Utiliza los resultados obtenidos en el problema 9 de la lista 5.8 para construir intervalos de confianza de la forma [c, ∞) para el cociente de las medias de dos exponenciales. 5. (Garthwaite, Jollife y Jones 1995, 5.10) Se observa un valor de X ∼ B(10, p) y resulta x = 1. Construye un intervalo con coeficiente de confianza 0.95 a partir de la inversión del test de la razón de verosimilitudes para contrastar H0 : p = p0 frente a H1 : p 6= p0 . 6. (Garthwaite, Jollife y Jones 1995, 5.1) Se dispone de una m.a.s. de tamaño n de una exponencial con densidad f (x; θ) = a) Prueba que Y = 2 Pn i=1 1 −x/θ e I(0,∞) (x). θ Xi /θ es cantidad pivotal. b) Construye un intervalode confianza (1 − α) para θ a partir de Y . 7. (Garthwaite, Jollife y Jones 1995, 5.3) Se consideran la variables aleatorias independientes X1 , . . . , Xn tales que Xi ∼ N (θai , bi ), i = 1, . . . , n, donde las constantes ai , bi son conocidas y bi > 0, para i = 1, . . . , n. a) Encuentra un estadı́stico suficiente para θ y a partir de él construye un intervalo bilateral de confianza (1 − α) para θ. b) Si ai = bi = i, i = 1, . . . , n, ¿cuál es el menor valor de n tal que longitud de ese intervalo es menor o igual que 0,5? 6.5. LISTA DE PROBLEMAS 211 8. (Casella-Berger, 9.11) Encuentra una cantidad pivoltal para θ basada en una m.a.s. de tamaño n de una N (θ, θ), donde θ > 0 es la varianza de la distribución. A partir de esa cantidad pivotal, construye un intervalo de confianza (1 − α) para θ. 9. (Casella-Berger, 9.26) Sea X1 , . . . , Xn una m.a.s. de X ∼ beta(θ, 1) y supongamos que θ tiene distribución a priori γ(r, λ). Dar un conjunto de credibilidad (1 − α) para θ. 10. (Casella-Berger, 9.29) Sea X1 , . . . , Xn una m.a.s. de X ∼ Bern(p). Dar un intervalo de credibilidad (1 − α) para p usando la a priori conjugada beta(a, b). Evaluación de los métodos de construcción de intervalos de confianza 11. (Casella-Berger, 9.35) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Compara las longitudes esperadas de los intervalos de confianza (1 − α) para µ calculados bajo los supuestos siguientes. a) σ 2 conocida. b) σ 2 desconocida. 12. (Casella-Berger, 9.36) Sean X1 , . . . , Xn variables aleatorias independientes con funciones de densidad fXi (x; θ) = eiθ−x I[iθ,∞) (x). a) Prueba que T = mı́ni (Xi /i) es un estadı́stico suficiente para θ. b) Encontrar el intervalo de confianza (1 − α) de la forma [T + a, T + b] de longitud mı́nima. 13. (Casella-Berger, 9.37) Sea X1 , . . . , Xn una m.a.s. de X ∼ U (0, θ). Sea Y = X(n) el máximo de las observaciones. a) Prueba que Y /θ es una cantidad pivotal. b) Prueba que [y, y/α1/n ] es el más corto de cuantos intervalos de confianza (1 − α) se pueden derivar de la cantidad pivotal Y . 14. (Casella-Berger, 9.42) Se tiene una observación de una γ(k, β) con parámetro de forma k conocido. Encontrar el intervalo de confianza (1 − α) más corto entre los que tienen la forma [x/b, x/a]. 15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribución logı́stica: ex−θ f (x; θ) = . (1 + ex−θ )2 Basándote en una observación de X, construye el intervalo de confianza (1 − α) uniformemente más acurado de la forma (−∞, U (x)]. 212 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS 16. (Casella-Berger, 9.45) Sea X1 , . . . , Xn una m.a.s. de X ∼ exp(λ) (E(X) = λ). a) Construye el contraste UMP de tamaño α para contrastar H0 : λ = λ0 rente a H1 : λ < λ0 . b) Da el intervalo de confianza (1 − α) uniformemente más acurado basado en el contraste del apartado anterior y prueba que puede expresarse como # " P n i=1 xi . C( x ) = 0, 2 χ2n,α e c) Calcula la longitud esperada de C( X ). e Intervalos de confianza asintóticos 17. (Casella-Berger, 9.60.a) Sea X1 , . . . , Xn una m.a.s. de una distribución binomial negativa de parámetros (r, p), r conocido. Calcula un intervalo de confianza aproximada (1 − α) para p basado en la función score. 18. (Casella-Berger, 9.62) Sea X1 , . . . , Xn una m.a.s. de una distribución binomial negativa de parámetros (r, p), r conocido. Pn a) ¿Qué distribución tiene Y = i=1 Xi ? b) Prueba que si p tiende a 0, entonces 2pY tiende en distribución a una χ22nr . (Indicación: Utiliza las funciones generadores de momentos). c) Usa este hecho para probar que " 2 # χ2nr,1−α/2 χ22nr,α/2 Pn , Pn 2 i=1 xi 2 i=1 xi es un intervalo de confianza aproximada (1 − α) para p. d ) ¿Cómo habrı́a que escoger los extremos del intervalo para obtener el intervalo de longitud mı́nima con confianza aproximada (1 − α)? 19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria X con distribución de Poisson(θ). Usa el hecho de que para valores grandes de θ la distribución de X es aproximadamente N (θ, θ) para obtener una ecuación cuadrática en θ cuyas raı́ces dan los extremos de un intervalo de confianza aproximado para la media de X, θ. 20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmética se plantea lanzar al mercado un nuevo producto para hombre y quiere saber qué proporción θ de hombres de un grupo de edad comprarán ese producto. Dado que una pregunta directa puede no obtener una respuesta sincera, se opta por un procedimiento de respuesta aleatorizada mediante el cual el encuestador nunca puede saber la respuesta dada por el encuestado. 6.5. LISTA DE PROBLEMAS 213 Cada enuestado lanza un dado sin que el encuestador vea el resultado. Según el resultado obtenido, habrá de codificar su respuesta (“Sı́, compraré el nuevo producto” o “No, no compraré el nuevo producto”) como A, B o C, según la siguiente tabla: Verdadera respuesta Sı́ No Resultado 1 2 3 C C C C A A en el 4 A B dado 5 6 B A A B En una muestra de 1000 hombres las veces que aparecieron las respuestas A, B y C fueron 440, 310 y 250, respectivamente. a) Prueba que el logaritmo de la verosimilitud de θ es 440 log(3 − θ) + 310 log(2 − θ) + 250 log(1 − 2θ) + constante. b) Da el estimador máximo verosı́mil de θ. c) Construye un intervalo de confianza aproximada 95 % para θ. d ) Supongamos ahora que se tiene acceso a la verdadera respuesta Sı́-No de los hombres de otra muestra de tamaño n. ¿Qué tamaño muestral n es necesario para que el intervalo de confianza 95 % en este caso tenga la misma longitud que el calculado previamente? 214 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS Capı́tulo 7 Introducción a la Teorı́a de la Decisión Referencias: Casella-Berger, capı́tulo 10, Garthwaite, Jollife y Jones (1995), capı́tulo 6. Todos los métodos de inferencia estadı́stica (estimación puntual, contrastes de hipótesis, estimación por intervalos) involucran la toma de una decisión: hay que decidir qué punto o qué intervalo se toma como estimador de un parámetro; hay que decidir si se rechaza o no la hipótesis nula. La teorı́a de la decisión es el marco teórico que permite estudiar globalmente los problemas de inferencia estadı́stica como un único tipo de problema: la toma de una decisión. Todas los elementos del proceso de decisión están formalmente definidos, incluyendo el criterio que la decisión final habrá de optimizar. 7.1. Elementos básicos en un problema de decisión Los elementos necesarios para plantear un problema de inferencia estadı́stica desde la perspectiva de la teorı́a de la decisión son los siguientes: Datos. Los datos se describen mediante un vector aleatorio X cuyos valores e están en el espacio muestral X . Modelo. Es el conjunto de posibles distribuciones de probabilidad de los datos X . Se supone que es una familia paramétrica de distribuciones {fθ : e θ ∈ Θ}, donde fθ es una función de densidad o una función de masa de 215 216 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN probabilidad. El conjunto Θ es el espacio de parámetros. El parámetro θ (que puede ser un escalar o un vector) es el valor verdadero, pero desconocido, del estado de la naturaleza. Espacio de acciones. Después de observar X = x se toma una decisión e e que afecta a θ. El conjunto de posibles acciones permitidas es el espacio de acciones. Este conjunto se denotará por A y sus elementos por a. El espacio de acciones determina si un problema de decisión es uno de estimación puntual (si A = Θ), uno de estimación por intervalos (si A es el conjunto de intervalos contenidos en Θ) o uno de contraste de hipótesis (si A = {“aceptar H0 ”, “rechazar H0 ”}). Función de pérdida. Para evaluar el coste de tomar la decisión a cuando el verdadero estado de la naturaleza es θ, se utiliza una función de pérdida: L : Θ × A −→ IR (θ, a) −→ L(θ, a) Cuanto mayor es el valor de L(θ, a) menos apropiada es la decisión a si el verdadero estado de la naturaleza es θ. En economı́a y en análisis bayesiano se valora la adecuación de a a θ con una función de utilidad U (θ, a) que da valores altos a pares acordes y valores bajos a pares poco adecuados. Una función de pérdida cambiada de signo es una función de utilidad y viceversa. Reglas de decisión. Una regla de decisión es una función δ : X x e −→ A −→ δ( x ) = a e que, para cada posible valor x de X , indica qué acción a se ha de tomar e si X toma el valor x . El conjunto de reglas de decisión aceptables e e en un problema se denota por D. Función de riesgo. Para evaluar la calidad de las reglas de decisión δ ∈ D se define la función de riesgo R : Θ×D (θ, δ) −→ IR −→ R(θ, δ) = Eθ [L(θ, δ( X ))] e que mide la pérdida esperada si se usa la regla δ y el verdadero estado de la naturaleza es θ. Como el valor que toma el parámetro θ no es conocido, es deseable usar una regla de decisión que tenga valores bajos de la función de riesgo para todos los posibles valores θ ∈ Θ. 7.1. ELEMENTOS BÁSICOS EN UN PROBLEMA DE DECISIÓN 7.1.1. 217 Comparación de reglas de decisión. Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 ) y R(θ, δ2 ). Comparar δ1 y δ2 mediante la función de riesgo es fácil si se verifica que R(θ0 , δ1 ) < R(θ0 , δ2 ) para todo θ ∈ Θ. Al comparar δ1 y δ2 diremos que: δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ. δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ). δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ. Una regla δ1 es inadmisible si existe otra regla δ2 tal que R(θ, δ2 ) ≤ R(θ, δ1 ) para todo θ ∈ Θ y además existe un θ0 tal que R(θ0 , δ2 ) < R(θ0 , δ1 ). En ese caso diremos que δ2 es preferible a δ1 , o simplemente que δ2 es mejor que δ1 . Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea mejor que δ. Una regla de decisión que sea admisible tiene una propiedad deseable, ya que no existe ninguna otra regla que la mejore uniformemente, pero no hay garantı́as de que el comportamiento de esa regla sea uniformemente bueno en Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de D que sean admisibles. En la comparación de dos reglas de decisión lo habitual será que ninguna de ellas sea preferible a la otra, sino que una de ellas tenga menor riesgo que la otra para determinados valores de θ y ocurra lo contrario para otros valores de θ. Para realizar una valoración global (considerando todos los posibles valores de θ) de una regla de decisión δ, a veces se define una distribución de probabilidad a priori π(θ) en Θ que refleja cómo son de plausibles las diferentes zonas del espacio de parámetros. A partir de esta distribución sobre Θ se define el riesgo Bayes de las reglas de decisión como B : A −→ IR δ −→ B(δ) = Eπ [R(θ, δ)] 218 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN En ocasiones escribiremos el riesgo Bayes como B(π, δ) para señalar explı́citamente que su definición depende de la distribución a priori π considerada. El riesgo Bayes de δ resume en un solo número el comportamiento de δ sobre todo el espacio Θ. Valores pequeños de B(π, δ) indican que δ tiene un buen comportamiento en las zonas de Θ a las que π asigna más probabilidad. A una regla de decisión δ que hace mı́nimo el riesgo Bayes se le llama regla Bayes. En la sección 7.4 veremos que estas reglas tiene ciertas propiedades de optimalidad. 7.2. Teorı́a de la decisión e inferencia estadı́stica En esta sección veremos cómo plantear los problemas de estimación puntual, estimación por intervalos y contraste de hipótesis como problemas de teorı́a de la decisión. 7.2.1. Estimación puntual. Supongamos que X es un vector aleatorio con distribución fθ , θ ∈ Θ. Sue pongamos que Θ ⊆ IR y se desea estimar el parámetro θ. Determinaremos todos los elementos del problemas de decisión asociado. Las ideas que se desarrollarán ahora son también válidas si θ es un vector de parámetros. Los datos y el modelo son los que se acaban de especificar: X , {fθ : θ ∈ Θ}. e El espacio de acciones A se corresponde con los posibles valores de θ, es decir A = Θ. A veces puede interesar que A sea más grande que Θ, por ejemplo, si θ es la probabilidad de éxito de un experimento de Bernoulli y Θ = (0, 1) podrı́a ser que nos interesase tomar A = [0, 1]. La función de pérdida L debe reflejar el hecho de que si una acción a es cercana a θ entonces la decisión es correcta, es decir, la pérdida es pequeña. En general las funciones de pérdidas consideradas son funciones crecientes en la distancia entre θ y a. Las funciones de pérdida más usuales son éstas: Pérdida del valor absoluto: L(θ, a) = |θ − a|. Pérdida cuadrática: L(θ, a) = (θ − a)2 . Pérdida 0-1: L(θ, a) = 1{|θ−a|>c} , con c ≥ 0. La función de pérdida puede reflejar que es menos deseable, por ejemplo, sobrestimar θ que subestimarlo. Ası́ lo hace esta función de pérdida: ½ L(θ, a) = (θ − a)2 10(θ − a)2 si si a<θ a≥θ 7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 219 También es posible penalizar más los errores de estimación cuando θ es próximo a 0 que cuando θ es grande: L(θ, a) = (θ − a)2 . |θ| + 1 Obsérvese que en este contexto las reglas de decisión son los estimadores de θ. La función de riesgo de una regla de decisión depende de la función de pérdida definida. Por ejemplo, si la pérdida es cuadrática, la función de riesgo es el error cuadrático medio: R(θ, δ) = Eθ [(δ( X ) − θ)2 ] = Vθ (δ( X )) + (Sesgoθ (δ( X )))2 . e e e Los estimadores (las reglas de decisión) deseables según esta definición de la función de riesgo son aquellos que simultáneamente tienen poco sesgo y poca varianza. Obsérvese que desde el punto de vista de la teorı́a de la decisión no está justificado el restringir la clase de estimadores D a aquéllos que son insesgados. Ejemplo 87 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ). Consideremos el problema de estimar σ 2 usando la función de pérdida cuadrática L(θ, a) = (θ − a)2 . Consideremos reglas de decisión (estimadores) del tipo δb ( X ) = bS 2 , donde S 2 e es la varianza muestral, y b > 0. Recordemos que E(S 2 ) = σ 2 y V (S 2 ) = 2σ 4 /(n − 1). El riesgo de δb es R((µ, σ 2 ), δb ) = V (bS 2 ) + (E(bS 2 ) − σ 2 )2 = 2σ 4 b + (bσ 2 − σ 2 )2 = σ 4 n−1 2 µ 2b2 + (b − 1)2 n−1 ¶ = σ 4 c(b). Ası́, la función de riesgo no depende de µ y es cuadrática en σ 2 . Obsérvese que si c(b) < c(b0 ) entonces R((µ, σ 2 ), δb ) < R((µ, σ 2 ), δb0 ). Por lo tanto, buscar la mejor regla de decisión equivale a minimizar c(b) en b. El mı́nimo de esa expresión se alcanza en b = (n − 1)/(n + 1) y, por lo tanto, para cada valor del parámetro (µ, σ 2 ) el estimador n S̃ 2 = 1 X n−1 2 S = (Xi − X)2 n+1 n + 1 i=1 tiene el riesgo menor entre todos los estimadores de la forma bS 2 . El siguiente gráfico compara los riesgos de S 2 , σ̂ 2 y S̃ 2 para diferentes valores de σ 2 , donde σ̂ 2 = (n − 1)S 2 /n es el estimador máximo verosı́mil de σ 2 . 220 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN 35 30 R(σ2,S2) 25 2 2 R(σ ,(n−1)S /n) Riesgo 20 15 R(σ2,(n−1)S2/(n+1)) 10 5 0 0 1 2 3 4 5 6 7 8 9 10 σ2 . . Ejemplo 88 Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con V (X) = σ 2 positiva y finita. Consideramos el problema de la estimación de σ 2 y la función de pérdida LS (σ 2 , a) = a a − 1 − log 2 , σ2 σ conocida como pérdida de Stein. Obsérvese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) = 0 si y sólo si a = σ 2 . Además, para σ 2 fijo, se tiene que lı́m LS (σ 2 , a) = ∞, y a−→0 lı́m LS (σ 2 , a) = ∞. a−→∞ Es decir, LS penaliza tanto la subestimación como la sobrestimación. Recuérdese que con la pérdida cuadrática la subestimación tiene pérdida acotada, mientras que la penalización de la sobrestimación es no acotada. Consideremos, como en el ejemplo anterior, la clase de estimadores de la forma δb = bS 2 . Su riesgo es · 2 ¸ µ ¶ bS bS 2 S2 2 R(σ , δb ) = E − 1 − log 2 = b − 1 − log b − E log 2 . σ2 σ σ Obsérvese que el último sumando es función de σ 2 y posiblemente de otros parámetros, pero no es función de b. Ası́, R(σ 2 , δb ) se minimiza en aquel valor 7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 221 b que hace mı́nima la función b − log b, es decir, en b = 1. Ası́, de todos los estimadores de la forma bS 2 el que tiene menor riesgo para cualquier valor σ 2 es δ1 = S 2 . . . 7.2.2. Contrastes de hipótesis. En un problema de contraste de hipótesis el espacio de acciones consiste únicamente en dos elementos: A = {a0 , a1 }, donde la acción a0 consiste en aceptar H0 : θ ∈ Θ0 y la acción a1 en rechazarla o, equivalentemente, aceptar H1 : θ ∈ Θ 1 . Una regla de decisión δ es una función del espacio muestral X que sólo toma e dos valores: a0 o a1 . El conjunto { x : δ( x ) = a0 } es la región de aceptación del e e test y el conjunto { x : δ( x ) = a1 } es la región de rechazo o región crı́tica. e e La función de pérdida ha de reflejar que se comete un error si se decide a0 cuando H0 es falsa o se decide a1 cuando H0 es verdadera, mientras que en otros casos se actúa correctamente. En este contexto la función de pérdida 0-1 es la más utilizada: L(θ, a0 ) = 1{θ6∈Θ0 } , L(θ, a1 ) = 1{θ∈Θ0 } . Esta función penaliza de igual forma los errores de tipo I que los errores de tipo II. Si se desea penalizarlos de forma diferente puede usarse la función de pérdida 0-1 generalizada: L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } , donde cI es el coste de un error de tipo I, y cII el de uno de tipo II. Se pueden definir otras funciones de pérdida que recojan aspectos propios del problema que se esté tratando. Por ejemplo, la función de pérdida puede recoger el hecho de que es más grave cometer un error de tipo I cuanto más lejos de Θ0 esté θ. La función de potencia de un contraste está relacionada con la función de riesgo de ese contraste. Sea β(θ) la función de potencia de un test basado en la regla de decisión δ. Sea C = { x : δ( x ) = a1 } la región crı́tica. Entonces e e β(θ) = P ( X ∈ C|θ) = P (δ( X ) = a1 |θ). e e Por su parte, la función de riesgo asociada a una pérdida 0-1 generalizada es, para θ ∈ Θ0 , R(θ, δ) = Eθ (L(θ, δ( X ))) = e 0 · P (δ( X ) = a0 |θ) + cI · P (δ( X ) = a1 |θ) = cI β(θ), e e y para θ 6∈ Θ0 , R(θ, δ) = Eθ (L(θ, δ( X ))) = e 222 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN cII · P (δ( X ) = a0 |θ) + 0 · P (δ( X ) = a1 |θ) = cII (1 − β(θ)). e e Esta relación entre la función de riesgo y la de potencia viene dada por la elección de la función de pérdida 0-1 generalizada. Sin embargo, aunque se trabaje con otras funciones de pérdida, en general la función de potencia juega un papel importante en cualquier contraste de hipótesis. En efecto, R(θ, δ) = Eθ (L(θ, δ( X ))) = L(θ, a0 )(1 − β(θ)) + L(θ, a1 )β(θ). e Ejemplo 89 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El contraste uniformemente más potente de nivel α para contrastar ½ H0 : µ ≥ µ0 H1 : µ < µ 0 rechaza H0 si X − µ0 √ < −zα σ/ n y tiene función de potencia µ ¶ µ ¶ µ − µ0 µ − µ0 √ √ β(µ) = Pµ Z < −zα − = φ −zα − . σ/ n σ/ n Para α = 0,1 y tomando cI = 8 y cII = 3 en la función de pérdida 0-1 generalizada, se tiene que µ ¶ µ − µ0 √ R(µ, δ) = 8φ −zα − si µ ≥ µ0 , σ/ n µ µ ¶¶ µ − µ0 √ R(µ, δ) = 3 1 − φ −zα − si µ < µ0 . σ/ n 3 2.5 R(µ,δ) 2 1.5 1 0.5 0 −3 µ<µ0 −2 µ ≥ µ0 −1 0 n1/2(µ−µ0)/σ 1 2 3 7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA . 223 . A veces es conveniente aprovechar la función de pérdida para reflejar el hecho de que algunas decisiones incorrectas son más graves que otras. Por ejemplo, en el contraste ½ H0 : µ ≥ µ 0 H1 : µ < µ 0 se comete un error de tipo I si se rechaza H0 cuando de hecho µ ≥ µ0 . Sin embargo, las consecuencias de rechazar erróneamente H0 son mucho peores si µ es mucho mayor que µ0 que si µ es ligeramente mayor que µ0 . La siguiente función de potencia refleja esto: L(µ, a0 ) = b(µ0 − µ)1{µ<µ0 } , L(µ, a1 ) = c(µ − µ0 )2 1{µ≥µ0 } , donde b y c son constantes positivas. Un contexto en el que esta función de pérdida es adecuada es el siguiente. Se desea contrastar si una cierta medicina ayuda a disminuir el nivel de colesterol. Se establece el nivel de colesterol máximo aceptable en µ0 . Se contrasta ½ H0 : µ ≥ µ 0 H1 : µ < µ 0 donde µ es el nivel de colesterol de un paciente que ha tomado la medicina (se supone que µ no es directamente observable, sino sólo a partir de diversos análisis). Debido a la asociación entre niveles altos de colesterol y enfermedades de corazón, las consecuencias de rechazar H0 cuando µ es grande son mucho peores que si µ toma valores moderados, aunque superiores a µ0 . Por eso es conveniente usar la función cuadrática (µ − µ0 )2 . 7.2.3. Estimación por intervalos. En estimación por conjuntos el espacio de acciones A consiste en todos los subconjuntos del espacio paramétrico Θ. Nos limitaremos a considerar el caso de que Θ ⊂ IR y únicamente consideraremos como acciones los subconjuntos de Θ que sean intervalos. Esta limitación es arbitraria y responde únicamente a consideraciones prácticas. Sea C un elemento de A. Cuando se toma la acción C, se está haciendo la estimación “θ ∈ C”. Una regla de decisión δ( x ) especifica para cada x ∈ X e e qué intervalo C ∈ A será usado como estimador si se observa X = x . Usaremos e e la notación C( x ) para denotar a C = δ( x ). e e En estimación por intervalos las funciones de pérdida tienen en cuenta dos aspectos: si el verdadero valor del parámetro está o no en el intervalo estimador, y una medida del tamaño de éste. Para medir el tamaño se usa la longitud del 224 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN intervalo, Long(C), mientras que la función IC (θ) suele usarse para indicar si θ está o no en C. La forma en que se combinan esas dos cantidades para formar la función de pérdida es habitualmente ésta: L(θ, C) = b Long(C) − IC (θ), donde la constante b determina el peso relativo del tamaño y la corrección de C. La función de riesgo asociada será R(θ, C) = bEθ (Long(C( X ))) − Eθ (IC ( X )) = e e bEθ (Long(C( X ))) − Pθ (θ ∈ C( X )). e e Esta función de riesgo tiene dos componentes: la longitud esperada del intervalo y su probabilidad de cubrimiento. Ası́, cuando se busca el estimador C( x ) e que minimiza el riesgo, lo que se hace es alcanzar el mejor compromiso entre longitud y confianza. Ésta es una diferencia considerable con respecto al enfoque adoptado en la sección 6, dedicada a la estimación por intervalos: allı́ se fijaba un valor de la confianza y se buscaba el intervalo más corto que tuviese dicha confianza. Desde la óptica de la teorı́a de la decisión es posible perder algo de confianza si a cambio se consigue reducir notablemente la longitud de los estimadores. Ejemplo 90 Sea X ∼ N (µ, σ 2 ), con σ 2 conocida. Consideremos las reglas de decisión Cc (x) = [x − cσ, x + cσ], c ∈ IR, c ≥ 0. Compararemos estos estimadores usando la función de pérdida L(µ, Cc ) = bLong(Cc ) − ICc (µ) = 2bσc − ICc (µ). Ası́, la primera parte de la función de riesgo es constante, mientras que la segunda vale Pµ (µ ∈ Cc (X)) = Pµ (X − cσ ≤ µ ≤ X + cσ) = ¶ µ X −µ ≤ c = 2P (Z ≤ c) − 1, Pµ −c ≤ σ donde Z ∼ N (0, 1). Por lo tanto, la función de riesgo es R(µ, Cc ) = 2bσc − 2P (Z ≤ c) + 1. Es una función de riesgo constante en µ. Ası́, la mejor regla de decisión corresponderá al valor c donde la función g(c) = 2bσc − 2P (Z ≤ c) + 1 7.3. EL PROBLEMA DE DECISIÓN BAYESIANO 225 tenga su mı́nimo. La derivada de g(c) se anula en el punto c que verifica c2 1 1 bσ = fZ (c) = √ e− 2 ⇐⇒ c2 = log . 2πb2 σ 2 2π √ Esa ecuación tiene solución si y sólo si bσ ≤ 1/ 2π. Cuando hay solución ésta vale r 1 ∗ c = log . 2πb2 σ 2 La segunda derivada de g en c∗ es g 00 (c∗ ) = 2b − 2fZ0 (c∗ ) > 0, porque c∗ ≥ 0 implica que fZ0 (c∗ ) ≤ 0, luego c∗ es un mı́nimo de g. En el caso de que bσ > √ 1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el mı́nimo riesgo se alcanza en c = 0. √ En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al tamaño del intervalo en la función de riesgo) √ entonces el intervalo óptimo es [x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del intervalo pesa mucho en la función de riesgo) entonces el mejor intervalo para µ es [x, x], es decir, un estimador puntual de µ. . . 7.3. El problema de decisión bayesiano Hemos visto en la sección 7.1 que a veces se define una distribución de probabilidad π(θ) sobre el espacio paramétrico Θ, que refleja el conocimiento que el investigador tiene sobre los posibles valores del parámetro a priori, es decir, antes de observar los datos X . En general cualquier función de pesos que pone dere de cierta forma las diferentes regiones de Θ será válida como distribución π(θ), aunque esta distribución no refleje ningún conocimiento previo subjetivo sobre Θ. Se definió el riesgo Bayes de la regla de decisión δ respecto de la distribución a priori π como B(π, δ) = Eπ [R(θ, δ)]. Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası́, si no se dispone de información previa que permita definir π, una forma razonable de elegir esta distribución a priori es hacerlo de forma que los valores de θ a los que se les asigne probabilidad a priori grande sean aquellos para los cuales el experimentador desea tener un riesgo pequeño, y los valores de θ con peso pequeño sean aquellos cuyo riesgo no le preocupa. Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes: B(π, δ π ) = mı́n B(π, δ). δ∈D 226 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN Esta regla puede no existir, o bien puede haber más de una regla Bayes, aunque en general sólo existe una regla Bayes. Los siguientes resultados indican cómo encontrar las reglas Bayes, si éstas existen. Teorema 51 Para cada x ∈ X se define e r( x , a) = E (L(θ, a)), π(θ| x ) e e donde la esperanza se toma con respecto a la distribución a posteriori de π, dado que se ha observado X = x . Para cada x ∈ X se supone que existe una acción e e e a( x ) ∈ A tal que e r( x , a( x )) = mı́n r( x , b). b∈A e e e Sea la regla de decisión δπ : X −→ A x −→ a( x ) e e π π Si δ ∈ D entonces δ es la regla Bayes respecto a π. Demostración: Sea f ( x , θ) = f ( x |θ)π(θ) la distribución conjunta de ( X , θ) e e e y sea m( x ) la marginal de X . Ası́, e e h i B(π, δ) = Eπ (R(θ, δ)) = Eπ Eθ (L(θ, δ( X ))) = e · ¸ Eθ (L(θ, δ( X ))) = E E (L(θ, δ( X ))) = m( x ) π(θ| X ) e e e e E (r( X , δ( X ))). m( x ) e e e π Para cada x ∈ X , r( x , δ ( x )) ≤ r( x , δ( x )) para todo δ ∈ D, de donde se e e e e e sigue que E (r( X , δ π ( X ))) ≤ E (r( X , δ( X ))) m( x ) m( x ) e e e e e e para todo δ ∈ D y, en consecuencia, que B(π, δ π ) ≤ B(π, δ) para todo δ ∈ D, luego δ π es la regla Bayes. 2 Obsérvese que la función r( x , a) que se define en el anterior teorema es la e esperanza a posteriori de la función de pérdida, dado que se ha observado X = e x . Por lo tanto, para encontrar la regla Bayes hay que minimizar la esperanza e a posteriori de la función de pérdida, ya sea analı́tica o numéricamente. El siguiente resultado se sigue directamente del teorema anterior y da la expresión explı́cita para la regla de Bayes en dos casos importantes referidos a la estimación de parámetros. 7.3. EL PROBLEMA DE DECISIÓN BAYESIANO 227 Corolario 8 Consideremos un problema de estimación de un parámetro real θ ∈ IR. Se tiene lo siguiente: 1. Si L(θ, a) = (θ − a)2 la regla Bayes es δ π ( x ) = E(θ| x ), si δ π ∈ D. e e π 2. Si L(θ, a) = |θ−a| la regla Bayes es δ ( x ) que asocia a cada x la mediana e e a de la distribución a posteriori π(θ| x ), si δ π ∈ D. e Obsérvese que si el conjunto de acciones A = Θ es finito (o discreto) podrı́a pasar que E(θ| x ) 6∈ A y entonces δ π ( x ) = E(θ| x ) no serı́a una función de X e e e e en A, es decir, δ π no serı́a una regla de decisión legı́tima. Si A = Θ es convexo se puede probar que E(θ| x ) ∈ A para cualquier distribución a posteriori π(θ| x ). e e El siguiente resultado hace referencia al problema de contrastes de hipótesis desde la perspectiva de la teorı́a de la decisión bayesiana. Concreta en este contexto lo establecido por el teorema 51 sobre cómo determinar la regla Bayes. Teorema 52 Consideremos un problema de contraste de la hipótesis H0 : θ ∈ Θ0 frente a H1 : θ 6∈ Θ0 , con función de pérdida 0-1 generalizada. Cualquier test que cII rechaza H0 si P (θ ∈ Θ0 | x ) < cI + cII e y cII acepta H0 si P (θ ∈ Θ0 | x ) > cI + cII e es una regla de Bayes (también llamada test de Bayes o regla Bayes). Demostración: Aplicamos el teorema 51. Como A = {a0 , a1 } hay que comparar r( x , a0 ) y r( x , a1 ) y escoger como acción a( x ) aquella de las dos que e e e dé valor menor de r( x , a). e Recordemos que L(θ, a0 ) = cII 1{θ6∈Θ0 } , L(θ, a1 ) = cI 1{θ∈Θ0 } . Calculamos r( x , a0 ) y r( x , a1 ): e e r( x , a0 ) = E (L(θ, a0 )) = cII P (θ 6∈ Θ0 | x ) π(θ| x ) e e e r( x , a1 ) = E (L(θ, a1 )) = cI P (θ ∈ Θ0 | x ). π(θ| x ) e e e Ası́, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son e aquellos para los cuales r( x , a1 ) < r( x , a0 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) < cII P (θ 6∈ Θ0 | x ) ⇐⇒ e e e e cII P (θ ∈ Θ0 | x ) < . cI + cII e 228 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN Análogamente, el conjunto de puntos en los que el test Bayes acepta H0 , es decir, aquellos para los cuales la acción a0 tiene menor riesgo esperado a posterior que la acción a1 , son aquellos que cumplen r( x , a0 ) < r( x , a1 ) ⇐⇒ cI P (θ ∈ Θ0 | x ) > cII P (θ 6∈ Θ0 | x ) ⇐⇒ e e e e cII . P (θ ∈ Θ0 | x ) > cI + cII e Si r( x , a0 ) = r( x , a1 ), las dos acciones son indiferentes y puede tomarse cuale e quiera de ellas sin que la regla resultante deje de ser la regla Bayes. 2 Ejemplo 91 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ), con σ 2 , µ y τ 2 conocidos. Sea η= σ2 . nτ 2 + σ 2 La distribución a posteriori de θ dado que X = x es normal con parámetros e e E(θ| x ) = (1 − η)x + ηµ, V (θ| x ) = ητ 2 . e e Consideremos el test ½ H0 : θ ≥ θ0 H1 : θ < θ0 con función de pérdida 0-1 generalizada. Calculemos P (θ ∈ Θ0 | x ): e ¯ ¶ µ θ0 − (1 − η)x − ηµ ¯¯ P (θ ∈ Θ0 | x ) = P (θ ≥ θ0 |x) = P Z ≥ √ ¯x . τ η e Ası́, el test de Bayes rechaza H0 si P (θ ∈ Θ0 | x ) < α0 e donde α0 = cII /(cI + cII ), y eso ocurre si y sólo si √ η(µ − θ0 ) + zα0 τ η θ0 − (1 − η)x − ηµ > zα0 ⇐⇒ x < θ0 − . √ τ η 1−η Por lo tanto, el test de Bayes rechaza H0 para valores pequeños de x y el valor crı́tico depende de las pérdidas para los dos tipos de errores (a través del valor α0 ) y de la distribución a priori. Recordemos que el test uniformemente más potente de nivel α rechaza H0 si σ x < θ0 − zα √ . n 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 229 En el caso particular de que tomásemos cI = 1 − α y cII = α, entonces α = α. Si además consideramos la distribución a priori de θ centrada en θ0 tendremos que el test de Bayes rechaza H0 si √ zα0 τ η x < θ0 − . 1−η 0 Recordando la definición de η se llega a que se rechaza H0 si y sólo si r σ σ2 x < θ0 − zα0 √ 1 + 2, nτ n p expresión que sólo difiere del test UMP en el factor 1 + (σ 2 /nτ 2 ). Ambos contrasten coincidirán si σ 2 /nτ 2 = 0, es decir, si n −→ ∞, o si τ 2 −→ ∞ o si σ 2 −→ 0. . . 7.4. Admisibilidad de las reglas de decisión La clase D de todas las reglas de decisión posibles quizás sea excesivamente grande: podrı́a estar formada por todas las funciones de X en A. La elección de la regla δ en un determinado problema se simplifica si restringimos la búsqueda a una subclase de reglas C ⊆ D de la que formen parte únicamente las reglas que tengan alguna buena propiedad. Una de estas propiedades deseables es la de ser admisible. 7.4.1. Comparación de reglas de decisión. Sean δ1 y δ2 dos reglas de decisión con funciones de riesgo asociadas R(θ, δ1 ) y R(θ, δ2 ). Al comparar δ1 y δ2 diremos que: δ1 es tan buena como δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ. δ1 es mejor que δ2 si R(θ, δ1 ) ≤ R(θ, δ2 ) para todo θ ∈ Θ, y existe un θ0 ∈ Θ tal que R(θ0 , δ1 ) < R(θ0 , δ2 ). δ1 es equivalente a δ2 si R(θ, δ1 ) = R(θ, δ2 ) para todo θ ∈ Θ. Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ. Una regla de decisión que sea admisible tiene una propiedad deseable, ya que no existe ninguna otra regla que la mejore uniformemente, pero no hay garantı́as de que el comportamiento de esa regla sea uniformemente bueno en Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece 230 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN razonable restringir la búsqueda de las reglas de decisión a la clase de reglas de D que sean admisibles. Sea una clase C ⊆ D. Se dice que C es una clase completa si para cada δ 6∈ C existe δ ∈ C que es mejor que δ 0 . C es una clase esencialmente completa si para cada δ 0 6∈ C existe δ ∈ C que es tan buena como δ 0 . 0 Teorema 53 Sea C una clase de reglas de decisión completa. Entonces la clase de reglas de decisión admisibles está contenida en C. Demostración: Sea δ 0 una regla admisible. Si δ 0 6∈ C, entonces existe δ ∈ C mejor que δ 0 , y eso contradice el supuesto de que δ 0 es admisible, luego δ 0 ∈ C. 2 7.4.2. Búsqueda de reglas admisibles y clases completas. Teorema 54 Consideremos un problema de decisión en el que Θ ⊆ IR. Supongamos que para cada regla de decisión δ ∈ D, la función de riesgo R(θ, δ) es continua en θ. Sea π(θ) una distribución a priori sobre Θ tal que para todo ε > 0 y todo θ ∈ Θ la probabilidad que π asigna al intervalo (θ − ε, θ + ε) es positiva. Sea δ π la regla Bayes respecto a π. Si −∞ < B(π, δ π ) < ∞ entonces δ π es admisible. Demostración: Supongamos que δ π es inadmisible. Entonces existe una regla δ ∈ D tal que R(θ, δ) ≤ R(θ, δ π ) para todo θ ∈ Θ y existe un θ0 ∈ Θ con R(θ0 , δ) < R(θ0 , δ π ). Sea ν = R(θ0 , δ π ) − R(θ0 , δ) > 0. Por continuidad de R(θ, δ) y R(θ, δ π ) se tiene que existe ε > 0 tal que ν R(θ, δ π ) − R(θ, δ) > 2 para todo θ ∈ (θ0 − ε, θ0 + ε). Entonces B(π, δ π ) − B(π, δ) = Eπ [R(θ, δ π ) − R(θ, δ)] ≥ ν Pπ [(θ0 − ε, θ0 + ε)] > 0. 2 Esto contradice el supuesto de que δ π es regla Bayes. Por lo tanto δ π es admisible. 2 Eπ [1(θ0 −ε,θ0 +ε) (R(θ, δ π ) − R(θ, δ))] ≥ El teorema anterior proporciona un conjunto de condiciones bajo las cuales las reglas Bayes son admisibles. Hay otros conjuntos de hipótesis que también 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 231 lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen a cualquier clase completa. Es ası́ razonable considerar las reglas Bayes. El siguiente teorema permite restringir las reglas de decisión consideradas a aquellas que dependen de estadı́sticos suficientes, dado que hacerlo no tiene coste en términos de las funciones de riesgo. Este resultado es una generalización del teorema de Rao-Blackwell (teorema 27, página 108). Teorema 55 Sea A, el espacio de acciones, un intervalo de IR, posiblemente no acotado. Supongamos que la función de pérdida L(θ, a) es una función convexa de la acción a, para todo θ ∈ Θ. Sea T ( X ) un estadı́stico suficiente de θ con e espacio muestral T . Si δ( x ) ∈ D es una regla de decisión, entonces la regla de decisión e δ 0 ( x ) = δT0 (T ( x )), e e donde δT0 : T t −→ A −→ δT0 (t) = Eθ (δ( X )|T ( X ) = t), e e es tan buena como δ, siempre y cuando la esperanza condicionada exista para todo t ∈ T . Demostración: Veamos en primer lugar que δ 0 ( x ) es regla de decisión, es decir, e es una función de X en A. Por una parte, como T es estadı́stico suficiente, Eθ (δ( X )|T ( X ) = T ( x )) no depende de θ, sino sólo de x . Además, como δ e e e e es regla de decisión se tiene que δ( x ) ∈ A para todo x ∈ X y por ser A un e e conjunto convexo se sigue que Eθ (δ( X )|T ( X ) = T ( x )) ∈ A. e e e Veamos ahora que δ 0 es tan buena como δ. Para todo θ ∈ Θ, se tiene que R(θ, δ) = Eθ [L(θ, δ( X ))] = Eθ [Eθ L(θ, δ( X ))|T ( X )] e e e y por ser L convexa, Eθ [Eθ L(θ, δ( X ))|T ( X ))] ≥ Eθ [L(θ, Eθ (δ( X )|T ( X )))] = e e e e Eθ [L(θ, δ 0 ( X ))] = R(θ, δ 0 ). e 2 El siguiente corolario se sigue directamente del teorema. Corolario 9 La clase de reglas de decisión que dependen de los datos X sólo e a través de un estadı́stico suficiente T es una clase esencialmente completa. Estos resultados tienen especial importancia en el problema de estimación puntual cuando el espacio A es un intervalo. 232 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN 7.4.3. Admisibilidad de la media muestral bajo normalidad. Sean X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ). Nos planteamos el problema de estimación de θ ∈ Θ = IR con función de pérdida cuadrática. Veremos que en este caso la media muestral es admisible como estimador de θ. Teorema 56 La media muestral X es un estimador admisible de θ. Demostración: Distinguiremos dos situaciones, según σ 2 sea conocida o no. (i) σ 2 conocida. Supongamos que δ( x ) = x es inadmisible. Entonces existe δ 0 ( x ) tal que R(θ, δ 0 ) ≤ e e R(θ, x) para todo θ ∈ IR y para algún θ0 se tiene que R(θ, x) − R(θ, δ 0 ) = ν > 0. De la continuidad en θ de la función de pérdida cuadrática y la continuidad de la función de densidad de la normal de esperanza θ, se sigue que R(θ, δ) es función continua de θ para toda regla δ. Como consecuencia de ello, existe ε > 0 tal que R(θ, x) − R(θ, δ 0 ) > ν/2, para todo θ ∈ (θ0 − ε, θ0 + ε). Consideramos sobre IR la distribución a priori π ∼ N (0, τ 2 ) y definimos η= σ2 . nτ 2 + σ 2 Ası́, Z ∞ B(π, x) − B(π, δ 0 ) = [R(θ, x) − R(θ, δ 0 )] √ −∞ Z θ0 +ε [R(θ, x) − R(θ, δ 0 )] √ θ0 −ε θ2 1 e− 2τ 2 dθ ≥ 2πτ θ2 1 e− 2τ 2 dθ > 2πτ 0 2 −(θ ) 0 ν ν ν 1 P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √ e 2τ 2 2 2 2 2πτ donde Y ∼ N (0, τ 2 ) y θ00 es el más cercano a 0 de los dos puntos θ0 − ε y θ0 + ε. Si llamamos K(τ ) a 0 2 ν 1 −(θ0 ) K(τ ) = 2ε √ e 2τ 2 2 2π se tiene que τ (B(π, x) − B(π, δ 0 )) > K(τ ) y que ν/2 lı́m K(τ ) = √ 2ε > 0. 2π τ −→∞ Por otra parte, el riesgo Bayes de la media muestral es Z σ2 R(θ, X)π(θ)dθ = B(π, x) = , n Θ 7.4. ADMISIBILIDAD DE LAS REGLAS DE DECISIÓN 233 porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto además ocurre para cualquier a priori π. Sea δ π la regla Bayes respecto a la a priori π. Por el teorema 51 y su corolario, la regla Bayes δ π ( x ) es la que asigna a cada x la esperanza a posteriori de θ e e dado x , y su riesgo Bayes es la varianza a posteriori: e B(π, δ π ) = τ 2 η = τ 2 σ2 . nτ 2 + σ 2 Por lo tanto, τ (B(π, δ π ) − B(π, x)) = τ σ2 ³ n´ σ2 − τ 1 − τ 2η 2 = − τ n σ n − ¶ µ σ2 = τ 2η − n µ 1 − τ2 σ2 n 2 2 nτ + σ σ 2 ¶ = σ2 τ η. n Finalmente, 0 ≥ τ (B(π, δ π ) − B(π, δ 0 )) = τ (B(π, δ π ) − B(π, x)) + τ (B(π, x)) − B(π, δ 0 )) > − σ2 σ2 τ σ2 τ →∞ ν/2 τ η + K(τ ) = − + K(τ ) −→ √ 2ε > 0, 2 2 n n nτ + σ 2π lo cual es una contradicción, que nace de suponer que x no es admisible. (ii) σ 2 desconocida. Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que R((θ, σ 2 ), δ 0 ) ≤ R((θ, σ 2 ), x), para todo (θ, σ 2 ), R((θ0 , σ02 ), δ 0 ) < R((θ, σ 2 ), x), para algún (θ0 , σ02 ). Como δ 0 es una función de X en IR, δ 0 también es un estimador de θ si σ 2 se fija en el valor σ02 . Para cualquier regla de decisión, el riesgo R(θ, δ) cuando σ 2 es conocida y vale σ02 es igual al riesgo en el caso de σ 2 desconocida evaluado en el valor σ02 : R((θ, σ02 ), δ). Ası́, R(θ, δ 0 ) = R((θ, σ02 ), δ 0 ) ≤ R((θ, σ02 ), x), para todo θ, R(θ0 , δ 0 ) = R((θ0 , σ02 ), δ 0 ) < R((θ, σ02 ), x), para algún θ0 . De aquı́ se sigue que δ 0 es mejor que x para estimar θ cuando σ 2 es conocido y vale σ02 , lo que contradice el hecho de que x es admisible si σ 2 es conocida. Ası́ x ha de ser admisible también si σ 2 es desconocida. 2 234 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN 7.5. Reglas minimax El riesgo Bayes definido en la sección 7.3 permite resumir el comportamiento de la función de riesgo de una regla de decisión δ sobre todo el espacio Θ en un solo número, el riesgo Bayes de esa regla, que es el valor medio (según la a priori π) de la función de riesgo. Este resumen es útil porque permite comparar cualquier par de reglas de decisión mediante la comparación de sus respectivos riesgos Bayes. Otro resumen numérico de la función de riesgo usado habitualmente es el valor máximo (o el supremo) que toma esta función cuando θ recorre Θ. Se dice que una regla de decisión δ 0 es una regla minimax si sup R(θ, δ 0 ) = ı́nf sup R(θ, δ). θ∈Θ δ∈D θ∈Θ Una regla minimax protege de la mejor forma posible (ı́nf δ∈D ) contra la situación más adversa que podrı́a presentarse (supθ∈Θ ). El criterio minimax para elegir una regla de decisión es muy conservador, pues sólo tiene en cuenta para cada regla δ cuál es su comportamiento en el peor escenario posible, sin considerar si ese escenario adverso es o no plausible. Este criterio considera que la naturaleza (quien decide el valor de θ) es un adversario del decisor, y lleva a éste a actuar de forma estratégica. Este supuesto es exagerado en muchos problemas estadı́sticos. Por otra parte, el criterio minimax se complementa bien con el de admisibilidad. Una regla puede ser admisible porque se comporta bien en un determinado valor de θ, aunque tenga un riesgo altı́simo para los restantes valores. Si además de admisible una regla es minimax se puede estar seguro de que el riesgo no será extremadamente alto en ningún valor de θ. Ası́ pues, una regla que sea minimax y admisible será una buena regla. De hecho, las reglas minimax están estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como ponen de manifiesto los resultados siguientes. Teorema 57 Supongamos que una regla de decisión δ π es regla Bayes para cierta distribución a priori π y que, además, R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ. Entonces δ π es minimax. Demostración: Supongamos que δ π no fuese minimax. Entonces existirı́a alguna regla δ 0 tal que sup R(θ, δ 0 ) < sup R(θ, δ π ). θ∈Θ θ∈Θ El riesgo Bayes de esta regla serı́a B(π, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ π ) ≤ B(π, δ π ), θ∈Θ θ∈Θ 7.5. REGLAS MINIMAX 235 entrando en contradicción con el hecho de que δ π es regla Bayes respecto a π. 2 Obsérvese que la hipótesis R(θ, δ π ) ≤ B(π, δ π ), para todo θ ∈ Θ, es muy restrictiva. Al definirse el riesgo Bayes como B(π, δ π ) = Eπ (R(θ, δ π )) se tiene que en general B(π, δ π ) ≤ sup R(θ, δ π ). θ∈Θ De esto se sigue que la hipótesis del problema es equivalente a que B(π, δ π ) = sup R(θ, δ π ), θ∈Θ y eso ocurre si y sólo si π pone toda la probabilidad en el conjunto de puntos θ en los que R(θ, δ π ) es máxima. En cierto modo lo que se pide en el teorema es que la regla R(θ, δ π ) sea constante con probabilidad 1, según π. La distribución a priori π cuya regla Bayes es minimax es la distribución a priori menos favorable. Tiene la propiedad de que si π 0 es otra distribución 0 a priori y δ π es la regla Bayes asociada, entonces 0 B(π 0 , δ π ) ≤ B(π, δ π ). En efecto, 0 B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ). Si una regla de decisión δ tiene función de riesgo constante en θ entonces se dice que es una regla igualadora. En muchos caso las reglas igualadoras son minimax, como muestra el siguiente resultado, que se sigue directamente del teorema anterior. Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna distribución a priori π. Entonces δ es minimax. Este corolario es útil cuando se quiere probar que una regla igualadora es minimax. Basta con encontrar una a priori π respecto de la cual la regla igualadora sea regla Bayes. El siguiente resultado prueba que en ese caso también basta con probar que la regla igualadora es admisible. Teorema 58 Sea δ una regla igualadora. Si δ es admisible, entonces es minimax. 236 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN Demostración: Sea c = R(θ, δ), que es constante en θ por ser δ igualadora. Si δ no es minimax, entonces existe una regla δ 0 tal que sup R(θ, δ 0 ) < sup R(θ, δ) = c. θ∈Θ θ∈Θ Para todo θ ∈ Θ se tiene entonces que R(θ, δ 0 ) ≤ sup R(θ, δ 0 ) < sup R(θ, δ) = c = R(θ, δ), θ∈Θ θ∈Θ lo cual implica que δ no es admisible. El absurdo nace de suponer que δ no es minimax. 2 Ejemplo 92 Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 muestra que la media muestral X es un estimador admisible de θ cuando se usa pérdida cuadrática, tanto si σ 2 es conocido como si no lo es. En el caso de σ 2 conocida, se tiene que X es una regla igualadora: R(θ, x) = V (X) = σ2 . n Ası́, por el teorema anterior se sigue que la media muestral X es estimador minimax. Sin embargo, si σ 2 es desconocido, este teorema no es aplicable porque X ya no es una regla igualadora: el riesgo R((θ, σ 2 ), x) = V (X) = σ2 , n depende de σ 2 . De hecho cualquier estimador tiene sup R((θ, σ 2 ), δ) = ∞, θ,σ 2 y por lo tanto cualquier estimador es minimax. Se puede probar que si se define la pérdida L((θ, σ 2 ), a) = (a − θ)2 /σ 2 entonces X es admisible y minimax, con riesgo máximo finito. . . El siguiente resultado muestra que bajo ciertas situaciones una regla minimax es admisible. Teorema 59 Supongamos que δ es la única regla minimax en el sentido de que cualquier otra regla minimax es equivalente a δ. Entonces δ es admisible. 7.5. REGLAS MINIMAX 237 Demostración: Sea δ 0 otra regla de decisión. Si la función de riesgo de δ 0 coincide con la de δ, entonces δ 0 no es mejor que δ. Si no coinciden, entonces δ 0 no es minimax, mientras que δ sı́ lo es, ası́ que sup R(θ, δ 0 ) > sup R(θ, δ). θ∈Θ θ∈Θ De ahı́ se sigue que para algún θ0 ∈ Θ, R(θ0 , δ 0 ) > sup R(θ, δ) ≥ R(θ0 , δ), θ∈Θ por lo que δ 0 no es mejor que δ. Como δ 0 podrı́a ser cualquier regla de decisión, se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2 238 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN 7.6. Lista de problemas Teorı́a de la Decisión e inferencia estadı́stica. Reglas Bayes 1. (Casella-Berger, 10.1) Sea X ∼ N (θ, 1) y considera el contraste de H0 : θ ≥ θ0 frente a H0 : θ < θ0 . Usa la función de pérdida L(θ, a0 ) = b(θ0 − θ)1{θ<θ0 } , L(θ, a1 ) = c(θ − θ0 )2 1{θ≥θ0 } , donde b y c son constante positivas, para analizar los tres contrastes que rechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente. a) Para b = c = 1, diguja y compara las tres funciones de riesgo. b) Para b = 3, c = 1, diguja y compara las tres funciones de riesgo. c) Dibuja las funciones de potencia de los tres contrastes y compáralas con las funciones de riesgo halladas en los dos apartados anteriores. 2. (Casella-Berger, 10.2) Sea X ∼ B(5, p). Consideramos el contraste H0 : p ≤ 1/3 frente a H0 : p > 1/3 con pérdida 0-1. Dibuja y compara las funciones de riesgo de los siguientes dos contrastes: el primero rechaza H0 si X = 0 o X = 1 y el segundo lo hace si X = 4 o X = 5. 3. (Casella-Berger, 10.3) Sea X ∼ B(10, p). Dibuja y compara las funciones de riesgo de dos estimadores de p, δ1 (x) = 1/3 y δ2 (x) = x/10, bajo función de pérdida dada por el valor absoluto. 4. (Casella-Berger, 10.6) Sea X ∼ N (µ, σ 2 ), σ 2 desconocida. Para cada c ≥ 0 se define el estimador por intervalos para µ C(x) = [x − cs, x + cs], donde s2 es un estimador de σ 2 independiente de X, tal que νS 2 /σ 2 ∼ χ2ν . Se considera la función de pérdida L((µ, σ), C) = b Long(C) − IC (µ). σ a) Prueba que la función de riesgo, R((µ, σ), C), está dada por R((µ, σ), C) = b(2cM ) − [2P (T ≤ c) − 1], donde T ∼ tν y M = E(S)/σ. √ b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface que µ ¶ ν+1 2 ν 1 b= √ . 2 2π ν + c 7.6. LISTA DE PROBLEMAS 239 c) Relaciona estos resultados con los análogos obtenidos en el caso de que σ 2 sea conocida (ver ejemplo desarrollado en teorı́a), en el sentido siguiente: prueba que si ν −→ ∞, entonces la solución encontrada aquı́ converge a la que se tiene si σ 2 es conocida. 5. (Casella-Berger, 10.8) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. Se desea estimar θ usando pérdida cuadrática. Sea la distribución a priori de θ, π(θ), una N (µ, τ 2 ) y sea δ π el estimador Bayes de θ. Prueba las siguientes fórmulas para la función de riesgo y el riesgo Bayes. a) Para cualesquiera constantes a y b, el estimador δ( X ) = aX +b tiene e función de riesgo R(θ, δ) = a2 σ2 + (b − (1 − a)θ)2 . n b) Sea η = σ 2 /(nτ 2 + σ 2 ). La función de riesgo del estimador de Bayes es σ2 R(θ, δ π ) = (1 − η)2 + η 2 (θ − µ)2 . n c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η. 6. (Casella-Berger, 10.9) Sea X ∼ N (µ, 1). Sea δ π el estimador de Bayes de µ bajo pérdida cuadrática. Calcula y dibuja las funciones de riesgo, R(µ, δ π ), para π(θ) ∼ N (0, 1) y π(θ) ∼ N (0, 10). Indica cómo la distribución a priori afecta la función de riesgo del estimador de Bayes. 7. (Casella-Berger, 10.11) Se define la función de pérdida LINEX (LINearEXponential) como L(θ, a) = ec(a−θ) − c(a − θ) − 1, con c > 0. Es una función suave que permite ponderar de forma asimétrica las desviaciones por exceso y por defecto. Variando el valor c se pueden conseguir desde pérdidas muy asimétricas hasta otras casi simétricas. a) Dibuja L(θ, a) como función de a − θ cuando c = 0,2, 0,5 y 1. b) Sea X ∼ f (x|θ). Prueba que el estimador de Bayes de θ, usando pérdida LINEX y distribución a priori π, es 1 δ π = − log E(e−cθ |X). c c) Sea X1 , . . . , Xn una m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida y distribución a priori sobre θ no informativa: π(θ) = 1. Prueba que el estimador de Bayes de θ bajo pérdida LINEX es δ B (X) = X − cσ 2 . 2n d ) Compara los riesgos Bayes de δ B (X) y de X usando pérdida LINEX. 240 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN e) Compara los riesgos Bayes de δ B (X) y de X usando pérdida cuadrática. Admisibilidad. Reglas minimax 8. (Casella-Berger, 10.12) Sea X ∼ N (µ, 1) y consideremos el contraste de H0 : µ ≤ 0 frente a H1 : µ > 0 usando pérdida 0-1. Sea δc el test que rechaza H0 si X > c. Se puede probar que la clase de contrastes {δc : −∞ ≤ c ≤ ∞} es esencialmente completa para este problema. Sea δ el test que rechaza H0 si 1 < X < 2. Encuentra un test δc que sea mejor que δ. 9. (Casella-Berger, 10.13) Sea X ∼ N (µ, 1) y consideremos el contraste de H0 : µ = 0 frente a H1 : µ 6= 0 usando pérdida 0-1. Sea δc,d el test que acepta H0 si c ≤ X ≤ d. Se puede probar que la clase de contrastes {δc,d : −∞ ≤ c ≤ d ≤ ∞} es esencialmente completa para este problema. Sea δ el test que acepta H0 si 1 ≤ X ≤ 2 o −2 ≤ X ≤ −1. Encuentra un test δc,d que sea mejor que δ. 10. (Casella-Berger, 10.14) Supongamos un problema de decisión con espacio paramétrico finito, Θ = {θ1 , . . . , θm }. Supongamos que δ π es la regla Bayes con respecto a una distribución a priori π que da probabilidad positiva a cada posible valor de θ ∈ Θ. Prueba que δ π es admisible. 11. (Casella-Berger, 10.15) Supongamos que para una cierta distribución a priori π, cada regla Bayes con respecto a π (si es que hay más de una) tiene la misma función de riesgo. Prueba que estas reglas Bayes son admisibles. En otras palabras, si una regla Bayes es única entonces es admisible. 12. (Casella-Berger, 10.16) Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Se desea estimar µ con pérdida cuadrática. Prueba que la regla δ(x) = 17, que estima µ como 17 para cualquier valor x observado, es admisible. 13. (Casella-Berger, 10.19) Se dice que una clase de reglas de decisión C es completa minimal si es completa y ningún subconjunto propio de C es clase completa. Prueba que si existe una clase de reglas completa minimal, entonces es la clase de reglas admisibles. 14. (Casella-Berger, 10.20) Sea C una clase de reglas de decisión esencialmente completa. Prueba que si δ 0 6∈ C es admisible, entonces existe una regla δ ∈ C tal que δ y δ 0 son equivalentes. 15. (Casella-Berger, 10.21) Sea X ∼ B(n, p), con n conocida. Se considera la estimación de p con pérdida del error absoluto. Sea δ(x) = 1/3 la regla que estima p como 1/3, sea cual sea la observación x. a) Prueba que δ(x) es admisible. 7.6. LISTA DE PROBLEMAS 241 b) Prueba que δ(x) es la regla Bayes para alguna distribución a priori π(p). 16. (Casella-Berger, 10.23) Sea X1 , . . . , Xn una m.a.s. de una población con esperanza θ y varianza desconocida σ 2 , 0 < σ 2 < ∞. Se desea estimar θ con pérdida cuadrática. a) Prueba que cualquier estimador de la forma aX + b, donde a > 1 y b son constantes, es inadmisible. b) Prueba que si a = 1 y b 6= 0 entonces el estimador es inadmisible. c) Supongamos ahora que σ 2 es conocida. Prueba que un estimador de esa forma es admisible si a < 1. 17. (Casella-Berger, 10.24) Sea X variable aleatoria uniforme discreta en los naturales que van de 1 a θ ∈ IN. Sea el espacio paramétrico Θ = {1, 2, . . .}. Se estima θ considerando pérdida cuadrática. a) Sea el espacio de acciones A = Θ. Prueba que para algunas distribuciones a priori el estimador δ(x) = E(θ|x) no es el estimador Bayes de θ. b) Supongamos ahora que el espacio de acciones es A = [1, ∞) y que la esperanza E(θ|x) existe siempre. Prueba que δ(x) = E(θ|x) es el estimador Bayes de θ. c) Prueba que δ0 (x) = x es admisible, independientemente de cuál de los dos espacios de acciones anteriores sea considerado. (Nota: Prueba que R(1, δ) es mı́nimo si δ = δ0 y después usa inducción en θ.) d ) El estimador δ0 (x) = x es el estimador de Bayes con respecto a alguna distribución a priori. ¿Con respecto a cuál? e) Prueba que existen otras reglas Bayes respecto a esa misma distribución a priori que tienen funciones de riesgo diferentes a la de δ0 . 18. (Casella-Berger, 10.26) Sea X ∼ N (µ, 1). Se desea contrastar H0 : µ ≥ µ0 frente a H1 : µ < µ0 con función de pérdida 0-1 generalizada mediante un test que rechace H0 si X < −zα + µ0 . Encuentra el valor de α que da lugar a un test minimax. 19. (Casella-Berger, 10.27) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2 desconocida. Se desea estimar θ con la función de pérdida L((θ, σ 2 ), a) = (a − θ)2 . σ2 a) Prueba que X es un estimador admisible de θ. b) Prueba que X es minimax. 20. (Casella-Berger, 10.30, 10.31) Sea πn , n ∈ IN, una sucesión de distribuciones a priori. Sea δn la regla Bayes respecto a πn . 242 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN a) Prueba que si B(πn , δn ) converge a un número c y δ es una regla de decisión tal que R(θ, δ) = c para todo θ ∈ Θ, entonces δ es minimax. b) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) con σ 2 conocida. Se desea estimar θ con pérdida cuadrática. Utiliza el resultado del apartado anterior para probar que X es minimax. 21. (Casella-Berger, 10.33) Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Bern(p). Se desea estimar p con pérdida cuadrática. Sea p Pn Xi + n/4 √ p̂B = i=1 . n+ n a) Prueba que p̂B es una regla igualadora. b) Prueba que p̂B es minimax. c) Prueba que p̂B es admisible. 22. (Examen junio 2000) Sea la variable aleatoria X con distribución uniforme en el intervalo [0, θ], con θ > 0 desconocido. Se desea estimar el parámetro θ basándose sólo en una única observación de X y se plantea este problema como un problema de decisión. La distribución a priori sobre θ tiene como función de densidad π(θ) = θe−θ I(0,∞) . a) Consideramos sólo las reglas de decisión que son funciones de la observación x de la forma dk (x) = kx, con k ≥ 1. Si la función de pérdida es L(θ, a) = |a − θ| calcula la función de riesgo R(θ, dk ). ¿Es posible encontrar una regla dk∗ que haga mı́nimo el riesgo para cualquier valor de θ? b) Encuentra la regla Bayes. (Indicación: Usa directamente la definición de regla Bayes como aquella que hace mı́nimo el error Bayes.) c) Consideremos ahora pérdida cuadrática. Encuentra la regla Bayes. d ) Si ahora se permite que cualquier función d(x) sea una regla de decisión y se considera pérdida cuadrática, encuentra la regla Bayes. 23. (Examen julio 2000) Sea X ∼ B(n = 2, p). Se ha de decidir a partir de una observación de X si el parámetro p es 1/4 o 1/2. La función de pérdida es 0-1. a) Da la lista de las ocho posibles reglas de decisión e indica los correspondientes valores de la función de riesgo. b) Indica cuáles de las ocho reglas son inadmisibles. c) Encuentra la regla Bayes correspondiente a una distribución a priori con función de probabilidad 2 1 π(1/4) = , π(1/2) = . 3 3 d ) Encuentra la regla minimax para este problema. Referencias Arnold, S. F. (1990). Mathematical Statistics. Prentice-Hall. Bertsekas, D. P. (1999). Nonlinear Programming (Second ed.). Athenea Scientific. Bickel, P. J. y K. A. Doksum (1977). Mathematical statistics : basic ideas and selected topics. Prentice Hall. Casella, G. y R.L Berger (1990). Statistical Inference. Duxbury Press. Cristóbal, J.A (1992). Inferencia Estadı́stica. Universidad de Zaragoza. DeGroot, M. H. (1988). Probabilidad y Estadı́stica. Addison-Wesley. Garcı́a-Nogales, A. (1998). Estadı́stica Matemática. Universidad de Extremadura. Garthwaite, P. H., I. T. Jollife y B. Jones (1995). Statistical Inference. PrenticeHall. Lehmann, E. L. (1986). Testing Statistical Hypotheses (2nd ed.). Wiley. Peña, D. (1995). Estadı́stica: Modelos y Métodos, Volumen 2: Modelos lineales y series temporales. Alianza Universidad, Madrid. Segunda edición revisada. Rice, J. A. (1995). Mathematical Statistics and Data Analysis (Second ed.). Duxbury Press. Sanz, M. (1999). Probabilitats. Barcelona: EUB. Schervish, M.J. (1995). Theory of Statistics. Springer. Shorack, G.R. y J.A. Wellner (1986). Empirical Processes with Applications to Statistics. John Wiley & Sons. Silvey, S.D. (1983). Statistical Inference. Chapman and Hall. Spivak, M. (1970). Cálculo infinitesimal. Barcelona: Reverté. Vélez, R. y A. Garcı́a (1993). Principios de Inferencia Estadı́stica. UNED. 243