Pruebas de bondad de ajuste para distribuciones con parámetro de

Transcripción

Pruebas de bondad de ajuste para distribuciones con parámetro de
Pruebas de bondad de ajuste para distribuciones
con parámetro de forma
José A. Villaseñor Alva
Colegio de Postgraduados, México
ITESM, Monterrey, N.L.
2 de septiembre de 2011
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
1/29
Introducción
Una parte importante de la inferencia estadística es obtener información
acerca de la población de la cual una muestra aleatoria (m.a.) ha sido
extraída.
Por ejemplo, mucha metodología estadística está basada en el supuesto de
que la población es normal; sin embargo, este supuesto debe de ser
verificado antes de continuar con otros aspectos relacionados con la
inferencia estadística.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
2/29
Introducción (cont.)
El problema clásico de bondad de ajuste se presenta cuando suponemos que
la hipótesis nula está completamente especificada. Así, con base en una m.a.
X1 , X2 , ..., Xn de F (x) se desea probar la hipótesis nula:
H0 : F (x) = F0 (x), para toda x
(1)
contra la hipótesis alternativa
H1 : F (x) 6= F0 (x), para alguna x,
(2)
donde F0 está completamente especificada (no hay parámetros
desconocidos).
En este caso se dice que H0 es una hipótesis simple.
Algunas pruebas clásicas de bondad de ajuste para este problema son:
la prueba de Chi-cuadrada propuesta por Karl Pearson (1900), que ha
sido reconocida como uno de los avances científicos más importantes
del siglo XX.
la prueba de Kolmogorov-Smirnov (Kolmogorov, 1933).
la prueba de Anderson-Darling (1952).
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
3/29
Introducción (cont.)
El problema en que estamos interesados es cuando la hipótesis nula es
compuesta, esto es,
H0 : F (x) = F (x; θ)
(3)
donde θ es un vector de parámetros desconocidos, que puede tomar dos o
más valores distintos.
Por ejemplo, cuando F (x; θ) es la distribución normal con parámetros
desconocidos.
Una prueba clásica en esta situación es la prueba A2 de Anderson-Darling
(1952) en donde la media y la varianza son estimadas por máxima
verosimilitud.
A2 es invariante bajo transformaciones de escala y localidad.
Esto implica que la distribución bajo H0 de A2 para probar normalidad no
depende de los parámetros de escala y localidad. Así, la distribución nula
puede ser obtenida por simulación para cualquier tamaño de muestra n, de
donde se obtiene la constante crítica que define la prueba.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
4/29
Algunos conceptos relevantes
Una prueba de hipótesis basada en una estadística de pruebaT es una
partición del conjunto de los valores posibles de T en dos regiones, la región
de rechazo y la región de aceptación (no rechazo).
La distribución de T bajo H0 es llamada la distribución nula de T .
Al usar una prueba se tiene:
Error de tipo I: rechazar H0 cuando es verdadera.
Error de tipo II: aceptar (no rechazar) H0 cuando es falsa.
Tamaño de una prueba: una prueba es de tamaño α si
α = supH0 P(Error de tipo I).
Potencia de una prueba: es 1 − P(Error de tipo II) que es igual a la
probabilidad de rechazar H0 cuando H0 es falsa.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
5/29
Prueba de Shapiro-Wilk
Sean x(1) < x(2) < ... < x(n) las estadísticas de orden de una m.a. de tamaño
n de una función de distribución F .
Sea Φ(.) la función de distribución normal estándar. Para probar la hipótesis
de normalidad univariada:
x −µ
H0 : F (x) = Φ
, donde µ ∈ < y σ > 0 son desconocidos,
σ
Shapiro y Wilk (1965) proponen la estadística de prueba
W =
n
P
i=1
n
P
2
ai x(i)
(4)
(xi − x)
2
i=1
donde x =
n
1P
xi y
n i=1
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
6/29
Prueba de Shapiro-Wilk (cont.)
ai es el i−ésimo elemento del vector
0
a = (a1 , ..., an ) =
m0 V−1
(m0 V−1 V−1 m)
1/2
con m0 = E [Z] y V = cov (Z) donde Z denota al vector de estadísticas de
orden de una m.a. normal estándar de tamaño n.
La prueba de Shapiro-Wilk rechaza la hipótesis de normalidad con un tamaño
de prueba α si W < kα , donde kα es tal que la prueba es de tamaño α.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
7/29
Prueba de Shapiro-Wilk (cont.)
La estadística W resulta ser una razón de dos estimadores de la varianza y
se puede verificar que es invariante bajo transformaciones de escala y
localidad. Por lo tanto, para α dada, kα es tal que
α = P(W < kα |H0 es verdadera).
(5)
Es decir, kα es el percentil 100α % de la distribución nula de W .
Es importante notar que en general, cuando el vector de parámetros θ es
estimado, la distribución nula de la estadística de prueba depende de θ, del
tipo de estimador de θ y de la forma de F .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
8/29
Pruebas para distribuciones con parámetro de forma
Aquí estamos interesados en probar H0 en (3) cuando el vector de
parámetros θ incluye un parámetro de forma.
En esta situación, la distribución nula de la estadística de prueba de cada una
de las pruebas clásicas de bondad de ajuste depende del parámetro de
forma, de su estimador y de la F misma.
Ejemplos: Las distribuciones
Weibull, lognormal, Pareto clásica
Gamma,
Pareto generalizada,
Normal asimétrica,
Alfa-estables,
con cola de variación regular.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
9/29
1. La distribución Weibull
Sea X una v.a. exponencial(λ). Para γ > 0, la v.a. Y = X 1/γ tiene distribución
Weibull(γ, λ) con función de distribución
γ
F (y ; λ, γ) = 1 − e−λy , y > 0,
donde γ es el parámetro de forma.
Se desea probar H0 : F (y ) = F (y ; λ, γ) con base en una m.a. Y1 , Y2 , ..., Yn de
F (y ).
Para esto note que Z = − log Y tiene distribución Gumbel con parámetro de
localidad (log λ)/γ y parámetro de escala 1/γ.
Debido a que la distribución Gumbel es de localidad y escala, la prueba de
Anderson-Darling puede ser utilizada para probar H0 con base en los datos
transformados y estimando los parámetros por máxima verosimilitud.
Stephens (1977) obtuvo los valores críticos para la distribución Gumbel.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
10/29
2. La distribución Pareto clásica
Se dice que la v.a. X tiene distribución Pareto clásica con parámetro de forma
γ si tiene función de distribución
F (x; γ) = 1 − 1/x γ , x > 1, γ > 0.
(6)
Se desea probar H0 : F (x) = F (x; γ) con base en una m.a. X1 , X2 , ..., Xn de
F (x).
Para esto note que Y = log X tiene distribución Exponencial con parámetro
de escala γ.
Por lo tanto, para probar H0 se puede emplear por ejemplo la prueba de
exponencialidad de Cox y Oakes (1984) con base en los datos transformados.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
11/29
3. Distribución Pareto generalizada
Se dice que la v.a. X tiene distribución Pareto Generalizada (PG) si su
función de distribución está dada por
γ −1/γ
F (x; σ, γ) = 1 − 1 + x
,
σ
(7)
donde σ > 0, y γ ∈ R tal que x > 0 para γ ≥ 0 y 0 < x < −σ/γ cuando γ < 0.
Cuando γ → 0+ , F (x; σ, γ) → 1 − exp (−x/σ) , la cual es la distribución
Exponencial(σ).
Cuando γ = −1, F (x; σ, γ) = x/σ, la cual es la distribución Uniforme(0, σ).
La familia PG contiene distribuciones de cola pesada, la familia de
distribuciones exponencial, así como una subclase de distribuciones Beta y
otras de soporte acotado.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
12/29
Distribución Pareto generalizada (cont.)
Debido a su riqueza, la familia de distribuciones PG ha sido usada para
modelar probabilidades en diferentes campos como Finanzas, Ecología e
Hidrología entre otras (ver Reiss y Thomas, 2007).
Por lo tanto, se requiere contar con una prueba de bondad de ajuste para
H0 : F es una distribución PG(σ, γ), σ, γ desconocidos.
(8)
con base en una m.a. X1 , ..., Xn de F .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
13/29
Estimador de Hill: caso γ ≥ 0
La distribución Pareto con parámetro de forma γ se define como
F (x; γ) = 1 − x −1/γ , x > 1. Entonces
1/γ
F (x; γ)
x −1/γ
σ
l«ım
= l«ım
.
−1/γ = γ
γ
x→∞ F (x; σ, γ)
x→∞
1+ x
(9)
σ
donde F (x) = 1 − F (x). Es decir, la distribución PG(σ, γ) es equivalente en la
cola a la distribución Pareto(γ).
Por lo tanto, el estimador de Hill (1975) para γ es


k
X
1
γ
bN = − Wn−k +1 −
Wn−j+1  ,
k
(10)
j=1
donde
Wj = log Y(j) , j = n − k + 1, n − k + 2, ..., n.
(11)
y Y(1) < Y(2) < ... < Y(n) son las estadísticas de orden correspondientes a
una m.a. Y1 , Y2 , ..., Yn de la distribución PG(σ, γ) .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
14/29
Método combinado: caso γ < 0
−γ
Sea U = F̄ (X )
, esto es, U = 1 + σγ X . Note que U tiene distribución
Beta(−1/γ, 1).
Proponemos el siguiente procedimiento en dos etapas para estimar el
parámetro γ.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
15/29
Método combinado: caso γ < 0 (cont.)
Etapa 1: Método de Momentos
Sean X1 , X2 , ..., Xn una m.a. de tamaño n de la distribución PG(σ, γ).
El momento muestral de primer orden de U es
n
m=
1 X
γ γ
1 + Xi = 1 + X̄
n
σ
σ
(12)
i=1
donde X̄ =
Pn
i=1
Xi /n.
Por otro lado, el valor esperado de U es E{U} = 1/(1 − γ).
Entonces, por el método de momentos,
1
γ
= 1 + X̄ .
1−γ
σ
Resolviendo para γ,
γ =1−
Conferencia Bimestral de la AME
σ
.
X̄
Pruebas para distribuciones con parámetro de forma
(13)
(14)
16/29
Método combinado: caso γ < 0 (cont.)
Etapa 2: Máxima Verosimilitud
De la definición de la distribución PG(σ, γ), se tiene que 0 < x <
σ
, cuando
−γ
γ < 0.
σ
Entonces, el EMV de
es X(n) = ma
«x {X1 , X2 , ..., Xn }.
−γ
Un estimador σ̂ de σ es:
σ̂ = −γX(n) .
(15)
Por lo tanto, sustituyendo σ̂ arriba por σ se tiene:
γ̃ =
X̄
.
X̄ − X(n)
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
(16)
17/29
Prueba de bondad de ajuste para la distribución
Pareto generalizada
Con base en el parámetro de forma γ, se definen dos subclases de
distribuciones PG:
A+ = {todas las distribuciones PG con parámetro de forma γ ≥ 0}
y
A− = {todas las distribuciones PG con parámetro de forma γ < 0} .
La hipótesis H0 en (8) es equivalente a H0 : F ∈ A+ ∪ A− .
Se presenta una prueba de intersección-unión para H0 (Casella y Berger,
1990), la cual considera una prueba para H0+ : F ∈ A+ y una prueba para
H0− : F ∈ A− .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
18/29
Prueba para H0+ (γ ≥ 0)
Sea F (x) = 1 − F (x). La definición de la distribución PG dada en (7) es
equivalente a
−γ
γ
F (x; σ, γ)
(17)
= 1 + x, σ > 0, γ ∈ <.
σ
Además, sumando −1 y tomando logaritmos en ambos lados de (17), se tiene
γ −γ
log( F (x; σ, γ)
+ log(x), σ > 0, γ ∈ <.
(18)
− 1) = log
σ
−γ
Por (17), bajo H0 se tiene una relación lineal entre Y = F (X ; σ, γ)
y X.
Además, por (18), existe una relación lineal entre las v.a.
−γ
Y ∗ = log F (X ; σ, γ)
− 1 y X ∗ = log(X ).
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
19/29
Prueba para H0+ (γ ≥ 0) (cont.)
−γ̂
Sea Yi = F n (Xi )
, i = 1, 2, ..., n, donde Fn es la función de distribución
empírica de la m.a. y γ̂ = γ̂k es el estimador dado de Hill.
El coeficiente de correlación muestral de Xi y Yi , denotado como R1 , es un
estimador de la correlación lineal entre Y y X cuando 0 ≤ γ̂ < 0.5, donde
__
__
Pn
Yj − Y
j=1 Xj − X
q
,
(19)
R1 =
n SX2 SY2
__
__
donde X , SX2 y Y , SY2 son la media y varianza muestrales de X1 , ..., Xn y
Y1 , ..., Yn .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
20/29
Prueba para H0+ (γ ≥ 0) (cont.)
−γ̂
− 1 , i = 1, 2, ..., n. El coeficiente
Sea Xi∗ = log(Xi ) y Yi∗ = log F n (Xi )
de correlación muestral de Yi∗ y Xi∗ , i = 1, 2, ..., n, denotado como R2 , es un
estimador de la correlación lineal de Y ∗ y X ∗ cuando γ̂ ≥ 0.5.
Para probar H0+ , se propone la estadística de prueba:
R1 , if 0 ≤ γ̂ < 0.5,
+
R =
R2 , if γ̂ ≥ 0.5.
Bajo H0 se espera que el valor de R + esté cerca de 1, entonces la prueba
rechaza H0+ si R + < cα+ donde cα+ es el cuantil del 100α % de la distribución
de R + bajo H0+ .
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
21/29
Prueba para H0+ (γ ≥ 0) (cont.)
Como la distibución nula de R + depende de γ, usamos bootstrap paramétrico
para aproximar el valor crítico cα+ como sigue.
1
Calcular γ̂ con base en la m.a. y generar B muestras bootstrap de la
distribución PG(σ, γ) = (1, γ̂).
2
Calcular el valor de R + para cada muestra bootstrap.
3
+
Sean R(j)
los valores ordenados Rj+ , j = 1, ..., B.
4
+
cα+ = R(αB)
.
Note que usamos σ = 1 ya que R + es una estadística escala-invariante.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
22/29
Prueba para H0− (γ < 0)
Con base en la relación
−γ
γ
F (x; σ, γ)
= 1 + x, σ > 0, γ ∈ <,
σ
(20)
una estadística de prueba para H0− es el coeficiente de correlación muestral
−γ̃
de Xi y Zi = F n (Xi )
, i = 1, 2, ..., n, donde γ̃ es el estimador combinado.
Sea |R − | el valor absoluto del coeficiente de correlación muestral de Xi y Zi ,
i = 1, ..., n.
Por lo tanto, se rechaza H0− si |R − | < cα− donde cα− es el cuantil del 100α %
de la distribución de |R − | bajo H0− .
Para obtener cα− usamos bootstrap paramétrico.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
23/29
Prueba de Intersección-Unión
Una prueba para la hipótesis
H0 : F es una distribución PG
(21)
rechaza cuando ambas pruebas R + y |R − | rechazan.
Para que la prueba sea de nivel α se requiere que cada una de las pruebas
R + y |R − | sea de tamaño α.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
24/29
Tamaño estimado de la prueba, n = 50
α
.05
.10
-10
.01
.03
-5
.01
.02
-2
.01
.02
-1
.01
.03
Conferencia Bimestral de la AME
γ
0
.04
.09
1
.04
.09
2
.02
.05
5
.02
.04
10
.03
.08
Pruebas para distribuciones con parámetro de forma
25/29
Potencia estimada de la prueba (α = 0.05)
Alternativa
Beta(1,2)
Beta(2,1)
Beta(5,5)
Weibull(2,1)
Weibull(3,1)
Gama(5,1)
Gama(8,1)
Gen-Gama(2,1/3)
Gen-Gama(2,1/2)
Gen-Gama(1,1/2)
Abs(norm(2,2))
Abs(norm(2,1))
Abs(norm(3,1))
Chisq(6)
Abs(Gumbel(5,2))
Abs(Gumbel(5,5))
Conferencia Bimestral de la AME
n = 50
.02
.11
.67
.21
.52
.40
.64
.87
.61
.21
.04
.35
.70
.15
.41
.85
n = 100
.03
.31
.97
.54
.90
.84
.94
1
.93
.54
.11
.76
.97
.55
.88
.99
Pruebas para distribuciones con parámetro de forma
26/29
Aplicación
Osterman (1993) (Reiss y Thomas, 2001) estudió un conjunto de datos que
contiene 135 registros en horas por semana de televidentes. La Tabla 1
presenta los registros que exceden las 20 horas.
Tabla: Horas de TV / semana
20.00
24.00
28.50
20.00
24.75
29.00
20.00
25.00
29.50
20.50
25.00
30.00
20.50
26.00
31.50
22.00
26.00
33.00
22.00
27.00
37.00
22.00
27.00
40.00
23.00
27.50
45.00
23.0
27.5
49.0
Al aplicar la prueba propuesta, no se rechaza la hipótesis nula de la
distribución PG a un nivel de significancia del 10 % ya que R + no rechaza
H0+ . Por lo tanto, los datos no presentan evidencia contra la hipótesis nula
cuando γ ≥ 0. La estimación de γ es γ̆ = 0.5839.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
27/29
Referencias
Anderson, T.W. y Darling, D.A. (1952). Asymptotic theory of certain
”goodness of fit” criteria based on stochastic processes. Ann. Math.
Statist., 23, 193-212.
Casella, G. y Berger, J. (1990). Statistical Inference. Brooks/Cole, USA.
Cox D. y Oakes D. (1984). Analysis of Survival Data. Chapman and Hall.
USA.
Kolmogorov, A.N. (1933). Sulla determinasione empirica di una legge di
distribuzione. Giornale dell Istituto Italiano degli Attuari, 4, 83-91.
Reiss, R.D. y Thomas, M. (2007). Statistical Analysis of Extreme
Values with Applications to Insurance, Finance, Hydrology and Other
Fields. 3a Ed. Birkhäuser.
Stephens, M.A. (1977). Goodness of Fit for the Extreme Value
Distribution, Biometrika, 64, 583-588.
Shapiro, S.S. y Wilk, M. B. (1965). An analysis of variance test for
normality: complete samples. Biometrika, 52, No. 3/4, 591-611.
Conferencia Bimestral
de la AME
Pruebas para
distribuciones con parámetro
de forma
Wand M. 2010. SemiPar:
Semiparametic
Regression.
R package
version28/29
Referencias
Villaseñor, J.A. y González, E. 2009. A bootstrap goodness of fit test for
the generalized Pareto distribution. Comp. Stat. and Data Analysis, 53,
3835-3841.
Villaseñor, J.A. y Pérez, P. 2010. On testing the skew normal hypothesis.
J. of Statistical Planning and Inference, 140, 3148-3159.
Conferencia Bimestral de la AME
Pruebas para distribuciones con parámetro de forma
29/29

Documentos relacionados