Regresiones por cuantiles - Gabriel Montes

Transcripción

Cuantiles y regresión por cuantiles
Estimadores robustos
STATA
Regresiones por cuantiles
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas
STATA
Valor esperado y promedio
Sea y una variable aleatoria con E (y ) = µy , Var (y ) = σ2 < ∞, con función de
distribución Fy , y una muestra aleatoria {yi }N
i =1 .
La esperanza es la solución a la minimización del valor esperado de las
desviaciones al cuadrado, o sea E (y ) = arg minc E (y − c )2 . (¿Por qué?)
Entonces usando el principio de analogı́a
µ̂y ≡
1
N
N
∑ yi
i =1
N
= arg min ∑ (yi − c )2
c
i =1
STATA
Mediana
La mediana es un estadı́stico de orden (order statistic) que informa el número
ηy donde (al menos) 50% de las observaciones están por encima y 50% (como
mucho) por debajo del mismo. En términos formales ηY es cualquier número
que satisface P [y ≤ ηy ] ≥ 1/2 y P [y ≥ ηy ] ≤ 1/2.
Si Fy es estrictamente creciente, la densidad fy es positiva y contı́nua, entonces
ηy = Fy−1 (1/2).
La mediana es también la solución a la minimización del valor absoluto de las
desviaciones, o sea ηy = arg minc E |y − c |.
Prueba: E |y − c | = E (1[y > c ](y − c ) − 1[y < c ](y − c )). Tomando derivadas direccionales,
∂E |y − c |/∂c = −E (1[y > c ]) + E (1[y < c ]) = −P [y > c ] + P [y < c ].
Notemos que en este caso la condición de primer orden es −E (sgn(y − c )) = 0
donde sgn(.) es la función signo sgn(u ) = 1 − 2 · 1[u < 0].
Usando el principio de analogı́a,
N
η̂y = arg min ∑ |yi − c |
c
i =1
STATA
Estadı́stico de orden
Definamos Qτ (y ) = inf {ξ : Fy (ξ ) ≥ τ } como el cuantil/percentil τ ∈ (0, 1) de y .
Por ejemplo,
... si queremos separar la población en (10-90), entonces necesitamos el cuantil
10 (primer decil), τ = .1 → Q.1 (y ).
25 (primer cuartil), τ = .25 → Q.25 (y ).
50 (mediana), τ = .5 → Q.5 (y ).
75 (tercer cuartil), τ = .75 → Q.75 (y ).
90 (noveno decil), τ = .9 → Q.9 (y ).
STATA
MCO
Consideremos ahora el modelo lineal estructural y = x β + u con E (u |x ) = 0,
Var (u |x ) = σ2 < ∞, con función de distribución Fu , y una muestra aleatoria
{yi , x i }N
i =1 . Ahora tenemos K variables explicativas x .
Una generalización del problema univariado es el análisis condicional.
La esperanza condicional es la solución al problema de minimización del valor
esperado de las desviaciones al cuadrado, o sea
E (y |x ) = arg minm(x ) E ((y − m(x ))2 ).
Para este caso, si asumimos E (y |x ) = x β, entonces
β=
∂E (y |x )
,
∂x
esto es, los coeficientes de la regresión son el efecto marginal de un cambio en
sobre la esperanza condicional de y .
N
β̂ = arg min ∑ (yi − x i b )2
b
i =1
Éste es el bien conocido estimador MCO.
x
STATA
Regresión en la mediana
La mediana condicional es la solución a la minimización del valor esperado de
los valores absolutos de las desviaciones, o sea
Q.5 (y |x ) = arg minq (X ) E (|y − q (x )|).
Si asumimos q (x ) = x β(.5) tenemos el modelo lineal de mediana condicional.
También podemos escribir el modelo como
yi = x i β(.5) + ui
donde Q.5 (y |x ) = x β(.5) o Q.5 (u |x ) = 0.
Entonces
∂Q.5 (y |x )
β(.5) =
,
∂x
esto es, los coeficientes de la regresión en la mediana son el efecto marginal de
un cambio en x sobre la mediana condicional de y .
N
β̂(.5) = arg min ∑ |yi − x i b |
b
i =1
Este es el estimador de regresión en la mediana, least absolute deviation (LAD)
estimator.
STATA
En forma general, para cualquier cuantil τ ∈ (0, 1) de interés, el cuantil
condicional es la solución a Qτ (y |x ) = arg minq (x ) ρτ (y − q (x )), donde
ρτ (u ) = u · (τ − 1[u < 0]).
La función ρτ (.) (check function) es asimétrica tal que
τu
si u ≥ 0
ρ τ (u ) =
(τ − 1)u si u < 0
Si asumimos q (x ) = x β(.5) tenemos el modelo lineal del cuantil condicional τ.
También podemos escribir el modelo para cada cuantil τ como
yi = x i β(τ ) + ui
donde Qτ (y |x ) = x β(τ ) o Qτ (u |x ) = 0.
Tenemos que
β(τ ) =
∂Qτ (y |x )
,
∂x
esto es, el coeficiente de la regresión del cuantil τ es el efecto marginal de un
cambio en x en el cuantil condicional τ de y .
STATA
Usando el principio de analogı́a, para τ ∈ (0, 1),
N
β̂(τ ) = arg min ∑ ρ(yi − x i b )
b
i =1
Este es el estimador de regresión por cuantiles, quantile regression (QR)
estimator (Koenker and Basset (1978, Econometrica).
Si τ = 0.5 tenemos regresión en la mediana.
La condición de primer orden es
1
N
N
∑ (τ − 1(yi
i =1
< x i b )x i ) =
N
∑ s (τ, b; yi , x i ) = 0k
i =1
donde s (τ, b ; y , x ) = (τ − 1(y < xb )) x es la función score. Notar que ρτ no es
diferenciable pero tiene derivada unidireccional.
STATA
Modelos de locación-escala
El siguiente modelo se denomina de locación-escala (location-scale) ya que permite
cambiar los dos tipos de caracterı́sticas
y = x > γ + (x > α)e con e ∼ Fe , e ⊥
⊥ x.
En este modelo,
∂Qτ (y |x )
= β(τ ) = γ + αQτ (e),
∂x
donde Qτ (e) es el cuantil τde e. Sin embargo, para la media condicional
∂E (y |x )
= γ (constante )
∂x
En este modelo se puede ver que para tener heterogeneidad en los cuantiles se requiere
heteroscedasticidad.
STATA
Máxima verosimilitud
MCO se basa en la densidad condicional normal:
(y − µ )2
1
exp −
f (y ; µ, σ) = √
σ2
2πσ
El modelo QR se basa en la densidad de Laplace asimétrica:
ρ τ (y − µ )
τ (1 − τ )
exp −
f (y ; µ, τ, σ ) =
σ
σ
para dados (τ, σ). La distribució de Laplace simétrica (doble exponencial) es un
caso particular para τ=1/2.
STATA
Teorı́a asintótica
Los modelos QR son diferentes de los estimadores M porque la función objetivo
no es dos veces diferenciable ρτ (.).
Escribamos la función objetivo como un estimador M:
ρτ (y − x θ) = q (w i , θ) = τ1[yi − x i θ ≥ 0](yi − x i θ) − (1 − τ )1[yi − x i θ < 0](yi − x i θ).
El score es
s i (θ) = −x i0 {τ1[yi − x i θ ≥ 0] − (1 − τ )1[yi − x i θ < 0]}.
Notar que si ui tiene una distribución que es contı́nua en cero, E [s i (θ0 )|x i ] = 0
porque E (1[yi − x i θ0 ≥ 0]|x i ) = P (1[yi − x i θ0 ≥ 0]|x i ) = (1 − τ ) y
E (1[yi − x i θ0 < 0]|x i ) = P (1[yi − x i θ0 < 0]|x i ) = τ.
En este caso, podemos no tener un cero exacto pero
N −1/2
N
∑ s i (θ̂) = op (1)
i =1
STATA
Asumiendo que Fu (.|x ) es contı́nuamente diferenciable en 0 con densidad
fu (.|x ) > 0,
E [s i (θ0 )|x i ]
=
=
=
=
−x i0 {τP [yi − x i θ ≥ 0|x i ] − (1 − τ )P [yi − x i θ < 0|x i ]}
−x i0 {τP [ui ≥ x i (θ − θ0 )|x i ] − (1 − τ )P [ui < x i (θ − θ0 )|x i ]}
−x i0 {τ (1 − Fu [x i (θ − θ0 )|x i ]) − (1 − τ )Fu [x i (θ − θ0 )|x i ]}
−x i0 [τ − Fu (x i (θ − θ0 )|x i )]
STATA
Además,
∇θ E [s (θ0 )|x ] = fu (x (θ − θ0 )|x )x 0 x
so that
A0 = E [fu (x (θ − θ0 )|x )x 0 x ].
También,
B 0 ≡ E [s (θ0 )s (θ0 )0 ] = τ (1 − τ )E [x 0 x ].
Entonces,
√
N (θ̂ − θ0 ) → N (0, A0−1 B 0 A0−1 ).
d
Si asumimos que u es independiente de x , entonces la varianza asintótica se
simplifica a
τ (1 − τ )
[E (x 0 x )]−1
(fu (0))2
STATA
QR como un estimador robusto
Consideremos el modelo unidimensional con cdf F . Consideremos la
perturbación en la muestra con probabilidad e en el valor y , y la nueva cdf :
Fe = eδy + (1 − e)F .
La función de influencia (influence function) para un estadı́stico θ̂ (F ) es
IFθ̂ (y , F ) = lim
n →0
θ̂ (F ) − θ̂ (Fe )
e
Para la media,
µ̂(Fe ) =
Z
ydFe = ey + (1 − e)µ̂(F )
IFµ̂ (y , F ) = y − µ̂(F )
STATA
Para la estimación de un cuantil,
η̂τ (Fe ) = Fe−1 (τ )
IFη̂τ (y , F ) =
sgn(y − F −1 (τ ))
f (F −1 (τ ))
Hay una diferencia importante entre las dos funciones de influencia. Para la
media una observación extraña (outlier) altera a estimación mucho, mientrs que
para el cuantil la influencia es 1/f (F −1 (τ )) que se llama la sparsity a un cuantil
particular.
Por ejemplo, consideremos las dos muestras {0, 1, 2} y {0, 1, 100000000}.
STATA
Para MCO,
IFβ̂ ((y , x ), F ) = (x 0 x )−1 x (y − x β̂)
Para QR,
IFβ̂(τ ) ((y , x ), F ) = Q −1
donde Q =
R
x sgn(y − x β̂(τ ))
x 0 x f (x β(τ,ˆ x ))dG (x ) y G (.) es la cdf
de x .
STATA
Efecto de la capacitación sobre los salarios
Consideremos el estudio que se plantea en el trabajo práctico, el efecto de la
capacitación sobre los salarios
y = dα + xβ + u
y:
d:
x:
u:
wages
training treatment indicator (dummy variable: 1 if received training)
other covariates (age, education, marital status, race, etc.)
unobservables (ability, predisposition to work)
Evaluar este programa corresponde a ver si α > 0.
Sin embargo, puede haber gran heterogeneidad en los efectos de la capacitación
en la población.
En particular, nos interesa comparar el average treatment effect (ATE) con
quantile treatment effects (QTE).
STATA
QR vs. OLS
STATA
QR en STATA
OLS: reg y x1 x2
Regresión en la mediana: qreg y x1 x2, q(50)
QR, τ = .1: qreg y x1 x2, q(10)
QR, τ = .9: qreg y x1 x2, q(90)
Si queremos hacer un gráfico del proceso de cuantiles (τ, β(τ )), τ ∈ (0, 1),
consideremos el siguiente ejemplo:
gen beta1s=.
gen beta1ols=.
reg y x1 x2
replace beta1ols= b[x1]
gen tau=.
forvalues tau = 1(1)100 {
qreg y x1 x2, q(‘tau’)
replace beta1s= b[x1] in ‘tau’
replace tau=‘tau’ in ‘tau’
}
line beta1s beta1ols tau
STATA
Referencias
Estas notas están basadas en
Capı́tulo 12 de Wooldridge.
Koenker, R. (2005), Quantile Regression. Cambridge:
Cambridge University Press.
Koenker, R. and Hallock, K. (2001) “Quantile regression,”
Journal of Economic Perspectives 15(4), 143–156.

Regresiones por cuantiles - Gabriel Montes

Transcripción

Documentos relacionados

Resumen teórico de los principales conceptos estadísticos