Apuntes Cap 10 Inferencia en Regresion

Transcripción

Apuntes Cap 10 Inferencia en Regresion
Inferencia en Regresión Lineal Simple
Modelo de regresión lineal simple:
Se tienen n observaciones de una variable explicativa x y de una variable respuesta y,
(x1 , y1 ), (x2 , y 2 ), ..., (xn , y n )
el modelo estadístico de regresión lineal simple es:
yi = α + β xi + ei
donde
µ y = E (Y ) = α + βx
α
β
es la respuesta promedio para cada x.
representa el intercepto de la función lineal que usa todos los valores de la población y
representa la pendiente de la función lineal que usa todos los valores de la población. α y
β son parámetros
El modelo estadístico de regresión lineal simple asume que para cada valor de x, los valores de la respuesta y son normales
con media (que depende de x) y desviación estándar σ que no depende de x. Esta desviación estándar σ es la desviación
estándar de todos los valores de y en la población para un mismo valor de x.
Estos supuestos se pueden resumir como:
Para cada x,
Y ~ N (µ y ,σ )
donde
µ y = E (Y ) = α + βx
Podemos visualizar el modelo con la siguiente figura:
Los datos nos darán estimadores puntuales de los parámetros poblacionales.
1
Estimadores de los parámetros de regresión:
El estimador de la respuesta media está dado por E (Y ) = yˆ = a + bx
El estimador del intercepto es: α̂ = a
El estimador de la pendiente es: β̂ = b
El estimador de la desviación estándar σ está dado por:
σˆ =
SCRes
donde SCRes es la suma de cuadrados de los residuos
n−2
El coeficiente de correlación muestral r =
ρ̂
∑ (y
i
− yˆ i )
2
= ∑ ei 2
es un estimador puntual de la correlación poblacional ρ
Probando la hipótesis acerca de la existencia de relación lineal
En el modelo de regresión lineal simple => E (Y ) = α
linealmente y la respuesta es una constante E(Y) = α .
+ βx . Si β = 0 entonces las variables x e y no están asociadas
E(Y) = α
Es decir, conocer el valor de x no nos va a ayudar a conocer y.
Para docimar la significancia de la relación lineal realizamos el test de hipótesis
Ho: β = 0 (la pendiente de la recta de regresión en la población es cero)
H1: β ≠ 0
Existen hipótesis de una cola, donde H1:
β
< 0 o H1:
β
> 0, pero lo usual es hacer el test bilateral.
Para docimar la hipótesis podemos usar el test t:
t=
El estimador puntual de
β
estimador puntual − valor hipotético
error estándar del estimador
es b, y el valor hipotético es 0. El error estándar de b es:
EE (b) =
σˆ
∑ (x
i
− x)
2
El estadístico para docimar la hipótesis acerca de la pendiente de la población es:
t=
b−0
~ t (n − 2)
EE (b)
2
Intervalo de confianza para la pendiente:
Un intervalo de confianza ( 1 − α )*100% para la pendiente β está dado por:
2)
b ± t1(-n−
α [ EE (b)]
2
donde
(n−2 )
t1-α
es el percentil apropiado de la distribución t con (n-2) grados de libertad.
2
Suponga que se rechaza al 5% la hipótesis nula del test t:
Ho:
H1:
β=0
β≠0
β
¿El intervalo de 95% de confianza para la verdadera pendiente
contiene el cero?
Ejemplo: Test 1 versus Test 2 revisitado
Revisemos la salida de SPSS con lo que hemos visto hasta ahora:
Coeficientes(a)
Coeficientes no
estandarizados
Modelo
B
1
(Constante)
Test 1
Error típ.
.800
2.135
1.100
.173
Coeficientes
estandarizados
t
Sig.
Beta
Intervalo de confianza para
B al 95%
Límite inferior
.965
Límite
superior
.375
.733
-5.996
7.596
6.351
.008
.549
1.651
a Variable dependiente: Test 2
Análisis de varianza y regresión lineal*
El estimador de la varianza σˆ utilizado, se interpreta como la variabilidad residual alrededor de la recta, vale decir, la
variabilidad que queda después de haber sustraído la variabilidad de los valores observados de la variable respuesta (yi) respecto
de su promedio, que es la variación que se puede explicar por la relación entre x e y. Se corrobora así que la descripción de una
variable gana en precisión cuando existe una relación con otra variable que explica parte de su comportamiento.
yi
y - ŷ
y-y
ŷ
ŷ - y
yˆ = y
y
E (Y ) = yˆ = a + bx
xi
X
En el gráfico se muestran las fuentes de variación mencionadas:
*
Adaptado de capítulo 21 del libro Bioestadística de Erica Taucher
3
n
La variación total está dada por SCT = ( y − y ) 2 .
∑ i
i =1
La variación explicada por la inclinación de la recta, o en otras palabras, explicada por la relación entre las variables y y x, es
SC Re g = ∑ ( yˆ − y ) 2 .
n
Por último, la variación no explicada, o residual es
SC Re s = ∑ ( y i − yˆ i ) 2 .
i =1
Podemos hacer una tabla, llamada tabla de análisis de varianza, para la regresión lineal simple y es la siguiente:
Fuente de variación
gl
Grados de libertad
SC Re g
1
n
n−2
SC Re s = ∑ ( y i − yˆ i ) 2
SC Re s
n−2
n −1
SCT = ∑ ( y i − y )
i =1
n
Total
CM
Cuadrados Medios
SC Re g = ∑ ( yˆ − y ) 2
Regresión
Residuo
SC
Suma de Cuadrados
2
i =1
Ejemplo: Test 1 versus Test 2 re-revisitado
ANOVA(b)
Modelo
1
Regresión
Residual
Suma de
cuadrados
48.400
1
Media
cuadrática
48.400
3
1.200
gl
3.600
Total
52.000
a Variables predictoras: (Constante), Test 1
b Variable dependiente: Test 2
F
Sig.
40.333
.008(a)
4
Coeficiente de determinación o bondad de ajuste (r2)
La correlación entre el test 1 y test 2 del ejemplo es de r = 0,965 , este coeficiente de correlación cuantifica el grado de
asociación lineal y la dirección de la asociación entre dos variables cuantitativas x y y. Se puede demostrar que:
r2 =
SC Reg
=
SCTotal
∑ ( yˆ − y )
∑ (y − y )
2
2
i
este coeficiente se llama coeficiente de determinación, y representa la proporción de la variación total de y que es explicada
por la relación lineal entre x e y.
A este coeficiente se le usa entonces como medida de bondad de ajuste, es decir que tan buena es la variable explicativa x
para explicar la respuesta y.
2
El rango del coeficiente de determinación es naturalmente entre cero y uno ( 0 ≤ r ≤ +1), lo que nos indica que mientras
más cercano a uno sea el coeficiente de determinación (r2) mejor es el ajuste de la regresión.
En el caso del ejemplo del test 1 y test 2, el r 2 = (0,965) 2 = 0,931 , que nos indica que el test 1 explica el 93,1% de la
variación total del test 2.
4
Verificando supuestos en la Regresión lineal simple
1.
Examine el gráfico de dispersión de y versus x para decidir si el modelo lineal parece razonable.
2.
Examine los residuos para verificar los supuestos acerca del término del error. Los residuos deben ser una muestra
aleatoria de una población normal con media 0 y desviación estándar σ.
Cuando examine los residuos verifique:
a)
que provienen de una muestra aleatoria:
Grafique los residuos versus x. El supuesto de que provienen de una muestra aleatoria será razonable si el gráfico
muestra los puntos al azar, sin una forma definida.
A veces es posible detectar falta de independencia cuando los datos recogidos en el tiempo. Para verificar este
supuesto grafique los residuos versus el tiempo y los puntos no deben mostrar una distribución definida.
b) Normalidad
Para verificar normalidad haga el histograma de los residuos, este debería aparecer como normal sin valores extremos
si tenemos un número grande de observaciones. En el caso de tener pocas observaciones puede hacer un gráfico de tallo
y hoja y verificar que no haya observaciones extremas.
5
c)
desviación estándar común (que no depende de x)
El gráfico de los residuos versus x, debe tener aproximadamente una banda del mismo ancho.
El gráfico muestra evidencia de que la variabilidad en la respuesta tiende a aumentar cuando x aumenta.
Ejemplo:
Se conduce un experimento en 12 sujetos para analizar si la dosis de cierta droga (en ml) está relacionada con el tiempo de
reacción a un estímulo en segundos.
Droga (ml)
Tiempo (segs)
1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5
1,0 0,8 1,8 1,4 2,1 1,8 2,2 3,0 2,75 3,0 4,1 4,9
Gráfico de dispersión del tiempo de reacción a estímulo versus dosis de droga:
5
4
Tiempo de reacción (seg)
3
2
1
0
R² = 0.8824
0
1
2
3
4
5
6
7
Dosis de droga (ml)
Estadísticos descriptivos
Tiempo de reacción (seg)
Dosis de droga (ml)
Media
2.4042
3.750
Desviación
típ.
1.21925
1.8028
N
12
12
6
Correlaciones
Correlación de Pearson
Tiempo de
reacción
(seg)
1.000
.939
.
.000
12
12
Tiempo de reacción (seg)
Dosis de droga (ml)
Tiempo de reacción (seg)
Dosis de droga (ml)
Tiempo de reacción (seg)
Dosis de droga (ml)
Sig. (unilateral)
N
Dosis de
droga (ml)
.939
1.000
.000
.
12
12
Coeficientesa
Modelo
1
(Constante)
Dosis de droga (ml)
Coeficientes
estandarizad
os
Beta
Coeficientes no
estandarizados
B
Error típ.
2.174E-02
.303
.635
.073
t
.072
8.663
.939
Sig.
.944
.000
a. Variable dependiente: Tiempo de reacción (seg)
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
14.430
1.923
16.352
gl
1
10
11
Media
cuadrática
14.430
.192
F
75.048
Sig.
.000a
a. Variables predictoras: (Constante), Dosis de droga (ml)
b. Variable dependiente: Tiempo de reacción (seg)
Gráfico de residuos de la regresión versus dosis de droga:
.8
.6
.4
Unstandardized Residual
.2
-.0
-.2
-.4
-.6
0
1
2
3
4
5
6
7
Dosis de droga (ml)
7
Histograma
Variable dependiente: Tiempo de reacción (seg)
5
4
3
Frecuencia
2
1
Desv. típ. = .95
Media = 0.00
N = 12.00
0
-1.00
-.50
0.00
.50
1.00
1.50
Regresión Residuo tipificado
Tallo y hoja de los residuos
Unstandardized Residual Stem-and-Leaf Plot
Frequency
1.00
5.00
4.00
2.00
Stem width:
Each leaf:
Stem &
-0
-0
0
0
.
.
.
.
Leaf
5
12344
1123
57
1.00000
1 case(s)
Notas:
-
La asociación entre una variable explicativa x y una variable respuesta y, aunque sea muy fuerte, no es por sí sola
evidencia de que los cambios en x causan cambios en y.
-
Un coeficiente de correlación es el resumen de la relación presente en un gráfico de dispersión. Conviene, pues,
asegurarse mirando este gráfico que el coeficiente es un buen resumen del mismo. Tratar de interpretar un coeficiente
de correlación sin haber visto previamente el gráfico de las variables puede ser muy peligroso (Peña, Romo, p.129).
-
Como hemos visto el coeficiente de correlación es un resumen del gráfico de dispersión entre dos variables. La recta de
regresión es otra manera de resumir esta información, y su parámetro fundamental, la pendiente, está relacionado con el
coeficiente de correlación por la ecuación: b = r sY . La diferencia entre regresión y correlación es que en el cálculo de
sX
la correlación ambas variables se tratan simétricamente, mientras que en la regresión, no. En regresión se trata de
prever la variable respuesta en función de los valores de la variable explicativa. En consecuencia, si cambiamos el papel
de las variables cambiará también la ecuación de regresión, porque la recta se adaptará a las unidades de la variable que
se desea predecir (Peña, Romo, p.142).
8

Documentos relacionados