Ajuste por mínimos cuadrados AJUSTE DE UNA RECTA.

Transcripción

Ajuste por mínimos cuadrados AJUSTE DE UNA RECTA.
Departamento de Matemática Aplicada y Estadística
Universidad Politécnica de Cartagena
Prof. Mathieu Kessler
Ajuste por mínimos cuadrados
SPSS nos permite realizar ajustes por mínimos cuadrados para modelos lineales en los
parámetros, es decir para el caso en que la relación entre la variable dependiente
(también llamada variable respuesta) que nos interesa Y, y las variables explicativas
(tambíen llamados regresores) X1 , X2 ,..., Xk es
Existen k parámetros constantes β 1 , β 2 ,...,β k tales que
Y=β 1 X1 +β 2 X2 +...+β k Xk +ε
donde ε es una perturbación aleatoria
Hemos realizado observaciones del fenómemo: i.e conocemos para varias
combinaciones de valores de las variables independientes cuál ha sido el valor de la
variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de
las que disponemos. El ajuste consiste en encontrar valores aproximados de los
coeficientes β 1 , β 2 ,...,β k .
AJUSTE DE UNA RECTA.
El primer caso particular de importancia corresponde al famoso ajuste de una recta. En
este caso sólo consideramos una variable independiente X y buscamos una relación del
tipo
Y=aX+b+ε,
que está contemplado en nuestro modelo si consideramos
Y=β 1 X1 +β 2 X2 +ε
con
X1 =1
y
X2 =X,
en estas condiciones, β 1 es la ordenada al origen mientras que β 2 es la`pendiente de la
recta.
Nivel del mar en Venecia.
Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en
Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están
contenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extreme
value theory based on the r largest annual events'', Journal of Hydrology, 86 (1986).
Empezamos por importar los datos, (la primera línea del fichero contiene los
nombres de las variables) y realizamos una nube de puntos del nivel en función del año.
(Gráficos-> Dispersión.) Los datos parecen presentar una tendencia lineal,
aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una recta
para modelizar la evolución del nivel máximo anual del mar en Venecia en función del
tiempo.
Para obtener la ecuación de la recta ajustada, y así como el valor de los residuos,
utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Al
activarla obtenemos la siguiente ventana:
Figura 1
La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variables
explicativas que son 1 y A. La inclusión del término constante X1 =1 es la opción por
defecto. En en el caso en que queremos forzar el modelo por el origen, podemos
desactivar la casilla se hace al activar la casilla Incluir constante en la
ecuación que aparece en el cuadro de dialogo que se abre pinchando en Opciones.
La inclusión del término X2 se consigue pasando la variable Año al cuadro
Independientes.
Al pinchar en Aceptar, aparece la ventana de resultados:
Regresión
Variables introducidas/eliminadasb
Modelo
1
Variables
introducidas
AÑOa
Variables
eliminadas
.
Método
Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: NIVEL
Resumen del modelo
Modelo
1
R
.416a
R cuadrado
.173
R cuadrado
corregida
.156
Error típ. de la
estimación
18.6198
a. Variables predictoras: (Constante), AÑO
Ia
Ib
ANOVAb
Suma de
cuadrados
gl
Regresión
3552.057
1
Residual
16988.100
49
Total
20540.157
50
a. Variables predictoras: (Constante), AÑO
Modelo
1
Media
cuadrática
3552.057
346.696
F
10.245
Sig.
.002a
b. Variable dependiente: NIVEL
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
AÑO
B
-989.382
.567
Error típ.
346.477
.177
Coeficient
es
estandari
zados
Beta
.416
t
-2.856
3.201
Sig.
.006
.002
a. Variable dependiente: NIVEL
II
III
IV
Los recuadros se interpretan de la siguiente manera.
Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación
múltiple que nos indica la proporción de la variabilidad en los datos explicada por el
modelo de regresión.
Recuadro Ib: Proporciona el valor de la desviación típica residual.
Recuadro II En la columna Coefficientes no estandarizados podemos
leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el
coeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la línea Año, el
coeficiente de X2=Año.
En este caso la ecuación proporcionada es
Nivel máximo= -989.4+0.6Año.
Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes,
los podríamos utilizar para construir intervalos de confianza.
Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son
significativamente distintos de 0: en la columna t, obtenemos los valores de los
estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig,
podemos encontrar los p-valores de las pruebas H0 : β i=0 contra H1 : β i≠0, para cada
uno de los coeficientes.
Cabe destacar que en el cuadro de dialogo que aparece con la instrucción Analizar> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidades
interesantes:
• Al activar Guardar, podemos guardar los residuos y los valores predictivos,
también llamados valores ajustados, picando las casillas correspondientes. Una vez
•
•
que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestro
editor de datos.
En Estadísticos, podemos pedir por ejemplo intervalos de confianza para los
coeficientes
En Gráficos podemos pedir entre otras muchas cosas, un histograma de los
residuos.
Después de guardar los residuos y los valores ajustados, realizar una gráfica en la que
aparezcan tanto los valores observados del nivel como los valores predichos, en
función del año.
Ejercicios
Ajuste de una recta que pase por el origen
Considere el problema siguiente:
En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidad
radial de nebulosas extragalácticas con la esperanza de que alguna información
sobre esta relación pudiera proporcionar ideas acerca de cómo se formó el
universo y cuál puede ser su evolución futura. Sus descubrimientos revolucionaron
la astronomía y son la fuente de muchas investigaciones actuales. En esta práctica
vamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente:
Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity among
Extra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. )
Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 años luz)
y la velocidad se mide en km/sec.
Los datos se encuentran en el fichero hubble.txt con dos columnas, la primera
contiene la distancia mientras que la segunda contiene la velocidad de recesión. El
fichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobre
la distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad
de recesión debe ser nula. Reflexionar en particular sobre los datos negativos. La
pendiente de la recta forzada por el origen se llama la constante de Hubble.
Transformación de un modelo exponencial
Considere el problema siguiente: La hidrólisis de un cierto éster tiene lugar en medio
ácido según un proceso cinético de primer orden. Partiendo de una concentración
inicial desconocida del éster, se han medido las concentraciones del mismo a
diferentes tiempos obteniéndose los resultados siguientes.
T (mn) 3
4
10 15 20 30 40 50 60 75 90
C
25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4
103
(M)
a) Realice una nube de puntos de las dos variables. ¿ Le parece adecuado un modelo
lineal para escribir este conjunto de datos?
b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube de
puntos Y’ en función de t.
c) Realizar un ajuste por mínimos cuadrados de Y’ sobre t con un modelo del tipo:
y=ax+b. ¿Cuál es el modelo teórico que propone para C en función del tiempo?
d) Nos dan la información adicional de que se sabe con exactitud que la concentración inicial para T=0
era igual a 30.10-3 M. ¿Cómo podemos incluir esta información en nuestro modelo?
Inclinación de la Torre de Pisa.
G. Beri y B. Palla, 1988, "Considerazioni sulle ouù recenti osservazioni ottiche alla Torre Pendente di
Pisa", Estratto dal Bolletino della Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135,
citado en Moore, 1998, Estadística Aplicada Básica, Antoni Bosch editor, pág 615.
La torre inclinada de Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones de la
inclincación de la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el punto
donde estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias se
dan en décimas de milímetros por encima de 2.9m.
Año
75
Inclinación 642
76
644
77
656
78
667
79
673
80
688
81
696
82
698
83
713
84
717
85
725
86
742
Emisión de CO2 por los países europeos.
En la dirección http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisión de
CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997.
Importar los datos del fichero CO2.txt, cuya primera línea contiene los nombres de las variables.
Los códigos de los sectores de emisión son los siguientes:
0 Total inland emissions 4
Agriculture
1 Energy
5
Not available
2 Industry
6
Other
3 Transport
Tempeturas medias mensuales en San-Javier.
En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datos
meteorológicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podréis
encontrar los datos de las temperaturas mensuales medias para la estación meteorológica de Murcia San
Javier entre los años 1981 y 1990.
Resistencia del cemento
Se quiere estudiar la resistencia de unas piezas de cemento en función
de su edad en días.
Edad (días)
Resistencia (kg/cm^2)
1
13.0 13.3 11.8
2
21.9 24.5 24.7
3
29.8 28.0 24.1 24.2 26.2
7
32.4 30.4 34.5 33.1 35.7
28
41.8 42.6 40.3 35.7 37.3
Realizar la nube de puntos de la resistencia en funciónde la edad. ¿Parece presentar una tendencia lineal?
Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?
Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.
Producción de petroleo
Se quiere estudiar la evolución de la producción mundial de petroleo
de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt
Realizar la nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si
la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?
Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.
87
757

Documentos relacionados