Ajuste por mínimos cuadrados AJUSTE DE UNA RECTA.
Transcripción
Ajuste por mínimos cuadrados AJUSTE DE UNA RECTA.
Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Prof. Mathieu Kessler Ajuste por mínimos cuadrados SPSS nos permite realizar ajustes por mínimos cuadrados para modelos lineales en los parámetros, es decir para el caso en que la relación entre la variable dependiente (también llamada variable respuesta) que nos interesa Y, y las variables explicativas (tambíen llamados regresores) X1 , X2 ,..., Xk es Existen k parámetros constantes β 1 , β 2 ,...,β k tales que Y=β 1 X1 +β 2 X2 +...+β k Xk +ε donde ε es una perturbación aleatoria Hemos realizado observaciones del fenómemo: i.e conocemos para varias combinaciones de valores de las variables independientes cuál ha sido el valor de la variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de las que disponemos. El ajuste consiste en encontrar valores aproximados de los coeficientes β 1 , β 2 ,...,β k . AJUSTE DE UNA RECTA. El primer caso particular de importancia corresponde al famoso ajuste de una recta. En este caso sólo consideramos una variable independiente X y buscamos una relación del tipo Y=aX+b+ε, que está contemplado en nuestro modelo si consideramos Y=β 1 X1 +β 2 X2 +ε con X1 =1 y X2 =X, en estas condiciones, β 1 es la ordenada al origen mientras que β 2 es la`pendiente de la recta. Nivel del mar en Venecia. Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extreme value theory based on the r largest annual events'', Journal of Hydrology, 86 (1986). Empezamos por importar los datos, (la primera línea del fichero contiene los nombres de las variables) y realizamos una nube de puntos del nivel en función del año. (Gráficos-> Dispersión.) Los datos parecen presentar una tendencia lineal, aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una recta para modelizar la evolución del nivel máximo anual del mar en Venecia en función del tiempo. Para obtener la ecuación de la recta ajustada, y así como el valor de los residuos, utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Al activarla obtenemos la siguiente ventana: Figura 1 La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variables explicativas que son 1 y A. La inclusión del término constante X1 =1 es la opción por defecto. En en el caso en que queremos forzar el modelo por el origen, podemos desactivar la casilla se hace al activar la casilla Incluir constante en la ecuación que aparece en el cuadro de dialogo que se abre pinchando en Opciones. La inclusión del término X2 se consigue pasando la variable Año al cuadro Independientes. Al pinchar en Aceptar, aparece la ventana de resultados: Regresión Variables introducidas/eliminadasb Modelo 1 Variables introducidas AÑOa Variables eliminadas . Método Introducir a. Todas las variables solicitadas introducidas b. Variable dependiente: NIVEL Resumen del modelo Modelo 1 R .416a R cuadrado .173 R cuadrado corregida .156 Error típ. de la estimación 18.6198 a. Variables predictoras: (Constante), AÑO Ia Ib ANOVAb Suma de cuadrados gl Regresión 3552.057 1 Residual 16988.100 49 Total 20540.157 50 a. Variables predictoras: (Constante), AÑO Modelo 1 Media cuadrática 3552.057 346.696 F 10.245 Sig. .002a b. Variable dependiente: NIVEL Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) AÑO B -989.382 .567 Error típ. 346.477 .177 Coeficient es estandari zados Beta .416 t -2.856 3.201 Sig. .006 .002 a. Variable dependiente: NIVEL II III IV Los recuadros se interpretan de la siguiente manera. Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación múltiple que nos indica la proporción de la variabilidad en los datos explicada por el modelo de regresión. Recuadro Ib: Proporciona el valor de la desviación típica residual. Recuadro II En la columna Coefficientes no estandarizados podemos leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el coeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la línea Año, el coeficiente de X2=Año. En este caso la ecuación proporcionada es Nivel máximo= -989.4+0.6Año. Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes, los podríamos utilizar para construir intervalos de confianza. Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son significativamente distintos de 0: en la columna t, obtenemos los valores de los estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig, podemos encontrar los p-valores de las pruebas H0 : β i=0 contra H1 : β i≠0, para cada uno de los coeficientes. Cabe destacar que en el cuadro de dialogo que aparece con la instrucción Analizar> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidades interesantes: • Al activar Guardar, podemos guardar los residuos y los valores predictivos, también llamados valores ajustados, picando las casillas correspondientes. Una vez • • que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestro editor de datos. En Estadísticos, podemos pedir por ejemplo intervalos de confianza para los coeficientes En Gráficos podemos pedir entre otras muchas cosas, un histograma de los residuos. Después de guardar los residuos y los valores ajustados, realizar una gráfica en la que aparezcan tanto los valores observados del nivel como los valores predichos, en función del año. Ejercicios Ajuste de una recta que pase por el origen Considere el problema siguiente: En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidad radial de nebulosas extragalácticas con la esperanza de que alguna información sobre esta relación pudiera proporcionar ideas acerca de cómo se formó el universo y cuál puede ser su evolución futura. Sus descubrimientos revolucionaron la astronomía y son la fuente de muchas investigaciones actuales. En esta práctica vamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente: Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity among Extra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. ) Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 años luz) y la velocidad se mide en km/sec. Los datos se encuentran en el fichero hubble.txt con dos columnas, la primera contiene la distancia mientras que la segunda contiene la velocidad de recesión. El fichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobre la distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad de recesión debe ser nula. Reflexionar en particular sobre los datos negativos. La pendiente de la recta forzada por el origen se llama la constante de Hubble. Transformación de un modelo exponencial Considere el problema siguiente: La hidrólisis de un cierto éster tiene lugar en medio ácido según un proceso cinético de primer orden. Partiendo de una concentración inicial desconocida del éster, se han medido las concentraciones del mismo a diferentes tiempos obteniéndose los resultados siguientes. T (mn) 3 4 10 15 20 30 40 50 60 75 90 C 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4 103 (M) a) Realice una nube de puntos de las dos variables. ¿ Le parece adecuado un modelo lineal para escribir este conjunto de datos? b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube de puntos Y’ en función de t. c) Realizar un ajuste por mínimos cuadrados de Y’ sobre t con un modelo del tipo: y=ax+b. ¿Cuál es el modelo teórico que propone para C en función del tiempo? d) Nos dan la información adicional de que se sabe con exactitud que la concentración inicial para T=0 era igual a 30.10-3 M. ¿Cómo podemos incluir esta información en nuestro modelo? Inclinación de la Torre de Pisa. G. Beri y B. Palla, 1988, "Considerazioni sulle ouù recenti osservazioni ottiche alla Torre Pendente di Pisa", Estratto dal Bolletino della Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135, citado en Moore, 1998, Estadística Aplicada Básica, Antoni Bosch editor, pág 615. La torre inclinada de Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones de la inclincación de la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el punto donde estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias se dan en décimas de milímetros por encima de 2.9m. Año 75 Inclinación 642 76 644 77 656 78 667 79 673 80 688 81 696 82 698 83 713 84 717 85 725 86 742 Emisión de CO2 por los países europeos. En la dirección http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Importar los datos del fichero CO2.txt, cuya primera línea contiene los nombres de las variables. Los códigos de los sectores de emisión son los siguientes: 0 Total inland emissions 4 Agriculture 1 Energy 5 Not available 2 Industry 6 Other 3 Transport Tempeturas medias mensuales en San-Javier. En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datos meteorológicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podréis encontrar los datos de las temperaturas mensuales medias para la estación meteorológica de Murcia San Javier entre los años 1981 y 1990. Resistencia del cemento Se quiere estudiar la resistencia de unas piezas de cemento en función de su edad en días. Edad (días) Resistencia (kg/cm^2) 1 13.0 13.3 11.8 2 21.9 24.5 24.7 3 29.8 28.0 24.1 24.2 26.2 7 32.4 30.4 34.5 33.1 35.7 28 41.8 42.6 40.3 35.7 37.3 Realizar la nube de puntos de la resistencia en funciónde la edad. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos? Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste. Producción de petroleo Se quiere estudiar la evolución de la producción mundial de petroleo de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt Realizar la nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos? Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste. 87 757