Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo
Transcripción
Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo
Ingenierı́a Industrial. Asignatura: Ampliación de Estadı́stica (Curso 03/04). Prof : Mathieu Kessler Práctica . Análisis de regresión múltiple con Statistix. (I) El menu Statistics -> Linear models-> Linear regression permite un estudio completo de un conjunto de datos usando el modelo de regresión lineal múltiple ası́ como la comprobación de las hipótesis del modelo. 1. Ejemplo detallado Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente al problema siguiente : un ingeniero de producción es responsable de la reducción del costo. Uno de las materias primas fundamentales en la producción es el agua. Para estudiar el consumo de agua , el ingeniero apunta durante 17 meses el consumo mensual de agua (y) junto con los siguientes indicadores la temperatura media mensual (x2 en o F ) la producción (x3 en ), el número de dı́as de trabajo en el mes ( x4 ) y el número de personal en la planta de producción (x5 ). Los datos están en el fichero agua.txt (la primera linea del fichero contiene los nombres de las variables). 1.1. Cálculo de los estimadores Suponemos que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución de cada Yi es N (µi , σ 2 ), donde las medias satisfacen: µi = β1 xi1 + · · · β4 xi4 para i = 1, ..., n 0 2 (1) Empezamos por calcular los estimadores de β = (β1 , . . . , β4 ) y de σ : La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y las variables independientes ( en nuestro caso x2 ,x3 , x4 y x5 ) Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado donde imponemos que el hiperplano pasa por el origen 0 (β1 = 0). Al pulsar ok, aparece la ventana siguiente : 1 Interpretación de los resultados proporcionados : (I) : En la columna titulada ”Coefficient” aparecen los estimadores β̂i de βi ,mientras que la columna Std error, contiene una estimación de la varianza de esos estimadores : puesto que V ar(β̂i ) = σ 2 Cii , √ la desviación tı́pica estimada de β̂i es σ̃ 2 Cii . Esta columna permite la construcción de intervalos de confianza. (II) : siguiendo el principio de parsimonia, se realizan automáticamente los k constrastes H0 βi = 0 H1 βi 6= 0 la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene los p-valores de las pruebas. Coef. β1 β2 β3 β4 β5 P-valor Pn 1 `2 (III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = n−k i=1 (yi − ŷi ) y Standard deviation: σ̃. Encontramos σ̃ 2 = ..... (IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el modelo. Encontramos R2 = ..... (V) : Esta tabla corresponde a una tabla anova en el modelo de regresión, en el que se realiza el contraste H0 β2 = · · · = βk = 0 . La hipótesis nula corresponderı́a a que ninguna de las variables x2 , · · · , xk H1 No todos son nulos tienen influencia sobre los valores de y. Decisión tomada : ....... Matrix estimada de covarianza de los estimadores en la ventana de resultados, pinchamos en -> Results-> Var-cov Of Betas, que nos proporciona la matriz simétrica σ̃ 2 C. Predicción de nuevos valores : Queremos realizar predicciones para un mes de 22 dı́as laborables, en el que la temperatura sea de 80o F , la producción igual a14000, y en el que la plantilla sea de 200 personas. En la ventana de resultados, pinchamos en -> Results-> Prediction, podemos especificar varios valores del vector k-dimensional ~x0 para los cuales nos interesa obtener los intervalos para µ~xo y Y~x0 . Para entrar un vector ~x0 , tenemos que especificar los valores de los regresores separados por un espacio, y en el orden en el que aparecen en el cuadro de la izquierda ”Independent variables”. También podemos especificar el nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de pinchar ”ok”, los resultados LOWER FITTED BOUND Ext. inferior del intervalo de predicción para µx0 FITTED VALUE µ̂x0 UPPER FITTED BOUND Ext.superior del intervalo de predicción para µx0 SE (FITTED VALUE) estimación de la desv. tı́pica de µ̂x0 :LOWER PREDICTED BOUND, PREDICTED VALUE, UPPER PREDICTED BOUND y SE (PREDICTED VALUE) idem para Yx0 CORRESPONDING T : valor de tn−k,1−α/2 2 2. Validación del modelo Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas variables que queremos definir. También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del modelo: en el menu -¿results-> plots : Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados caracterı́sticas de la gráfica en nuestro caso : Std. Resid. vs Time series : Residuos estándar en función de su posición caracterı́sticas de la gráfica en nuestro caso : Wilks-Shapiro/Rankit plot : gráfica normal de los residuos. caracterı́sticas de la gráfica en nuestro caso : 3. 3.1. Ejercicios Estimación del volumen de madera de un arbol. En ingenierı́a forestal existe la necesidad evidente de poder predicir el volumen de madera disponible de un tronco de un arbol todavı́a en pie. El método más sencillo consiste en medir el diámetro cerca del suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con cuidado el volumen después de cortar el tronco de ( v : volumen, d : diametro y a : altura) 1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. Proceda al análisis de los residuos, ¿cuál es su diagnóstico? 2. Si se supone que el tronco es un cı́lindro perfecto, ¿cuál serı́a la relación entre v, a y d ? Proponer una transformación sobre los datos que sea acorde con esta relación fı́sica Realizar el ajuste lineal correspondiente con especial interés en el análisis de los residuos. 3. Si se supone que el tronco es un cono perfecto, ¿cuáles deberı́an ser los valores de los parámetros del apartado anterior?. 4. Plantear los contrastes sobre los parámetros para probar si podemos aceptar la hipótesis de un cilindro primero, y de un cono después. LLevarlos a cabo. 3.2. Consumo de helados. Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia americana durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de helado por persona (y), junto con las cantidades siguientes que se pensaba podı́an tener alguna influencia sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero helados.txt 3 1. Represente gráficamente el consumo de helados en función de las semanas. 2. Determinar la matriz de correlación de las variables y, p, i y temp. Para ello se utiliza la opción Statistics-> Linear models-> Correlations (Pearson), y como es usual en Statistix, pasamos desde la lista de las variables de la izquierda las variables que nos interesan al cuadro de la derecha ”Correlations variables”. .. .. .. .. ... ... ... ... ¿Cuál es la variable que parece tener más influencia en y? 3. Realizar un ajuste lineal de y sobre p, i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ? 4. Realizar un ajuste lineal de y sobre i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ?Guarde los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y en función de semanas y ajucomp en función de semana. 4