Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo

Transcripción

Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo
Ingenierı́a Industrial.
Asignatura: Ampliación de Estadı́stica
(Curso 03/04).
Prof : Mathieu Kessler
Práctica . Análisis de regresión múltiple con Statistix. (I)
El menu Statistics -> Linear models-> Linear regression permite un estudio completo de un conjunto de
datos usando el modelo de regresión lineal múltiple ası́ como la comprobación de las hipótesis del modelo.
1.
Ejemplo detallado
Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente al problema
siguiente : un ingeniero de producción es responsable de la reducción del costo. Uno de las materias
primas fundamentales en la producción es el agua. Para estudiar el consumo de agua , el ingeniero apunta
durante 17 meses el consumo mensual de agua (y) junto con los siguientes indicadores la temperatura
media mensual (x2 en o F ) la producción (x3 en ), el número de dı́as de trabajo en el mes ( x4 ) y el
número de personal en la planta de producción (x5 ). Los datos están en el fichero agua.txt (la primera
linea del fichero contiene los nombres de las variables).
1.1.
Cálculo de los estimadores
Suponemos que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución
de cada Yi es N (µi , σ 2 ), donde las medias satisfacen:
µi = β1 xi1 + · · · β4 xi4 para i = 1, ..., n
0
2
(1)
Empezamos por calcular los estimadores de β = (β1 , . . . , β4 ) y de σ :
La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos
los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y
las variables independientes ( en nuestro caso x2 ,x3 , x4 y x5 )
Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado
donde imponemos que el hiperplano pasa por el origen 0 (β1 = 0).
Al pulsar ok, aparece la ventana siguiente :
1
Interpretación de los resultados proporcionados :
(I) : En la columna titulada ”Coefficient” aparecen los estimadores β̂i de βi ,mientras que la columna
Std error, contiene una estimación de la varianza de esos estimadores : puesto que V ar(β̂i ) = σ 2 Cii ,
√
la desviación tı́pica estimada de β̂i es σ̃ 2 Cii . Esta columna permite la construcción de intervalos de
confianza.
(II) : siguiendo el principio de parsimonia, se realizan automáticamente los k constrastes
H0 βi = 0
H1 βi 6= 0
la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene
los p-valores de las pruebas.
Coef.
β1
β2
β3
β4
β5
P-valor
Pn
1
`2
(III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = n−k
i=1 (yi − ŷi ) y Standard
deviation: σ̃. Encontramos σ̃ 2 = .....
(IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el
modelo. Encontramos R2 = .....
(V) : Esta tabla corresponde a una tabla anova en el modelo de regresión, en el que se realiza el contraste
H0 β2 = · · · = βk = 0
.
La hipótesis nula corresponderı́a a que ninguna de las variables x2 , · · · , xk
H1 No todos son nulos
tienen influencia sobre los valores de y. Decisión tomada : .......
Matrix estimada de covarianza de los estimadores en la ventana de resultados, pinchamos en ->
Results-> Var-cov Of Betas, que nos proporciona la matriz simétrica σ̃ 2 C.
Predicción de nuevos valores : Queremos realizar predicciones para un mes de 22 dı́as laborables,
en el que la temperatura sea de 80o F , la producción igual a14000, y en el que la plantilla sea de 200
personas.
En la ventana de resultados, pinchamos en -> Results-> Prediction, podemos especificar varios valores
del vector k-dimensional ~x0 para los cuales nos interesa obtener los intervalos para µ~xo y Y~x0 . Para entrar
un vector ~x0 , tenemos que especificar los valores de los regresores separados por un espacio, y en el orden
en el que aparecen en el cuadro de la izquierda ”Independent variables”. También podemos especificar el
nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de pinchar ”ok”, los resultados
LOWER FITTED BOUND Ext. inferior del intervalo de predicción para µx0
FITTED VALUE
µ̂x0
UPPER FITTED BOUND Ext.superior del intervalo de predicción para µx0
SE (FITTED VALUE)
estimación de la desv. tı́pica de µ̂x0
:LOWER PREDICTED BOUND, PREDICTED VALUE, UPPER PREDICTED BOUND y SE (PREDICTED VALUE) idem para Yx0
CORRESPONDING T : valor de tn−k,1−α/2
2
2.
Validación del modelo
Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo
de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de
resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas
variables que queremos definir.
También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del
modelo: en el menu -¿results-> plots :
Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados
caracterı́sticas de la gráfica en nuestro caso :
Std. Resid. vs Time series : Residuos estándar en función de su posición
caracterı́sticas de la gráfica en nuestro caso :
Wilks-Shapiro/Rankit plot : gráfica normal de los residuos.
caracterı́sticas de la gráfica en nuestro caso :
3.
3.1.
Ejercicios
Estimación del volumen de madera de un arbol.
En ingenierı́a forestal existe la necesidad evidente de poder predicir el volumen de madera disponible de
un tronco de un arbol todavı́a en pie. El método más sencillo consiste en medir el diámetro cerca del
suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt
están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con
cuidado el volumen después de cortar el tronco de ( v : volumen, d : diametro y a : altura)
1.
Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. Proceda al análisis
de los residuos, ¿cuál es su diagnóstico?
2.
Si se supone que el tronco es un cı́lindro perfecto, ¿cuál serı́a la relación entre v, a y d ? Proponer
una transformación sobre los datos que sea acorde con esta relación fı́sica Realizar el ajuste lineal
correspondiente con especial interés en el análisis de los residuos.
3.
Si se supone que el tronco es un cono perfecto, ¿cuáles deberı́an ser los valores de los parámetros
del apartado anterior?.
4.
Plantear los contrastes sobre los parámetros para probar si podemos aceptar la hipótesis de un
cilindro primero, y de un cono después. LLevarlos a cabo.
3.2.
Consumo de helados.
Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia
americana durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de
helado por persona (y), junto con las cantidades siguientes que se pensaba podı́an tener alguna influencia
sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la
temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero
helados.txt
3
1.
Represente gráficamente el consumo de helados en función de las semanas.
2.
Determinar la matriz de correlación de las variables y, p, i y temp. Para ello se utiliza la opción
Statistics-> Linear models-> Correlations (Pearson), y como es usual en Statistix, pasamos desde
la lista de las variables de la izquierda las variables que nos interesan al cuadro de la derecha
”Correlations variables”.
.. .. .. ..


...

... 




...
...
¿Cuál es la variable que parece tener más influencia en y?
3.
Realizar un ajuste lineal de y sobre p, i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ?
4.
Realizar un ajuste lineal de y sobre i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ?Guarde los valores ajustados en
una variable llamada ajucomp. Represente en la misma gráfica y en función de semanas y ajucomp
en función de semana.
4

Documentos relacionados