Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo

Transcripción

Ingenierı́a Industrial.
Asignatura: Ampliación de Estadı́stica
(Curso 03/04).
Prof : Mathieu Kessler
Práctica . Análisis de regresión múltiple con Statistix. (I)
El menu Statistics -> Linear models-> Linear regression permite un estudio completo de un conjunto de
datos usando el modelo de regresión lineal múltiple ası́ como la comprobación de las hipótesis del modelo.
1.
Ejemplo detallado
Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente al problema
siguiente : un ingeniero de producción es responsable de la reducción del costo. Uno de las materias
primas fundamentales en la producción es el agua. Para estudiar el consumo de agua , el ingeniero apunta
durante 17 meses el consumo mensual de agua (y) junto con los siguientes indicadores la temperatura
media mensual (x2 en o F ) la producción (x3 en ), el número de dı́as de trabajo en el mes ( x4 ) y el
número de personal en la planta de producción (x5 ). Los datos están en el fichero agua.txt (la primera
linea del fichero contiene los nombres de las variables).
1.1.
Cálculo de los estimadores
Suponemos que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución
de cada Yi es N (µi , σ 2 ), donde las medias satisfacen:
µi = β1 xi1 + · · · β4 xi4 para i = 1, ..., n
0
2
(1)
Empezamos por calcular los estimadores de β = (β1 , . . . , β4 ) y de σ :
La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos
los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y
las variables independientes ( en nuestro caso x2 ,x3 , x4 y x5 )
Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado
donde imponemos que el hiperplano pasa por el origen 0 (β1 = 0).
Al pulsar ok, aparece la ventana siguiente :
1
Interpretación de los resultados proporcionados :
(I) : En la columna titulada ”Coefficient” aparecen los estimadores β̂i de βi ,mientras que la columna
Std error, contiene una estimación de la varianza de esos estimadores : puesto que V ar(β̂i ) = σ 2 Cii ,
√
la desviación tı́pica estimada de β̂i es σ̃ 2 Cii . Esta columna permite la construcción de intervalos de
confianza.
(II) : siguiendo el principio de parsimonia, se realizan automáticamente los k constrastes
H0 βi = 0
H1 βi 6= 0
la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene
los p-valores de las pruebas.
Coef.
β1
β2
β3
β4
β5
P-valor
Pn
1
`2
(III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = n−k
i=1 (yi − ŷi ) y Standard
deviation: σ̃. Encontramos σ̃ 2 = .....
(IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el
modelo. Encontramos R2 = .....
(V) : Esta tabla corresponde a una tabla anova en el modelo de regresión, en el que se realiza el contraste
H0 β2 = · · · = βk = 0
.
La hipótesis nula corresponderı́a a que ninguna de las variables x2 , · · · , xk
H1 No todos son nulos
tienen influencia sobre los valores de y. Decisión tomada : .......
Matrix estimada de covarianza de los estimadores en la ventana de resultados, pinchamos en ->
Results-> Var-cov Of Betas, que nos proporciona la matriz simétrica σ̃ 2 C.
Predicción de nuevos valores : Queremos realizar predicciones para un mes de 22 dı́as laborables,
en el que la temperatura sea de 80o F , la producción igual a14000, y en el que la plantilla sea de 200
personas.
En la ventana de resultados, pinchamos en -> Results-> Prediction, podemos especificar varios valores
del vector k-dimensional ~x0 para los cuales nos interesa obtener los intervalos para µ~xo y Y~x0 . Para entrar
un vector ~x0 , tenemos que especificar los valores de los regresores separados por un espacio, y en el orden
en el que aparecen en el cuadro de la izquierda ”Independent variables”. También podemos especificar el
nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de pinchar ”ok”, los resultados
LOWER FITTED BOUND Ext. inferior del intervalo de predicción para µx0
FITTED VALUE
µ̂x0
UPPER FITTED BOUND Ext.superior del intervalo de predicción para µx0
SE (FITTED VALUE)
estimación de la desv. tı́pica de µ̂x0
:LOWER PREDICTED BOUND, PREDICTED VALUE, UPPER PREDICTED BOUND y SE (PREDICTED VALUE) idem para Yx0
CORRESPONDING T : valor de tn−k,1−α/2
2
2.
Validación del modelo
Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo
de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de
resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas
variables que queremos definir.
También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del
modelo: en el menu -¿results-> plots :
Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados
caracterı́sticas de la gráfica en nuestro caso :
Std. Resid. vs Time series : Residuos estándar en función de su posición
Wilks-Shapiro/Rankit plot : gráfica normal de los residuos.
3.
3.1.
Ejercicios
Estimación del volumen de madera de un arbol.
En ingenierı́a forestal existe la necesidad evidente de poder predicir el volumen de madera disponible de
un tronco de un arbol todavı́a en pie. El método más sencillo consiste en medir el diámetro cerca del
suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt
están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con
cuidado el volumen después de cortar el tronco de ( v : volumen, d : diametro y a : altura)
1.
Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. Proceda al análisis
de los residuos, ¿cuál es su diagnóstico?
2.
Si se supone que el tronco es un cı́lindro perfecto, ¿cuál serı́a la relación entre v, a y d ? Proponer
una transformación sobre los datos que sea acorde con esta relación fı́sica Realizar el ajuste lineal
correspondiente con especial interés en el análisis de los residuos.
3.
Si se supone que el tronco es un cono perfecto, ¿cuáles deberı́an ser los valores de los parámetros
del apartado anterior?.
4.
Plantear los contrastes sobre los parámetros para probar si podemos aceptar la hipótesis de un
cilindro primero, y de un cono después. LLevarlos a cabo.
3.2.
Consumo de helados.
Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia
americana durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de
helado por persona (y), junto con las cantidades siguientes que se pensaba podı́an tener alguna influencia
sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la
temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero
helados.txt
3
1.
Represente gráficamente el consumo de helados en función de las semanas.
2.
Determinar la matriz de correlación de las variables y, p, i y temp. Para ello se utiliza la opción
Statistics-> Linear models-> Correlations (Pearson), y como es usual en Statistix, pasamos desde
la lista de las variables de la izquierda las variables que nos interesan al cuadro de la derecha
”Correlations variables”.
.. .. .. ..


...

... 




...
...
¿Cuál es la variable que parece tener más influencia en y?
3.
Realizar un ajuste lineal de y sobre p, i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ?
4.
Realizar un ajuste lineal de y sobre i y temp. ¿Qué vale σ̃ 2 , ? ¿y R2 ?Guarde los valores ajustados en
una variable llamada ajucomp. Represente en la misma gráfica y en función de semanas y ajucomp
en función de semana.
4

Práctica . Análisis de regresión múltiple con Statistix. (I) 1. Ejemplo

Transcripción

Documentos relacionados

Laboratorio 2 - Departamento Académico de Matemáticas