Práctica 0. Introducción al programa SPSS EL SPSS es un conjunto

Transcripción

Práctica 0. Introducción al programa SPSS EL SPSS es un conjunto
Departamento de Matemática Aplicada y Estadística
Universidad Politécnica de Cartagena
Mathieu Kessler.
Práctica 0. Introducción al programa SPSS
EL SPSS es un conjunto de programas orientados a la realización de análisis
estadísticos aplicados a las ciencias sociales. Nos permite realizar análisis y gráficos
estadísticos sin tener que conocer la mecánica de los cálculos ni la sintaxis de los
comandos del sistema. Comparado con otros programas, es más intuitivo y fácil de
aprender. Su desventaja es que es menos flexible y con menos procedimientos
avanzados que otros programas comerciales.
SPSS es bueno a la hora de organizar y analizar datos. Se puede ordenar datos, calcular
nuevos datos y realizar una gran variedad de análisis estadísticos. En teoría el tamaño de
los ficheros de datos que SPSS puede manejar no está limitado por lo que puede trabajar
con ficheros grandes. Esta versión también permite el manejo cómodo de ficheros, la
personalización de los informes, y el cortar y pegar en otros programas.
Para ejecutarlo, se busca el programa en Inicio. pulsa dos veces sobre el icono
del programa, en el escritorio de Windows.
Hay dos tipo de archivos asociados a SPSS:
- Archivos de datos: tienen extensión .sav y están en formato SPSS.
- Archivos de texto: tienen extensión .sps (archivos de sintaxis) o .spo (archivos
de resultados.
1. Componentes básicos de SPSS.
Los pasos básicos en el análisis de datos consisten en
• Introducir los datos, manualmente o recurriendo a un archivo ya existente.
• Seleccionar un procedimiento estadístico.
• Seleccionar las variables para el análisis. las variables que podemos usar en cada
procedimiento se muestran en un cuadro de diálogo del que se seleccionan.
• Ejecutar el procedimiento y ver los resultados. Los resultados aparecen en una
ventana de resultados y se pueden guardar como archivos con extensión .spo. Los
gráficos se pueden modificar en la ventana del editor de gráficos.
La primera presentación es de una tabla de datos, donde se deberán introducir los datos
de cada problema o leerlos de un fichero. Corresponde al Editor de datos.
Con el editor de datos podemos crear nuevos archivos o modificar los existentes. No se
puede tener más de un archivo de datos abierto al mismo tiempo en la misma sesión de
SPSS. Dentro del editor de datos, dos vistas son posibles:
Vista de datos : muestra los valores de datos reales o las etiquetas de valor definidas:
- Las filas son casos. Cada fila representa un caso u observación.
- Las columnas son variables. Cada columna representa una variable o característica que
se mide.
- Las casillas contienen valores numéricos o de cadena, siendo éste un valor
único de una variable para cada caso. A diferencia de una hoja de cálculo, las
casillas del editor de datos no pueden contener fórmulas.
Vista de variables: contiene descripciones de los atributos de cada variable del
archivo de datos. Aquí:
- Las filas son variables.
- Las columnas son atributos o características de las variables.
Cambiamos de una vista a otra a través de las pestañas en la parte inferior de la ventana.
Otras ventanas irán apareciendo a medida que vayamos realizando nuestro análisis,
podrán contener gráficos (Editor de gráficos), informes con los resultados, etc…
2. Primeros pasos con SPSS
Antes de todo, debemos introducir los datos. Para hacerlo, distinguiremos dos
posibilidades: introducimos los datos manualmente o los importamos a nuestra hoja de
cálculo desde un fichero externo. En el ejemplo ilustrativo que seguiremos a lo largo de
esta primera sesión, veremos las dos situaciones.
I.1. Introducimos los datos manualmente:
a) Definimos las variables:
Debemos definir, en primer lugar, las variables, utilizando la vista de variables,
activada a través de la pestaña en la parte inferior de la ventana.
Utilizando una fila para cada variable especificamos los atributos necesarios.
Definimos el nombre de cada variable, y el tipo de datos que contiene cada una.
Los valores de estas variables, en función del tipo seleccionado serán visualizadas según
un patrón determinado y sólo estarán disponibles para estas variables aquellas
operaciones que son esperables para el tipo de que se trate en cada caso. Si se pulsa el
botón tipo y luego en los puntos suspensivos que aparecen en la casilla tenemos un
cuadro de diálogo en el que se presentan los siguientes tipos de variables posibles:
- Numérico. Variable cuyos valores son números. Los valores se muestran en el
formato numérico estándar, utilizando los delimitadores decimales especificados en
la Configuración Regional del Panel de control. El editor de datos acepta valores
numéricos en formato estándar o en notación científica.
- Coma. Define una variable numérica cuyos valores se muestran con comas de
separación cada tres posiciones y con un punto como separador de la parte decimal.
El editor de datos acepta los valores numéricos para este tipo de variables, con o sin
comas, o en notación científica.
- Punto. Define una variable numérica cuyos valores se muestran con puntos de
separación cada tres posiciones y con una coma como separador de la parte decimal.
-
-
-
-
El editor de datos acepta valores numéricos para este tipo de variables, con o sin
puntos, o en notación científica.
Notación científica. Define una variable numérica cuyos valores se muestran con
una E intercalada y un exponente con signo que representa una potencia de base
diez.
Fecha. Variable numérica cuyos valores se muestran en uno de los diferentes
formatos de fecha-calendario u hora-reloj. Seleccione una plantilla de la lista
desplegable. Puede introducir las fechas utilizando como delimitadores: barras,
guiones, puntos, comas o espacios en blanco. El rango de siglo para los años de dos
dígitos se toma de las opciones de configuración (Menú Edición, Opciones, pestaña
Datos).
Dólar. Define una variable numérica cuyos valores contienen un signo de dólar, un
punto como separador de la parte decimal y múltiples comas como separadores de
miles.
Moneda personalizada.
Cadena. Variable cuyos valores no son numéricos y, por ello, no se utilizan en los
cálculos. Pueden contener cualquier carácter hasta la longitud definida. Las
mayúsculas y la minúsculas son consideradas diferentes. También son conocidas
como variables alfanuméricas.
También tenemos la posibilidad de especificar la columna Etiqueta, que recoge una
breve descripción de las variables que sustituirá al nombre en el editor de resultados.
No describimos aquí los demás atributos como Valores, alineación, etc…(ver el tutorial
en línea para más información)
b) Introducimos los datos
Una vez definidas las variables, para la introducción de datos (en la pestaña Vista de
datos) simplemente habrá que situar el cursor en la primera celda de la columna y
comenzar a teclear los distintos valores de acuerdo con las especificaciones de cada
variable definida y, finalmente, pulsaremos ENTER o nos moveremos con el cursor
para fijar los valores introducidos.
Por ejemplo, queremos introducir los valores obtenidos en mediciones repetidas de
contenido en nitratos de una muestra de agua que aparecen tabulados a continuación:
VALORES (µg/l) FRECUENCIA VALORES(µg/l) FRECUENCIA
0.45
0.46
0.47
0.48
1
2
4
8
0.49
0.50
0.51
0.52
8
10
5
2
Definimos una única variable CONC, que tome valores reales, y empezamos a
introducir los datos
En el caso en que debemos introducir repetidamente el mismo valor podemos utilizar
los comandos Copiar y Pegar (incluso en varias celdas a la vez) o sus atajos (Control C
y Control V)
Se aconseja guardar la tabla de datos en un fichero después de la introducción de datos.
Para ello, se usa la opción “Guardar” o “Guardar como” del menu Archivo. Al igual que
cualquier programa Windows, se puede recorrer las carpetas para decidir donde guardar
el fichero.
Guardar la tabla de datos anterior en un fichero llamado nitrato.sav en la carpeta
C:\PRACTICAS\ESTADISTICA.
Una vez que se han entrado unos datos, es posible añadir entre dos filas de una variable
uno o varios datos nuevos usando la opción “Insertar caso” del menu Datos. La nueva
casilla aparece debajo de la posición actual de la casilla seleccionada.
Finalmente, podemos seleccionar un rango de casillas con el ratón manteniendo la tecla
Shift pulsada y copiarlas, cortarlas o pegarlas en otra posición utilizando los comandos
habituales del menu Editar.
I.2. Exploración de los datos.
Ahora que hemos introducido los datos, podemos pasar a una primera exploración. Lo
haremos con el menu Analizar.
Una buena idea es empezar por un diagrama de barras tener una primera impresión
visual. Para ello, seleccionamos la opción Barras en el submenú Interactivos
del menú Graficos. Nota: aunque exista la posibilidad de escoger directamente un
diagrama de barras en el menú Gráficos, se recomienda utilizar el submenú
Interactivos, que permite mucho mejor control sobre el gráfico.
En el cuadro de la izquierda aparece la lista de las variables que ya tenemos definidas.
Basta con seleccionar la variable que nos interesa y pasarla al cuadro variable
gracias a la flecha de la derecha..
A continuación, realizamos un diagrama de cajas-bigotes de los datos. Para ello,
seleccionamos la instrucción Diagrama de Cajas del menu Graficos. Puesto
que sólo tenemos una variable, realizamos un diagrama simple y seleccionamos la
opción Resumenes para distintas variables. Utilizamos en particular el
diagrama para detectar datos atípicos.
Si nos hemos convencido de qué medidas de centralización y de dispersión son las
adecuadas para nuestro conjunto de datos, podemos pedir un informe sobre las medidas
numéricas que escojamos. Para ello, seleccionamos la instrucción Explorar del
submenu Estadísticos descriptivos,
en el menu Analizar. Aparece el
cuadro de la Figura 2:
Pasamos las variables que nos interesan al cuadro Dependientes, y aceptamos.
Podemos cambiar los resumenes que proporciona SPSS, pinchando el cuadro
Estadísticos, o Gráficos.
I.3. Importar los datos desde un fichero.
En muchas situaciones, se nos proporcionan los datos en forma de un fichero ASCII.
Para trabajar con ellos, debemos importar los datos desde el fichero fuente.
Supongamos por ejemplo que, en una segunda sesión, se han medido otras 20 veces el
contenido en nitrato de la misma muestra de agua, y que los resultados están en el
fichero nitrato2.txt.
Al escoger la opción Leer
datos
de texto del menu Archivo, debemos
recorrer las carpetas para encontrar el fichero que buscamos. Lo seleccionamos y
aceptamos, abriéndose un asistente para la importación de datos, que consta de 6 pasos.
Al completar estos 6 pasos, bastante intuitivos, hemos importado los datos del fichero
nitrato2.txt. SPSS recoge los datos importados en un nuevo editor de datos y
cierra automáticamente el que teníamos abierto. Utilizando el visor de variables,
llamemos Conc a nuestra variable y guardamos los datos en un archivo llamado
nitrato2.sav.
Como queremos que las mediciones de las dos sesiones aparezcan en la misma ventana
para realizar un análisis comparativo, vamos a fundir los dos archivos nitrato.sav y
nitrato2.sav. Para ello, abrimos el fichero inicial nitrato.sav.
Seleccionamos la opción Datos->Fundir archivos->Añadir casos y
seleccionamos el archivo nitrato2.sav. Aparece la ventana
Para tener constancia de qué sesión proviene cada medición activamos la opción Indicar
origen del caso como variable, y entramos el nombre sesion. Aceptamos y obtenemos
en nuestro editor de datos una variable conc, que contiene las mediciones de las dos
sesiones, y una variable sesion, que vale 0 cuando la medición proviene de la primera
sesión, y 1 cuando proviene de la segunda sesión.
I.4 Nueva exploración de los datos.
Ahora que tenemos más datos, queremos repetir la exploración de datos de la primera
parte. Realizamos el histograma, el diagrama de cajas-bigotes. Podemos realizar
diagramas de caja-bigotes respetando las dos sesiones, seleccionando la opción
Resumenes para grupos de casos. En el cuadro variable pasamos conc,
mientras que pasamos sesion al cuadro Eje de categoría. ¿Aparecen algunos
datos atípicos?
Supongamos que hemos identificado el dato 0.56 que proviene de la segunda sesión
como un dato atípico y hemos decidido no tenerlo en cuenta para nuestro análisis.
Podemos borrarlo sencillamente, o podemos omitirlo, lo que nos permitirá recuperarlo
en cualquier momento. Para omitir datos, seleccionamos las casillas con las que nos
queremos quedar filtrándolas utilizando un criterio condicional: en el menu Datos,
escogemos la instrucción Seleccionar casos.
Activamos la opción Si se satisface la condición y aparece
En el cuadro de la derecha escribimos el criterio de selección, en este caso, para omitir
el dato igual a 0.56, podemos quedarnos con los datos menores de 0.55 por ejemplo.
Ya podemos calcular media, desviación típica etc... de los datos de conc sin el dato
atípico 0.56.
A la hora de estudiar nuestros datos, será interesante también comparar las dos sesiones.
Para ello, basta con especificar en la instrucción Analizar->Estadísticos
descriptivos->Explorar que conc es la variable dependiente, y que sesion es
un factor.
¿Y si queremos hacer un histograma sólo de los datos de la segunda sesión?
Ejercicios propuestos
1.
2.
El fichero ph.dat contiene los valores del pH sanguíneo en 80 individuos . Importar los datos y
realizar un análisis exploratorio, incluyendo histograma, diagrama de caja-bigotes, medidas de
centralización y dispersión.
El fichero liga0104.txt contiene la clasificación correspondiente a las ligas 2001/2002, 2002/2003 d y
2003/2004 de fútbol profesional. Realizar un análisis comparativo de las tres ligas.
Departamento de Matemática Aplicada y Estadística
Universidad Politécnica de Cartagena
Mathieu Kessler
Práctica . Monedas trucadas
El objetivo de esta práctica es decidir del número de veces que deberíamos tirar una moneda que
sospechamos está trucada, para llegar a una conclusión en un sentido o en otro.
Utilizaremos principalmente Excel, y realizaremos alguna gráfica con SPSS.
Pasos que seguiremos en esta práctica:
a)
Supondremos que la moneda está trucada y que la probabilidad de que salga cara es 0.65.
Aprenderemos a simular de una variable que puede tomar el valor 1 (que representa cara) y el valor
0 (que representa cruz).
b) A continuación realizaremos 10 tiradas, y calcularemos la proporción de 1.
c) Repetiremos el paso b) anterior 1000 veces.
d) Realizamo s un histograma de los 1000 valores de la proporción de 1 en series de 10 tiradas que
hemos obtenido en el paso anterior
e) A la vista del histograma decidimos si con 10 tiradas es fácil detectar que esta moneda está trucada.
f) Realizamos todo lo anterior con series con un mayor número de tiradas.
Paso a) y b): Generación de números aleatorios con Excel
Para simular una tirada de esta moneda trucada, abrimos Excel, nos colocamos en la primera celda, y la
barra de fórmulas, escribimos =aleatorio():
Barra de fórmulas
Al dar ENTER, obtenemos un número aleatorio escogido al azar entre 0 y 1. Debemos ahora transformar
este número real del intervalo [0,1] en uno de los dos valores enteros 1 o 0, de manera que la
probabilidad de obtener 1 sea 0.65. Para simular una tirada, construimos una variable que valga 1 si el
número uniforme anterior es menor que 0.65, y 0 si es mayor que 0.65:
Nos colocamos en la celda B1, y entramos en la barra de fórmulas la instrucción =SI(A1<0,65;1;0).
Notamos que ha cambiado el número que estaba en A1, se debe a que la instrucción aleatorio() es volátil:
se vuelve a evaluar cada vez que se ejecuta un cálculo en la hoja.
Necesitamos ahora más tiradas: seleccionamos las dos celdas A1 y B1, colocándonos en A1, mantenemos
la tecla Shift pulsada, y con las flechas de dirección nos desplazamos hacia B1. Copiamos el contenido
de las dos celdas (Ctr-C) y las pegamos en A2 y B2: ya tenemos otra tirada de la moneda trucada.
Repetir esta operación para obtener hasta 10 tiradas
En C1, vamos a calcular ahora la frecuencia de 1 en nuestras 10 tiradas: nos colocamos en C1 y en la
barra de fórmulas escribimos =contar.si(B1:B10;1).
Paso c) Obtención de los valores de la frecuencia de caras para 1000 series de 10
tiradas.
Repetimos ahora el pegado de las fórmulas correspondientes a A1 y B1, en las 1010 primeras filas de las
columnas A y B. Pegamos también la fórmula correspondiente a C1, en las 1000 primeras filas de las
columna C. En una celda de la columna C, la celda C14 por ejemplo, hemos por lo tanto obtenido la
frecuencia de 1 que aparecen en las 10 celdas de la columna B que están situadas al lado y por debajo de
la celda seleccionada, por ejemplo las celdas B14 a B23. Por otra parte como la instrucción
ALEATORIO() es volátil, los valores de la frecuencia que hemos encontrado son independientes, puesto
que todas las celdas se vuelven a evaluar a cada ejecución de un cálculo.
Paso d) Obtención del histograma de los valores de la proporción de caras para
1000 series de 10 tiradas.
Seleccionamos y copiamos las 1000 celdas de la columna C. Abrimos SPSS o Statistix y los pegamos en
una columna correspondiente a una nueva variable. Si preferimos trabajar con frecuencias relativas
(proporciones), definimos una nueva variable que se obtiene dividiendo la anterior por 10. Realizamos a
continuación el diagrama de barras. Yo obtengo el siguiente.
300
200
100
Fr
ec
ue
nci
a
0
,10
,20
,30
,40
,50
,60
,70
,80
,90
VAR00001
Paso e) Interpretación
¿Os parece fácil detectar, basándose en una serie de 10, tiradas que la moneda está trucada? ¿Qué modelo
parece razonable para la distribución de los valores que puede tomar la proporción de 1 en series de 10
tiradas de moneda?
Paso f) Investigación…
Investigar si con series que contienen más tiradas, será más fácil detectar que la moneda está trucada…
Departamento de Matemática Aplicada y Estadística
Universidad Politécnica de Cartagena
Prof. Mathieu Kessler
Ajuste por mínimos cuadrados
SPSS nos permite realizar ajustes por mínimos cuadrados para modelos lineales en los
parámetros, es decir para el caso en que la relación entre la variable dependiente
(también llamada variable respuesta) que nos interesa Y, y las variables explicativas
(tambíen llamados regresores) X1 , X2 ,..., Xk es
Existen k parámetros constantes β 1 , β 2 ,...,β k tales que
Y=β 1 X1 +β 2 X2 +...+β k Xk +ε
donde ε es una perturbación aleatoria
Hemos realizado observaciones del fenómemo: i.e conocemos para varias
combinaciones de valores de las variables independientes cuál ha sido el valor de la
variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de
las que disponemos. El ajuste consiste en encontrar valores aproximados de los
coeficientes β 1 , β 2 ,...,β k .
AJUSTE DE UNA RECTA.
El primer caso particular de importancia corresponde al famoso ajuste de una recta. En
este caso sólo consideramos una variable independiente X y buscamos una relación del
tipo
Y=aX+b+ε,
que está contemplado en nuestro modelo si consideramos
Y=β 1 X1 +β 2 X2 +ε
con
X1 =1
y
X2 =X,
en estas condiciones, β 1 es la ordenada al origen mientras que β 2 es la`pendiente de la
recta.
Nivel del mar en Venecia.
Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en
Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están
contenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extreme
value theory based on the r largest annual events'', Journal of Hydrology, 86 (1986).
Empezamos por importar los datos, (la primera línea del fichero contiene los
nombres de las variables) y realizamos una nube de puntos del nivel en función del año.
(Gráficos-> Dispersión.) Los datos parecen presentar una tendencia lineal,
aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una recta
para modelizar la evolución del nivel máximo anual del mar en Venecia en función del
tiempo.
Para obtener la ecuación de la recta ajustada, y así como el valor de los residuos,
utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Al
activarla obtenemos la siguiente ventana:
Figura 1
La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variables
explicativas que son 1 y A. La inclusión del término constante X1 =1 es la opción por
defecto. En en el caso en que queremos forzar el modelo por el origen, podemos
desactivar la casilla se hace al activar la casilla Incluir constante en la
ecuación que aparece en el cuadro de dialogo que se abre pinchando en Opciones.
La inclusión del término X2 se consigue pasando la variable Año al cuadro
Independientes.
Al pinchar en Aceptar, aparece la ventana de resultados:
Regresión
Variables introducidas/eliminadasb
Modelo
1
Variables
introducidas
AÑOa
Variables
eliminadas
.
Método
Introducir
a. Todas las variables solicitadas introducidas
b. Variable dependiente: NIVEL
Resumen del modelo
Modelo
1
R
.416a
R cuadrado
.173
R cuadrado
corregida
.156
Error típ. de la
estimación
18.6198
a. Variables predictoras: (Constante), AÑO
Ia
Ib
ANOVAb
Suma de
cuadrados
gl
Regresión
3552.057
1
Residual
16988.100
49
Total
20540.157
50
a. Variables predictoras: (Constante), AÑO
Modelo
1
Media
cuadrática
3552.057
346.696
F
10.245
Sig.
.002a
b. Variable dependiente: NIVEL
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
AÑO
B
-989.382
.567
Error típ.
346.477
.177
Coeficient
es
estandari
zados
Beta
.416
t
-2.856
3.201
Sig.
.006
.002
a. Variable dependiente: NIVEL
II
III
IV
Los recuadros se interpretan de la siguiente manera.
Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación
múltiple que nos indica la proporción de la variabilidad en los datos explicada por el
modelo de regresión.
Recuadro Ib: Proporciona el valor de la desviación típica residual.
Recuadro II En la columna Coefficientes no estandarizados podemos
leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el
coeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la línea Año, el
coeficiente de X2=Año.
En este caso la ecuación proporcionada es
Nivel máximo= -989.4+0.6Año.
Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes,
los podríamos utilizar para construir intervalos de confianza.
Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son
significativamente distintos de 0: en la columna t, obtenemos los valores de los
estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig,
podemos encontrar los p-valores de las pruebas H0 : β i=0 contra H1 : β i≠0, para cada
uno de los coeficientes.
Cabe destacar que en el cuadro de dialogo que aparece con la instrucción Analizar> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidades
interesantes:
• Al activar Guardar, podemos guardar los residuos y los valores predictivos,
también llamados valores ajustados, picando las casillas correspondientes. Una vez
•
•
que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestro
editor de datos.
En Estadísticos, podemos pedir por ejemplo intervalos de confianza para los
coeficientes
En Gráficos podemos pedir entre otras muchas cosas, un histograma de los
residuos.
Después de guardar los residuos y los valores ajustados, realizar una gráfica en la que
aparezcan tanto los valores observados del nivel como los valores predichos, en
función del año.
Ejercicios
Ajuste de una recta que pase por el origen
Considere el problema siguiente:
En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidad
radial de nebulosas extragalácticas con la esperanza de que alguna información
sobre esta relación pudiera proporcionar ideas acerca de cómo se formó el
universo y cuál puede ser su evolución futura. Sus descubrimientos revolucionaron
la astronomía y son la fuente de muchas investigaciones actuales. En esta práctica
vamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente:
Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity among
Extra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. )
Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 años luz)
y la velocidad se mide en km/sec.
Los datos se encuentran en el fichero hubble.txt con dos columnas, la primera
contiene la distancia mientras que la segunda contiene la velocidad de recesión. El
fichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobre
la distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad
de recesión debe ser nula. Reflexionar en particular sobre los datos negativos. La
pendiente de la recta forzada por el origen se llama la constante de Hubble.
Transformación de un modelo exponencial
Considere el problema siguiente: La hidrólisis de un cierto éster tiene lugar en medio
ácido según un proceso cinético de primer orden. Partiendo de una concentración
inicial desconocida del éster, se han medido las concentraciones del mismo a
diferentes tiempos obteniéndose los resultados siguientes.
T (mn) 3
4
10 15 20 30 40 50 60 75 90
C
25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4
103
(M)
a) Realice una nube de puntos de las dos variables. ¿ Le parece adecuado un modelo
lineal para escribir este conjunto de datos?
b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube de
puntos Y’ en función de t.
c) Realizar un ajuste por mínimos cuadrados de Y’ sobre t con un modelo del tipo:
y=ax+b. ¿Cuál es el modelo teórico que propone para C en función del tiempo?
d) Nos dan la información adicional de que se sabe con exactitud que la concentración inicial para T=0
era igual a 30.10-3 M. ¿Cómo podemos incluir esta información en nuestro modelo?
Inclinación de la Torre de Pisa.
G. Beri y B. Palla, 1988, "Considerazioni sulle ouù recenti osservazioni ottiche alla Torre Pendente di
Pisa", Estratto dal Bolletino della Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135,
citado en Moore, 1998, Estadística Aplicada Básica, Antoni Bosch editor, pág 615.
La torre inclinada de Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones de la
inclincación de la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el punto
donde estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias se
dan en décimas de milímetros por encima de 2.9m.
Año
75
Inclinación 642
76
644
77
656
78
667
79
673
80
688
81
696
82
698
83
713
84
717
85
725
86
742
Emisión de CO2 por los países europeos.
En la dirección http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisión de
CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997.
Importar los datos del fichero CO2.txt, cuya primera línea contiene los nombres de las variables.
Los códigos de los sectores de emisión son los siguientes:
0 Total inland emissions 4
Agriculture
1 Energy
5
Not available
2 Industry
6
Other
3 Transport
Tempeturas medias mensuales en San-Javier.
En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datos
meteorológicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podréis
encontrar los datos de las temperaturas mensuales medias para la estación meteorológica de Murcia San
Javier entre los años 1981 y 1990.
Resistencia del cemento
Se quiere estudiar la resistencia de unas piezas de cemento en función
de su edad en días.
Edad (días)
Resistencia (kg/cm^2)
1
13.0 13.3 11.8
2
21.9 24.5 24.7
3
29.8 28.0 24.1 24.2 26.2
7
32.4 30.4 34.5 33.1 35.7
28
41.8 42.6 40.3 35.7 37.3
Realizar la nube de puntos de la resistencia en funciónde la edad. ¿Parece presentar una tendencia lineal?
Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?
Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.
Producción de petroleo
Se quiere estudiar la evolución de la producción mundial de petroleo
de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt
Realizar la nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si
la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?
Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.
87
757
Departamento de Matemática Aplicada y Estadística
Universidad Politécnica de Cartagena
Curso 03/04
Ajuste por mínimos cuadrados (2)
Seguimos con la práctica de regresión lineal múltiple con SPSS. Recordar que
buscamos realizar ajustes por mínimos cuadrados para modelos lineales en los
parámetros, es decir para el caso en que la relación entre la variable dependiente
(también llamada variable respuesta) que nos interesa Y, y las variables explicativas
(tambíen llamados regresores) X1, X2,..., Xk es
Existen k parámetros constantes β1, β2,...,βk tales que
Y=β1X1+β2X2+...+βkXk+ε
donde ε es una perturbación aleatoria
Hemos realizado observaciones del fenómemo: i.e conocemos para varias
combinaciones de valores de las variables independientes cuál ha sido el valor de la
variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de
las que disponemos. El ajuste consiste en encontrar valores aproximados de los
coeficientes β1, β2,...,βk.
Regresión lineal múltiple.
Para ilustrar los comandos necesarios, analizaremos el conjunto de datos
correspondiente al problema siguiente: un ingeniero de producción es responsable de la
reducción del costo. Uno de las materias primas fundamentales en la producción es el
agua. Para estudiar el consumo de agua , el ingeniero apunta durante 17 meses el
consumo mensual de agua (y) junto con los siguientes indicadores: la temperatura
media mensual (x2 en ºF) la producción (x3 ), el número de días de trabajo en el mes
(x4) y el número de personal en la planta de producción (x5). Los datos están en el
fichero agua.txt.
Después de haber importado los datos (comprobar que todas las variables han sido
importadas como “numéricas”), pasamos al ajuste de los datos con un modelo
Y=β1X1+β2X2+β3X3+ β4X4+β5X5+ε
donde ε es una perturbación aleatoria normal con media
cero y varianza,σ2 y X1=1 (término constante)
Para ello, al igual que para la regresión lineal simple, utilizamos la instrucción Analizar>Regresión->Lineal. Ahora pasamos las cuatro variablesX2 a X5 en el cuadro de las
variables independientes. En el submenu de opciones, podemos entre otras cosas decidir
excluir el término constante en el modelo, lo que no haremos en este caso.
Obtenemos
Resumen del modelo
Modelo
R
R
R Error típ.
de la
cuadrado cuadrado
corregida estimación
1
,876
,767
,689 248,9641
a Variables predictoras: (Constante), X5, X4, X2, X3
Ib
Ia
Coeficientes
Coeficientes no
estandarizados
Modelo
1(Constante
)
X2
X3
X4
X5
a Variable dependiente: Y
Coeficient
es
estandariz
ados
B Error típ.
6360,337 1314,392
13,869
,212
-126,690
-21,818
II
5,160
,046
48,022
7,285
III
t
Sig.
4,839
,000
2,688
4,648
-2,638
-2,995
,020
,001
,022
,011
Beta
,419
1,671
-,415
-1,074
IV
Los recuadros se interpretan de la siguiente manera.
Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación
múltiple que nos indica la proporción de la variabilidad en los datos explicada por el
modelo de regresión.
Recuadro Ib: Proporciona el valor de la desviación típica residual.
Recuadro II En la columna Coefficientes no estandarizados podemos
leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el
coeficiente de X1=1 En este caso la ecuación proporcionada es
Consumo promedio= 6360.4+13.9X2+0.2X3-126.7X4+21.8X5
Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes,
los podríamos utilizar para construir intervalos de confianza.
Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son
significativamente distintos de 0: en la columna t, obtenemos los valores de los
estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig,
podemos encontrar los p-valores de las pruebas H0 : βi=0 contra H1 : βi≠0, para cada
uno de los coeficientes. En este caso todos los p-valores son pequeños, lo que implica
que nos quedamos con todas las variables en el modelo.
Podemos realizar con SPSS intentos de construcción de modelos. En particular
podemos llevar a cabo la eliminación hacia atrás, seleccionando en el cuadro de diálogo
abierto con la instrucción Analizar->Regresion->Lineal, el método “Hacia atrás”.
En el cuadro Opciones, podemos fijar el valor del umbral del p-valor que fijamos para
que una variable sea eliminada del modelo, cambiando el valor en “Salida”.
Por defecto aparece un valor del umbral de 0.1. Continuamos y aceptamos para obtener
la secuencia de modelos en los que posiblemente vayan siendo las variables eliminadas
una por una hasta dar con el modelo final. En este caso puesto que todos los p-valores
son menores que 0.1, el algoritmo se para en la primera iteración.
Ejercicios
Volumen de madera.
En ingeniería forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de
un tronco de un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca del
suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt
están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con
cuidado el volumen después de cortar el tronco de ( v: volumen, d: diámetro y a: altura)
1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura.
1. Proceda al análisis de los residuos, ¿Cuál es su diagnóstico?
2. Si se supone que el tronco es un cilindro perfecto, ¿ cuál sería la relación entre v,a y d ? Proponer una
transformación sobre los datos que sea acorde con esta relación física Realizar el ajuste lineal
correspondiente con especial interés en el análisis de los residuos.
3. Si se supone que el tronco es un cono perfecto, \¿ cuáles deberían ser los valores de los parámetros
del apartado anterior?.
Consumo de helados
Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una
familia durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de
helado por persona (y), junto con las cantidades siguientes que se pensaba podían tener alguna influencia
sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la
temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero
helados.dat
1. Represente gráficamente el consumo de helados en función de las semanas.
2. Determinar la matriz de correlación de las variables y,p,i y temp. Para ello se utiliza la opción
Analizar->Correlaciones->bivariadas, y como es usual en SPSS pasamos desde la lista de las
variables de la izquierda las variables que nos interesan. ¿Cuál es la variable que parece tener más
influencia en y?
3. Realizar un ajuste lineal de y sobre p,i y temp. ¿Qué vale la varianza residual y R^2?
4. Realizar un ajuste lineal de y sobre i y temp. Misma pregunta que en el apartado anterior
5. Guarde los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y en
función de semanas y ajucomp en función de semana.
Calor emitido por el fraguado de cemento.
Se estudia la relación entre la composición de un cemento tipo Portland y el calor desprendido durante la
fase de fraguado1. Los datos se pueden encontrar en el fichero hald.txt. La variable Y es la cantidad de
calor desprendido en calorías por gramos de cemento, mientras que las variables X1, X2 X3 y X4
representan el contenido en porcentaje de cuatro productos A, B, C y D.
1. Obtener la matriz de correlaciones de las distintas variables.
2. Realizar un ajuste lineal utilizando el procedimiento de eliminación hacia atrás.
Perdida de peso de un producto
Se sabe que un determinado producto pierde peso después de ser producido. En el archivo peso.txt se ha
recogido la diferencia (peso nominal-peso real) para varias unidades en distintos tiempos.
1. Ajustar un modelo de regresión lineal simple para explicar la evolución de la diferencia de peso en
función del tiempo.
2. Realizar la gráfica de los residuos en función de los valores ajustados. ¿Le parece adecuado nuestro
modelo para analizar estos datos? ¿Tiene alguna idea para mejorarlo?
3. Realizar el ajuste por un polinomio de orden 2.
1
Fuente: A. Hald, Statistical Theory with Engineering Applications, Wiley, New York, 1952, p. 647
Autor: Pilar Sanmartin / Mathieu Kessler
ESTADíSTICA INDUSTRIAL
Prof: Mathieu Kessler
PRACTICAS.
Curso 04/05
Prof. Mathieu Kessler
COMPONENTES PRINCIPALES
Ejemplo: Empresas con mayor volumen de ventas
Consideramos las nueve empresas españolas con mayor volumen de ventas en 1992:
Empresa
Ventas
Beneficios
El Corte Inglés
775104.0
23795.00
Iberdrola
775218.0
58778.00
Repsol Comercial
700963.0
1531.00
Seat
674063.0
-12756.0
Tabacalera
631003.0
14729.00
FASA Renault
527744.0
9059.00
Repsol Petroleo
489155.0
12541.00
Pryca
448465.0
13495.00
Iberia
445853.0
-34824.0
Y buscamos extraer una componente principal para conseguir una reducción de la dimensión (aunque
aquí sea inutil dado que sólo tenemos dos variables)
Importar los datos del fichero empresas.txt.
Notaciones-recordatorios de clase:
Para este conjunto de datos tenemos dos variables X1 y X2, que describen 9 individuos (las empresas) y
perseguimos entender la estructura de variabilidad presente en los datos: ¿cuál es la primera fuente de
variación entre estos individuos?, es decir, ¿en qué se diferencian?
Para ello, buscamos un cambio de sistema de coordenadas. Llamamos Z1 y Z2 las componentes de la
nube de puntos en el nuevo sistema de coordenadas, hemos escogido Z1 y Z2 de tal manera que
1) La variabilidad total se preserva: Var(X1)+Var(X2)=Var(Z1)+Var(Z2)
2) La varianza de Z1 es la “más grande posible”, y por lo tanto, Var(Z2) es pequeña.
3) Z1 y Z2 no están correlados.
Se puede demostrar que se consigue si los vectores del nuevo sistema de coordenadas corresponden a los
vectores propios de la matriz de covarianza. (ver apuntes)
Análisis en componentes principales con SPSS.
Para aplicar la técnica de componentes principales con ayuda del programa SPSS importamos los datos
del fichero empresas.txt y usamos la opción:
Analizar->reducción de datos->análisis factorial
Autor: Pilar Sanmatín /Mathieu Kessler
Autor: Pilar Sanmartin / Mathieu Kessler
En el submenú extracción:
1) Escogemos el método “Componentes principales”.
2) Debemos escoger si analizamos la matriz de correlaciones o la matriz de covarianza- ver el apéndice
para una explicación de la diferencia entre las dos opciones.
3) Pedimos en Mostrar: la solución factorial sin rotar (las rotaciones se utilizan en análisis en
componentes principales), y la gráfica de sedimentación (que llamamos en los apuntes, gráfica de
codo)
4) Finalmente, debemos escoger cuantas componentes aparecerán descritas en la ventana de resultados:
esto no cambia el análisis sino solamente la cantidad de información que nos proporciona el
programa al final. Podemos escoger que se limite a los autovalores1 mayores que una cierta cantidad
o especificar nosotros el número de componentes descritos. (la opción que recomiendo)
En el submenú extracción:
Seleccionamos la opción de “Guardar como variables”: las puntuaciones factoriales son los valores para
cada individuo de Z1 y Z2.
También seleccionamos la opción de “Mostrar la matriz de coeficientes de punt. factoriales”, que nos
permitirá deducir la expresión del cambio de sistema.
1
El término autovalores es equivalente a “valores propios”.
Autor: Pilar Sanmatín /Mathieu Kessler
Autor: Pilar Sanmartin / Mathieu Kessler
De momento no modificamos nada más y le damos a Aceptar.
Resultados de SPSS.
En cuanto a resultados, obtenemos por una parte los autovalores
Deducimos que el mayor autovalor es λ1=1.543 mientras que el segundo es λ2=0.457.
La matriz de componentes nos da los coeficientes de correlación entre las componentes y las variables
originales (tipificadas) de donde podríamos deducir los vectores propios asociados, pero preferimos la
matriz de coeficientes de las puntuaciones factoriales que intrepretaremos a continuación:.
Escribe las ecuaciones de la transformación
Ejercicios:
Ejemplo: Encuesta de presupuestos familiares. (Peña, 2002, Análisis de datos multivariantes,
p140)
En el fichero epf.txt, La encuesta de presupuestos familiares en España para el año 1990/1991, recoge los
gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como una
provincia). Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= mobiliario
doméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8= turismo y ocio, X9=
otros gastos.
1. Realizar el análisis en componentes principales, interpretar los coeficientes de los dos primeros
componentes principales
2. Clasificar las provincias según la primera componente.
Ejemplo: Medidas.
En el fichero medidas.txt se encuentran las medidas en inches del pecho, cintura y caderas
correspondientes a 20 personas2 . Vamos a intentar interpretar la variabilidad presente en los datos.
1. Un primer paso consiste en examinar las inter-relaciones entre las variables utilizando la matriz de
correlación. Calcular a continuación la matriz de covarianzas. Observamos que las varianzas son del
mismo orden de magnitud, lo que, junto con el hecho de que las unidades de medidas de las tres
variables son las mismas, nos lleva a realizar el análisis en componentes principales con la matriz de
covarianzas.
2. Realizar un análisis en componentes principales. ¿Cómo podemos interpretar los componentes?
¿Cuántos componentes retendremos?
2
Conjunto nº 79 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,
Chapman & Hall.
Autor: Pilar Sanmatín /Mathieu Kessler
Autor: Pilar Sanmartin / Mathieu Kessler
Ejemplo: Consumo de proteinas en Europa
En el fichero proteinas.txt, podeis encontrar los datos correspondientes al consumo de proteinas en 25
paises europeos3 correspondientes a nueve grupos de alimentos. Los datos datan de 1973. Los nombres
de las variables son las siguientes:
1.
Country: País
2.
RdMeat: Carne roja
3.
WhMeat: Carne Blanca
4.
Eggs: Huevos
5.
Milk: Leche
6.
Fish: Pescado
7.
Cereal: Cereales
8.
Starch: Feculentes
9.
Nuts: Frutos secos, y aceites
10.
Fr&Veg: Frutas y verduras
Realizar un análisis de componentes principales.
Apéndice: Matriz de covarianzas o Matriz de correlaciones?
En el submenu Extracción podemos escoger entre analizar la matriz de covarianzas o la correlaciones,
explicamos a continuación la diferencia entre las dos opciones.
En el caso en que las variables tengan ordenes de magnitud muy distintos, y en particular ordenes de
dispersión muy distintos, las variables no aportan la misma contribución a la variabilidad total, y esto nos
puede llevar a descartar una variable importante en la estructura de variabilidad sólo porque su orden de
magnitud es menor que el de otra. Las variables con orden de magnitud grande dominarían por completo
el análisis. En particular, si cambiamos las unidades, los resultados podrían cambiar completamente: se
trata de una característica muy poco afortunada del análisis en componentes principales.
En el caso en que las variables son de orden de magnitud distintos, podemos transformarlas para obtener
nuevas variables que sí se puedan comparar. Esto se consigue tipificando las variables, es decir
restándoles su media y diviendoles por su desviación típica:
Definición: Sea X una variable asociada a un conjunto de datos, se obtiene la versión tipificada de X a
través de la transformación:
Y=(X-media(X)/(Desv. Típica(X))
La variable Y en el conjunto es centrada (de media cero) y tiene una desviación típica igual a 1.
Si tipificamos todas las variables X1, X2, X3, … del conjunto y formamos las variables Y1, Y2, Y3,… es
posible comprobar que la matriz de covarianza de Y1, Y2, Y3, … es igual a la matriz de correlación de
X1, X2, X3, … Por lo tanto, realizar un análisis en componentes principales sobre la matriz de
correlación de X1, X2, X3, … es equivalente a realizarlo con la matriz de covarianzas de las variables
tipificadas Y1, Y2, Y3… Seleccionamos en general analizar la matriz de correlación de X1, X2, X3, …
en el caso en que sus desviaciones típicas son de ordenes de magnitud distintos.
3
Conjunto nº 360 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,
Chapman & Hall.
Autor: Pilar Sanmatín /Mathieu Kessler
ESTADíSTICA INDUSTRIAL
Prof: Mathieu Kessler
PRACTICAS.
ANALISIS CLUSTER
Algorítmo K-medias
Ilustraremos el análisis en conglomerados con el algorítmo k-medias en SPSS,
utilizando los ejemplos vistos en clase y extraidos de D. Peña, Análisis de datos
multivariantes (2002).
Importar los datos del fichero Ruspini.txt.
Realizar un diagrama de dispersión de Y en función de X.
Para realizar el conglomerado de K medias, utilizamos
Analizar->clasificar->conglomerado de K medias
Pasamos las variables X e Y al cuadro variables, seleccionamos el número G de
conglomerados que deseamos construir (empezamos con 2).
En el caso en que deseamos fijar los centros iniciales de los conglomerados, debemos
especificar un archivo con tantas columnas como variables y tantas líneas como
conglomerados y que contenga las coordenadas de los centros. También necesitaremos
en este caso escoger la opción “Sólo clasificar” para que SPSS no actualice los centros
en cada iteración.
en iterar tenemos la posibilidad de fijar el número máximo de iteraciones, la opción por
defecto es de 10.
en guardar pediremos que se guarden los conglomerados de pertenencia
Finalmente, podemos en el submenu opciones, pedir que nos proporcione la tabla de
ANOVA.
Después de realizar el análisis, podemos ahora visualizar los grupos formados:
volvemos a la ventana de datos, y observamos que ha aparecido una nueva columna
con los índices de l conglomerado al que pertenece cada individuo. Podemos realizar
una gráfica de dispersión de tipo interactivo, donde especificamos que etiquete los datos
mediante la variable correspondiente al índice del conglomerado de pertenencia.
A
AA
2A 2
A2
A2 A A
A A A2 A2A2 222 2
A
A A2A A2
A
A
22 2 22 2 2A
A
150,00
A
2
2
A
2
2
A
100,00
2
A
AA
A
AA
2 A 2
22
A
22AAA
2 2A 22
22
A A A
2
y
A
2 2
1
A
A1 A A
1 A 1 11
A
A1
1
A 1 A A1A AA 11
1
1
A 1
A 1
1A
1
A
A
A
50,00
1
1
A
1 A1 1
AA
AA1
11 A
1
A 1 A
AA
1 1 1A 1
A
A
1
1
A
0,00
0,0
25,0
50,0
1
75,0
100,0
x
Cálculo de la suma de cuadrados dentro de los grupos final (SCDG).
Utilizando la tabla ANOVA proporcionada por SPSS, se puede deducir el valor final de
la suma de cuadrados dentro de los grupos.
ANOVA
Error
Conglomerado
Media cuadrática gl
Media cuadrática gl
X
X
Y
Y
12539,059
12539,059
142496,975
142496,975
1
1
1
1
Media
cuadrática
Media
cuadrática
771,382
771,382
452,424
452,424
F
Sig.
16,255
16,255
314,963
314,963
,000
,000
,000
,000
gl
gl
73
73
73
73
A partir de las cantidades de la columna “Error”, podemos calcular la SCDG:
multiplicando la media cuadrática por los grados de libertad (gl) obtenemos la
contribución de cada variable a la suma de cuadrados, y la SCDG total se obtiene
sumando las dos contribuciones:
SCDG(2)=771,382*73+452,424*73=
89337,84
En particular podemos calcular el estadístico F que nos permitirá, utilizando la regla de
Hartigan, confirmar el número de grupos con el que nos quedamos.
F=(SCDG(G)-SCDG(G+1))/(SCDG(G+1)/(n-G-1))
Volver a ejecutar el algorítmo para 3 y 4 conglomerados y rellenar la tabla siguiente:
G=2
Suma de cuadrados
G=3
G=4
Variable X
Variable Y
Total
F
Repetir el análisis para los datos estanderizados: calcular la media y la desviación típica
de X e Y, construir las variables estanderizadas zx=(x-mediax)/sdx y zy=(ymediay)/sdy. Represente el diagrama de dispersión de zy en función de zx, en su
opinión, ¿cambiará significativamente el resultado del análisis de conglomerados?
Ejercicio: En el archivo mundodes.sav1 , podeis encontrar los datos de cinco variables
demográficas, tasa natalidad (por 1000 habitantes), tasa mortalidad (por 1000
habitantes), mortalidad infantil (debajo de 1 año), esperanza de vida para los hombres
y esperanza de vida para las mujeres.
Realizar el análisis en conglomerados para 3, 4 y 5 grupos aplicando el criterio de
Hartigan para deducir el número de conglomerados. ¿Se pueden interpretar los grupos
que aparecen? Realizar un diagrama de dispersión con la tasa de natalidad y la
mortalidad infantil, etiquetando los casos utilizando el índice del conglomerado de
pertenencia.
Ejercicio: Volver a analizar los conjuntos de datos de proteinas y de la encuesta de
presupuestos familiares que se introdujeron en la práctica anterior.
1
Fuente: "UNESCO 1990 Demographic Year Book" y de "The Annual Register 1992".
Citado en Peña, D. (2002), Análisis de Datos Multivariantes, Mc-Graw Hill.
ESTADíSTICA INDUSTRIAL
Prof: Mathieu Kessler
PRACTICAS
ANALISIS CLUSTER 2: métodos jerárquicos
Ilustraremos el análisis de clasificación jeráquica en SPSS, empezando con el ejemplo
sencillo en el que queremos realizar una clasificación jerárquica de cuatro individuos
basándonos en los valores de dos variables:
X
Y
0,30
0,35
0,7
0,8
0,6
0,4
0,8
0,5
Representamos la nube de puntos con un diagrama de dispersión, y pedimos a SPSS
que lleve a cabo la clasificación jerárquica:
Utilizamos
Analizar->clasificar->conglomerados jerárquicos
Pasamos todas las variables al cuadro variables
En el submenu Gráficos, escogemos la opción del dendograma.
Consideremos ahora el submenu “Método”
En método de conglomeración, tenemos la posibilidad de escoger uno de varios
métodos (en clase vimos el de Vecino más próximo y el de Vecino más lejano) para
calcular la distancia entre dos grupos. Un método que parece dar buenos resultados es el
de Ward.
También podemos decidir de transformar los valores y estanderizar las variables en el
caso en que sus ordenes de magnitud son distintos, escogiendo las puntuaciones Z por
ejemplo.
En guardar pediremos que se guarden los conglomerados de pertenencia:
Tenemos dos posibilidades: al escoger “Solución única”, escogemos el número de
grupos que queremos que considere: SPSS empieza en el nivel más alto de la
clasificación (sólo 1 grupo) y va bajando hasta encontrar el número de grupos requerido.
Realizar el análisis con dos grupos.
Si escogemos Rango de soluciones: desde 2 hasta 4 grupos por ejemplo: SPSS creerá 3
variables de pertenencia, la primera contendrá los índices de pertenencia en el caso en
que sólo consideramos dos grupos, la segunda tres, etc…
Realizamos el análisis para dos grupos (solución única 2 grupos) escogiendo el método
del vecino más próximo por ejemplo, obtenemos en la ventana de resultados el historial
de conglomeraciones
Historial de conglomeración
Conglomerado que
se combina
Etapa
Coeficientes
Conglomerado 1 Conglomerado
2
1
2
3
1
3
1
2
4
3
Etapa en la que el
conglomerado
aparece por primera
vez
Próxima
etapa
Conglomerado 1 Conglom
erado 2
,740
1,000
6,890
0
0
1
0
0
2
Este historial nos informa que la obtención de una clasificación jerárquica con dos
grupos finales se ha realizado en tres etapas.
Recordar que el algoritmo se inicia (etapa 0) con tantos conglomerados como
individuos (en este caso, cuatro, numerados del 1 al 4, según su orden en la ventana de
datos). Leemos en el historial que en la etapa 1 que se han combinado el conglomerado
1 y el conglomerado 2, es decir el individuo 1 y el individuo 2, por ser los dos más
próximos. En las columnas situadas a la derecha de la tabla, podemos por una parte
saber si el individuo ya ha sido asociado con otro conglomerado en una etapa anterior,
que no es el caso aquí, y cuando volvéra a ser combinado (próxima etapa) que en
nuestro caso corresponde a la etapa 3.
Ahora tenemos 3 conglomerados: uno formado por los individuos 1 y 2, y otros dos
que contienen los individuos 3 y 4 individualmente.
En la etapa 2, combinan el conglomerado 3 con el 4, es decir los dos individuos 3 y 4.
Leemos que ninguno de estos dos conglomerados había sido aglomerado previamente.
Finalmente, en la etapa 3, se junta el conglomerado 1, es decir el que contiene el
individuo 1, (recordar que estaba asociado con el individuo 2, desde la etapa1) con el
conglomerado que contiene el individuo 3, (que estaba con el individuo 4 desde la etapa
2).
El algoritmo se acaba puesto que todos los individuos están en un único gran
conglomerado.
En la ventana de datos, ha aparecido una nueva variable que contiene el conglomerado
de pertenencia de cada individuo, para el número de grupos escogidos en el submenú
Guardar (ver página anterior). En nuestro caso escogimos dos grupos, los dos primeros
individuos tienen por conglomerado de pertenencia el 1, mientras que los dos últimos el
2.
Ejercicio: Proteinas.
Considerar el fichero del consumo de proteinas de la práctica anterior.
1.
2.
3.
Realizar una clasificación jerárquica de los paises en base a su consumo de proteinas según las
distintas fuentes de alimentación. Podreis utilizar el método de Ward, y especificar que los casos
se etiqueten con la variable Country. Guardar los conglomerados de pertenencia para un rango
de soluciones de 2 a 4.
Contestar, examinando el historial de iteraciones, a las siguientes preguntas: ¿qué dos paises se
combinan primero? ¿En qué consiste la segunda etapa? ¿Cuándo es la primera vez que se forma
un conglomerado con más de dos paises?
Examinar el dendograma: si queremos quedarnos con tres grupos, realizar la lista de los paises
que pertenecen a cada grupo. ¿y con 4 grupos?
3
3
0
4.
Realizar el análisis en componentes principales. Guardar las puntuaciones de los paises según el
primer componente. Ordenar los paises por orden creciente de estas puntuaciones. ¿El orden
obtenido parece guardar relación con los grupos obtenidos en el apartado anterior? ¿Cómo
explicais esta relación?
Ejercicio : Ciudades
En el fichero ciudades.txt, se encuentran datos que representan las condiciones económicas de 48
ciudades en el mundo en 1991. Los datos fueron recogidos por el “Economic Research Department” de
“Union Bank of Switzerland” (disponibles en http://lib.stat.cmu.edu/DASL). Las cuatro variables son
1. City: ciudad
2. Work: el número de horas anuales de trabajo, calculado como la media correspondiente a 12
actividades determinadas.
3. Price: precio de un conjunto de 112 bienes escogidos.
4. Salary: Sueldo medio correspondiente a 12 actividades determinadas
Realizar un análisis en clusters jerárquicos de los datos, con el método de encadenamiento completo
(vecino más lejano). ¿Cuántos grupos aparecen?
Ejercicio : Suelos
En el fichero suelos.txt, se encuentran datos correspondientes a 20 muestras de suelos. Clasifícalos en
cuatro grupos utilizando los métodos del vecino más cercano, del vecino más lejano y del centroide.
Dibuja los cuatro grupos obtenidos respecto a las variables contenido de arena y contenido de materia
orgánica.
ESTADíSTICA INDUSTRIAL
Prof: Mathieu Kessler
PRACTICAS.
Curso 02/03
ANALISIS DESCRIPTIVO DE SERIES TEMPORALES
Ilustraremos el análisis descriptivo de series temporales con los datos de las
temperaturas mensuales en San Javier, desde 1981 hasta 1990.
Importar los datos del fichero SanJavier.txt.
Para realizar un estudio descriptivo clásico de series temporales, separando el
componente tendencia-ciclo, el componente estacional así como los residuos, es
necesario especificar la periodicidad natural de la serie que estamos contemplando. Para
ello, utilizamos el comando Datos/Definir Fechas,
Escogemos el tipo de datos que tenemos, en este caso, años y meses, y especificamos la
fecha del primer caso. Al aceptar, observamos que se crea en nuestra hoja tres variables
conteniendo el mes, el año y la fecha de cada observación.
A continuación, antes de empezar con la descomposición de la serie, es fundamental
realizar un análisis descriptivo exploratorio con representaciones gráficas.
La primera gráfica que realizamos se hará a través de la instrucción Secuencia del menu
Gráficos. La variable que queremos representar es la temperatura y ponemos escoger la
fecha (“DATE”) como etiquetas para el eje OX. En el submenú Líneas de referencia,
tenemos la posibilidad de añadir líneas verticales para cada cambio de año, de mes o en
fechas señaladas que escojamos. Otras opciones se pueden fijar en el submenú
Formato.
A la vista de la gráfica de la serie temporal, confirmamos la periodicidad clara de la
serie con periodo 12. No observamos ningún dato atípico claro.
La segunda gráfica útil es el autocorrelograma, que se dibuja con la instrucción
Autocorrelaciones del submenú Gráficos/Serie temporal. Podemos desactivar la
opción correlaciones parciales, para quedarnos sólo con las autocorrelaciones. ¿Cómo
se interpreta la gráfica obtenida?
Podemos ahora proceder al análisis de descomposición de la serie. Vamos a empezar
por calcular la media móvil asociada.
Para ello, en el menú Transformar, utilizamos la instrucción Crear serie temporal.
Pasamos la variable tmp al cuadro nuevas variables, escogemos la función Media
móvil centrada, y la amplitud igual a 3 para empezar. No debemos olvidar de pulsar el
botón Cambiar para que el cambio en el cuadro de dialogo sea efectivo.
Al aceptar la instrucción, obtenemos en la hoja de cálculo una nueva variable que se
llama tmp_3 que contiene la media móvil de amplitud 3 asociada a la serie tmp.
¿Sabríais calcular a mano los términos de esta nueva serie?
Representar en una misma gráfica utilizando la instrucción Gráficos/Secuencia, la
serie tmp junto con la media móvil asociada. ¿Cuál ha sido el efecto de calcular la
media móvil de amplitud 3?
Volver a calcular las series móviles variando la amplitud escogida ( por ejemplo, 7 y 11
y 12 ). Representar todas estas series en una misma gráfica.
Calcular la serie en la que hemos restado el componente de tendencia. ¿Cómo
podríamos evaluar el componente estacional?
Finalmente vamos a pedir a SPSS que realice la descomposición completa de la serie.
Para ello utilizamos, en el menú Analizar la instrucción Descomposición estacional
del submenú Series temporales.
Pasamos la variable tmp al cuadro de la derecha, escogemos un modelo aditivo, y al
tratarse de una periodicidad par, los puntos finales se ponderan por 0.5. (corresponde a
lo que hemos llamado 2x12 MA en los apuntes).
En el submenú Guardar, podemos pedir que los componentes calculados se guarden
como nuevas variables, se sustituyan a los componentes ya calculados de una análisis
anterior o se descarten. (no crear)
Al aceptar, SPSS nos proporciona en la ventana de resultados los cálculos de los índices
estacionales, es decir el efecto medio de cada mes. También aparecen en la hoja de
datos, las nuevas variables según la nomenclatura:
• ERR_1: Residuos de la descomposición, también llamado componente irregular.
• SAS_1: Serie de-estacionalizada, es decir la serie a la que se ha restado el efecto
periódico.
• SAF_1: Componente estacional.
• STC_1: estimación de la tendencia ciclo.
Tenemos las siguientes relaciones, ¿Cómo se interpretan?
TMP= STC_1+ SAF_1+ ERR_1.
SAS_1=TMP- SAF_1
SAF_1= TMP - STC_1- ERR_1.
Ejercicios.
1. Analizar la serie del índice de paro en España desde tercer trimestre 1976 hasta 3
trimestre 2003. Fichero: paro.txt
2. Analizar la serie de la demanda mensual de energía en España desde 1998 hasta
2002.

Documentos relacionados