Práctica 0. Introducción al programa SPSS EL SPSS es un conjunto
Transcripción
Práctica 0. Introducción al programa SPSS EL SPSS es un conjunto
Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Mathieu Kessler. Práctica 0. Introducción al programa SPSS EL SPSS es un conjunto de programas orientados a la realización de análisis estadísticos aplicados a las ciencias sociales. Nos permite realizar análisis y gráficos estadísticos sin tener que conocer la mecánica de los cálculos ni la sintaxis de los comandos del sistema. Comparado con otros programas, es más intuitivo y fácil de aprender. Su desventaja es que es menos flexible y con menos procedimientos avanzados que otros programas comerciales. SPSS es bueno a la hora de organizar y analizar datos. Se puede ordenar datos, calcular nuevos datos y realizar una gran variedad de análisis estadísticos. En teoría el tamaño de los ficheros de datos que SPSS puede manejar no está limitado por lo que puede trabajar con ficheros grandes. Esta versión también permite el manejo cómodo de ficheros, la personalización de los informes, y el cortar y pegar en otros programas. Para ejecutarlo, se busca el programa en Inicio. pulsa dos veces sobre el icono del programa, en el escritorio de Windows. Hay dos tipo de archivos asociados a SPSS: - Archivos de datos: tienen extensión .sav y están en formato SPSS. - Archivos de texto: tienen extensión .sps (archivos de sintaxis) o .spo (archivos de resultados. 1. Componentes básicos de SPSS. Los pasos básicos en el análisis de datos consisten en • Introducir los datos, manualmente o recurriendo a un archivo ya existente. • Seleccionar un procedimiento estadístico. • Seleccionar las variables para el análisis. las variables que podemos usar en cada procedimiento se muestran en un cuadro de diálogo del que se seleccionan. • Ejecutar el procedimiento y ver los resultados. Los resultados aparecen en una ventana de resultados y se pueden guardar como archivos con extensión .spo. Los gráficos se pueden modificar en la ventana del editor de gráficos. La primera presentación es de una tabla de datos, donde se deberán introducir los datos de cada problema o leerlos de un fichero. Corresponde al Editor de datos. Con el editor de datos podemos crear nuevos archivos o modificar los existentes. No se puede tener más de un archivo de datos abierto al mismo tiempo en la misma sesión de SPSS. Dentro del editor de datos, dos vistas son posibles: Vista de datos : muestra los valores de datos reales o las etiquetas de valor definidas: - Las filas son casos. Cada fila representa un caso u observación. - Las columnas son variables. Cada columna representa una variable o característica que se mide. - Las casillas contienen valores numéricos o de cadena, siendo éste un valor único de una variable para cada caso. A diferencia de una hoja de cálculo, las casillas del editor de datos no pueden contener fórmulas. Vista de variables: contiene descripciones de los atributos de cada variable del archivo de datos. Aquí: - Las filas son variables. - Las columnas son atributos o características de las variables. Cambiamos de una vista a otra a través de las pestañas en la parte inferior de la ventana. Otras ventanas irán apareciendo a medida que vayamos realizando nuestro análisis, podrán contener gráficos (Editor de gráficos), informes con los resultados, etc… 2. Primeros pasos con SPSS Antes de todo, debemos introducir los datos. Para hacerlo, distinguiremos dos posibilidades: introducimos los datos manualmente o los importamos a nuestra hoja de cálculo desde un fichero externo. En el ejemplo ilustrativo que seguiremos a lo largo de esta primera sesión, veremos las dos situaciones. I.1. Introducimos los datos manualmente: a) Definimos las variables: Debemos definir, en primer lugar, las variables, utilizando la vista de variables, activada a través de la pestaña en la parte inferior de la ventana. Utilizando una fila para cada variable especificamos los atributos necesarios. Definimos el nombre de cada variable, y el tipo de datos que contiene cada una. Los valores de estas variables, en función del tipo seleccionado serán visualizadas según un patrón determinado y sólo estarán disponibles para estas variables aquellas operaciones que son esperables para el tipo de que se trate en cada caso. Si se pulsa el botón tipo y luego en los puntos suspensivos que aparecen en la casilla tenemos un cuadro de diálogo en el que se presentan los siguientes tipos de variables posibles: - Numérico. Variable cuyos valores son números. Los valores se muestran en el formato numérico estándar, utilizando los delimitadores decimales especificados en la Configuración Regional del Panel de control. El editor de datos acepta valores numéricos en formato estándar o en notación científica. - Coma. Define una variable numérica cuyos valores se muestran con comas de separación cada tres posiciones y con un punto como separador de la parte decimal. El editor de datos acepta los valores numéricos para este tipo de variables, con o sin comas, o en notación científica. - Punto. Define una variable numérica cuyos valores se muestran con puntos de separación cada tres posiciones y con una coma como separador de la parte decimal. - - - - El editor de datos acepta valores numéricos para este tipo de variables, con o sin puntos, o en notación científica. Notación científica. Define una variable numérica cuyos valores se muestran con una E intercalada y un exponente con signo que representa una potencia de base diez. Fecha. Variable numérica cuyos valores se muestran en uno de los diferentes formatos de fecha-calendario u hora-reloj. Seleccione una plantilla de la lista desplegable. Puede introducir las fechas utilizando como delimitadores: barras, guiones, puntos, comas o espacios en blanco. El rango de siglo para los años de dos dígitos se toma de las opciones de configuración (Menú Edición, Opciones, pestaña Datos). Dólar. Define una variable numérica cuyos valores contienen un signo de dólar, un punto como separador de la parte decimal y múltiples comas como separadores de miles. Moneda personalizada. Cadena. Variable cuyos valores no son numéricos y, por ello, no se utilizan en los cálculos. Pueden contener cualquier carácter hasta la longitud definida. Las mayúsculas y la minúsculas son consideradas diferentes. También son conocidas como variables alfanuméricas. También tenemos la posibilidad de especificar la columna Etiqueta, que recoge una breve descripción de las variables que sustituirá al nombre en el editor de resultados. No describimos aquí los demás atributos como Valores, alineación, etc…(ver el tutorial en línea para más información) b) Introducimos los datos Una vez definidas las variables, para la introducción de datos (en la pestaña Vista de datos) simplemente habrá que situar el cursor en la primera celda de la columna y comenzar a teclear los distintos valores de acuerdo con las especificaciones de cada variable definida y, finalmente, pulsaremos ENTER o nos moveremos con el cursor para fijar los valores introducidos. Por ejemplo, queremos introducir los valores obtenidos en mediciones repetidas de contenido en nitratos de una muestra de agua que aparecen tabulados a continuación: VALORES (µg/l) FRECUENCIA VALORES(µg/l) FRECUENCIA 0.45 0.46 0.47 0.48 1 2 4 8 0.49 0.50 0.51 0.52 8 10 5 2 Definimos una única variable CONC, que tome valores reales, y empezamos a introducir los datos En el caso en que debemos introducir repetidamente el mismo valor podemos utilizar los comandos Copiar y Pegar (incluso en varias celdas a la vez) o sus atajos (Control C y Control V) Se aconseja guardar la tabla de datos en un fichero después de la introducción de datos. Para ello, se usa la opción “Guardar” o “Guardar como” del menu Archivo. Al igual que cualquier programa Windows, se puede recorrer las carpetas para decidir donde guardar el fichero. Guardar la tabla de datos anterior en un fichero llamado nitrato.sav en la carpeta C:\PRACTICAS\ESTADISTICA. Una vez que se han entrado unos datos, es posible añadir entre dos filas de una variable uno o varios datos nuevos usando la opción “Insertar caso” del menu Datos. La nueva casilla aparece debajo de la posición actual de la casilla seleccionada. Finalmente, podemos seleccionar un rango de casillas con el ratón manteniendo la tecla Shift pulsada y copiarlas, cortarlas o pegarlas en otra posición utilizando los comandos habituales del menu Editar. I.2. Exploración de los datos. Ahora que hemos introducido los datos, podemos pasar a una primera exploración. Lo haremos con el menu Analizar. Una buena idea es empezar por un diagrama de barras tener una primera impresión visual. Para ello, seleccionamos la opción Barras en el submenú Interactivos del menú Graficos. Nota: aunque exista la posibilidad de escoger directamente un diagrama de barras en el menú Gráficos, se recomienda utilizar el submenú Interactivos, que permite mucho mejor control sobre el gráfico. En el cuadro de la izquierda aparece la lista de las variables que ya tenemos definidas. Basta con seleccionar la variable que nos interesa y pasarla al cuadro variable gracias a la flecha de la derecha.. A continuación, realizamos un diagrama de cajas-bigotes de los datos. Para ello, seleccionamos la instrucción Diagrama de Cajas del menu Graficos. Puesto que sólo tenemos una variable, realizamos un diagrama simple y seleccionamos la opción Resumenes para distintas variables. Utilizamos en particular el diagrama para detectar datos atípicos. Si nos hemos convencido de qué medidas de centralización y de dispersión son las adecuadas para nuestro conjunto de datos, podemos pedir un informe sobre las medidas numéricas que escojamos. Para ello, seleccionamos la instrucción Explorar del submenu Estadísticos descriptivos, en el menu Analizar. Aparece el cuadro de la Figura 2: Pasamos las variables que nos interesan al cuadro Dependientes, y aceptamos. Podemos cambiar los resumenes que proporciona SPSS, pinchando el cuadro Estadísticos, o Gráficos. I.3. Importar los datos desde un fichero. En muchas situaciones, se nos proporcionan los datos en forma de un fichero ASCII. Para trabajar con ellos, debemos importar los datos desde el fichero fuente. Supongamos por ejemplo que, en una segunda sesión, se han medido otras 20 veces el contenido en nitrato de la misma muestra de agua, y que los resultados están en el fichero nitrato2.txt. Al escoger la opción Leer datos de texto del menu Archivo, debemos recorrer las carpetas para encontrar el fichero que buscamos. Lo seleccionamos y aceptamos, abriéndose un asistente para la importación de datos, que consta de 6 pasos. Al completar estos 6 pasos, bastante intuitivos, hemos importado los datos del fichero nitrato2.txt. SPSS recoge los datos importados en un nuevo editor de datos y cierra automáticamente el que teníamos abierto. Utilizando el visor de variables, llamemos Conc a nuestra variable y guardamos los datos en un archivo llamado nitrato2.sav. Como queremos que las mediciones de las dos sesiones aparezcan en la misma ventana para realizar un análisis comparativo, vamos a fundir los dos archivos nitrato.sav y nitrato2.sav. Para ello, abrimos el fichero inicial nitrato.sav. Seleccionamos la opción Datos->Fundir archivos->Añadir casos y seleccionamos el archivo nitrato2.sav. Aparece la ventana Para tener constancia de qué sesión proviene cada medición activamos la opción Indicar origen del caso como variable, y entramos el nombre sesion. Aceptamos y obtenemos en nuestro editor de datos una variable conc, que contiene las mediciones de las dos sesiones, y una variable sesion, que vale 0 cuando la medición proviene de la primera sesión, y 1 cuando proviene de la segunda sesión. I.4 Nueva exploración de los datos. Ahora que tenemos más datos, queremos repetir la exploración de datos de la primera parte. Realizamos el histograma, el diagrama de cajas-bigotes. Podemos realizar diagramas de caja-bigotes respetando las dos sesiones, seleccionando la opción Resumenes para grupos de casos. En el cuadro variable pasamos conc, mientras que pasamos sesion al cuadro Eje de categoría. ¿Aparecen algunos datos atípicos? Supongamos que hemos identificado el dato 0.56 que proviene de la segunda sesión como un dato atípico y hemos decidido no tenerlo en cuenta para nuestro análisis. Podemos borrarlo sencillamente, o podemos omitirlo, lo que nos permitirá recuperarlo en cualquier momento. Para omitir datos, seleccionamos las casillas con las que nos queremos quedar filtrándolas utilizando un criterio condicional: en el menu Datos, escogemos la instrucción Seleccionar casos. Activamos la opción Si se satisface la condición y aparece En el cuadro de la derecha escribimos el criterio de selección, en este caso, para omitir el dato igual a 0.56, podemos quedarnos con los datos menores de 0.55 por ejemplo. Ya podemos calcular media, desviación típica etc... de los datos de conc sin el dato atípico 0.56. A la hora de estudiar nuestros datos, será interesante también comparar las dos sesiones. Para ello, basta con especificar en la instrucción Analizar->Estadísticos descriptivos->Explorar que conc es la variable dependiente, y que sesion es un factor. ¿Y si queremos hacer un histograma sólo de los datos de la segunda sesión? Ejercicios propuestos 1. 2. El fichero ph.dat contiene los valores del pH sanguíneo en 80 individuos . Importar los datos y realizar un análisis exploratorio, incluyendo histograma, diagrama de caja-bigotes, medidas de centralización y dispersión. El fichero liga0104.txt contiene la clasificación correspondiente a las ligas 2001/2002, 2002/2003 d y 2003/2004 de fútbol profesional. Realizar un análisis comparativo de las tres ligas. Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Mathieu Kessler Práctica . Monedas trucadas El objetivo de esta práctica es decidir del número de veces que deberíamos tirar una moneda que sospechamos está trucada, para llegar a una conclusión en un sentido o en otro. Utilizaremos principalmente Excel, y realizaremos alguna gráfica con SPSS. Pasos que seguiremos en esta práctica: a) Supondremos que la moneda está trucada y que la probabilidad de que salga cara es 0.65. Aprenderemos a simular de una variable que puede tomar el valor 1 (que representa cara) y el valor 0 (que representa cruz). b) A continuación realizaremos 10 tiradas, y calcularemos la proporción de 1. c) Repetiremos el paso b) anterior 1000 veces. d) Realizamo s un histograma de los 1000 valores de la proporción de 1 en series de 10 tiradas que hemos obtenido en el paso anterior e) A la vista del histograma decidimos si con 10 tiradas es fácil detectar que esta moneda está trucada. f) Realizamos todo lo anterior con series con un mayor número de tiradas. Paso a) y b): Generación de números aleatorios con Excel Para simular una tirada de esta moneda trucada, abrimos Excel, nos colocamos en la primera celda, y la barra de fórmulas, escribimos =aleatorio(): Barra de fórmulas Al dar ENTER, obtenemos un número aleatorio escogido al azar entre 0 y 1. Debemos ahora transformar este número real del intervalo [0,1] en uno de los dos valores enteros 1 o 0, de manera que la probabilidad de obtener 1 sea 0.65. Para simular una tirada, construimos una variable que valga 1 si el número uniforme anterior es menor que 0.65, y 0 si es mayor que 0.65: Nos colocamos en la celda B1, y entramos en la barra de fórmulas la instrucción =SI(A1<0,65;1;0). Notamos que ha cambiado el número que estaba en A1, se debe a que la instrucción aleatorio() es volátil: se vuelve a evaluar cada vez que se ejecuta un cálculo en la hoja. Necesitamos ahora más tiradas: seleccionamos las dos celdas A1 y B1, colocándonos en A1, mantenemos la tecla Shift pulsada, y con las flechas de dirección nos desplazamos hacia B1. Copiamos el contenido de las dos celdas (Ctr-C) y las pegamos en A2 y B2: ya tenemos otra tirada de la moneda trucada. Repetir esta operación para obtener hasta 10 tiradas En C1, vamos a calcular ahora la frecuencia de 1 en nuestras 10 tiradas: nos colocamos en C1 y en la barra de fórmulas escribimos =contar.si(B1:B10;1). Paso c) Obtención de los valores de la frecuencia de caras para 1000 series de 10 tiradas. Repetimos ahora el pegado de las fórmulas correspondientes a A1 y B1, en las 1010 primeras filas de las columnas A y B. Pegamos también la fórmula correspondiente a C1, en las 1000 primeras filas de las columna C. En una celda de la columna C, la celda C14 por ejemplo, hemos por lo tanto obtenido la frecuencia de 1 que aparecen en las 10 celdas de la columna B que están situadas al lado y por debajo de la celda seleccionada, por ejemplo las celdas B14 a B23. Por otra parte como la instrucción ALEATORIO() es volátil, los valores de la frecuencia que hemos encontrado son independientes, puesto que todas las celdas se vuelven a evaluar a cada ejecución de un cálculo. Paso d) Obtención del histograma de los valores de la proporción de caras para 1000 series de 10 tiradas. Seleccionamos y copiamos las 1000 celdas de la columna C. Abrimos SPSS o Statistix y los pegamos en una columna correspondiente a una nueva variable. Si preferimos trabajar con frecuencias relativas (proporciones), definimos una nueva variable que se obtiene dividiendo la anterior por 10. Realizamos a continuación el diagrama de barras. Yo obtengo el siguiente. 300 200 100 Fr ec ue nci a 0 ,10 ,20 ,30 ,40 ,50 ,60 ,70 ,80 ,90 VAR00001 Paso e) Interpretación ¿Os parece fácil detectar, basándose en una serie de 10, tiradas que la moneda está trucada? ¿Qué modelo parece razonable para la distribución de los valores que puede tomar la proporción de 1 en series de 10 tiradas de moneda? Paso f) Investigación… Investigar si con series que contienen más tiradas, será más fácil detectar que la moneda está trucada… Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Prof. Mathieu Kessler Ajuste por mínimos cuadrados SPSS nos permite realizar ajustes por mínimos cuadrados para modelos lineales en los parámetros, es decir para el caso en que la relación entre la variable dependiente (también llamada variable respuesta) que nos interesa Y, y las variables explicativas (tambíen llamados regresores) X1 , X2 ,..., Xk es Existen k parámetros constantes β 1 , β 2 ,...,β k tales que Y=β 1 X1 +β 2 X2 +...+β k Xk +ε donde ε es una perturbación aleatoria Hemos realizado observaciones del fenómemo: i.e conocemos para varias combinaciones de valores de las variables independientes cuál ha sido el valor de la variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de las que disponemos. El ajuste consiste en encontrar valores aproximados de los coeficientes β 1 , β 2 ,...,β k . AJUSTE DE UNA RECTA. El primer caso particular de importancia corresponde al famoso ajuste de una recta. En este caso sólo consideramos una variable independiente X y buscamos una relación del tipo Y=aX+b+ε, que está contemplado en nuestro modelo si consideramos Y=β 1 X1 +β 2 X2 +ε con X1 =1 y X2 =X, en estas condiciones, β 1 es la ordenada al origen mientras que β 2 es la`pendiente de la recta. Nivel del mar en Venecia. Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extreme value theory based on the r largest annual events'', Journal of Hydrology, 86 (1986). Empezamos por importar los datos, (la primera línea del fichero contiene los nombres de las variables) y realizamos una nube de puntos del nivel en función del año. (Gráficos-> Dispersión.) Los datos parecen presentar una tendencia lineal, aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una recta para modelizar la evolución del nivel máximo anual del mar en Venecia en función del tiempo. Para obtener la ecuación de la recta ajustada, y así como el valor de los residuos, utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Al activarla obtenemos la siguiente ventana: Figura 1 La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variables explicativas que son 1 y A. La inclusión del término constante X1 =1 es la opción por defecto. En en el caso en que queremos forzar el modelo por el origen, podemos desactivar la casilla se hace al activar la casilla Incluir constante en la ecuación que aparece en el cuadro de dialogo que se abre pinchando en Opciones. La inclusión del término X2 se consigue pasando la variable Año al cuadro Independientes. Al pinchar en Aceptar, aparece la ventana de resultados: Regresión Variables introducidas/eliminadasb Modelo 1 Variables introducidas AÑOa Variables eliminadas . Método Introducir a. Todas las variables solicitadas introducidas b. Variable dependiente: NIVEL Resumen del modelo Modelo 1 R .416a R cuadrado .173 R cuadrado corregida .156 Error típ. de la estimación 18.6198 a. Variables predictoras: (Constante), AÑO Ia Ib ANOVAb Suma de cuadrados gl Regresión 3552.057 1 Residual 16988.100 49 Total 20540.157 50 a. Variables predictoras: (Constante), AÑO Modelo 1 Media cuadrática 3552.057 346.696 F 10.245 Sig. .002a b. Variable dependiente: NIVEL Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) AÑO B -989.382 .567 Error típ. 346.477 .177 Coeficient es estandari zados Beta .416 t -2.856 3.201 Sig. .006 .002 a. Variable dependiente: NIVEL II III IV Los recuadros se interpretan de la siguiente manera. Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación múltiple que nos indica la proporción de la variabilidad en los datos explicada por el modelo de regresión. Recuadro Ib: Proporciona el valor de la desviación típica residual. Recuadro II En la columna Coefficientes no estandarizados podemos leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el coeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la línea Año, el coeficiente de X2=Año. En este caso la ecuación proporcionada es Nivel máximo= -989.4+0.6Año. Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes, los podríamos utilizar para construir intervalos de confianza. Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son significativamente distintos de 0: en la columna t, obtenemos los valores de los estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig, podemos encontrar los p-valores de las pruebas H0 : β i=0 contra H1 : β i≠0, para cada uno de los coeficientes. Cabe destacar que en el cuadro de dialogo que aparece con la instrucción Analizar> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidades interesantes: • Al activar Guardar, podemos guardar los residuos y los valores predictivos, también llamados valores ajustados, picando las casillas correspondientes. Una vez • • que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestro editor de datos. En Estadísticos, podemos pedir por ejemplo intervalos de confianza para los coeficientes En Gráficos podemos pedir entre otras muchas cosas, un histograma de los residuos. Después de guardar los residuos y los valores ajustados, realizar una gráfica en la que aparezcan tanto los valores observados del nivel como los valores predichos, en función del año. Ejercicios Ajuste de una recta que pase por el origen Considere el problema siguiente: En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidad radial de nebulosas extragalácticas con la esperanza de que alguna información sobre esta relación pudiera proporcionar ideas acerca de cómo se formó el universo y cuál puede ser su evolución futura. Sus descubrimientos revolucionaron la astronomía y son la fuente de muchas investigaciones actuales. En esta práctica vamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente: Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity among Extra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. ) Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 años luz) y la velocidad se mide en km/sec. Los datos se encuentran en el fichero hubble.txt con dos columnas, la primera contiene la distancia mientras que la segunda contiene la velocidad de recesión. El fichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobre la distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad de recesión debe ser nula. Reflexionar en particular sobre los datos negativos. La pendiente de la recta forzada por el origen se llama la constante de Hubble. Transformación de un modelo exponencial Considere el problema siguiente: La hidrólisis de un cierto éster tiene lugar en medio ácido según un proceso cinético de primer orden. Partiendo de una concentración inicial desconocida del éster, se han medido las concentraciones del mismo a diferentes tiempos obteniéndose los resultados siguientes. T (mn) 3 4 10 15 20 30 40 50 60 75 90 C 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4 103 (M) a) Realice una nube de puntos de las dos variables. ¿ Le parece adecuado un modelo lineal para escribir este conjunto de datos? b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube de puntos Y’ en función de t. c) Realizar un ajuste por mínimos cuadrados de Y’ sobre t con un modelo del tipo: y=ax+b. ¿Cuál es el modelo teórico que propone para C en función del tiempo? d) Nos dan la información adicional de que se sabe con exactitud que la concentración inicial para T=0 era igual a 30.10-3 M. ¿Cómo podemos incluir esta información en nuestro modelo? Inclinación de la Torre de Pisa. G. Beri y B. Palla, 1988, "Considerazioni sulle ouù recenti osservazioni ottiche alla Torre Pendente di Pisa", Estratto dal Bolletino della Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135, citado en Moore, 1998, Estadística Aplicada Básica, Antoni Bosch editor, pág 615. La torre inclinada de Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones de la inclincación de la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el punto donde estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias se dan en décimas de milímetros por encima de 2.9m. Año 75 Inclinación 642 76 644 77 656 78 667 79 673 80 688 81 696 82 698 83 713 84 717 85 725 86 742 Emisión de CO2 por los países europeos. En la dirección http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Importar los datos del fichero CO2.txt, cuya primera línea contiene los nombres de las variables. Los códigos de los sectores de emisión son los siguientes: 0 Total inland emissions 4 Agriculture 1 Energy 5 Not available 2 Industry 6 Other 3 Transport Tempeturas medias mensuales en San-Javier. En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datos meteorológicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podréis encontrar los datos de las temperaturas mensuales medias para la estación meteorológica de Murcia San Javier entre los años 1981 y 1990. Resistencia del cemento Se quiere estudiar la resistencia de unas piezas de cemento en función de su edad en días. Edad (días) Resistencia (kg/cm^2) 1 13.0 13.3 11.8 2 21.9 24.5 24.7 3 29.8 28.0 24.1 24.2 26.2 7 32.4 30.4 34.5 33.1 35.7 28 41.8 42.6 40.3 35.7 37.3 Realizar la nube de puntos de la resistencia en funciónde la edad. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos? Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste. Producción de petroleo Se quiere estudiar la evolución de la producción mundial de petroleo de 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txt Realizar la nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos? Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste. 87 757 Departamento de Matemática Aplicada y Estadística Universidad Politécnica de Cartagena Curso 03/04 Ajuste por mínimos cuadrados (2) Seguimos con la práctica de regresión lineal múltiple con SPSS. Recordar que buscamos realizar ajustes por mínimos cuadrados para modelos lineales en los parámetros, es decir para el caso en que la relación entre la variable dependiente (también llamada variable respuesta) que nos interesa Y, y las variables explicativas (tambíen llamados regresores) X1, X2,..., Xk es Existen k parámetros constantes β1, β2,...,βk tales que Y=β1X1+β2X2+...+βkXk+ε donde ε es una perturbación aleatoria Hemos realizado observaciones del fenómemo: i.e conocemos para varias combinaciones de valores de las variables independientes cuál ha sido el valor de la variable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones de las que disponemos. El ajuste consiste en encontrar valores aproximados de los coeficientes β1, β2,...,βk. Regresión lineal múltiple. Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente al problema siguiente: un ingeniero de producción es responsable de la reducción del costo. Uno de las materias primas fundamentales en la producción es el agua. Para estudiar el consumo de agua , el ingeniero apunta durante 17 meses el consumo mensual de agua (y) junto con los siguientes indicadores: la temperatura media mensual (x2 en ºF) la producción (x3 ), el número de días de trabajo en el mes (x4) y el número de personal en la planta de producción (x5). Los datos están en el fichero agua.txt. Después de haber importado los datos (comprobar que todas las variables han sido importadas como “numéricas”), pasamos al ajuste de los datos con un modelo Y=β1X1+β2X2+β3X3+ β4X4+β5X5+ε donde ε es una perturbación aleatoria normal con media cero y varianza,σ2 y X1=1 (término constante) Para ello, al igual que para la regresión lineal simple, utilizamos la instrucción Analizar>Regresión->Lineal. Ahora pasamos las cuatro variablesX2 a X5 en el cuadro de las variables independientes. En el submenu de opciones, podemos entre otras cosas decidir excluir el término constante en el modelo, lo que no haremos en este caso. Obtenemos Resumen del modelo Modelo R R R Error típ. de la cuadrado cuadrado corregida estimación 1 ,876 ,767 ,689 248,9641 a Variables predictoras: (Constante), X5, X4, X2, X3 Ib Ia Coeficientes Coeficientes no estandarizados Modelo 1(Constante ) X2 X3 X4 X5 a Variable dependiente: Y Coeficient es estandariz ados B Error típ. 6360,337 1314,392 13,869 ,212 -126,690 -21,818 II 5,160 ,046 48,022 7,285 III t Sig. 4,839 ,000 2,688 4,648 -2,638 -2,995 ,020 ,001 ,022 ,011 Beta ,419 1,671 -,415 -1,074 IV Los recuadros se interpretan de la siguiente manera. Recuadro Ia: Proporciona el valor de R2 que es el coeficiente de determinación múltiple que nos indica la proporción de la variabilidad en los datos explicada por el modelo de regresión. Recuadro Ib: Proporciona el valor de la desviación típica residual. Recuadro II En la columna Coefficientes no estandarizados podemos leer los valores obtenidos de los coeficientes, en la línea Constante, tenemos el coeficiente de X1=1 En este caso la ecuación proporcionada es Consumo promedio= 6360.4+13.9X2+0.2X3-126.7X4+21.8X5 Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes, los podríamos utilizar para construir intervalos de confianza. Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa son significativamente distintos de 0: en la columna t, obtenemos los valores de los estadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig, podemos encontrar los p-valores de las pruebas H0 : βi=0 contra H1 : βi≠0, para cada uno de los coeficientes. En este caso todos los p-valores son pequeños, lo que implica que nos quedamos con todas las variables en el modelo. Podemos realizar con SPSS intentos de construcción de modelos. En particular podemos llevar a cabo la eliminación hacia atrás, seleccionando en el cuadro de diálogo abierto con la instrucción Analizar->Regresion->Lineal, el método “Hacia atrás”. En el cuadro Opciones, podemos fijar el valor del umbral del p-valor que fijamos para que una variable sea eliminada del modelo, cambiando el valor en “Salida”. Por defecto aparece un valor del umbral de 0.1. Continuamos y aceptamos para obtener la secuencia de modelos en los que posiblemente vayan siendo las variables eliminadas una por una hasta dar con el modelo final. En este caso puesto que todos los p-valores son menores que 0.1, el algoritmo se para en la primera iteración. Ejercicios Volumen de madera. En ingeniería forestal existe la necesidad evidente de poder predecir el volumen de madera disponible de un tronco de un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca del suelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txt están los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió con cuidado el volumen después de cortar el tronco de ( v: volumen, d: diámetro y a: altura) 1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura. 1. Proceda al análisis de los residuos, ¿Cuál es su diagnóstico? 2. Si se supone que el tronco es un cilindro perfecto, ¿ cuál sería la relación entre v,a y d ? Proponer una transformación sobre los datos que sea acorde con esta relación física Realizar el ajuste lineal correspondiente con especial interés en el análisis de los residuos. 3. Si se supone que el tronco es un cono perfecto, \¿ cuáles deberían ser los valores de los parámetros del apartado anterior?. Consumo de helados Se quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en una familia durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal de helado por persona (y), junto con las cantidades siguientes que se pensaba podían tener alguna influencia sobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : la temperatura media de la semana. También aparece el número de la semana. Los datos están en el fichero helados.dat 1. Represente gráficamente el consumo de helados en función de las semanas. 2. Determinar la matriz de correlación de las variables y,p,i y temp. Para ello se utiliza la opción Analizar->Correlaciones->bivariadas, y como es usual en SPSS pasamos desde la lista de las variables de la izquierda las variables que nos interesan. ¿Cuál es la variable que parece tener más influencia en y? 3. Realizar un ajuste lineal de y sobre p,i y temp. ¿Qué vale la varianza residual y R^2? 4. Realizar un ajuste lineal de y sobre i y temp. Misma pregunta que en el apartado anterior 5. Guarde los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y en función de semanas y ajucomp en función de semana. Calor emitido por el fraguado de cemento. Se estudia la relación entre la composición de un cemento tipo Portland y el calor desprendido durante la fase de fraguado1. Los datos se pueden encontrar en el fichero hald.txt. La variable Y es la cantidad de calor desprendido en calorías por gramos de cemento, mientras que las variables X1, X2 X3 y X4 representan el contenido en porcentaje de cuatro productos A, B, C y D. 1. Obtener la matriz de correlaciones de las distintas variables. 2. Realizar un ajuste lineal utilizando el procedimiento de eliminación hacia atrás. Perdida de peso de un producto Se sabe que un determinado producto pierde peso después de ser producido. En el archivo peso.txt se ha recogido la diferencia (peso nominal-peso real) para varias unidades en distintos tiempos. 1. Ajustar un modelo de regresión lineal simple para explicar la evolución de la diferencia de peso en función del tiempo. 2. Realizar la gráfica de los residuos en función de los valores ajustados. ¿Le parece adecuado nuestro modelo para analizar estos datos? ¿Tiene alguna idea para mejorarlo? 3. Realizar el ajuste por un polinomio de orden 2. 1 Fuente: A. Hald, Statistical Theory with Engineering Applications, Wiley, New York, 1952, p. 647 Autor: Pilar Sanmartin / Mathieu Kessler ESTADíSTICA INDUSTRIAL Prof: Mathieu Kessler PRACTICAS. Curso 04/05 Prof. Mathieu Kessler COMPONENTES PRINCIPALES Ejemplo: Empresas con mayor volumen de ventas Consideramos las nueve empresas españolas con mayor volumen de ventas en 1992: Empresa Ventas Beneficios El Corte Inglés 775104.0 23795.00 Iberdrola 775218.0 58778.00 Repsol Comercial 700963.0 1531.00 Seat 674063.0 -12756.0 Tabacalera 631003.0 14729.00 FASA Renault 527744.0 9059.00 Repsol Petroleo 489155.0 12541.00 Pryca 448465.0 13495.00 Iberia 445853.0 -34824.0 Y buscamos extraer una componente principal para conseguir una reducción de la dimensión (aunque aquí sea inutil dado que sólo tenemos dos variables) Importar los datos del fichero empresas.txt. Notaciones-recordatorios de clase: Para este conjunto de datos tenemos dos variables X1 y X2, que describen 9 individuos (las empresas) y perseguimos entender la estructura de variabilidad presente en los datos: ¿cuál es la primera fuente de variación entre estos individuos?, es decir, ¿en qué se diferencian? Para ello, buscamos un cambio de sistema de coordenadas. Llamamos Z1 y Z2 las componentes de la nube de puntos en el nuevo sistema de coordenadas, hemos escogido Z1 y Z2 de tal manera que 1) La variabilidad total se preserva: Var(X1)+Var(X2)=Var(Z1)+Var(Z2) 2) La varianza de Z1 es la “más grande posible”, y por lo tanto, Var(Z2) es pequeña. 3) Z1 y Z2 no están correlados. Se puede demostrar que se consigue si los vectores del nuevo sistema de coordenadas corresponden a los vectores propios de la matriz de covarianza. (ver apuntes) Análisis en componentes principales con SPSS. Para aplicar la técnica de componentes principales con ayuda del programa SPSS importamos los datos del fichero empresas.txt y usamos la opción: Analizar->reducción de datos->análisis factorial Autor: Pilar Sanmatín /Mathieu Kessler Autor: Pilar Sanmartin / Mathieu Kessler En el submenú extracción: 1) Escogemos el método “Componentes principales”. 2) Debemos escoger si analizamos la matriz de correlaciones o la matriz de covarianza- ver el apéndice para una explicación de la diferencia entre las dos opciones. 3) Pedimos en Mostrar: la solución factorial sin rotar (las rotaciones se utilizan en análisis en componentes principales), y la gráfica de sedimentación (que llamamos en los apuntes, gráfica de codo) 4) Finalmente, debemos escoger cuantas componentes aparecerán descritas en la ventana de resultados: esto no cambia el análisis sino solamente la cantidad de información que nos proporciona el programa al final. Podemos escoger que se limite a los autovalores1 mayores que una cierta cantidad o especificar nosotros el número de componentes descritos. (la opción que recomiendo) En el submenú extracción: Seleccionamos la opción de “Guardar como variables”: las puntuaciones factoriales son los valores para cada individuo de Z1 y Z2. También seleccionamos la opción de “Mostrar la matriz de coeficientes de punt. factoriales”, que nos permitirá deducir la expresión del cambio de sistema. 1 El término autovalores es equivalente a “valores propios”. Autor: Pilar Sanmatín /Mathieu Kessler Autor: Pilar Sanmartin / Mathieu Kessler De momento no modificamos nada más y le damos a Aceptar. Resultados de SPSS. En cuanto a resultados, obtenemos por una parte los autovalores Deducimos que el mayor autovalor es λ1=1.543 mientras que el segundo es λ2=0.457. La matriz de componentes nos da los coeficientes de correlación entre las componentes y las variables originales (tipificadas) de donde podríamos deducir los vectores propios asociados, pero preferimos la matriz de coeficientes de las puntuaciones factoriales que intrepretaremos a continuación:. Escribe las ecuaciones de la transformación Ejercicios: Ejemplo: Encuesta de presupuestos familiares. (Peña, 2002, Análisis de datos multivariantes, p140) En el fichero epf.txt, La encuesta de presupuestos familiares en España para el año 1990/1991, recoge los gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como una provincia). Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= mobiliario doméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos. 1. Realizar el análisis en componentes principales, interpretar los coeficientes de los dos primeros componentes principales 2. Clasificar las provincias según la primera componente. Ejemplo: Medidas. En el fichero medidas.txt se encuentran las medidas en inches del pecho, cintura y caderas correspondientes a 20 personas2 . Vamos a intentar interpretar la variabilidad presente en los datos. 1. Un primer paso consiste en examinar las inter-relaciones entre las variables utilizando la matriz de correlación. Calcular a continuación la matriz de covarianzas. Observamos que las varianzas son del mismo orden de magnitud, lo que, junto con el hecho de que las unidades de medidas de las tres variables son las mismas, nos lleva a realizar el análisis en componentes principales con la matriz de covarianzas. 2. Realizar un análisis en componentes principales. ¿Cómo podemos interpretar los componentes? ¿Cuántos componentes retendremos? 2 Conjunto nº 79 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets, Chapman & Hall. Autor: Pilar Sanmatín /Mathieu Kessler Autor: Pilar Sanmartin / Mathieu Kessler Ejemplo: Consumo de proteinas en Europa En el fichero proteinas.txt, podeis encontrar los datos correspondientes al consumo de proteinas en 25 paises europeos3 correspondientes a nueve grupos de alimentos. Los datos datan de 1973. Los nombres de las variables son las siguientes: 1. Country: País 2. RdMeat: Carne roja 3. WhMeat: Carne Blanca 4. Eggs: Huevos 5. Milk: Leche 6. Fish: Pescado 7. Cereal: Cereales 8. Starch: Feculentes 9. Nuts: Frutos secos, y aceites 10. Fr&Veg: Frutas y verduras Realizar un análisis de componentes principales. Apéndice: Matriz de covarianzas o Matriz de correlaciones? En el submenu Extracción podemos escoger entre analizar la matriz de covarianzas o la correlaciones, explicamos a continuación la diferencia entre las dos opciones. En el caso en que las variables tengan ordenes de magnitud muy distintos, y en particular ordenes de dispersión muy distintos, las variables no aportan la misma contribución a la variabilidad total, y esto nos puede llevar a descartar una variable importante en la estructura de variabilidad sólo porque su orden de magnitud es menor que el de otra. Las variables con orden de magnitud grande dominarían por completo el análisis. En particular, si cambiamos las unidades, los resultados podrían cambiar completamente: se trata de una característica muy poco afortunada del análisis en componentes principales. En el caso en que las variables son de orden de magnitud distintos, podemos transformarlas para obtener nuevas variables que sí se puedan comparar. Esto se consigue tipificando las variables, es decir restándoles su media y diviendoles por su desviación típica: Definición: Sea X una variable asociada a un conjunto de datos, se obtiene la versión tipificada de X a través de la transformación: Y=(X-media(X)/(Desv. Típica(X)) La variable Y en el conjunto es centrada (de media cero) y tiene una desviación típica igual a 1. Si tipificamos todas las variables X1, X2, X3, … del conjunto y formamos las variables Y1, Y2, Y3,… es posible comprobar que la matriz de covarianza de Y1, Y2, Y3, … es igual a la matriz de correlación de X1, X2, X3, … Por lo tanto, realizar un análisis en componentes principales sobre la matriz de correlación de X1, X2, X3, … es equivalente a realizarlo con la matriz de covarianzas de las variables tipificadas Y1, Y2, Y3… Seleccionamos en general analizar la matriz de correlación de X1, X2, X3, … en el caso en que sus desviaciones típicas son de ordenes de magnitud distintos. 3 Conjunto nº 360 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets, Chapman & Hall. Autor: Pilar Sanmatín /Mathieu Kessler ESTADíSTICA INDUSTRIAL Prof: Mathieu Kessler PRACTICAS. ANALISIS CLUSTER Algorítmo K-medias Ilustraremos el análisis en conglomerados con el algorítmo k-medias en SPSS, utilizando los ejemplos vistos en clase y extraidos de D. Peña, Análisis de datos multivariantes (2002). Importar los datos del fichero Ruspini.txt. Realizar un diagrama de dispersión de Y en función de X. Para realizar el conglomerado de K medias, utilizamos Analizar->clasificar->conglomerado de K medias Pasamos las variables X e Y al cuadro variables, seleccionamos el número G de conglomerados que deseamos construir (empezamos con 2). En el caso en que deseamos fijar los centros iniciales de los conglomerados, debemos especificar un archivo con tantas columnas como variables y tantas líneas como conglomerados y que contenga las coordenadas de los centros. También necesitaremos en este caso escoger la opción “Sólo clasificar” para que SPSS no actualice los centros en cada iteración. en iterar tenemos la posibilidad de fijar el número máximo de iteraciones, la opción por defecto es de 10. en guardar pediremos que se guarden los conglomerados de pertenencia Finalmente, podemos en el submenu opciones, pedir que nos proporcione la tabla de ANOVA. Después de realizar el análisis, podemos ahora visualizar los grupos formados: volvemos a la ventana de datos, y observamos que ha aparecido una nueva columna con los índices de l conglomerado al que pertenece cada individuo. Podemos realizar una gráfica de dispersión de tipo interactivo, donde especificamos que etiquete los datos mediante la variable correspondiente al índice del conglomerado de pertenencia. A AA 2A 2 A2 A2 A A A A A2 A2A2 222 2 A A A2A A2 A A 22 2 22 2 2A A 150,00 A 2 2 A 2 2 A 100,00 2 A AA A AA 2 A 2 22 A 22AAA 2 2A 22 22 A A A 2 y A 2 2 1 A A1 A A 1 A 1 11 A A1 1 A 1 A A1A AA 11 1 1 A 1 A 1 1A 1 A A A 50,00 1 1 A 1 A1 1 AA AA1 11 A 1 A 1 A AA 1 1 1A 1 A A 1 1 A 0,00 0,0 25,0 50,0 1 75,0 100,0 x Cálculo de la suma de cuadrados dentro de los grupos final (SCDG). Utilizando la tabla ANOVA proporcionada por SPSS, se puede deducir el valor final de la suma de cuadrados dentro de los grupos. ANOVA Error Conglomerado Media cuadrática gl Media cuadrática gl X X Y Y 12539,059 12539,059 142496,975 142496,975 1 1 1 1 Media cuadrática Media cuadrática 771,382 771,382 452,424 452,424 F Sig. 16,255 16,255 314,963 314,963 ,000 ,000 ,000 ,000 gl gl 73 73 73 73 A partir de las cantidades de la columna “Error”, podemos calcular la SCDG: multiplicando la media cuadrática por los grados de libertad (gl) obtenemos la contribución de cada variable a la suma de cuadrados, y la SCDG total se obtiene sumando las dos contribuciones: SCDG(2)=771,382*73+452,424*73= 89337,84 En particular podemos calcular el estadístico F que nos permitirá, utilizando la regla de Hartigan, confirmar el número de grupos con el que nos quedamos. F=(SCDG(G)-SCDG(G+1))/(SCDG(G+1)/(n-G-1)) Volver a ejecutar el algorítmo para 3 y 4 conglomerados y rellenar la tabla siguiente: G=2 Suma de cuadrados G=3 G=4 Variable X Variable Y Total F Repetir el análisis para los datos estanderizados: calcular la media y la desviación típica de X e Y, construir las variables estanderizadas zx=(x-mediax)/sdx y zy=(ymediay)/sdy. Represente el diagrama de dispersión de zy en función de zx, en su opinión, ¿cambiará significativamente el resultado del análisis de conglomerados? Ejercicio: En el archivo mundodes.sav1 , podeis encontrar los datos de cinco variables demográficas, tasa natalidad (por 1000 habitantes), tasa mortalidad (por 1000 habitantes), mortalidad infantil (debajo de 1 año), esperanza de vida para los hombres y esperanza de vida para las mujeres. Realizar el análisis en conglomerados para 3, 4 y 5 grupos aplicando el criterio de Hartigan para deducir el número de conglomerados. ¿Se pueden interpretar los grupos que aparecen? Realizar un diagrama de dispersión con la tasa de natalidad y la mortalidad infantil, etiquetando los casos utilizando el índice del conglomerado de pertenencia. Ejercicio: Volver a analizar los conjuntos de datos de proteinas y de la encuesta de presupuestos familiares que se introdujeron en la práctica anterior. 1 Fuente: "UNESCO 1990 Demographic Year Book" y de "The Annual Register 1992". Citado en Peña, D. (2002), Análisis de Datos Multivariantes, Mc-Graw Hill. ESTADíSTICA INDUSTRIAL Prof: Mathieu Kessler PRACTICAS ANALISIS CLUSTER 2: métodos jerárquicos Ilustraremos el análisis de clasificación jeráquica en SPSS, empezando con el ejemplo sencillo en el que queremos realizar una clasificación jerárquica de cuatro individuos basándonos en los valores de dos variables: X Y 0,30 0,35 0,7 0,8 0,6 0,4 0,8 0,5 Representamos la nube de puntos con un diagrama de dispersión, y pedimos a SPSS que lleve a cabo la clasificación jerárquica: Utilizamos Analizar->clasificar->conglomerados jerárquicos Pasamos todas las variables al cuadro variables En el submenu Gráficos, escogemos la opción del dendograma. Consideremos ahora el submenu “Método” En método de conglomeración, tenemos la posibilidad de escoger uno de varios métodos (en clase vimos el de Vecino más próximo y el de Vecino más lejano) para calcular la distancia entre dos grupos. Un método que parece dar buenos resultados es el de Ward. También podemos decidir de transformar los valores y estanderizar las variables en el caso en que sus ordenes de magnitud son distintos, escogiendo las puntuaciones Z por ejemplo. En guardar pediremos que se guarden los conglomerados de pertenencia: Tenemos dos posibilidades: al escoger “Solución única”, escogemos el número de grupos que queremos que considere: SPSS empieza en el nivel más alto de la clasificación (sólo 1 grupo) y va bajando hasta encontrar el número de grupos requerido. Realizar el análisis con dos grupos. Si escogemos Rango de soluciones: desde 2 hasta 4 grupos por ejemplo: SPSS creerá 3 variables de pertenencia, la primera contendrá los índices de pertenencia en el caso en que sólo consideramos dos grupos, la segunda tres, etc… Realizamos el análisis para dos grupos (solución única 2 grupos) escogiendo el método del vecino más próximo por ejemplo, obtenemos en la ventana de resultados el historial de conglomeraciones Historial de conglomeración Conglomerado que se combina Etapa Coeficientes Conglomerado 1 Conglomerado 2 1 2 3 1 3 1 2 4 3 Etapa en la que el conglomerado aparece por primera vez Próxima etapa Conglomerado 1 Conglom erado 2 ,740 1,000 6,890 0 0 1 0 0 2 Este historial nos informa que la obtención de una clasificación jerárquica con dos grupos finales se ha realizado en tres etapas. Recordar que el algoritmo se inicia (etapa 0) con tantos conglomerados como individuos (en este caso, cuatro, numerados del 1 al 4, según su orden en la ventana de datos). Leemos en el historial que en la etapa 1 que se han combinado el conglomerado 1 y el conglomerado 2, es decir el individuo 1 y el individuo 2, por ser los dos más próximos. En las columnas situadas a la derecha de la tabla, podemos por una parte saber si el individuo ya ha sido asociado con otro conglomerado en una etapa anterior, que no es el caso aquí, y cuando volvéra a ser combinado (próxima etapa) que en nuestro caso corresponde a la etapa 3. Ahora tenemos 3 conglomerados: uno formado por los individuos 1 y 2, y otros dos que contienen los individuos 3 y 4 individualmente. En la etapa 2, combinan el conglomerado 3 con el 4, es decir los dos individuos 3 y 4. Leemos que ninguno de estos dos conglomerados había sido aglomerado previamente. Finalmente, en la etapa 3, se junta el conglomerado 1, es decir el que contiene el individuo 1, (recordar que estaba asociado con el individuo 2, desde la etapa1) con el conglomerado que contiene el individuo 3, (que estaba con el individuo 4 desde la etapa 2). El algoritmo se acaba puesto que todos los individuos están en un único gran conglomerado. En la ventana de datos, ha aparecido una nueva variable que contiene el conglomerado de pertenencia de cada individuo, para el número de grupos escogidos en el submenú Guardar (ver página anterior). En nuestro caso escogimos dos grupos, los dos primeros individuos tienen por conglomerado de pertenencia el 1, mientras que los dos últimos el 2. Ejercicio: Proteinas. Considerar el fichero del consumo de proteinas de la práctica anterior. 1. 2. 3. Realizar una clasificación jerárquica de los paises en base a su consumo de proteinas según las distintas fuentes de alimentación. Podreis utilizar el método de Ward, y especificar que los casos se etiqueten con la variable Country. Guardar los conglomerados de pertenencia para un rango de soluciones de 2 a 4. Contestar, examinando el historial de iteraciones, a las siguientes preguntas: ¿qué dos paises se combinan primero? ¿En qué consiste la segunda etapa? ¿Cuándo es la primera vez que se forma un conglomerado con más de dos paises? Examinar el dendograma: si queremos quedarnos con tres grupos, realizar la lista de los paises que pertenecen a cada grupo. ¿y con 4 grupos? 3 3 0 4. Realizar el análisis en componentes principales. Guardar las puntuaciones de los paises según el primer componente. Ordenar los paises por orden creciente de estas puntuaciones. ¿El orden obtenido parece guardar relación con los grupos obtenidos en el apartado anterior? ¿Cómo explicais esta relación? Ejercicio : Ciudades En el fichero ciudades.txt, se encuentran datos que representan las condiciones económicas de 48 ciudades en el mundo en 1991. Los datos fueron recogidos por el “Economic Research Department” de “Union Bank of Switzerland” (disponibles en http://lib.stat.cmu.edu/DASL). Las cuatro variables son 1. City: ciudad 2. Work: el número de horas anuales de trabajo, calculado como la media correspondiente a 12 actividades determinadas. 3. Price: precio de un conjunto de 112 bienes escogidos. 4. Salary: Sueldo medio correspondiente a 12 actividades determinadas Realizar un análisis en clusters jerárquicos de los datos, con el método de encadenamiento completo (vecino más lejano). ¿Cuántos grupos aparecen? Ejercicio : Suelos En el fichero suelos.txt, se encuentran datos correspondientes a 20 muestras de suelos. Clasifícalos en cuatro grupos utilizando los métodos del vecino más cercano, del vecino más lejano y del centroide. Dibuja los cuatro grupos obtenidos respecto a las variables contenido de arena y contenido de materia orgánica. ESTADíSTICA INDUSTRIAL Prof: Mathieu Kessler PRACTICAS. Curso 02/03 ANALISIS DESCRIPTIVO DE SERIES TEMPORALES Ilustraremos el análisis descriptivo de series temporales con los datos de las temperaturas mensuales en San Javier, desde 1981 hasta 1990. Importar los datos del fichero SanJavier.txt. Para realizar un estudio descriptivo clásico de series temporales, separando el componente tendencia-ciclo, el componente estacional así como los residuos, es necesario especificar la periodicidad natural de la serie que estamos contemplando. Para ello, utilizamos el comando Datos/Definir Fechas, Escogemos el tipo de datos que tenemos, en este caso, años y meses, y especificamos la fecha del primer caso. Al aceptar, observamos que se crea en nuestra hoja tres variables conteniendo el mes, el año y la fecha de cada observación. A continuación, antes de empezar con la descomposición de la serie, es fundamental realizar un análisis descriptivo exploratorio con representaciones gráficas. La primera gráfica que realizamos se hará a través de la instrucción Secuencia del menu Gráficos. La variable que queremos representar es la temperatura y ponemos escoger la fecha (“DATE”) como etiquetas para el eje OX. En el submenú Líneas de referencia, tenemos la posibilidad de añadir líneas verticales para cada cambio de año, de mes o en fechas señaladas que escojamos. Otras opciones se pueden fijar en el submenú Formato. A la vista de la gráfica de la serie temporal, confirmamos la periodicidad clara de la serie con periodo 12. No observamos ningún dato atípico claro. La segunda gráfica útil es el autocorrelograma, que se dibuja con la instrucción Autocorrelaciones del submenú Gráficos/Serie temporal. Podemos desactivar la opción correlaciones parciales, para quedarnos sólo con las autocorrelaciones. ¿Cómo se interpreta la gráfica obtenida? Podemos ahora proceder al análisis de descomposición de la serie. Vamos a empezar por calcular la media móvil asociada. Para ello, en el menú Transformar, utilizamos la instrucción Crear serie temporal. Pasamos la variable tmp al cuadro nuevas variables, escogemos la función Media móvil centrada, y la amplitud igual a 3 para empezar. No debemos olvidar de pulsar el botón Cambiar para que el cambio en el cuadro de dialogo sea efectivo. Al aceptar la instrucción, obtenemos en la hoja de cálculo una nueva variable que se llama tmp_3 que contiene la media móvil de amplitud 3 asociada a la serie tmp. ¿Sabríais calcular a mano los términos de esta nueva serie? Representar en una misma gráfica utilizando la instrucción Gráficos/Secuencia, la serie tmp junto con la media móvil asociada. ¿Cuál ha sido el efecto de calcular la media móvil de amplitud 3? Volver a calcular las series móviles variando la amplitud escogida ( por ejemplo, 7 y 11 y 12 ). Representar todas estas series en una misma gráfica. Calcular la serie en la que hemos restado el componente de tendencia. ¿Cómo podríamos evaluar el componente estacional? Finalmente vamos a pedir a SPSS que realice la descomposición completa de la serie. Para ello utilizamos, en el menú Analizar la instrucción Descomposición estacional del submenú Series temporales. Pasamos la variable tmp al cuadro de la derecha, escogemos un modelo aditivo, y al tratarse de una periodicidad par, los puntos finales se ponderan por 0.5. (corresponde a lo que hemos llamado 2x12 MA en los apuntes). En el submenú Guardar, podemos pedir que los componentes calculados se guarden como nuevas variables, se sustituyan a los componentes ya calculados de una análisis anterior o se descarten. (no crear) Al aceptar, SPSS nos proporciona en la ventana de resultados los cálculos de los índices estacionales, es decir el efecto medio de cada mes. También aparecen en la hoja de datos, las nuevas variables según la nomenclatura: • ERR_1: Residuos de la descomposición, también llamado componente irregular. • SAS_1: Serie de-estacionalizada, es decir la serie a la que se ha restado el efecto periódico. • SAF_1: Componente estacional. • STC_1: estimación de la tendencia ciclo. Tenemos las siguientes relaciones, ¿Cómo se interpretan? TMP= STC_1+ SAF_1+ ERR_1. SAS_1=TMP- SAF_1 SAF_1= TMP - STC_1- ERR_1. Ejercicios. 1. Analizar la serie del índice de paro en España desde tercer trimestre 1976 hasta 3 trimestre 2003. Fichero: paro.txt 2. Analizar la serie de la demanda mensual de energía en España desde 1998 hasta 2002.