4. SEGUNDO MÓDULO 4.1 Resumen de Datos En estadística
Transcripción
4. SEGUNDO MÓDULO 4.1 Resumen de Datos En estadística
Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres 4. SEGUNDO MÓDULO 4.1 Resumen de Datos En estadística descriptiva, a partir de un conjunto de datos, se busca encontrar resumes sencillos, que permitan visualizar las características esenciales de éstos. En una experiencia, un dato por si sólo, es informativo del resultado de un ensayo en particular, pero para obtener un patrón de esta experiencia, es necesario contar con un conjunto de datos, que por sí solos no entregan información, de ahí la necesidad de encontrar resúmenes apropiados que muestren, de existir, patrones en los datos. En el resumen de datos se siguen dos enfoques: el primero, más orientado al análisis exploratorio de datos, con un conjunto de técnicas encaminadas a la visualización de los datos mediante tablas o gráficos que permitan realizar un diagnóstico de ellos; el segundo desarrolla un conjunto de indicadores descriptivos de diversas características importantes de los datos, cuyo fin es complementar el diagnóstico de éstos. 4.2 Organización de Datos La organización de datos trata de acomodar éstos, para que puedan revelar sus características informativas fundamentales y de esta manera simplificar los análisis para la obtención de conclusiones. Los datos no organizados también se denominan ‘datos no agrupados’, del mismo modo, los datos ya organizados son llamados ‘datos agrupados’. Una manera de acomodar los datos es construir un arreglo ordenado; esto es, organizando los datos con un orden natural- cuando la escala de medición lo permite. Si el número de datos es grande, el arreglo puede ser difícil de manejar y poco útil en cuanto a la información que pueda entregar; por eso a menudo se utilizan tablas de frecuencia como una primera aproximación general a la organización de datos. El uso de frecuencia es más natural en datos cualitativos o discretos, pues en estos casos es sencillo contar el número de veces que aparece un mismo dato en la población (muestra) de éstos, en este caso se habla de tablas de frecuencia no agrupadas. Sin embargo, cuando se trabaja con datos cuantitativos en escala continua, es muy posible que exista un conjunto de números distintos lo suficientemente grande, como para hacer impracticable lo anterior, en este último caso se procede a crear agrupaciones convenientes para los datos observados, este caso se habla de tablas de frecuencia agrupadas. 21 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres 4.2.1 Tablas de Frecuencia En las tablas de frecuencias cada categoría tiene una frecuencia observada, este cálculo es siempre posible en datos cualitativos, sin embargo, si la cantidad de categorías distintas es grande, deja de ser un resumen adecuado para los datos. Las respuestas observadas en la población (muestra), se denominaran clases, las cuales se simbolizan por: C1, C2,..., Ck, donde k es la cantidad de categorías (respuestas) distintas. En la construcción de tablas se utilizan las clases junto con dos frecuencias asociadas a éstas, estas son: Frecuencia Absoluta: Se llama frecuencia absoluta de la clase Ci, al número de elementos en la población (muestra) que pertenecen a la clase Ci. Este número lo denotaremos por ni y cumplen la propiedad: k ∑n = n i i =1 Frecuencia Relativa: Se llama frecuencia relativa de la clase Ci, a la cantidad de elementos en la población (muestra) que pertenecen a la clase Ci, relativo al total de elementos en la población (muestra).Este número lo denotaremos por fi y cumplen la propiedad: n fi = i n k ⇒ ∑ k fi = i =1 ∑ i =1 ni = 1.0 n APLICACIÓN 4.1 Suponga el caso que es de interés determinar la frecuencia de las facturas que llegan a la empresa producto de trabajos realizado por los contratistas de obras menores, donde los datos son: Emis Ltda. Emis Ltda. Brown e Hijos Emis Ltda. Baker & Jones Baker & Jones Smith y CIA. Brown e Hijos Baker & Jones Baker & Jones Emis Ltda. Baker & Jones Smith y CIA. Emis Ltda. Emis Ltda. Emis Ltda. Smith y CIA. Baker & Jones Smith y CIA. Smith y CIA. Brown e Hijos Baker & Jones Baker & Jones Emis Ltda. Emis Ltda. Smith y CIA. Baker & Jones Brown e Hijos Baker & Jones Emis Ltda. Emis Ltda. Emis Ltda. Tabla 4.1 Frecuencias de facturas entregadas por empresas contratistas Empresa Frecuencias Absoluta Frecuencias Relativa Baker & Jones 10 31,25% Brown e Hijos 4 12,50% Emis Ltda. 12 37,50% Smith y CIA. 6 18,75% 22 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Estas dos frecuencias asociadas a la organización (resumen) de datos son comunes e independientes de la escala de medición , es lo mínimo que una tabla de frecuencia puede tener, sin embargo, cuando se trabaja con datos en escala al menos ordinal, se pueden agregar otras frecuencias adicionales, a saber: Frecuencia Absoluta Acumulada: Se llama frecuencia absoluta acumulada hasta la clase Ci, al número total de elementos en la población (muestra) que pertenecen a las clases C1, C2,..., Ci. Este número lo denotaremos por Ni y cumplen la propiedad: i ∑n Ni = n1 + n2 +... + ni = j , j = 1, 2,..., i, i = 1, 2,..., k j =1 Nk = n1 + n2 +... + ni +... + nk = n Frecuencia Relativa Acumulada: Se llama frecuencia relativa acumulada hasta la clase Ci, a la cantidad de elementos en la población (muestra) que pertenecen a las clases C1, C2, ... , Ci, con respecto al total de elementos en la población (muestra). Este número lo denotaremos por Fi y cumplen la propiedad: i Fi = f1 + f2 +... + fi = ∑f j , j = 1, 2,..., i, i = 1, 2,..., k j =1 Fk = f1 + f2 + ... + fi + ... + fk = 1.0 APLICACIÓN 4.2 En un conjunto de clientes, el interés es determinar la clasificación de éstos según su cumplimiento en el pago. Estos son clasificados como: Malos (M), Regulares (R), Buenos (B) y excelentes (E). Los datos son : B R B E E E M B E R R M M R R M R B B B B B E B B B E B E R E M B B E B B B B B M R M B B B B E M R Tabla 4.2 Clasificación de clientes por su cumplimiento en el pago. Clasificación Malo Regular Buenos Excelentes Frecuencias Absoluta Relativa 8 16% 9 18% 23 46% 10 20% Frecuencias Acumuladas Absoluta Relativa 8 16% 17 34% 40 80% 50 100% 23 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Las aplicaciones anteriores están orientadas a la organización de variables cualitativas, en una primera aplicación en datos nominales, y en un segundo caso, a datos en escala ordinal. Sin embargo, estos mismos conceptos pueden ser aplicados a variables discretas, siempre que en número de datos tomando distintos valores no sea excesivamente grande. APLICACIÓN 4.3 Suponga que en un conjunto de clientes, el interés es determinar el número de veces que éstos se han atrasado en el pago de su cuenta. Los datos son los siguientes: 0 0 7 2 0 0 0 0 2 0 3 8 4 2 3 0 4 0 7 0 7 0 1 0 0 0 0 4 1 4 3 0 4 1 0 0 0 1 3 3 0 0 0 2 0 7 0 3 0 3 0 3 0 8 0 0 0 0 1 0 Tabla 4.3 Número de veces que un cliente se ha atrasado en el pago de su cuenta. Número de Atrasos 0 1 2 3 4 5 6 7 8 Frecuencias Absoluta Relativa 32 53,4% 5 8,3% 4 6,7% 8 13,3% 5 8,3% 0 0,0% 0 0,0% 4 6,7% 2 3,3% Frecuencias Acumuladas Absoluta Relativa 32 53,4% 37 61,7% 41 68,4% 49 81,7% 54 90,0% 54 90,0% 54 90,0% 58 96,7% 60 100,0% En variables continuas, la organización de datos es un poco más compleja, se dividen los datos en k grupos o segmentos disjuntos, como se muestra Figura 4.1. Estos grupos representan las clases y se determina la frecuencia de datos asociado a cada grupo, conformando una tabla de frecuencia agrupada. Figura 4.1 Segmentación en grupos de datos continuos. 24 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres En este tipo de datos las clases están compuestas por intervalos, luego es necesario buscar un representante de la frecuencia asociada a este intervalo, el cual se conoce como marca de clase. Es común utilizar como marca de clase al valor medio del segmento (intervalo). Construcción de la Tabla de Frecuencia En la construcción de una tabla de frecuencia, lo primero que se tiene que tener claro es la cantidad de segmentos (intervalos) a considerar. Lo más común es utilizar como una primera aproximación la regla de Sturges. Regla de Sturges: El número de clases k = 3,3 log(n) + 1 , donde ‘n’ es la cantidad de datos que se desea organizar. Nosotros recomendamos utilizar un número impar de clases, por consideraciones que se explicarán más adelante. Amplitud: Para determinar ‘a’, la amplitud de las clases, se debe calcular el rango (RD), que es la diferencia entre el dato mayor (máx. {xi}) y el menor (min. {xi}). También es necesario determinar ‘u’, la unidad mínima de conteo de los datos. La amplitud está dada por: Amplitud (a) = RD + u k Rango de la Tabla: Una vez determinada la amplitud a, la cual se recomienda con un decimal más que los datos originales, se procede a determinar el rango de la tabla (RT), que es la multiplicación entre la cantidad de clases que se están utilizando y la amplitud. La inclusión de u en el cálculo de a, puede que no garantice que el RT sea mayor que el RD, es por esta razón que se recomienda utilizar una aproximación conveniente en a. Para la determinación de los límites teóricos de las clases, se comienza con el límite Inferior de la primera clase, LI1, el cual se calcula como: LI1 = Mínimo {xi} − D 2 donde la diferencia, D= RT - RD, en el caso que el último digito de D no sea par, sea realiza un ajuste conveniente. 25 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Posteriormente, se suma la amplitud a LI1 obteniéndose el límite superior de esta clase, LS1, el que también será el límite inferior de la segunda clase, LI2 = LS1. LS1 se considera abierto para su clase y cerrado para la segunda clase. Los siguientes límites se obtienen sumando la amplitud hasta completar las k clases a utilizar. La tabla de frecuencia genérica resultante queda: Tabla 4.4 Tabla de frecuencia genérica. Clases [ LI1 − LS1 [ [ LI2 − LS2 [ [ LI3 − LS3 [ Frecuencias Absoluta Relativa n1 f1 n2 f2 n3 f3 Frecuencia Acumulada Absoluta Relativa N1 F1 N2 F2 N3 F3 …. …. …. …. …. [ LIk − LSk [ nk fk Nk Fk APLICACIÓN 4.4 Suponga que los datos representan tiempos de espera (en segundos) para la línea telefónica de atención al cliente. 47 34 55 53 55 61 25 42 55 52 43 48 65 45 49 46 66 54 70 57 33 42 36 44 57 53 44 70 34 41 N° de Clases (k): 52 57 47 43 57 57 54 41 68 39 a = 52 54 44 23 56 36 57 58 45 38 52 54 44 23 56 36 57 58 45 57 49 46 45 32 42 47 45 44 52 69 47 55 44 49 53 52 46 1 + 3,322 x log (n) = 1 + 3,322 x log (117) ≈ 8 (Impar cercano 7) Rango de la Muestra: Amplitud: Tiempos (Segundos) 70 24 55 48 65 45 48 63 66 51 39 11 56 59 56 54 55 46 42 52 54 49 49 45 52 41 54 54 49 51 44 52 29 36 52 32 42 37 43 35 RM=Máximo {xi}–Mínimo {xi} = 70–11 = 59 RM + 1 7 = 59 + 1 7 ≈ 8,6 Rango de la Tabla : RT: k x a = 7 x 8.6 = 60.2 Diferencia : D = RT – RM = 60.2 – 59 = 1.2 26 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Límite Inferior y Superior de la primera clase: LI1 = Mínimo {xi} − D = 11 – 0,6 2 = 10,4 LS1 = LI1 + a = 10,4 + 8,6 = 19,0 Tabla 4.5 Tiempo de espera antes de ser atendido. Frecuencia Tiempos (seg.) [ 10,4 [ 19,0 [ 27,6 [ 36,2 [ 44,8 [ 53,4 [ 62,0 − − − − − − − 19,0 [ 27,6 [ 36,2 [ 44,8 [ 53,4 [ 62,0 [ 70,6 ] Marca de Clase 14,7 23,3 31,9 40,5 49,1 57,7 66,3 Frecuencia Acumulada Absoluta Relativa Absoluta Relativa 1 4 11 22 39 30 10 0,85% 3,42% 9,40% 18,80% 33,33% 25,64% 8,56% 1 5 16 38 77 107 117 0,85% 4,27% 13,67% 32,47% 65,80% 91,44% 100,00% 4.2.2 Diagramas de Tallo y Hoja El uso de tablas de frecuencias agrupadas tiene una desventaja bastante obvia, los datos originales se pierden en el proceso de organización. La Figura 4.2 muestra algunas situaciones que pueden darse: Figura 4.2 Representación de la distribución de los datos en rangos de intervalos. Otra forma de presentar tablas de frecuencias agrupadas, es la utilización de un diagrama de Tallo y Hoja, que ofrece una forma sencilla de exhibir los datos, sin que en éstos se pierda la noción de distancia. En el diagrama de tallo y hoja, el tallo -la primera parte de número-, es el que presenta menor variación, mientras que la hoja, esta formado los dígitos restantes. A modo de ejemplo, supongamos el dato es 548, entonces se puede descomponer en un tallo y una hoja de las siguiente manera: 5 48 ↑ tallo ↑ hoja 54 ↑ 8 ↑ tallo hoja 27 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres La utilización de diagramas de tallo y hoja es de gran utilidad cuando se cuenta con un número pequeño de datos, digamos menos de 30, pues la construcción de un histograma de frecuencia en este caso es de poca ayuda. APLICACIÓN 4.5 Los datos observados representan la proporción de reclamos, por pagos incorrectos, en las cuentas del consumo mensual de electricidad, en los dos últimos años: 7,12 10,23 8,54 7,89 9,12 9,72 10,12 9,99 11,09 8,88 12,40 11,52 10,02 8,65 12,30 9,91 10,05 11,53 9,95 10,50 16,40 9,90 9,87 13,24 Los datos se mueven entre 7,12 a 16,40. En esta aplicación se usa como tallo 7, 8, ... 16, y el diagrama resultante es: Tallo 7 8 9 10 11 12 13 14 15 16 12 54 12 02 09 03 24 Hoja 89 65 72 05 52 40 88 87 90 91 95 99 12 23 50 53 40 Otra forma de representar los datos, destaca su carácter decimal y omite los tallos de frecuencia cero que se encuentren cercanos a los extremos, mostrando la discontinuidad que se ha creado, como se muestra en la figura siguiente. Tallo Hoja 7, 12 89 8, 54 65 88 9, 12 72 87 90 91 95 99 10, 02 05 12 23 50 11, 09 52 53 12, 03 40 13, 24 === ========= 16, 40 28 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Ciertas características relevantes de los datos pueden volverse más evidentes, si cada tallo puede dividirse en dos o más tallos, llamado subtallos que contienen en su conjunto el mismo número de valores correspondientes a su hoja. El diagrama de tallo, donde el tallo se ha divido en: dos, tres, etc., es conocido como diagrama de tallo y hoja de; doble, triple, etc. tallo. En el caso anterior, si se realiza un diagrama de doble tallo y hoja, donde el tallo se diferencia por ‘a’, cuando la parte decimal es menor a 50, y ’b’, cuando la parte decimal es mayor o igual que 50, el diagrama resultante es: Tallo Hoja 7,a 12 7,b 89 8,a 8,b 54 65 88 9,a 12 9,b 72 87 90 91 95 99 10,a 02 05 12 23 10,b 50 11,a 09 11,b 52 53 12,a 03 40 12,b 13,a 24 === ========= 16,a 40 Una utilidad adicional de los diagramas de tallo y hoja es que permite comparar, cuando tiene sentido hacerlo, como en el caso de la aplicación anterior si deseamos comparar entre los dos años, como se muestra en el diagrama: Hoja (Año 1) Tallo Hoja (Año 2) 89 12 7 88 8 65 54 99 12 90 95 91 9 87 72 23 02 12 10 05 50 09 52 53 11 40 12 30 24 13 16 40 29 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres 4.2.3 Gráficos Un gráfico es otra forma de representar y resumir datos, en el gráfico se pueden se hacer evidentes ciertas características que en una tabla de frecuencias pueden pasar inadvertidas. La representación gráfica de los datos ha logrado un uso creciente en los medios de comunicación y eso se debe en gran parte, a la popularidad y uso de software con amplias representaciones gráficas. Hay disponibilidad de gráficas de muchos tipos, desde aquellas para datos agrupados en tablas de frecuencias hasta datos no agrupados, donde su uso depende en gran medida del tipo de escala empleada. En adelante se ilustran distintos tipos de gráficos comúnmente utilizados. Gráficos de barras y la gráfica de pastel (circular), son los gráficos más comunes y sencillos, usualmente utilizados en datos categóricos. Cuando los datos se presentan en escala nominal, la secuencia en que se presentan las clases es totalmente arbitraria, sin embargo, cuando los datos se presentan en escala ordinal, las clases deben mantener el orden de la escala. A continuación se presentan dos aplicaciones que exponen una serie de gráficos y variaciones de estos. APLICACIÓN 4.6 La tabla muestra la proporción de clientes asociados sector de ubicación. . Tabla 4.6 Sector de ubicación del cliente. Sector Proporción(%) 1 10% 2 15% 3 40% Sector de Cliente 6 10% 1 20% 15% 2 Sector Porcentaje 40% 10% 3 4 Sector 5 5% 6 4 20% 5 10% Sector de Cliente 5% 5 10% 1 10% 2 4 6 5% 15% 20% 3 40% Porcentaje Figura 4.3: Gráficas de barra asociada de ubicación del cliente. Las gráficas de barras anteriores son dos variantes, la primera (de izquierda a derecha), es un gráfico de barra habitual donde se sigue la secuencia del 30 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres sector, en la segunda forma, ahora escrito en el eje de las abscisas, se escriben los sectores de acuerdo a su importancia relativa. Los gráficos circulares, son otra opción para los datos anteriores, En estos gráficos, el más común es el primero (de izquierda a derecha), por su sencillez y fácil interpretación, sin embargo en los últimos tiempos, particularmente en periódicos de economía y negocios se ha popularizado el segundo, por su atractivo visual, posee la desventaja que en la tercera dimensión, sobredimensiona los sectores frontales y subdimensiona los sectores del fondo de la gráfica. Sector de Cliente 5% Sector de Cliente 10% 28% 2 14% 19% 14% 1 10% 3 4 5 24% 5% 28% 6 24% 19% 1 2 3 4 5 6 Figura 4.4: Gráficas circulares asociadas al sector del cliente APLICACIÓN 4.7 Suponga que estamos interesados en el grado de satisfacción de los clientes con respecto a los servicios adicionales que presta la empresa. En este caso a una muestra de 77 clientes se pide que califiquen el grado de satisfacción como: Insatisfecho (I), Indiferente (II), Normal (N), Satisfecho con reparos (SR) y Totalmente Satisfecho (TS). Los datos son: Tabla 4.7 Grado de satisfacción por servicios adicionales de la empresa. Grado Insatisfecho (I) Indiferente (II) Normal (N) Satisfecho con Reparos (SR) Totalmente Satisfecho (STS) Frecuencia Absoluta Absoluta Acumulada 19 19 21 40 33 73 2 75 4 77 En la Figura 4.5, se muestran dos gráficas asociadas, con la particularidad que la variable cualitativa bajo estudio está en escala ordinal, razón por la cuál, existe un 31 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres orden en la distribución del grado de satisfacción. Grado de Satisfacción Grado de Satisfacción 4 TS 3% 2 SR 5% 24% I 33 N II 21 II N 41% 19 I 0 10 20 30 Frecuencia SR TS 40 27% Figura 4.5: Gráficas circulares asociadas al sector del cliente. En la representación gráfica de la tabla de frecuencia de datos cuantitativos (continuos), existen cuatro gráficos habituales El primero, los constituye el histograma de frecuencia junto con el polígono de frecuencia, el segundo, lo Histograma de Frecuencia 50 Frecuencia 40 Polígono de Frecuencia 30 20 10 0 10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6 Tiempos [seg.] Figura 4.6: Histograma de frecuencia y polígono de frecuencia para los tiempos de espera. constituye gráfica de frecuencias acumuladas junto con la ojiva. Se muestra a continuación estas graficas para los datos de tiempos de espera (Tabla 4.5). La última representación gráfica es utilizada en particular cuando la variable bajo estudio se ha medido en el tiempo (datos longitudinales). Está gráfica, llamada diagrama de dispersión, es de gran utilidad en series de tiempo y control estadístico de la calidad, tiene la particularidad que puede mostrar tendencias de los datos en el 32 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres F re c ue nc ia A c um ula d a 120 Frecuencia 100 80 Ojiva 60 40 20 0 1 0 ,4 -1 9 ,0 1 9 ,0 - 2 7 ,6 2 7 ,6 - 3 6 ,2 3 6 ,2 - 4 4 ,8 4 4 ,8 - 5 3 ,4 5 3 ,4 - 6 2 ,0 6 2 ,0 - 7 0 ,6 T i e m po s [s e g .] Figura 4.7: Gráfica de frecuencia acumulada y ojiva para los tiempos de espera antes de su atención. tiempo. Consideremos los datos de la aplicación 4.5, pero además agreguemos el tiempo como referencia. Año 4.3 1 7,12 7,89 10,12 8,88 10,02 9,91 9,95 9,9 10,23 9,12 9,99 12,4 2 8,65 10,05 10,5 9,87 8,54 9,72 11,09 11,52 12,3 11,53 16,4 13,24 Diagrama de Dispersión 18 Porcentaje de Reclamos Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre 16 14 12 10 8 6 Tiempo Figura 4.8: Diagrama de Dispersión Porcentaje de reclamos el tiempo. Medidas de Desempeño Los indicadores de desempeño han adquirido gran importancia a partir del establecimiento de la filosofía de gestión, calidad total y la aplicación de normas nacionales o internacionales. Son herramientas para la evaluación de la gestión, que proveen valores de referencia con el cual se puedan comparar o proponer metas. Las medidas de desempeño son otro medio con el cual se resumen los datos, ya que a través de ellos se establece una medida resumen de alguna particularidad en los datos. Estos indicadores se dividen en tres tipos: medidas de posición, resumen de 33 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres los datos que representa un lugar definido importante dentro de ellos; medidas de variabilidad o riesgo, que como se podrá apreciar son muy importantes ;y medidas de forma, que tienen una importante relación con un grupo de medidas de posición. 4.3.1 Medidas de Posición Una medida de posición es un valor simple que se calcula para un grupo de datos y que se utiliza como una manera de resumir a estos un valor dentro del rango de los datos. Normalmente se desea que el valor sea representativo de todos los valores incluidos en el grupo, estos valores pueden estar relacionados con posiciones de particular interés como los extremos, los cuales se asocian a cuantiles, o valores del centro, llamados de tendencia central. La Media Aritmética: La media aritmética, o promedio, se define como el cociente de la suma de todos los valores entre el número total de valores. En estadística, un "promedio” es una medida de Tendencia central para un conjunto de datos. En estadística es normal representar una medida descriptiva de una población, (o parámetro poblacional), mediante letras griegas, en tanto que se utilizan letras romanas para las medidas descriptivas de estadísticas muestrales. Así, la media aritmética para una población de valores se presenta mediante el símbolo µ, en tanto que la media aritmética de una muestra se representa mediante el símbolo X . Las expresiones para el cálculo de la media de una población y de una muestra son: N ∑ n ∑X Xi µ = i =1 N i X = i =1 n APLICACIÓN 4.8: Los pagos de consumo, en una muestra de 15 cuentas en un restaurante, fueron: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000. 15 ∑ Xi El promedio muestral es: X = i =1 15 = $ 12.080. Cuando se agrupan datos en una distribución de frecuencias, se utiliza el punto medio de cada clase como aproximación de todos los valores contenidos en ella. El punto medio o marca de clase se representa con el símbolo mi, en donde el subíndice i indica la "clase i", y se utiliza la letra ni para representar la frecuencia absoluta observada en la clase respectiva. 34 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Las fórmulas para la media de la población y de la muestra para datos agrupados son: k µ= ∑ i =1 k ni mi N X= ∑ i =1 ni mi n APLICACIÓN 4.9: Considerando los datos del tiempo de espera (en segundos) antes de ser atendido se tiene: Tiempos (seg.) [ 10,4 − 19,0 [ [ 19,0 − 27,6 [ [ 27,6 − 36,2 [ [ 36,2 − 44,8 [ [ 44,8 − 53,4 [ [ 53,4 − 62,0 [ [ 62,0 − 70,6 ] k X= ∑ i =1 ni mi n = Marca de Clase 14,7 23,3 31,9 40,5 49,1 57,7 66,3 Frecuencia Absoluta Relativa 1 0,85% 4 3,42% 11 9,40% 22 18,80% 39 33,33% 30 25,64% 10 8,56% 14, 7 × 1 + 23,3 × 4 + . . . + 66,3 × 10 = 48,4 [ segundos] 117 La gran desventaja de este indicador es su gran sensibilidad a la presencia de datos extremos. Un dato extremo se manifiesta inmediatamente en el promedio, poniendo en duda el ser un valor representativo del centro de los datos. La Mediana: La mediana de un conjunto de datos es el valor que ocupa el lugar central de estos cuando se ordenan en orden de magnitud. Para conjunto de datos, con un número par de elementos, la mediana se calcula como el promedio de los valores centrales. En el caso de estar trabajando con datos dispersos, la expresión para determinar la posición de la mediana en el conjunto (ordenado) es: X n + 1 2 Me = 1 (X n + 2 2 ( ) si n es impar X ( )) n +1 2 si n es par En las expresiones anteriores, X, representa el valor de dato, mientras que el paréntesis en el subíndice, muestra el lugar que ocupa la mediana dentro del conjunto 35 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres de datos ordenados. APLICACIÓN 4.10: Considerando los pagos de consumo, en una muestra de 15 cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000. Me = X n + 1 2 = X 15 + 1 = 2 $ 5.300 Para datos agrupados, en primer lugar es necesario determinar la clase que contiene el valor de la mediana, para después determinar la posición de la mediana dentro de la clase mediante interpolación. La clase que contiene la mediana es la primera clase cuya frecuencia acumulada es mayor o igual a la mitad de los datos. Una vez que se identifica esta clase, se determina el valor interpolado de la mediana, empleando la siguiente expresión: n 2 − Ni −1 Me = L i + ai ni Li = Límite inferior de la clase que contiene la mediana. n = número total de observaciones en la distribución de frecuencias. ai = Amplitud de clase. Ni - 1 = La frecuencia acumulada anterior a la clase que contiene la mediana. ni = Número de observaciones en la clase que contiene la mediana. Los fundamentos de esta expresión están en la ojiva y la interpolación lineal. APLICACIÓN 4.11: Para los datos agrupados de la Tabla 4.5, la mediana del tiempo de espera (en segundos) antes de ser atendido es: Tiempos (seg.) Marca de Clase [ 10.4 − 19.0 [ 14.7 77 ⇐ Clase Mediana ... ... 117 − 2 Me = 44,8 + 39 1 ... ... 39 ... ... 49.1 1 ... ... [ 44.8 − 53.4 [ Frecuencia Absoluta Acumulada 38 8,6 = 49,3 [ segundos] 36 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres La mediana es otra medida de tendencia central, este indicador no es afectado por datos extremos (indicador robusto). La Moda: Medida de tendencia central, que está dada por el valor o clase que se presenta con mayor frecuencia. A una distribución que tiene una sola moda se le denomina unimodal. Cuando dos valores no adyacentes tienen frecuencias máximas similares, se dice que la distribución es bimodal. Para datos agrupados, primero se identifica la clase que contiene la moda, determinando la clase que tiene el mayor número de observaciones (clase modal). Algunos autores consideran que la moda es el punto medio de la clase modal (marca de clase), otros, interpolan dentro de la clase modal, de acuerdo con la siguiente expresión: d1 Mo = Li + d1 + d 2 Li = d1 = d2 = ai = a i , donde d1 es un factor de ponderación. d1 + d 2 Límite inferior de la clase que contiene la moda. Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que le precede. Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase que le sigue. Amplitud del intervalo de clase. La deducción de la expresión es clara con la ayuda de la Figura 4.9. Como se puede apreciar en esta figura d2 es menor que d1, por esta razón el factor de ponderación es mayor que 0.5, que multiplicado por la amplitud permite que la moda se encuentre más cerca del limite superior de la clase modal. Figura 4.9. Esquema de localización de la moda. En caso que d2 sea mayor que d1, el factor de ponderación es menor que 0.5, que multiplicado a la amplitud permite que la moda se encuentre más cerca del limite inferior. Cuando d2 es igual a d1, el factor de ponderación es 0.5, que multiplicado a 37 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres la amplitud permite que la moda se encuentre justo en la marca de clase modal. En tablas de frecuencia es posible encontrar dos o más clases con igual máxima frecuencia, en este caso se dice que la población es: bimodal, trimodal, etc. APLICACIÓN 4.12: Para los datos agrupados de la Tabla 4.5, la moda de los tiempos de espera (en segundos) es: Tiempos (seg.) Marca de Clase 38 77 107 ⇐ Clase Modal ... ... ... ... 22 39 30 ... ... 40,5 49,1 57,7 ... ... [ 36,2 − 44,8 [ [ 44,8 − 53,4 [ [ 53,4 − 62,0 [ Frecuencia Absoluta Acumulada 39 − 22 Mo = 44,8 + 8,6 = 50.4 [ segundos] 39 − 30 + 34 − 22 Existen otras medidas de tendencia central, utilizadas en situaciones más específicas como una solución al problema de la alta sensibilidad del promedio aritmético, alguna de ellas son: Media Geométrica: Se utiliza principalmente para promediar proporciones de variaciones, en datos económicos y se define como la raíz n-ésima del producto de los n valores. MG = n x1 × x2 × . . . × xn Media Armónica: Se define como el recíproco de la media de los recíprocos de las medias, es decir: MH = n n ∑ x1 i =1 i Media Recortada: Se define como el valor medio excluyendo un porcentaje de datos en el extremo inferior y superior del conjunto de observaciones. Existen medias recortadas al 90%, 80%, etc. Por ejemplo, en la media recortada al 90%, no se consideran en el cálculo de la media el 5% de los datos más pequeños y el 5% de los datos más grandes. 38 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Cuantiles: Los cuantiles son medidas de posición que dividen los datos en grupos bajo los cuales se encuentra una determinada proporción de éstos, por lo se requiere que los datos se encuentren en al menos escala La mediana es un cuantil que divide la distribución de los datos en dos partes de igual frecuencia acumulada, y luego bajo/sobre la mediana se encuentra acumulado el 50% de los datos. Los cuartiles, la dividen en cuatro cuartos; los quintiles, dividen la población en cinco; los deciles, la dividen en diez décimos; y los puntos percentiles, la dividen en cien partes. Estos, en el caso de datos dispersos, son expresados por: Qi (cuartil i ) = X i ( n + 1) 4 Ki (quintil i ) = X i ( n + 1) 5 Di (dencil i ) = X i ( n + 1) 10 Pi ( percentil i ) = X i ( n +1) 100 i : 1, 2, ... , 4 i : 1, 2, ... , 5 i : 1, 2, ... , 10 i : 1, 2, ... , 100 Estas expresiones son exactas en la medida que los factores de proporción: i (n + 1) i (n + 1) i (n + 1) ; ; sean números enteros, en caso contrario una 4 10 100 buena aproximación (aunque no la única) la entrega el promedio entre el entero superior e inferior de la respectiva fracción, tal como se presenta en la aplicación siguiente. APLICACIÓN 4.13: Considerando los pagos de consumo: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000. Q3 = X 3(15 + 1) = X(12) = $ 24.500 4 Luego, el 75% de los pagos por consumo son menores o iguales a $ 24.500. Algunos casos en que el factor de proporción no resulta un número entero, como por ejemplo, el decil 4 ó el percentil 68. En el primero, el valor se encuentra entre los valores sexto y séptimo del grupo ordenado, cuya interpretación sería que el 40% de los importes de consumo de las 15 cuentas del restaurante son menores o 39 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres iguales a $ 3.750. D4 = X 4(15 + 1) = X(6,4) = 10 X (6) + X (7) = $ 3.750 2 En el segundo cuantil, el valor se encuentra entre los valores 10 y 11 del grupo ordenado. P68 = X 68(15 + 1) = X(10,88) = 100 X (10) + X (11) 2 = $ 13.000 Para datos agrupados, la fórmula se modifica de acuerdo con el punto fraccionario de interés. Para utilizar esta expresión modificada, en primer lugar se determina la clase que contiene el punto de interés, de acuerdo con las frecuencias acumuladas, y después se lleva a cabo una interpolación como en el caso anterior de la mediana. Ahora un análisis más exhaustivo de estas expresiones se obtiene a través del segmento de la línea recta en la ojiva, recordemos la Figura 4.4 de los tiempos de espera, donde a partir de 117 datos, se construye la gráfica, de la Figura 4.10 y supongamos que estamos interesados en el percentil 78, por lo tanto debemos determinar, de acuerdo con las frecuencias acumuladas la clase que contiene el punto de interés, como se muestra en la Figura 4.10, este punto se encuentra en la penúltima clase. Frecuencia Acumulada Frecuencia 120 y2 y y1 60 0 Tiempos [seg.] x 1 P78 x 2 Figura 4.10: Gráfica para la determinación de percentiles. Si se recuerda la ecuación de la línea de la recta, dada por: y − y1 y2 − y1 = x − x1 x2 − x1 40 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres En este caso se observa que: 1. 2. 3. 4. y=y x = P78 x2 – x1 = Ls – LI = a y2 – y1 = Ni – Ni – 1 = ni Luego despejando x = P78, se obtiene una expresión para el cálculo de percentiles en datos agrupados: y − y1 (x2 – x1) = LI + x = P78 = x1 + y y − 1 2 y − Ni − 1 a n i En el futuro se debe notar que ‘y’ no es otra cosa que n× j , donde ‘j’ es el 100 percentil j-ésimo. Luego, la expresión general para el cálculo de percentiles, utilizando frecuencias absolutas como relativas está dada por: n× j − Ni − 1 a = LI + Pj = LI + 100 ni j − Fi − 1 100 a fi Esta expresión claramente permite el cálculo de deciles, quintiles o cuartiles. APLICACIÓN 4.14: Para los datos agrupados en Tabla 4.5, el percentil 80 de los tiempos de espera (en segundos) es: Tiempos (seg.) Marca de Clase 39 30 10 ... ... 49,1 57,7 66,3 ... ... [ 44,8 − 53,4 [ [ 53,4 − 62,0 [ [ 62,0 − 70,6 [ Frecuencia Absoluta Acumulada 77 107 117 ⇐ Clase Percentil 80 117 × 80 − 77 8,6 = 58,2 [segundos] P80 = 53,4 + 100 30 41 Universidad Técnica Federico Santa María Departamento de Matemáticas Luego, el 80% de los tiempos de espera segundos. Renato Allende Olivares Humberto Villalobos Torres es menor o igual a los 58,2 Otra utilidad, de la expresión anterior, permite determinar que porcentaje de los datos se encuentra bajo (o por defecto sobre) un determinado valor, como por ejemplo, ¿Qué porcentaje de las veces, los tiempos de espera fueron superiores a 47 segundos?. En este caso se conoce el percentil, pero no el porcentaje, luego: 117 × j − 38 x 8,6 ⇒ j = 41,01 % 47 = 44,8 + 100 39 Por lo tanto, el (100 – 40,01)%= 58,99%. son superiores a 47 segundos. También se puede determinar el porcentaje de tiempos de servicio que se encuentra en el intervalo [47; 63] segundos. Como se sabe el porcentaje que se encuentra bajo los 47 segundos (40,01%),y determinando el % que están bajo los 63 segundos. 117 × j − 107 x 8,6 ⇒ j = 92,45 % 63 = 62,0 + 100 10 Obteniéndose que el porcentaje de tiempos de servicio en el intervalo deseado es de (92,45 – 40,01)% = 51,44%. 4.3.2 Medidas de Variabilidad Las medidas de tendencia central ó de posición que se presentaron son útiles para identificar un valor “típico” ó “particular” de un conjunto de datos, las medidas de variabilidad se ocupan de describir la dispersión (riesgo, precisión) de los datos con respecto a una medida del centro o un valor particular. A modo de ejemplo, suponga que dos máquinas empacadoras dan como resultado productos con un peso promedio de 10 gramos, pero que en un caso los productos se encuentran dentro de un rango de 0,1 gramos con respecto a este peso promedio, en tanto que en el otro los pesos pueden variar hasta en un gramo. Como se observa en la Figura 4.11, en el primer caso los datos son menos dispersos respecto al Figura 4.11: Visualización de la variabilidad en un conjunto de datos 42 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres valor de 10 gramos que en el segundo caso, lo que implicaría que suposiciones realizadas al primer caso serían de menor riesgo que las del segundo. Existen varios indicadores para medir la magnitud de la variabilidad en conjuntos de datos. Las que se describen a continuación son: rango, rango modificado, desviación media, varianza, desviación estándar y coeficiente de variación. El Rango: El rango (R), es la diferencia entre el mayor y menor valor del conjunto de datos. Sí Máx.{xi} representa el mayor, y Min.{xi} representa el menor, el rango de los datos está dado por: Max{xi } − Min{xi } R= LS − LI 1 k datos dispersos datos agrupados APLICACIÓN 4.15: Considerando los pagos de consumo, en una muestra de 15 cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango está dado por: R = Máx.{xi} – Min.{xi} = 41000 - 1000 = $ 40.000 APLICACIÓN 4.16: Para los datos agrupados de la Tabla 4.5, el rango de los tiempos de espera (en segundos) es: Tiempos (seg.) Marca de Clase [ 10,4 − 19,0 [ 14,7 10 1 ... ... 66,3 1 ... ... [ 62,0 − 70,6 [ Frecuencia Absoluta Acumulada 117 R = LS7 – LI1= 70,6 – 10,4 = 60,2 [segundos] Rangos Modificados: Un rango modificado es un rango para el cual se elimina cierto porcentaje de los valores en cada uno de los extremos de la distribución y es simbolizado por R Mod (j% central). Algunos rangos modificados típicos son: el 50% central, el 80% central y el 90% central. Para determinar el rango modificado, primero se debe ubicar los dos puntos percentiles de interés para, después, calcular el rango entre ellos. Por ejemplo, para el rango del 80% central, los puntos percentiles de interés son el décimo percentil y el nonagésimo percentil, porque el 80% central de esos valores se ubica entre esos dos puntos. 43 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres APLICACIÓN 4.17: Considerando los pagos de consumo, en una muestra de 15 cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango modificado al 50% central está dado por: P75 = X 75 ( n + 1) = X(12) = $ 24.500. 100 P25 = X 25 ( n + 1) = X(4) = $ 2.500. 100 R Mod (50% central) = P75 - P25 = 24500 – 2500 = $ 22.000. El rango modificado al 50% central, también es conocido como rango intercuartilico, mientras que el rango modificado al 80% es conocido como rango interdecil. Los rangos modificados, en general, buscan anular el efecto de valores extremos de los datos, que producirían un fuerte efecto en el rango tradicional, como medida de variabilidad. APLICACIÓN 4.18: Para los datos agrupados de la Tabla 4.5, el rango modificado al 90% central de los tiempos de espera (en segundos) es: 117 × 5 − 5 x 8,6 = 28,3 [seg.] P5 = 27,6 + 100 11 117 × 95 − 107 x 8,6 = 65,6 [seg.] P95 = 62,0 + 100 10 R Mod (90% central) = P95 - P5 = 65,6 – 28,3 = 37,3 [segundos]. La Desviacion Media: La desviación media (DM) es la media (promedio) del valor absoluto de la diferencia entre cada uno de los datos y el promedio del grupo. n xi − x n i =1 DM = k fi mi − x i =1 ∑ datos dispersos ∑ datos agrupados 44 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Nota: Algunos autores utilizan la diferencia entre cada valor y la mediana). Es común también utilizar indicadores como la desviación mediana (DMe) o la desviación modal (DMo), como indicadores de variabilidad alternativos a la desviación media. La utilización de estos indicadores, es debido a la alta sensibilidad del promedio a valores extremos, que también se hereda en indicadores que utilizan este indicador, como es el caso de la desviación media. También debe notarse, que la desviación modal, sólo es posible cuando la moda se determina a partir de datos cuantitativos, ya que es una medida de dispersión que no tiene sentido en datos cualitativos donde no existe la noción de distancia. APLICACIÓN 4.19: Considere que las ventas (por vendedor) de aparatos eléctricos fueron las siguientes: 5 – 8 – 8 11 – 11 – 11 – 14 – 16. La media aritmética es 10,5. y la desviación media es: x 5 8 8 11 11 11 14 16 x– x -5,5 -2,5 -2,5 0,5 0,5 0,5 3,5 3,5 Total 8 DM = ∑ xi − x i =1 n x – x 5,5 2,5 2,5 0,5 0,5 0,5 3,5 3,5 21,0 = 21/ 8 = 2,625 = 2,6 unidades Así, puede decirse que, en promedio, las ventas de aparatos eléctricos por vendedor difieren en 2,6 unidades de la media del grupo, APLICACIÓN 4.20: Para los datos agrupados de la Tabla 4.5, para los tiempos de espera, la media aritmética es 48,4 segundos, la desviación media está dada por: fi 0,009 0,034 0,094 0,188 0,333 0,256 0,086 mi 14,7 23,3 31,9 40,5 49,1 57,7 66,3 mi – x -33,7 -25,1 -16,5 -7,9 0,7 9,3 17,9 mi – x fi mi – x 33,7 0,3033 25,1 0,8534 16,5 1,551 7,9 1,4852 0,7 0,2331 9,3 2,3808 17,9 1,5394 Total 8,3462 45 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres k DM = ∑ f m −x i = 8,4 [segundos]. i i =1 La Varianza y la Desviación Estándar: La varianza es similar a la desviación media porque se basa en la diferencia entre cada uno de los valores del conjunto de datos y la media del grupo, La diferencia consiste en que, antes de sumarlas, se eleva al cuadrado cada una de las diferencias, Para una población, se representa la varianza mediante V(X) o, típicamente por la letra σ2; la fórmula de cálculo es: N 2 V(X) = σ = ∑ i =1 ( xi − µ ) N 2 A diferencia de otras estadísticas muestrales que se han analizado, la varianza de una muestra no es, en términos de cálculo, completamente equivalente a la varianza de la población, La varianza muestral se representa mediante S2, y está dada por: n 2 S = ∑ i =1 ( xi − x )2 n −1 Se utiliza con mayor frecuencia la raíz cuadrada de la varianza, representada mediante la letra griega σ para el caso poblacional y S para una muestra, y se le denominada desviación estándar, Las fórmulas son: σ= V(X) S = Varianza muestral Estas medidas (muestrales) también tienen su representación en datos agrupados, la cual está dada por: 1 S = n 2 k k 2 ni (mi - x ) = ∑ f i mi ∑ i =1 i =1 2 x 2 La desviación estándar, además de ser una medida de dispersión que utiliza toda la información (en contraposición con los rangos) y ser expresada en igual unidad de medida que los datos originales, es especialmente útil cuando se le utiliza junto con la denominada distribución normal. APLICACIÓN 4.21: Para los datos de ventas de aparatos eléctricos: 5 – 8 – 8 11 – 11 – 11 – 14 – 16. , la media aritmética es 10,5 unidades. Considerando estos datos mensuales de ventas como la población estadística de interés, se determina la 46 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres desviación estándar: σ= V(X) = 86 / 8 = 10,75 =3,3 unidades APLICACIÓN 4.22: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la media aritmética es 48,4 segundos, la desviación estándar es: fi 0,009 0,034 0,094 0,188 0,333 0,256 0,086 S= mi 14,7 23,3 31,9 40,5 49,1 57,7 66,3 mi – x -33,7 -25,1 -16,5 -7,9 0,7 9,3 17,9 (mi – x )2 fi (mi – x )2 1135,7 10,2212 630,0 21,4203 272,3 25,5915 62,4 11,7331 0,5 0,1632 86,5 22,1414 320,4 27,5553 Total 118,826 V(X) = 118,826 = 10,9 4.3.3 Medidas de Forma Los indicadores de forma de las distribuciones de frecuencias asociadas a un conjunto de datos, son medidas que se agrupan en : asimetría y curtosis. Las medidas de asimetría centran su interés en la tendencia de los datos a concentrarse en los valores más pequeños, que se conoce como asimetría positiva; valores más grandes, que conoce como asimetría negativa; o simplemente en el centro, que se denomina como simétrica . En la Figura 4.12, se observan las posibilidades de asimetría, en conjuntos de datos que presentan sólo una cima. En estos casos observar tendencia de los datos resulta fácil, sin embargo cuando se presenta más de una cima en una gráfica (no necesariamente más de una moda), determinar la asimetría de los datos es más riesgoso, con lo cual se recomienda el uso de indicadores para una mayor certeza de la situación. La figura muestra además, el caso de datos simétricos de un conjunto de datos bimodales. Las medidas de curtosis centran su atención en la tendencia de los datos en el grado de concentración que estos poseen alrededor de puntos centrales, en este caso se dice que los datos tienen una concentración mesocúrtica cuando el grado de concentración se acerca a ‘lo ideal’, mientras que, se habla de letocúrtica o platicúrtica, si el grado de concentración es menor o mayor a lo ideal, respectivamente. El concepto de ideal asociado a esta medida, tiene su fundamento en la 47 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres comparación de la curtosis muestral (mediante el uso de indicadores), con el de un modelo de probabilidad muy importante en estadística clásica que posee un valor teórico fijo con el cual es comparado. Asimetría Positiva Asimetría Negativa Simetría Simetría Figura 4.11: Representación de simetría en conjunto de datos. En la Figura 4.13, se muestran las tres situaciones de curtosis, en conjuntos de datos que presentan tan sólo una cima. Se puede apreciar, que en el caso de distribuciones leptocúrticas, la menor variabilidad es evidente en comparación a las otras formas. La distribución mesocúrtica, representa el caso de una distribución con variabilidad ideal, en comparación con el modelo probabilístico Normal. Finalmente Figura 4.13: Representaciones de curtosis en conjunto de datos. 48 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres la distribución platicúrtica, representa la mayor variabilidad en comparación con la distribución ideal. Sin embargo, mediante un análisis gráfico es muy difícil poder visualizar que un conjunto de datos posee alguno de estos patrones., Los indicadores asociados a curtosis, ayudan a la comparación de la variabilidad en los datos, pues justamente la variabilidad mide el grado de no concentración de estos. Adicionalmente, se pueden emplear como un criterio para determinar la existencia de datos extremos, es decir, muy grandes ó muy pequeños, con respecto al común de los datos observados, que causarían un efecto devastador en algunos indicadores, ó bien, como una señal de la existencia de dos estratos dentro de los datos que se analizan, como en el caso de la Figura 4.12, donde se muestra un conjunto de datos bimodales, donde perfectamente, se podría suponer que en la característica de la población en estudio se presenta concentrada en dos grupos, que afectarían los resultados de algunos indicadores. A continuación se presentan una serie de indicadores asociados a características de forma, en el primer caso se muestran indicadores de asimetría dados por los coeficientes de: Yule, Simetría, Pearson y Fisher; para finalizar con les coeficientes de curtosis: K2 y Fisher. Coeficiente de Yule y Simetría: Estos son dos indicadores de simetría, que se basan en cuantiles centrales, como lo son: cuartil 1, cuartil 3 y la mediana. Las expresiones de cálculo de Yule y Simetría son: IY = Q3 + Q1 − 2 × Q2 2 × Q2 IS = Q3 + Q1 − 2 × Q2 Q3 − Q1 Estos indicadores (adimensionales) son de fácil cálculo, tanto para datos dispersos como agrupados, tienen la ventaja de no ser afectados por observaciones aberrantes, que siempre se encuentran sobre Q3 o bajo Q1, razón por la cuál se puede apreciar que ambos indicadores muestran la simetría en el centro de los datos y no en la totalidad de éstos. Coeficiente de Pearson: El coeficiente de Pearson, se basa en tres indicadores de usual uso en estadística y mide la asimetría, como la diferencia entre la media y la mediana con respecto a la desviación estándar. Este coeficiente poblacional y muestral se encuentran dados respectivamente por: As = 3( x - M e ) Sx AS = 3 (µ − M e ) σ El promedio y la mediana, que son dos medidas de tendencia central, que cuando hay simetría siempre son iguales, y la desviación estándar, que es una medida de riesgo que estandariza el indicador, hacen de éste, un indicador más completo. 49 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Coeficiente de Simetría de Fisher: Es el indicador de simetría más fiable de los presentados anteriormente, se basa en el tercer momento de la distribución de los datos, y que para datos dispersos y agrupados se obtiene mediante: n m3 = ∑ i =1 ( xi − x ) n 3 k m3 = ∑f i (mi − x )3 i =1 Estas medidas se ven fuertemente afectadas por las unidades de medida de los datos en estudio, por lo tanto se estandariza para medir la asimetría estandarizada, cuya expresión queda: α3 = m3 3 Sx En su cálculo poblacional, al igual que en el coeficiente de Pearson, basta con el reemplazo de los indicadores muestrales: x y s, por sus respectivos cálculos poblaciones µ y σ. El punto de comparación teórico de estos indicadores es el cero, pues en distribuciones simétricas todos los indicadores resultan ser cero, mientras que si el indicador en negativo o positivo, se dice que la asimetría es negativa o positiva, respectivamente. Sin embargo, en la práctica en el análisis de datos reales, nunca se obtienen coeficientes ‘cero’, por lo cual es bueno recomendar un intervalo en torno al cual se aceptará la simetría. Para una distribución simétrica el valor del coeficiente de asimetría es cero, porque el promedio y la mediana son iguales, mientras que para una distribución con asimetría positiva la media es siempre mayor que la mediana y, por ello el valor del coeficiente es positivo, como se muestra en la Figura 4.14, donde además se muestra el caso de que en una distribución con un coeficiente de asimetría negativa, la media es siempre menor que la mediana. Figura 4.14: distribución de las medidas de tendencia central en curvas unimodales. 50 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres APLICACIÓN 4.23: Para los datos de ventas de aparatos eléctricos: 5 – 8 – 8 – 11 – 11 11 – 14 – 16. La media aritmética, la mediana, el primer y tercer cuartil, además de la desviación estándar están dadas por: 10.5; 11.0; 8.0; 12.5 y 3.3 unidades, respectivamente. Considerando que estos datos mensuales de ventas son la población estadística de interés, se tiene que: Q3 + Q1 − 2 × Q2 = -0,07. 2 × Q2 IY = As = IS = 3(10.5 − 11.0) = -0.45. 3.3 Q3 + Q1 − 2 × Q2 = -0.33. Q3 − Q1 m3 = 1.5. Luego, si consideramos IY, IS y As, la distribución tiene una ligera asimetría negativa es decir, “esta sesgada hacia la izquierda”, sin embargo si usamos m3 muestra el caso contrario. Esto se debe que tanto IY, IS y As, a perdido información al resumir los datos, por esta razón el m3 un coeficiente más confiable en establecer el tipo de asimetría de los datos. APLICACIÓN 4.24: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la media aritmética es 48,4 segundos, se obtienen los siguientes resultados: fi 0,009 0,034 0,094 0,188 0,333 0,256 0,086 mi 14,7 23,3 31,9 40,5 49,1 57,7 66,3 mi – x -33,7 -25,1 -16,5 -7,9 0,7 9,3 17,9 (mi – x )3 fi (mi – x )3 -38272,75 -344,45 -15813,25 -537,65 -4492,13 -422,26 -493,04 -92,69 0,34 0,11 804,36 205,92 5735,34 493,24 Total – 697,79 Utilizando las medidas calculadas anteriormente como: 1. x = 48.4 [segundos] 2. Me = 49.3 [segundos] 3. s2 = 118.3 [segundos]2 4. Q1 = 41.4 [segundos] 5. Q3 = 56.5 [segundos] ⇒ s = 10.9 [segundos] Por lo tanto se tiene: IY = – 0.01 m3 = – 697.79 IS = – 0.05 α3 = – 0.54 As = – 0.25 51 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Coeficiente K2: Este indicador de curtosis, que se basan en cuantiles extremos, como lo son: decil 1 y decil 9. Las expresiones de cálculo están dadas por: D9 − D1 K2 = 1.9 × (Q1 − Q2 ) –1 Estos indicador de fácil cálculo, tanto para datos dispersos como agrupados, tienen la ventaja de no ser afectados por observaciones aberrantes, que en la mayor parte de los casos se siempre se encuentran sobre el D9 o bajo el D1. K2, se encuentra divido por el factor 1,9 veces el rango intercuartílico que es la distancia que existe teóricamente entre los deciles 9 y 1, en la curva ideal estandarizada. Coeficiente de Curtosis de Fisher: Es el indicador de curtosis más, que se base en el cuarto momento de la distribución de los datos, que se encuentra dado para datos dispersos y agrupados por: n m4 = ∑1 i = ( xi − x ) n 4 k m4 = ∑f i (mi − x )4 i =1 Al igual que en el caso de m3, esta medida se ven fuertemente influenciadas por las unidades de medida de los datos en estudio, por lo tanto, esta medida de desempeño para medir la curtosis se estandariza, cuya expresión queda de la siguiente manera: α4 = m4 4 Sx –3 En su cálculo poblacional, basta con el reemplazo de los indicadores muestrales: x y s, por sus respectivos cálculos poblaciones µ y σ. El punto de comparación teórico de estos indicadores es el cero, pues en distribuciones absolutamente mesocurticas todos los indicadores resultan ser cero, mientras que si el indicador en negativo o positivo, se dice que la curtosis es platicurtica o leptocurtica, respectivamente. Sin embargo, en análisis de datos continuos en la práctica, nunca se obtienen coeficientes ‘cero’, por lo cual es bueno recomendar un intervalo en torno al cual se acepta la distribución de los datos como mesocurtica. APLICACIÓN 4.25: Para los datos de ventas de aparatos eléctricos que fueron: 5 – 8 8 – 11 – 11 – 11 – 14 – 16. Donde el primer y noveno decil, junto con el primer y tercer cuartil están dados por: 5; 16; 8 y 12.5 unidades, respectivamente. 52 Universidad Técnica Federico Santa María Departamento de Matemáticas Renato Allende Olivares Humberto Villalobos Torres Considerando que estos datos mensuales de ventas son la población estadística de interés, se determina los coeficientes de curtosis: K2 = 16 − 5 − 1 = 0.29 1.9 × (12.5 − 8) ⇒ m4 = 257.31 α4 = – 0.83 Luego, si consideramos K2, la distribución tiene un agudamiento que se podría considerar mesocúrtico, sin embargo si usamos m4 muestra una clara tendencia platicúrtica. Esto se debe que K2, a perdido información al resumir los datos, por esta razón el m4 un coeficiente más confiable en establecer el tipo de curtosis de los datos. APLICACIÓN 4.26: Para los datos agrupados de la Tabla 4.5, para los tiempos de espera, donde la media aritmética es 48,4 segundos, la desviación estándar está dada por: fi 0,009 0,034 0,094 0,188 0,333 0,256 0,086 mi 14,7 23,3 31,9 40,5 49,1 57,7 66,3 mi – x -33,7 -25,1 -16,5 -7,9 0,7 9,3 17,9 (mi – x )4 fi (mi – x )4 1289791,78 11608,13 396912,60 13495,03 74120,06 6967,29 3895,01 732,26 0,24 0,08 7480,52 1915,01 102662,57 8828,98 Total 43546,78 Utilizando las medidas calculadas anteriormente como: Q1 = 41.4 [segundos] 2. Q3 = 56.5 [segundos] 3. D1 = 32.8 [segundos] 4. D9 = 70.1 [segundos] 1. Por lo tanto se tiene: K2 = 0.30 m4 = 43546.78 α4 = 0.08 53