4. SEGUNDO MÓDULO 4.1 Resumen de Datos En estadística

Transcripción

Universidad Técnica Federico Santa María
Departamento de Matemáticas
Renato Allende Olivares
Humberto Villalobos Torres
4. SEGUNDO MÓDULO
4.1
Resumen de Datos
En estadística descriptiva, a partir de un conjunto de datos, se busca encontrar
resumes sencillos, que permitan visualizar las características esenciales de éstos. En
una experiencia, un dato por si sólo, es informativo del resultado de un ensayo en
particular, pero para obtener un patrón de esta experiencia, es necesario contar con un
conjunto de datos, que por sí solos no entregan información, de ahí la necesidad de
encontrar resúmenes apropiados que muestren, de existir, patrones en los datos.
En el resumen de datos se siguen dos enfoques: el primero, más orientado al
análisis exploratorio de datos, con un conjunto de técnicas encaminadas a la
visualización de los datos mediante tablas o gráficos que permitan realizar un
diagnóstico de ellos; el segundo desarrolla un conjunto de indicadores descriptivos de
diversas características importantes de los datos, cuyo fin es complementar el
diagnóstico de éstos.
4.2
Organización de Datos
La organización de datos trata de acomodar éstos, para que puedan revelar sus
características informativas fundamentales y de esta manera simplificar los análisis
para la obtención de conclusiones. Los datos no organizados también se denominan
‘datos no agrupados’, del mismo modo, los datos ya organizados son llamados ‘datos
agrupados’.
Una manera de acomodar los datos es construir un arreglo ordenado; esto es,
organizando los datos con un orden natural- cuando la escala de medición lo permite.
Si el número de datos es grande, el arreglo puede ser difícil de manejar y poco
útil en cuanto a la información que pueda entregar; por eso a menudo se utilizan
tablas de frecuencia como una primera aproximación general a la organización de
datos.
El uso de frecuencia es más natural en datos cualitativos o discretos, pues en
estos casos es sencillo contar el número de veces que aparece un mismo dato en la
población (muestra) de éstos, en este caso se habla de tablas de frecuencia no
agrupadas. Sin embargo, cuando se trabaja con datos cuantitativos en escala
continua, es muy posible que exista un conjunto de números distintos lo
suficientemente grande, como para hacer impracticable lo anterior, en este último
caso se procede a crear agrupaciones convenientes para los datos observados, este
caso se habla de tablas de frecuencia agrupadas.
21
4.2.1 Tablas de Frecuencia
En las tablas de frecuencias cada categoría tiene una frecuencia observada,
este cálculo es siempre posible en datos cualitativos, sin embargo, si la cantidad de
categorías distintas es grande, deja de ser un resumen adecuado para los datos.
Las respuestas observadas en la población (muestra), se denominaran clases,
las cuales se simbolizan por: C1, C2,..., Ck, donde k es la cantidad de categorías
(respuestas) distintas. En la construcción de tablas se utilizan las clases junto con dos
frecuencias asociadas a éstas, estas son:
Frecuencia Absoluta: Se llama frecuencia absoluta de la clase Ci, al número de
elementos en la población (muestra) que pertenecen a la clase Ci. Este número lo
denotaremos por ni y cumplen la propiedad:
k
∑n = n
i
i =1
Frecuencia Relativa: Se llama frecuencia relativa de la clase Ci, a la cantidad de
elementos en la población (muestra) que pertenecen a la clase Ci, relativo al total de
elementos en la población (muestra).Este número lo denotaremos por fi y cumplen la
propiedad:
n
fi = i
n
k
⇒
∑
k
fi =
i =1
∑
i =1
ni
= 1.0
n
APLICACIÓN 4.1 Suponga el caso que es de interés determinar la frecuencia de las
facturas que llegan a la empresa producto de trabajos realizado por los contratistas de
obras menores, donde los datos son:
Emis Ltda.
Emis Ltda.
Brown e Hijos
Emis Ltda.
Baker & Jones
Baker & Jones
Smith y CIA.
Brown e Hijos
Baker & Jones
Baker & Jones
Emis Ltda.
Baker & Jones
Smith y CIA.
Emis Ltda.
Emis Ltda.
Emis Ltda.
Smith y CIA.
Baker & Jones
Smith y CIA.
Smith y CIA.
Brown e Hijos
Baker & Jones
Baker & Jones
Emis Ltda.
Emis Ltda.
Smith y CIA.
Baker & Jones
Brown e Hijos
Baker & Jones
Emis Ltda.
Emis Ltda.
Emis Ltda.
Tabla 4.1 Frecuencias de facturas entregadas por empresas contratistas
Empresa
Frecuencias Absoluta
Frecuencias Relativa
Baker & Jones
10
31,25%
Brown e Hijos
4
12,50%
Emis Ltda.
12
37,50%
Smith y CIA.
6
18,75%
22
Estas dos frecuencias asociadas a la organización (resumen) de datos son
comunes e independientes de la escala de medición , es lo mínimo que una tabla de
frecuencia puede tener, sin embargo, cuando se trabaja con datos en escala al menos
ordinal, se pueden agregar otras frecuencias adicionales, a saber:
Frecuencia Absoluta Acumulada: Se llama frecuencia absoluta acumulada hasta la
clase Ci, al número total de elementos en la población (muestra) que pertenecen a las
clases C1, C2,..., Ci. Este número lo denotaremos por Ni y cumplen la propiedad:
i
∑n
Ni = n1 + n2 +... + ni =
j
,
j = 1, 2,..., i,
i = 1, 2,..., k
j =1
Nk = n1 + n2 +... + ni +... + nk = n
Frecuencia Relativa Acumulada: Se llama frecuencia relativa acumulada hasta la
clase Ci, a la cantidad de elementos en la población (muestra) que pertenecen a las
clases C1, C2, ... , Ci, con respecto al total de elementos en la población (muestra).
Este número lo denotaremos por Fi y cumplen la propiedad:
i
Fi = f1 + f2 +... + fi =
∑f
j
,
j = 1, 2,..., i,
i = 1, 2,..., k
j =1
Fk = f1 + f2 + ... + fi + ... + fk = 1.0
APLICACIÓN 4.2 En un conjunto de clientes, el interés es determinar la
clasificación de éstos según su cumplimiento en el pago. Estos son clasificados
como: Malos (M), Regulares (R), Buenos (B) y excelentes (E). Los datos son :
B
R
B
E
E
E
M
B
E
R
R
M
M
R
R
M
R
B
B
B
B
B
E
B
B
B
E
B
E
R
E
M
B
B
E
B
B
B
B
B
M
R
M
B
B
B
B
E
M
R
Tabla 4.2 Clasificación de clientes por su cumplimiento en el pago.
Clasificación
Malo
Regular
Buenos
Excelentes
Frecuencias
Absoluta
Relativa
8
16%
9
18%
23
46%
10
20%
Frecuencias Acumuladas
Absoluta
Relativa
8
16%
17
34%
40
80%
50
100%
23
Las aplicaciones anteriores están orientadas a la organización de variables
cualitativas, en una primera aplicación en datos nominales, y en un segundo caso, a
datos en escala ordinal. Sin embargo, estos mismos conceptos pueden ser aplicados a
variables discretas, siempre que en número de datos tomando distintos valores no sea
excesivamente grande.
APLICACIÓN 4.3 Suponga que en un conjunto de clientes, el interés es determinar el
número de veces que éstos se han atrasado en el pago de su cuenta. Los datos son los
siguientes:
0
0
7
2
0
0
0
0
2
0
3
8
4
2
3
0
4
0
7
0
7
0
1
0
0
0
0
4
1
4
3
0
4
1
0
0
0
1
3
3
0
0
0
2
0
7
0
3
0
3
0
3
0
8
0
0
0
0
1
0
Tabla 4.3 Número de veces que un cliente se ha atrasado en el pago de su cuenta.
Número de
Atrasos
0
1
2
3
4
5
6
7
8
Frecuencias
Absoluta
Relativa
32
53,4%
5
8,3%
4
6,7%
8
13,3%
5
8,3%
0
0,0%
0
0,0%
4
6,7%
2
3,3%
Frecuencias Acumuladas
Absoluta
Relativa
32
53,4%
37
61,7%
41
68,4%
49
81,7%
54
90,0%
54
90,0%
54
90,0%
58
96,7%
60
100,0%
En variables continuas, la organización de datos es un poco más compleja, se
dividen los datos en k grupos o segmentos disjuntos, como se muestra Figura 4.1.
Estos grupos representan las clases y se determina la frecuencia de datos asociado a
cada grupo, conformando una tabla de frecuencia agrupada.
Figura 4.1
Segmentación en grupos de datos continuos.
24
En este tipo de datos las clases están compuestas por intervalos, luego es
necesario buscar un representante de la frecuencia asociada a este intervalo, el cual se
conoce como marca de clase. Es común utilizar como marca de clase al valor medio
del segmento (intervalo).
Construcción de la Tabla de Frecuencia
En la construcción de una tabla de frecuencia, lo primero que se tiene que
tener claro es la cantidad de segmentos (intervalos) a considerar. Lo más común es
utilizar como una primera aproximación la regla de Sturges.
Regla de Sturges: El número de clases k = 3,3 log(n) + 1 , donde ‘n’ es la cantidad de
datos que se desea organizar. Nosotros recomendamos utilizar un número impar de
clases, por consideraciones que se explicarán más adelante.
Amplitud: Para determinar ‘a’, la amplitud de las clases, se debe calcular el rango
(RD), que es la diferencia entre el dato mayor (máx. {xi}) y el menor (min. {xi}).
También es necesario determinar ‘u’, la unidad mínima de conteo de los datos. La
amplitud está dada por:
Amplitud (a) =
RD + u
k
Rango de la Tabla: Una vez determinada la amplitud a, la cual se recomienda con un
decimal más que los datos originales, se procede a determinar el rango de la tabla
(RT), que es la multiplicación entre la cantidad de clases que se están utilizando y la
amplitud. La inclusión de u en el cálculo de a, puede que no garantice que el RT sea
mayor que el RD, es por esta razón que se recomienda utilizar una aproximación
conveniente en a.
Para la determinación de los límites teóricos de las clases, se comienza con el
límite Inferior de la primera clase, LI1, el cual se calcula como:
LI1 = Mínimo {xi} −
D
2
donde la diferencia, D= RT - RD, en el caso que el último digito de D no sea par, sea
realiza un ajuste conveniente.
25
Posteriormente, se suma la amplitud a LI1 obteniéndose el límite superior de
esta clase, LS1, el que también será el límite inferior de la segunda clase, LI2 = LS1.
LS1 se considera abierto para su clase y cerrado para la segunda clase. Los siguientes
límites se obtienen sumando la amplitud hasta completar las k clases a utilizar. La
tabla de frecuencia genérica resultante queda:
Tabla 4.4 Tabla de frecuencia genérica.
Clases
[ LI1 − LS1 [
[ LI2 − LS2 [
[ LI3 − LS3 [
Frecuencias
Absoluta
Relativa
n1
f1
n2
f2
n3
f3
Frecuencia Acumulada
Absoluta
Relativa
N1
F1
N2
F2
N3
F3
….
….
….
….
….
[ LIk − LSk [
nk
fk
Nk
Fk
APLICACIÓN 4.4 Suponga que los datos representan tiempos de espera (en
segundos) para la línea telefónica de atención al cliente.
47
34
55
53
55
61
25
42
55
52
43
48
65
45
49
46
66
54
70
57
33
42
36
44
57
53
44
70
34
41
N° de Clases (k):
52
57
47
43
57
57
54
41
68
39
a =
52
54
44
23
56
36
57
58
45
38
52
54
44
23
56
36
57
58
45
57
49
46
45
32
42
47
45
44
52
69
47
55
44
49
53
52
46
1 + 3,322 x log (n) = 1 + 3,322 x log (117)
≈ 8 (Impar cercano 7)
Rango de la Muestra:
Amplitud:
Tiempos (Segundos)
70
24
55
48
65
45
48
63
66
51
39
11
56
59
56
54
55
46
42
52
54
49
49
45
52
41
54
54
49
51
44
52
29
36
52
32
42
37
43
35
RM=Máximo {xi}–Mínimo {xi} = 70–11 = 59
RM + 1
7
=
59 + 1
7
≈ 8,6
Rango de la Tabla :
RT: k x a = 7 x 8.6 = 60.2
Diferencia :
D = RT – RM = 60.2 – 59 = 1.2
26
Límite Inferior y Superior de la primera clase:
LI1 = Mínimo {xi} −
D
= 11 – 0,6
2
= 10,4
LS1 = LI1 + a = 10,4 + 8,6 = 19,0
Tabla 4.5 Tiempo de espera antes de ser atendido.
Frecuencia
Tiempos (seg.)
[ 10,4
[ 19,0
[ 27,6
[ 36,2
[ 44,8
[ 53,4
[ 62,0
−
−
−
−
−
−
−
19,0 [
27,6 [
36,2 [
44,8 [
53,4 [
62,0 [
70,6 ]
Marca
de Clase
14,7
23,3
31,9
40,5
49,1
57,7
66,3
Absoluta
Relativa
Absoluta
Relativa
1
4
11
22
39
30
10
0,85%
3,42%
9,40%
18,80%
33,33%
25,64%
8,56%
1
5
16
38
77
107
117
0,85%
4,27%
13,67%
32,47%
65,80%
91,44%
100,00%
4.2.2 Diagramas de Tallo y Hoja
El uso de tablas de frecuencias agrupadas tiene una desventaja bastante obvia,
los datos originales se pierden en el proceso de organización. La Figura 4.2 muestra
algunas situaciones que pueden darse:
Figura 4.2
Representación de la distribución de los datos en rangos de intervalos.
Otra forma de presentar tablas de frecuencias agrupadas, es la utilización de
un diagrama de Tallo y Hoja, que ofrece una forma sencilla de exhibir los datos, sin
que en éstos se pierda la noción de distancia.
En el diagrama de tallo y hoja, el tallo -la primera parte de número-, es el que
presenta menor variación, mientras que la hoja, esta formado los dígitos restantes. A
modo de ejemplo, supongamos el dato es 548, entonces se puede descomponer en un
tallo y una hoja de las siguiente manera:
5
48
↑
tallo
↑
hoja
54
↑
8
↑
tallo
hoja
27
La utilización de diagramas de tallo y hoja es de gran utilidad cuando se
cuenta con un número pequeño de datos, digamos menos de 30, pues la construcción
de un histograma de frecuencia en este caso es de poca ayuda.
APLICACIÓN 4.5 Los datos observados representan la proporción de reclamos, por
pagos incorrectos, en las cuentas del consumo mensual de electricidad, en los dos
últimos años:
7,12
10,23
8,54
7,89
9,12
9,72
10,12
9,99
11,09
8,88
12,40
11,52
10,02
8,65
12,30
9,91
10,05
11,53
9,95
10,50
16,40
9,90
9,87
13,24
Los datos se mueven entre 7,12 a 16,40. En esta aplicación se usa como tallo
7, 8, ... 16, y el diagrama resultante es:
Tallo
7
8
9
10
11
12
13
14
15
16
12
54
12
02
09
03
24
Hoja
89
65
72
05
52
40
88
87 90 91 95 99
12 23 50
53
40
Otra forma de representar los datos, destaca su carácter decimal y omite los
tallos de frecuencia cero que se encuentren cercanos a los extremos, mostrando la
discontinuidad que se ha creado, como se muestra en la figura siguiente.
Tallo
Hoja
7, 12 89
8, 54 65 88
9, 12 72 87 90 91 95 99
10, 02 05 12 23 50
11, 09 52 53
12, 03 40
13, 24
=== =========
16, 40
28
Ciertas características relevantes de los datos pueden volverse más evidentes,
si cada tallo puede dividirse en dos o más tallos, llamado subtallos que contienen en
su conjunto el mismo número de valores correspondientes a su hoja. El diagrama de
tallo, donde el tallo se ha divido en: dos, tres, etc., es conocido como diagrama de
tallo y hoja de; doble, triple, etc. tallo.
En el caso anterior, si se realiza un diagrama de doble tallo y hoja, donde el
tallo se diferencia por ‘a’, cuando la parte decimal es menor a 50, y ’b’, cuando la
parte decimal es mayor o igual que 50, el diagrama resultante es:
Tallo
Hoja
7,a 12
7,b 89
8,a
8,b 54 65 88
9,a 12
9,b 72 87 90 91 95 99
10,a 02 05 12 23
10,b 50
11,a 09
11,b 52 53
12,a 03 40
12,b
13,a 24
=== =========
16,a 40
Una utilidad adicional de los diagramas de tallo y hoja es que permite
comparar, cuando tiene sentido hacerlo, como en el caso de la aplicación anterior si
deseamos comparar entre los dos años, como se muestra en el diagrama:
Hoja (Año 1) Tallo Hoja (Año 2)
89 12 7
88 8
65 54
99 12 90 95 91 9
87 72
23 02 12 10
05 50
09 52 53
11
40 12
30
24
13
16
40
29
4.2.3 Gráficos
Un gráfico es otra forma de representar y resumir datos, en el gráfico se
pueden se hacer evidentes ciertas características que en una tabla de frecuencias
pueden pasar inadvertidas.
La representación gráfica de los datos ha logrado un uso creciente en los
medios de comunicación y eso se debe en gran parte, a la popularidad y uso de
software con amplias representaciones gráficas. Hay disponibilidad de gráficas de
muchos tipos, desde aquellas para datos agrupados en tablas de frecuencias hasta
datos no agrupados, donde su uso depende en gran medida del tipo de escala
empleada. En adelante se ilustran distintos tipos de gráficos comúnmente utilizados.
Gráficos de barras y la gráfica de pastel (circular), son los gráficos más
comunes y sencillos, usualmente utilizados en datos categóricos. Cuando los datos se
presentan en escala nominal, la secuencia en que se presentan las clases es totalmente
arbitraria, sin embargo, cuando los datos se presentan en escala ordinal, las clases
deben mantener el orden de la escala. A continuación se presentan dos aplicaciones
que exponen una serie de gráficos y variaciones de estos.
APLICACIÓN 4.6 La tabla muestra la proporción de clientes asociados sector de
ubicación. .
Tabla 4.6 Sector de ubicación del cliente.
Sector
Proporción(%)
1
10%
2
15%
3
40%
Sector de Cliente
6
10%
1
20%
15%
2
Sector
Porcentaje
40%
10%
3
4
Sector
5
5%
6
4
20%
5
10%
Sector de Cliente
5%
5
10%
1
10%
2
4
6
5%
15%
20%
3
40%
Porcentaje
Figura 4.3: Gráficas de barra asociada de ubicación del cliente.
Las gráficas de barras anteriores son dos variantes, la primera (de
izquierda a derecha), es un gráfico de barra habitual donde se sigue la secuencia del
30
sector, en la segunda forma, ahora escrito en el eje de las abscisas, se escriben los
sectores de acuerdo a su importancia relativa.
Los gráficos circulares, son otra opción para los datos anteriores, En estos
gráficos, el más común es el primero (de izquierda a derecha), por su sencillez y fácil
interpretación, sin embargo en los últimos tiempos, particularmente en periódicos de
economía y negocios se ha popularizado el segundo, por su atractivo visual, posee la
desventaja que en la tercera dimensión, sobredimensiona los sectores frontales y
subdimensiona los sectores del fondo de la gráfica.
Sector de Cliente
5%
Sector de Cliente
10%
28%
2
14%
19%
14%
1
10%
3
4
5
24%
5%
28%
6
24%
19%
1
2
3
4
5
6
Figura 4.4: Gráficas circulares asociadas al sector del cliente
APLICACIÓN 4.7 Suponga que estamos interesados en el grado de satisfacción de
los clientes con respecto a los servicios adicionales que presta la empresa. En este
caso a una muestra de 77 clientes se pide que califiquen el grado de satisfacción
como: Insatisfecho (I), Indiferente (II), Normal (N), Satisfecho con reparos (SR) y
Totalmente Satisfecho (TS). Los datos son:
Tabla 4.7 Grado de satisfacción por servicios adicionales de la empresa.
Grado
Insatisfecho (I)
Indiferente (II)
Normal (N)
Satisfecho con Reparos (SR)
Totalmente Satisfecho (STS)
Frecuencia
Absoluta
Absoluta Acumulada
19
19
21
40
33
73
2
75
4
77
En la Figura 4.5, se muestran dos gráficas asociadas, con la particularidad que
la variable cualitativa bajo estudio está en escala ordinal, razón por la cuál, existe un
31
orden en la distribución del grado de satisfacción.
Grado de Satisfacción
Grado de Satisfacción
4
TS
3%
2
SR
5%
24%
I
33
N
II
21
II
N
41%
19
I
0
10
20
30
Frecuencia
SR
TS
40
27%
Figura 4.5: Gráficas circulares asociadas al sector del cliente.
En la representación gráfica de la tabla de frecuencia de datos cuantitativos
(continuos), existen cuatro gráficos habituales El primero, los constituye el
histograma de frecuencia junto con el polígono de frecuencia, el segundo, lo
Histograma de Frecuencia
50
Frecuencia
40
Polígono de Frecuencia
30
20
10
0
10,4 -19,0 19,0 - 27,6 27,6 - 36,2 36,2 - 44,8 44,8 - 53,4 53,4 - 62,0 62,0 - 70,6
Tiempos [seg.]
Figura 4.6: Histograma de frecuencia y polígono de frecuencia para los tiempos de espera.
constituye gráfica de frecuencias acumuladas junto con la ojiva. Se muestra a
continuación estas graficas para los datos de tiempos de espera (Tabla 4.5).
La última representación gráfica es utilizada en particular cuando la variable
bajo estudio se ha medido en el tiempo (datos longitudinales). Está gráfica, llamada
diagrama de dispersión, es de gran utilidad en series de tiempo y control estadístico
de la calidad, tiene la particularidad que puede mostrar tendencias de los datos en el
32
F re c ue nc ia A c um ula d a
120
Frecuencia
100
80
Ojiva
60
40
20
0
1 0 ,4 -1 9 ,0
1 9 ,0 - 2 7 ,6
2 7 ,6 - 3 6 ,2
3 6 ,2 - 4 4 ,8
4 4 ,8 - 5 3 ,4
5 3 ,4 - 6 2 ,0
6 2 ,0 - 7 0 ,6
T i e m po s [s e g .]
Figura 4.7: Gráfica de frecuencia acumulada y ojiva para los tiempos de espera antes de su
atención.
tiempo. Consideremos los datos de la aplicación 4.5, pero además agreguemos el
tiempo como referencia.
Año
4.3
1
7,12
7,89
10,12
8,88
10,02
9,91
9,95
9,9
10,23
9,12
9,99
12,4
2
8,65
10,05
10,5
9,87
8,54
9,72
11,09
11,52
12,3
11,53
16,4
13,24
Diagrama de Dispersión
18
Porcentaje de Reclamos
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
16
14
12
10
8
6
Tiempo
Figura 4.8: Diagrama de Dispersión Porcentaje de
reclamos el tiempo.
Medidas de Desempeño
Los indicadores de desempeño han adquirido gran importancia a partir del
establecimiento de la filosofía de gestión, calidad total y la aplicación de normas
nacionales o internacionales. Son herramientas para la evaluación de la gestión, que
proveen valores de referencia con el cual se puedan comparar o proponer metas.
Las medidas de desempeño son otro medio con el cual se resumen los datos,
ya que a través de ellos se establece una medida resumen de alguna particularidad en
los datos. Estos indicadores se dividen en tres tipos: medidas de posición, resumen de
33
los datos que representa un lugar definido importante dentro de ellos; medidas de
variabilidad o riesgo, que como se podrá apreciar son muy importantes ;y medidas de
forma, que tienen una importante relación con un grupo de medidas de posición.
4.3.1 Medidas de Posición
Una medida de posición es un valor simple que se calcula para un grupo de
datos y que se utiliza como una manera de resumir a estos un valor dentro del rango
de los datos. Normalmente se desea que el valor sea representativo de todos los
valores incluidos en el grupo, estos valores pueden estar relacionados con posiciones
de particular interés como los extremos, los cuales se asocian a cuantiles, o valores
del centro, llamados de tendencia central.
La Media Aritmética: La media aritmética, o promedio, se define como el cociente
de la suma de todos los valores entre el número total de valores. En estadística, un
"promedio” es una medida de Tendencia central para un conjunto de datos.
En estadística es normal representar una medida descriptiva de una población,
(o parámetro poblacional), mediante letras griegas, en tanto que se utilizan letras
romanas para las medidas descriptivas de estadísticas muestrales. Así, la media
aritmética para una población de valores se presenta mediante el símbolo µ, en tanto
que la media aritmética de una muestra se representa mediante el símbolo X . Las
expresiones para el cálculo de la media de una población y de una muestra son:
N
∑
n
∑X
Xi
µ = i =1
N
i
X = i =1
n
APLICACIÓN 4.8: Los pagos de consumo, en una muestra de 15 cuentas en un
restaurante, fueron: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300, 9000,12500,
13500, 24500, 27500, 30900, y 41000.
15
∑ Xi
El promedio muestral es: X =
i =1
15
= $ 12.080.
Cuando se agrupan datos en una distribución de frecuencias, se utiliza el
punto medio de cada clase como aproximación de todos los valores contenidos en
ella. El punto medio o marca de clase se representa con el símbolo mi, en donde el
subíndice i indica la "clase i", y se utiliza la letra ni para representar la frecuencia
absoluta observada en la clase respectiva.
34
Las fórmulas para la media de la población y de la muestra para datos
agrupados son:
k
µ=
∑
i =1
k
ni mi
N
X=
∑
i =1
ni mi
n
APLICACIÓN 4.9: Considerando los datos del tiempo de espera (en segundos) antes
de ser atendido se tiene:
Tiempos (seg.)
[ 10,4 − 19,0 [
[ 19,0 − 27,6 [
[ 27,6 − 36,2 [
[ 36,2 − 44,8 [
[ 44,8 − 53,4 [
[ 53,4 − 62,0 [
[ 62,0 − 70,6 ]
k
X=
∑
i =1
ni mi
n
=
Marca de Clase
14,7
23,3
31,9
40,5
49,1
57,7
66,3
Frecuencia
Absoluta Relativa
1
0,85%
4
3,42%
11
9,40%
22
18,80%
39
33,33%
30
25,64%
10
8,56%
14, 7 × 1 + 23,3 × 4 + . . . + 66,3 × 10
= 48,4 [ segundos]
117
La gran desventaja de este indicador es su gran sensibilidad a la presencia de
datos extremos. Un dato extremo se manifiesta inmediatamente en el promedio,
poniendo en duda el ser un valor representativo del centro de los datos.
La Mediana: La mediana de un conjunto de datos es el valor que ocupa el lugar
central de estos cuando se ordenan en orden de magnitud. Para conjunto de datos, con
un número par de elementos, la mediana se calcula como el promedio de los valores
centrales.
En el caso de estar trabajando con datos dispersos, la expresión para determinar
la posición de la mediana en el conjunto (ordenado) es:
X n + 1

 

2



Me = 
 1 (X
n +
2
2

( )
si n es impar
X
( ))
n
+1
2
si n es par
En las expresiones anteriores, X, representa el valor de dato, mientras que el
paréntesis en el subíndice, muestra el lugar que ocupa la mediana dentro del conjunto
35
de datos ordenados.
APLICACIÓN 4.10: Considerando los pagos de consumo, en una muestra de 15
cuentas en un restaurante: $1000, 1000, 2500, 2500, 2500, 3500, 4000, 5300,
9000,12500, 13500, 24500, 27500, 30900, y 41000.
Me =
X
 n + 1


 2 
=
X
 15 + 1  =


 2 
$ 5.300
Para datos agrupados, en primer lugar es necesario determinar la clase que
contiene el valor de la mediana, para después determinar la posición de la mediana
dentro de la clase mediante interpolación. La clase que contiene la mediana es la
primera clase cuya frecuencia acumulada es mayor o igual a la mitad de los datos.
Una vez que se identifica esta clase, se determina el valor interpolado de la mediana,
empleando la siguiente expresión:
n

 2 − Ni −1 
Me = L i + 
 ai
ni




Li = Límite inferior de la clase que contiene la mediana.
n = número total de observaciones en la distribución de frecuencias.
ai = Amplitud de clase.
Ni - 1 = La frecuencia acumulada anterior a la clase que contiene la mediana.
ni = Número de observaciones en la clase que contiene la mediana.
Los fundamentos de esta expresión están en la ojiva y la interpolación lineal.
APLICACIÓN 4.11: Para los datos agrupados de la Tabla 4.5, la mediana del tiempo
de espera (en segundos) antes de ser atendido es:
Tiempos (seg.)
Marca de
Clase
[ 10.4 − 19.0 [
14.7
77
⇐ Clase Mediana
...
...
 117
−
 2
Me = 44,8 + 
39


1
...
...
39
...
...
49.1
1
...
...
[ 44.8 − 53.4 [
Frecuencia
Absoluta
Acumulada

38 
 8,6 = 49,3 [ segundos]


36
La mediana es otra medida de tendencia central, este indicador no es afectado
por datos extremos (indicador robusto).
La Moda: Medida de tendencia central, que está dada por el valor o clase que se
presenta con mayor frecuencia. A una distribución que tiene una sola moda se le
denomina unimodal.
Cuando dos valores no adyacentes tienen frecuencias máximas similares, se
dice que la distribución es bimodal.
Para datos agrupados, primero se identifica la clase que contiene la moda,
determinando la clase que tiene el mayor número de observaciones (clase modal).
Algunos autores consideran que la moda es el punto medio de la clase modal (marca
de clase), otros, interpolan dentro de la clase modal, de acuerdo con la siguiente
expresión:
 d1
Mo = Li + 
 d1 + d 2
Li =
d1 =
d2 =
ai =

 a i ,

donde
d1
es un factor de ponderación.
d1 + d 2
Límite inferior de la clase que contiene la moda.
Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
que le precede.
Diferencia entre la frecuencia de la clase modal y la frecuencia de la clase
que le sigue.
Amplitud del intervalo de clase.
La deducción de la expresión es clara con la ayuda de la Figura 4.9. Como se
puede apreciar en esta figura d2 es menor que d1, por esta razón el factor de
ponderación es mayor que 0.5, que multiplicado por la amplitud permite que la moda
se encuentre más cerca del limite superior de la clase modal.
Figura 4.9.
Esquema de localización de la moda.
En caso que d2 sea mayor que d1, el factor de ponderación es menor que 0.5,
que multiplicado a la amplitud permite que la moda se encuentre más cerca del limite
inferior. Cuando d2 es igual a d1, el factor de ponderación es 0.5, que multiplicado a
37
la amplitud permite que la moda se encuentre justo en la marca de clase modal.
En tablas de frecuencia es posible encontrar dos o más clases con igual
máxima frecuencia, en este caso se dice que la población es: bimodal, trimodal, etc.
APLICACIÓN 4.12: Para los datos agrupados de la Tabla 4.5, la moda de los tiempos
de espera (en segundos) es:
Tiempos (seg.)
Marca de
Clase
38
77
107
⇐ Clase Modal
...
...
...
...
22
39
30
...
...
40,5
49,1
57,7
...
...
[ 36,2 − 44,8 [
[ 44,8 − 53,4 [
[ 53,4 − 62,0 [
Frecuencia
Absoluta
Acumulada
39 − 22


Mo = 44,8 + 
 8,6 = 50.4 [ segundos]
 39 − 30 + 34 − 22 
Existen otras medidas de tendencia central, utilizadas en situaciones más
específicas como una solución al problema de la alta sensibilidad del promedio
aritmético, alguna de ellas son:
Media Geométrica: Se utiliza principalmente para promediar proporciones de
variaciones, en datos económicos y se define como la raíz n-ésima del producto de
los n valores.
MG = n x1 × x2 × . . . × xn
Media Armónica: Se define como el recíproco de la media de los recíprocos de las
medias, es decir:
MH =
n
n
∑ x1
i =1
i
Media Recortada: Se define como el valor medio excluyendo un porcentaje de datos
en el extremo inferior y superior del conjunto de observaciones. Existen medias
recortadas al 90%, 80%, etc. Por ejemplo, en la media recortada al 90%, no se
consideran en el cálculo de la media el 5% de los datos más pequeños y el 5% de los
datos más grandes.
38
Cuantiles: Los cuantiles son medidas de posición que dividen los datos en grupos
bajo los cuales se encuentra una determinada proporción de éstos, por lo se requiere
que los datos se encuentren en al menos escala
La mediana es un cuantil que divide la distribución de los datos en dos partes
de igual frecuencia acumulada, y luego bajo/sobre la mediana se encuentra
acumulado el 50% de los datos. Los cuartiles, la dividen en cuatro cuartos; los
quintiles, dividen la población en cinco; los deciles, la dividen en diez décimos; y los
puntos percentiles, la dividen en cien partes. Estos, en el caso de datos dispersos, son
expresados por:
Qi (cuartil i ) = X  i ( n + 1) 




4
Ki (quintil i ) = X  i ( n + 1) 


5


Di (dencil i ) = X  i ( n + 1) 


10


Pi ( percentil i ) = X  i ( n +1) 


 100 
i : 1, 2, ... , 4
i : 1, 2, ... , 5
i : 1, 2, ... , 10
i : 1, 2, ... , 100
Estas expresiones son exactas en la medida que los factores de proporción:
 i (n + 1)   i (n + 1)   i (n + 1) 
 ;
 ;
 sean números enteros, en caso contrario una

 4   10   100 
buena aproximación (aunque no la única) la entrega el promedio entre el entero
superior e inferior de la respectiva fracción, tal como se presenta en la aplicación
siguiente.
APLICACIÓN 4.13: Considerando los pagos de consumo: $1000, 1000, 2500, 2500,
2500, 3500, 4000, 5300, 9000,12500, 13500, 24500, 27500, 30900, y 41000.
Q3 = X 3(15 + 1)  = X(12) = $ 24.500


4


Luego, el 75% de los pagos por consumo son menores o iguales a $ 24.500.
Algunos casos en que el factor de proporción no resulta un número entero,
como por ejemplo, el decil 4 ó el percentil 68. En el primero, el valor se encuentra
entre los valores sexto y séptimo del grupo ordenado, cuya interpretación sería que el
40% de los importes de consumo de las 15 cuentas del restaurante son menores o
39
iguales a $ 3.750.
D4 = X 4(15 + 1)  = X(6,4) =




10
X (6) + X (7)
= $ 3.750
2
En el segundo cuantil, el valor se encuentra entre los valores 10 y 11 del grupo
ordenado.
P68 = X 68(15 + 1)  = X(10,88) =


100


X (10) + X (11)
2
= $ 13.000
Para datos agrupados, la fórmula se modifica de acuerdo con el punto
fraccionario de interés. Para utilizar esta expresión modificada, en primer lugar se
determina la clase que contiene el punto de interés, de acuerdo con las frecuencias
acumuladas, y después se lleva a cabo una interpolación como en el caso anterior de
la mediana. Ahora un análisis más exhaustivo de estas expresiones se obtiene a
través del segmento de la línea recta en la ojiva, recordemos la Figura 4.4 de los
tiempos de espera, donde a partir de 117 datos, se construye la gráfica, de la Figura
4.10 y supongamos que estamos interesados en el percentil 78, por lo tanto debemos
determinar, de acuerdo con las frecuencias acumuladas la clase que contiene el punto
de interés, como se muestra en la Figura 4.10, este punto se encuentra en la
penúltima clase.
Frecuencia
120
y2
y
y1
60
0
Tiempos [seg.]
x 1 P78 x 2
Figura 4.10: Gráfica para la determinación de percentiles.
Si se recuerda la ecuación de la línea de la recta, dada por:
y
− y1
y2 − y1
=
x
− x1
x2 − x1
40
En este caso se observa que:
1.
2.
3.
4.
y=y
x = P78
x2 – x1 = Ls – LI = a
y2 – y1 = Ni – Ni – 1 = ni
Luego despejando x = P78, se obtiene una expresión para el cálculo de
percentiles en datos agrupados:
 y − y1 
 (x2 – x1) = LI +
x = P78 = x1 + 
y
y
−
1
 2
 y − Ni − 1 

 a
n
i


En el futuro se debe notar que ‘y’ no es otra cosa que
n× j
, donde ‘j’ es el
100
percentil j-ésimo.
Luego, la expresión general para el cálculo de percentiles, utilizando
frecuencias absolutas como relativas está dada por:
 n× j

− Ni − 1 

 a = LI +
Pj = LI +  100
ni






 j

− Fi − 1 

 100
a
fi






Esta expresión claramente permite el cálculo de deciles, quintiles o cuartiles.
APLICACIÓN 4.14: Para los datos agrupados en Tabla 4.5, el percentil 80 de los
tiempos de espera (en segundos) es:
Tiempos (seg.)
Marca de
Clase
39
30
10
...
...
49,1
57,7
66,3
...
...
[ 44,8 − 53,4 [
[ 53,4 − 62,0 [
[ 62,0 − 70,6 [
Frecuencia
Absoluta
Acumulada
77
107
117
⇐ Clase Percentil 80
 117 × 80 − 77 


 8,6 = 58,2 [segundos]
P80 = 53,4 +  100
30






41
Luego, el 80% de los tiempos de espera
segundos.
es menor o igual a los 58,2
Otra utilidad, de la expresión anterior, permite determinar que porcentaje de
los datos se encuentra bajo (o por defecto sobre) un determinado valor, como por
ejemplo, ¿Qué porcentaje de las veces, los tiempos de espera fueron superiores a 47
segundos?. En este caso se conoce el percentil, pero no el porcentaje, luego:
 117 × j

− 38 

 x 8,6 ⇒ j = 41,01 %
47 = 44,8 +  100


39




Por lo tanto, el (100 – 40,01)%= 58,99%. son superiores a 47 segundos.
También se puede determinar el porcentaje de tiempos de servicio que se
encuentra en el intervalo [47; 63] segundos. Como se sabe el porcentaje que se
encuentra bajo los 47 segundos (40,01%),y determinando el % que están bajo los 63
segundos.
 117 × j

− 107 

 x 8,6 ⇒ j = 92,45 %
63 = 62,0 +  100


10




Obteniéndose que el porcentaje de tiempos de servicio en el intervalo deseado
es de (92,45 – 40,01)% = 51,44%.
4.3.2 Medidas de Variabilidad
Las medidas de tendencia central ó de posición que se presentaron son útiles
para identificar un valor “típico” ó “particular” de un conjunto de datos, las medidas
de variabilidad se ocupan de describir la dispersión (riesgo, precisión) de los datos
con respecto a una medida del centro o un valor particular.
A modo de ejemplo, suponga que dos máquinas empacadoras dan como
resultado productos con un peso promedio de 10 gramos, pero que en un caso los
productos se encuentran dentro de un rango de 0,1 gramos con respecto a este peso
promedio, en tanto que en el otro los pesos pueden variar hasta en un gramo. Como se
observa en la Figura 4.11, en el primer caso los datos son menos dispersos respecto al
Figura 4.11: Visualización de la variabilidad en un conjunto de datos
42
valor de 10 gramos que en el segundo caso, lo que implicaría que suposiciones
realizadas al primer caso serían de menor riesgo que las del segundo.
Existen varios indicadores para medir la magnitud de la variabilidad en
conjuntos de datos. Las que se describen a continuación son: rango, rango
modificado, desviación media, varianza, desviación estándar y coeficiente de
variación.
El Rango: El rango (R), es la diferencia entre el mayor y menor valor del conjunto
de datos. Sí Máx.{xi} representa el mayor, y Min.{xi} representa el menor, el rango
de los datos está dado por:
Max{xi } − Min{xi }

R= 
LS − LI
1
 k
datos dispersos
datos agrupados
9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango está dado por:
R = Máx.{xi} – Min.{xi} = 41000 - 1000 = $ 40.000
APLICACIÓN 4.16: Para los datos agrupados de la Tabla 4.5, el rango de los tiempos
de espera (en segundos) es:
Tiempos (seg.)
Marca de
Clase
[ 10,4 − 19,0 [
14,7
10
1
...
...
66,3
1
...
...
[ 62,0 − 70,6 [
Frecuencia
Absoluta
Acumulada
117
R = LS7 – LI1= 70,6 – 10,4 = 60,2 [segundos]
Rangos Modificados: Un rango modificado es un rango para el cual se elimina cierto
porcentaje de los valores en cada uno de los extremos de la distribución y es
simbolizado por R Mod (j% central). Algunos rangos modificados típicos son: el 50%
central, el 80% central y el 90% central.
Para determinar el rango modificado, primero se debe ubicar los dos puntos
percentiles de interés para, después, calcular el rango entre ellos. Por ejemplo, para el
rango del 80% central, los puntos percentiles de interés son el décimo percentil y el
nonagésimo percentil, porque el 80% central de esos valores se ubica entre esos dos
puntos.
43
9000,12500, 13500, 24500, 27500, 30900, y 41000, el rango modificado al 50%
central está dado por:
P75 = X  75 ( n + 1)  = X(12) = $ 24.500.


100


P25 = X  25 ( n + 1)  = X(4) = $ 2.500.


100


R Mod (50% central) = P75 - P25 = 24500 – 2500 = $ 22.000.
El rango modificado al 50% central, también es conocido como rango
intercuartilico, mientras que el rango modificado al 80% es conocido como rango
interdecil. Los rangos modificados, en general, buscan anular el efecto de valores
extremos de los datos, que producirían un fuerte efecto en el rango tradicional, como
medida de variabilidad.
APLICACIÓN 4.18: Para los datos agrupados de la Tabla 4.5, el rango modificado al
90% central de los tiempos de espera (en segundos) es:
 117 × 5 − 5 


 x 8,6 = 28,3 [seg.]
P5 = 27,6 +  100
11




 117 × 95 − 107 


 x 8,6 = 65,6 [seg.]
P95 = 62,0 +  100
10




R Mod (90% central) = P95 - P5
= 65,6 – 28,3 = 37,3 [segundos].
La Desviacion Media: La desviación media (DM) es la media (promedio) del valor
absoluto de la diferencia entre cada uno de los datos y el promedio del grupo.
 n
xi − x


n
 i =1
DM = 
 k

fi mi − x

 i =1
∑
datos dispersos
∑
datos agrupados
44
Nota: Algunos autores utilizan la diferencia entre cada valor y la mediana).
Es común también utilizar indicadores como la desviación mediana (DMe) o
la desviación modal (DMo), como indicadores de variabilidad alternativos a la
desviación media. La utilización de estos indicadores, es debido a la alta sensibilidad
del promedio a valores extremos, que también se hereda en indicadores que utilizan
este indicador, como es el caso de la desviación media. También debe notarse, que la
desviación modal, sólo es posible cuando la moda se determina a partir de datos
cuantitativos, ya que es una medida de dispersión que no tiene sentido en datos
cualitativos donde no existe la noción de distancia.
APLICACIÓN 4.19: Considere que las ventas (por vendedor) de aparatos eléctricos
fueron las siguientes: 5 – 8 – 8 11 – 11 – 11 – 14 – 16. La media aritmética es 10,5. y
la desviación media es:
x
5
8
8
11
11
11
14
16
x– x
-5,5
-2,5
-2,5
0,5
0,5
0,5
3,5
3,5
Total
8
DM =
∑
xi − x
i =1
n
x – x 
5,5
2,5
2,5
0,5
0,5
0,5
3,5
3,5
21,0
= 21/ 8 = 2,625 = 2,6 unidades
Así, puede decirse que, en promedio, las ventas de aparatos eléctricos por
vendedor difieren en 2,6 unidades de la media del grupo,
APLICACIÓN 4.20: Para los datos agrupados de la Tabla 4.5, para los tiempos de
espera, la media aritmética es 48,4 segundos, la desviación media está dada por:
fi
0,009
0,034
0,094
0,188
0,333
0,256
0,086
mi
14,7
23,3
31,9
40,5
49,1
57,7
66,3
mi – x
-33,7
-25,1
-16,5
-7,9
0,7
9,3
17,9
mi – x  fi mi – x 
33,7
0,3033
25,1
0,8534
16,5
1,551
7,9
1,4852
0,7
0,2331
9,3
2,3808
17,9
1,5394
Total
8,3462
45
k
DM =
∑ f m −x
i
= 8,4 [segundos].
i
i =1
La Varianza y la Desviación Estándar: La varianza es similar a la desviación
media porque se basa en la diferencia entre cada uno de los valores del conjunto de
datos y la media del grupo, La diferencia consiste en que, antes de sumarlas, se eleva
al cuadrado cada una de las diferencias, Para una población, se representa la varianza
mediante V(X) o, típicamente por la letra σ2; la fórmula de cálculo es:
N
2
V(X) = σ =
∑
i =1
( xi − µ )
N
2
A diferencia de otras estadísticas muestrales que se han analizado, la varianza
de una muestra no es, en términos de cálculo, completamente equivalente a la
varianza de la población, La varianza muestral se representa mediante S2, y está dada
por:
n
2
S =
∑
i =1
( xi − x )2
n −1
Se utiliza con mayor frecuencia la raíz cuadrada de la varianza, representada
mediante la letra griega σ para el caso poblacional y S para una muestra, y se le
denominada desviación estándar, Las fórmulas son:
σ=
V(X)
S = Varianza muestral
Estas medidas (muestrales) también tienen su representación en datos
agrupados, la cual está dada por:
1
S =
n
2
k
k
2
ni (mi - x ) = ∑ f i mi ∑
i =1
i =1
2
x
2
La desviación estándar, además de ser una medida de dispersión que utiliza
toda la información (en contraposición con los rangos) y ser expresada en igual
unidad de medida que los datos originales, es especialmente útil cuando se le utiliza
junto con la denominada distribución normal.
APLICACIÓN 4.21: Para los datos de ventas de aparatos eléctricos: 5 – 8 – 8
11 – 11 – 11 – 14 – 16. , la media aritmética es 10,5 unidades. Considerando estos
datos mensuales de ventas como la población estadística de interés, se determina la
46
desviación estándar:
σ=
V(X) =
86 / 8 = 10,75 =3,3 unidades
APLICACIÓN 4.22: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la
media aritmética es 48,4 segundos, la desviación estándar es:
fi
0,009
0,034
0,094
0,188
0,333
0,256
0,086
S=
mi
14,7
23,3
31,9
40,5
49,1
57,7
66,3
mi – x
-33,7
-25,1
-16,5
-7,9
0,7
9,3
17,9
(mi – x )2 fi (mi – x )2
1135,7
10,2212
630,0
21,4203
272,3
25,5915
62,4
11,7331
0,5
0,1632
86,5
22,1414
320,4
27,5553
Total 118,826
V(X) = 118,826 = 10,9
4.3.3 Medidas de Forma
Los indicadores de forma de las distribuciones de frecuencias asociadas a un
conjunto de datos, son medidas que se agrupan en : asimetría y curtosis.
Las medidas de asimetría centran su interés en la tendencia de los datos a
concentrarse en los valores más pequeños, que se conoce como asimetría positiva;
valores más grandes, que conoce como asimetría negativa; o simplemente en el
centro, que se denomina como simétrica .
En la Figura 4.12, se observan las posibilidades de asimetría, en conjuntos de
datos que presentan sólo una cima. En estos casos observar tendencia de los datos
resulta fácil, sin embargo cuando se presenta más de una cima en una gráfica (no
necesariamente más de una moda), determinar la asimetría de los datos es más
riesgoso, con lo cual se recomienda el uso de indicadores para una mayor certeza de
la situación. La figura muestra además, el caso de datos simétricos de un conjunto de
datos bimodales.
Las medidas de curtosis centran su atención en la tendencia de los datos en el
grado de concentración que estos poseen alrededor de puntos centrales, en este caso
se dice que los datos tienen una concentración mesocúrtica cuando el grado de
concentración se acerca a ‘lo ideal’, mientras que, se habla de letocúrtica o
platicúrtica, si el grado de concentración es menor o mayor a lo ideal,
respectivamente.
El concepto de ideal asociado a esta medida, tiene su fundamento en la
47
comparación de la curtosis muestral (mediante el uso de indicadores), con el de un
modelo de probabilidad muy importante en estadística clásica que posee un valor
teórico fijo con el cual es comparado.
Asimetría Positiva
Asimetría Negativa
Simetría
Simetría
Figura 4.11: Representación de simetría en conjunto de datos.
En la Figura 4.13, se muestran las tres situaciones de curtosis, en conjuntos de
datos que presentan tan sólo una cima. Se puede apreciar, que en el caso de
distribuciones leptocúrticas, la menor variabilidad es evidente en comparación a las
otras formas. La distribución mesocúrtica, representa el caso de una distribución con
variabilidad ideal, en comparación con el modelo probabilístico Normal. Finalmente
Figura 4.13: Representaciones de curtosis en conjunto de datos.
48
la distribución platicúrtica, representa la mayor variabilidad en comparación con la
distribución ideal.
Sin embargo, mediante un análisis gráfico es muy difícil poder visualizar que
un conjunto de datos posee alguno de estos patrones.,
Los indicadores asociados a curtosis, ayudan a la comparación de la
variabilidad en los datos, pues justamente la variabilidad mide el grado de no
concentración de estos. Adicionalmente, se pueden emplear como un criterio para
determinar la existencia de datos extremos, es decir, muy grandes ó muy pequeños,
con respecto al común de los datos observados, que causarían un efecto devastador en
algunos indicadores, ó bien, como una señal de la existencia de dos estratos dentro de
los datos que se analizan, como en el caso de la Figura 4.12, donde se muestra un
conjunto de datos bimodales, donde perfectamente, se podría suponer que en la
característica de la población en estudio se presenta concentrada en dos grupos, que
afectarían los resultados de algunos indicadores.
A continuación se presentan una serie de indicadores asociados a
características de forma, en el primer caso se muestran indicadores de asimetría dados
por los coeficientes de: Yule, Simetría, Pearson y Fisher; para finalizar con les
coeficientes de curtosis: K2 y Fisher.
Coeficiente de Yule y Simetría: Estos son dos indicadores de simetría, que se basan
en cuantiles centrales, como lo son: cuartil 1, cuartil 3 y la mediana. Las expresiones
de cálculo de Yule y Simetría son:
IY =
Q3 + Q1 − 2 × Q2
2 × Q2
IS =
Q3 + Q1 − 2 × Q2
Q3 − Q1
Estos indicadores (adimensionales) son de fácil cálculo, tanto para datos
dispersos como agrupados, tienen la ventaja de no ser afectados por observaciones
aberrantes, que siempre se encuentran sobre Q3 o bajo Q1, razón por la cuál se puede
apreciar que ambos indicadores muestran la simetría en el centro de los datos y no en
la totalidad de éstos.
Coeficiente de Pearson: El coeficiente de Pearson, se basa en tres indicadores de
usual uso en estadística y mide la asimetría, como la diferencia entre la media y la
mediana con respecto a la desviación estándar. Este coeficiente poblacional y
muestral se encuentran dados respectivamente por:
As =
3( x - M e )
Sx
AS =
3 (µ − M e )
σ
El promedio y la mediana, que son dos medidas de tendencia central, que
cuando hay simetría siempre son iguales, y la desviación estándar, que es una medida
de riesgo que estandariza el indicador, hacen de éste, un indicador más completo.
49
Coeficiente de Simetría de Fisher: Es el indicador de simetría más fiable de los
presentados anteriormente, se basa en el tercer momento de la distribución de los
datos, y que para datos dispersos y agrupados se obtiene mediante:
n
m3 =
∑
i =1
( xi − x )
n
3
k
m3 =
∑f
i
(mi − x )3
i =1
Estas medidas se ven fuertemente afectadas por las unidades de medida de los
datos en estudio, por lo tanto se estandariza para medir la asimetría estandarizada,
cuya expresión queda:
α3 =
m3
3
Sx
En su cálculo poblacional, al igual que en el coeficiente de Pearson, basta con
el reemplazo de los indicadores muestrales: x y s, por sus respectivos cálculos
poblaciones µ y σ.
El punto de comparación teórico de estos indicadores es el cero, pues en
distribuciones simétricas todos los indicadores resultan ser cero, mientras que si el
indicador en negativo o positivo, se dice que la asimetría es negativa o positiva,
respectivamente. Sin embargo, en la práctica en el análisis de datos reales, nunca se
obtienen coeficientes ‘cero’, por lo cual es bueno recomendar un intervalo en torno al
cual se aceptará la simetría.
Para una distribución simétrica el valor del coeficiente de asimetría es cero,
porque el promedio y la mediana son iguales, mientras que para una distribución con
asimetría positiva la media es siempre mayor que la mediana y, por ello el valor del
coeficiente es positivo, como se muestra en la Figura 4.14, donde además se muestra
el caso de que en una distribución con un coeficiente de asimetría negativa, la media
es siempre menor que la mediana.
Figura 4.14: distribución de las medidas de tendencia central en curvas unimodales.
50
APLICACIÓN 4.23: Para los datos de ventas de aparatos eléctricos: 5 – 8 – 8 – 11 – 11
11 – 14 – 16. La media aritmética, la mediana, el primer y tercer cuartil, además de la
desviación estándar están dadas por: 10.5; 11.0; 8.0; 12.5 y 3.3 unidades,
respectivamente. Considerando que estos datos mensuales de ventas son la población
estadística de interés, se tiene que:
Q3 + Q1 − 2 × Q2
= -0,07.
2 × Q2
IY =
As =
IS =
3(10.5 − 11.0)
= -0.45.
3.3
Q3 + Q1 − 2 × Q2
= -0.33.
Q3 − Q1
m3 = 1.5.
Luego, si consideramos IY, IS y As, la distribución tiene una ligera asimetría
negativa es decir, “esta sesgada hacia la izquierda”, sin embargo si usamos m3
muestra el caso contrario. Esto se debe que tanto IY, IS y As, a perdido información al
resumir los datos, por esta razón el m3 un coeficiente más confiable en establecer el
tipo de asimetría de los datos.
APLICACIÓN 4.24: Para los datos agrupados de la Tabla 4.5 (tiempos de espera), la
media aritmética es 48,4 segundos, se obtienen los siguientes resultados:
fi
0,009
0,034
0,094
0,188
0,333
0,256
0,086
mi
14,7
23,3
31,9
40,5
49,1
57,7
66,3
mi – x
-33,7
-25,1
-16,5
-7,9
0,7
9,3
17,9
(mi – x )3 fi (mi – x )3
-38272,75
-344,45
-15813,25
-537,65
-4492,13
-422,26
-493,04
-92,69
0,34
0,11
804,36
205,92
5735,34
493,24
Total – 697,79
Utilizando las medidas calculadas anteriormente como:
1. x = 48.4 [segundos]
2. Me = 49.3 [segundos]
3. s2 = 118.3 [segundos]2
4. Q1 = 41.4 [segundos]
5. Q3 = 56.5 [segundos]
⇒
s = 10.9 [segundos]
Por lo tanto se tiene:
IY = – 0.01
m3 = – 697.79
IS = – 0.05
α3 = – 0.54
As = – 0.25
51
Coeficiente K2: Este indicador de curtosis, que se basan en cuantiles extremos, como
lo son: decil 1 y decil 9. Las expresiones de cálculo están dadas por:
D9 − D1
K2 =
1.9 × (Q1 − Q2 )
–1
Estos indicador de fácil cálculo, tanto para datos dispersos como agrupados,
tienen la ventaja de no ser afectados por observaciones aberrantes, que en la mayor
parte de los casos se siempre se encuentran sobre el D9 o bajo el D1. K2, se encuentra
divido por el factor 1,9 veces el rango intercuartílico que es la distancia que existe
teóricamente entre los deciles 9 y 1, en la curva ideal estandarizada.
Coeficiente de Curtosis de Fisher: Es el indicador de curtosis más, que se base en el
cuarto momento de la distribución de los datos, que se encuentra dado para datos
dispersos y agrupados por:
n
m4 =
∑1
i =
( xi − x )
n
4
k
m4 =
∑f
i
(mi − x )4
i =1
Al igual que en el caso de m3, esta medida se ven fuertemente influenciadas
por las unidades de medida de los datos en estudio, por lo tanto, esta medida de
desempeño para medir la curtosis se estandariza, cuya expresión queda de la siguiente
manera:
α4 =
m4
4
Sx
–3
En su cálculo poblacional, basta con el reemplazo de los indicadores
muestrales: x y s, por sus respectivos cálculos poblaciones µ y σ.
El punto de comparación teórico de estos indicadores es el cero, pues en
distribuciones absolutamente mesocurticas todos los indicadores resultan ser cero,
mientras que si el indicador en negativo o positivo, se dice que la curtosis es
platicurtica o leptocurtica, respectivamente. Sin embargo, en análisis de datos
continuos en la práctica, nunca se obtienen coeficientes ‘cero’, por lo cual es bueno
recomendar un intervalo en torno al cual se acepta la distribución de los datos como
mesocurtica.
APLICACIÓN 4.25: Para los datos de ventas de aparatos eléctricos que fueron: 5 – 8
8 – 11 – 11 – 11 – 14 – 16. Donde el primer y noveno decil, junto con el primer y
tercer cuartil están dados por: 5; 16; 8 y 12.5 unidades, respectivamente.
52
Considerando que estos datos mensuales de ventas son la población estadística de
interés, se determina los coeficientes de curtosis:
K2 =
16 − 5
− 1 = 0.29
1.9 × (12.5 − 8)
⇒
m4 = 257.31
α4 = – 0.83
Luego, si consideramos K2, la distribución tiene un agudamiento que se podría
considerar mesocúrtico, sin embargo si usamos m4 muestra una clara tendencia
platicúrtica. Esto se debe que K2, a perdido información al resumir los datos, por esta
razón el m4 un coeficiente más confiable en establecer el tipo de curtosis de los datos.
APLICACIÓN 4.26: Para los datos agrupados de la Tabla 4.5, para los tiempos de
espera, donde la media aritmética es 48,4 segundos, la desviación estándar está dada
por:
fi
0,009
0,034
0,094
0,188
0,333
0,256
0,086
mi
14,7
23,3
31,9
40,5
49,1
57,7
66,3
mi – x
-33,7
-25,1
-16,5
-7,9
0,7
9,3
17,9
(mi – x )4
fi (mi – x )4
1289791,78
11608,13
396912,60
13495,03
74120,06
6967,29
3895,01
732,26
0,24
0,08
7480,52
1915,01
102662,57
8828,98
Total 43546,78
Utilizando las medidas calculadas anteriormente como:
Q1 = 41.4 [segundos]
2. Q3 = 56.5 [segundos]
3. D1 = 32.8 [segundos]
4. D9 = 70.1 [segundos]
1.
Por lo tanto se tiene:
K2 = 0.30
m4 = 43546.78
α4 = 0.08
53

4. SEGUNDO MÓDULO 4.1 Resumen de Datos En estadística

Transcripción

Documentos relacionados

A.06 Apunte Segundo Módulo ANEXO A

sendero 2 camino corto alrededor del castillo de

Dr. Julio Villalobos Hidalgo

v encuentro comarcal de clubes de lectura de adultos del aljarafe

¿Estás listo para aplicar el método Kpersi en tu empresa? Alejandro