estadstica descriptiva y regresin con la fx-9860g sd

Transcripción

MATEMÁTICAS Y TECNOLOGÍA CON
CALCULADORA GRÁFICA
5. ESTADÍSTICA Y PROBABILIDAD
CON LA FX−9860G SLIM
DIVISIÓN DIDÁCTICA
MAURICIO CONTRERAS
MATEMÁTICAS Y TECNOLOGÍA CON CALCULADORA GRÁFICA
Enero/Febrero 2008
ESTADÍSTICA DESCRIPTIVA Y REGRESIÓN CON LA FX−9860G SLIM
Introducción
Vamos a estudiar a continuación las utilidades estadísticas de la calculadora FX−9860G SLIM que incorpora
una hoja de cálculo especialmente adecuada para el trabajo en Estadística.
1.- Estadística descriptiva
1. MEDIA Y DESVIACIÓN TÍPICA
•
En un estudio genético, la comida regular se coloca en cada uno de 20 frascos y se anota el número de
moscas de un genotipo particular que comen de cada frasco. Se cuenta también el número de moscas
para otro conjunto de 20 frascos que contienen zumo de vino. Los datos recogidos son los siguientes:
15
25
Número de moscas (comida regular)
20 31 16 22 22 23 33 38
20 21 23 29 26 40 20 19
28
31
6
2
Número de moscas (Zumo de vino)
19 0
2 11 12 13 12 5
7 13 20 18 19 19 9 9
16
9
a. Haz una comparación visual de las dispersiones respecto a sus centros de las dos distribuciones.
b. Calcula la media y la desviación típica para cada conjunto de datos.
a) Abrimos el Editor de Hoja de calculo S−SHT. Introducimos la primera lista de datos en la columna A y la
segunda lista en la columna B de la siguiente forma:
Para representar los datos gráficamente, accedemos al menú GRAPH. Asignamos el primer gráfico,
GPH1 a la columna A y el segundo gráfico, GPH2 a la columna B y seleccionamos el diagrama de cajas
[MedBox] como tipo de gráfico.
Los diagramas de caja para cada conjunto de datos son los siguientes:
CEFIRE DE GODELLA / CASIO
Pág. 1
comida regular
Enero/Febrero 2008
zumo de vino
Una comparación gráfica puede obtenerse al dibujar ambos gráficos en la misma pantalla. Elegimos
SEL para seleccionar los dos gráficos, tal como sigue:
Observa que los centros de las medianas de ambas distribuciones son diferentes (están representadas
por lineas verticales en el centro de las cajas). Los datos de las moscas asociadas al zumo de vino
(gráfico de abajo) representa un conjunto más simétrico, ya que la línea que representa a la mediana
está exactamente en el centro de la caja. Ambos conjuntos de datos parecen estar dispersos de la
misma forma. Pulsando [SHIFT] [F1] (TRACE] podemos recorrer los diagramas de caja y ver las
diferencias entre los parámetros.
Un diagrama de cajas es una representación gráfica de los datos que usa cinco medidas, la media, el
primer y el tercer cuartil y el máximo y el mínimo de los datos. Los cuartiles dividen el conjunto de datos
en cuatro partes iguales. El segundo cuartil es la mediana. Un diagrama de caja ayuda a visualizar el
centro, la dispersión y la simetría del conjunto de datos. En este ejemplo, la construcción de los
diagramas de caja permite comparar las dispersiones respecto al centro de las dos distribuciones.
Observa que en el conjunto de moscas que comen la comida regular, el mínimo es 15 y el máximo es
40. La mediana es 23 moscas.
Por otra parte, para el conjunto de moscas que toman zumo de vino, el mínimo es 0 y el máximo es 20.
La mediana es 11,5 moscas. Q1 y Q3 son los cuartiles.
Pág. 2
Enero/Febrero 2008
b) Pulsando [1Var] después de dibujar los diagramas de caja correspondientes a cada conjunto de datos,
podemos ver los estadísticos univariantes asociados a los datos elegidos. Obtenemos los siguientes
parámetros estadísticos correspondientes a cada conjunto de datos:
comida regular
zumo de vino
Observa que en el conjunto de moscas que comen comida regular, la media x es 25.1 y la desviación
típica xσ n −1 es 6.8433602. En el conjunto de moscas que toman zumo de vino, la media x es 11.05 y
la desviación típica xσ n −1 es 6.19401238.
Una observación que podemos hacer es que las desviaciones típicas de ambos conjuntos de datos
difieren tan solo en 0.65. Una perspectiva gráfica puede ayudar también a hacer esta observación. En
los diagramas de caja vemos que la dispersión de cada conjunto de datos es aproximadamente la
misma.
Observamos también que la media del número de moscas que comen comida regular es mayor que la
media del número de moscas que toman zumo de vino. Esta observación es también consistente con
los diagramas de caja obtenidos.
•
María inspecciona los precios para un cuarto de cierta marca de aceite de motor. Los datos, en dólares
por cuarto, se resumen en la siguiente tabla:
Precio por cuarto
FRECUENCIA
0.99
2
1.09
3
1.19
7
1.29
10
1.39
14
1.49
4
a. Representa los datos gráficamente.
b. ¿Cuál es la media y la desviación típica de los precios?
a) En este ejemplo, nuestros datos incluyen información del precio y frecuencia. Un histograma es un
gráfico que puede resumir esta información. Los precios por cuarto se señalan en el eje horizontal y las
frecuencias en el eje vertical.
En el editor de Hoja de cálculo, introducimos los precios en la columna A y las correspondientes
frecuencias en la columna B. Para el gráfico de los datos, seleccionamos “histograma” [HIST]. En la
siguiente pantalla indicamos el inicio del histograma y la anchura de cada intervalo de datos:
Si recorremos mediante [TRACE] el histograma de izquierda a derecha, para cada intervalo, la
calculadora muestra el extremo de la izquierda como x y la frecuencia del intervalo como f, tal como se
muestra en la siguiente pantalla:
Pág. 3
Enero/Febrero 2008
b) La media de los precios x es aproximadamente $1.2975 y la desviación típica de los precios xσ n −1 es
aproximadamente 0.13085027. La baja desviación típica nos dice que el precio no está demasiano
disperso y se acerca a la media. Tenemos la siguiente pantalla:
•
Para estudiar la composición de las familias de Winslow, Arizona, se seleccionaron al azar 40
matrimonios anotándose el número de niños por familia. Los datos obtenidos son los siguientes:
3
4
1
1
3
2
0
1
3
4
1
0
1
3
0
3
4
1
2
2
2
2
1
3
0
3
1
2
0
2
0
1
0
2
0
2
2
2
1
5
a. Construye un histograma para representar los datos.
b. Calcula la media de niños por familia.
c. Calcula la desviación típica del número de niños por familia.
a) La frecuencia de cada uno de los datos es 1, porque cada dato representa el número de niños en una
sola familia. Como los datos son enteros, ajustamos la configuración del histograma de forma que la
anchura de cada barra sea 1.
El histograma obtenido es el siguiente:
b) El número medio de niños por familia es, aproximadamente, 1’75 o redondeando, 2 por familia.
c) La desviación típica del número de niños por familia es alrededor de 1,32. Tenemos la siguiente pantalla
de parámetros estadísticos:
Nota: Las respuestas a los tres ejercicios anteriores se pueden obtener también introduciendo los datos en
el menú STAT. Los gráficos y cálculos se obtienen usando comandos similares.
Pág. 4
Enero/Febrero 2008
ACTIVIDADES:
1. Considera los siguientes datos:
JAN
5.4
FEB
4.0
MAR
3.8
JAN
0.7
FEB
0.7
MAR
0.9
LLUVIA MENSUAL EN SEATTLE, WASHINGTON
APR MAY JUNE JULY AUG SEPT OCT
2.5
1.8
1.6
0.9
1.2
1.9
3.3
LLUVIA MENSUAL EN PHEONIX, ARIZONA
APR MAY JUNE JULY AUG SEPT
0.2
0.1
0.1
0.8
1.0
0.9
OCT
0.7
NOV
5.7
DEC
6.0
NOV
0.7
DEC
1.0
a. Haz una comparación visual de las dispersiones respecto al centro de las dos distribuciones.
b. Calcula la media y la desviación típica para cada conjunto de datos.
2. Los siguientes datos son los resultados de un examen en una clase de Estadística:
PUNTUACIONES EN EL TEST ( en %)
NÚMERO DE ESTUDIANTES
99
2
74
3
85
7
93
10
80
14
70
4
¿Cuál es la media y la desviación típica de las puntuaciones del test?
SOLUCIONES:
Actividad 1.
a) Los diagramas de caja son los de la siguiente figura. Elige SEL para que se muestren simultáneamente
los dos gráficos en la pantalla:
El diagrama de caja de arriba corresponde a la lluvia en Seattle. El mínimo y máximo valor son 0.9 y 6
respectivamente, con mediana 2.9.
Por otra parte, el diagrama de caja de abajo corresponde a la lluvia en Arizona. Observa que el mínimo
y el máximo valor son pequeños en comparación con los de Seattle, 0.1 y 1 respectivamente, con
mediana 0.7.
Pág. 5
Enero/Febrero 2008
b) Para los datos de lluvia en Seattle, la media x es 3.175 y la desviación típica xσ n −1 es 1.80711975.
Por otro lado, para los datos de Arizona, la media x es 0.65 y la desviación típica xσ n −1 es 0.33. La
lluvia en Seattle es más dispersa, tiene mayor desviación típica. Estos resultados se confirman por la
forma de los diagramas de caja.
Seattle
Arizona
Actividad 2.
a) Tenemos la siguiente configuración para dibujar el histograma:
El histograma de las puntuaciones del test es el siguiente:
b) La media de las puntuaciones del test es aproximadamente 83.625, mientras que la desviación típica es
aproximadamente 8.11673642.
2. USANDO LA HOJA DE CÁLCULO PARA HALLAR MEDIA Y DESVIACIÓN TÍPICA
•
La media con la hoja de cálculo
¿Cómo se calcula la media? La media de un conjunto de datos se obtiene mediante la fórmula:
n
µ=
∑x
i =1
i
n
es decir, se suman todos los datos y el valor resultante se divide entre el número de datos.
Pág. 6
Enero/Febrero 2008
a) Cinco estudiantes miden el tiempo que utilizan en ir a la escuela por la mañana. Sus datos se muestran
en la siguiente tabla, en la que se indican sus nombres (en la columna A) y sus tiempos (en la columna
B). Para calcular la media, mueve el cursor hasta la celda C1.
Pulsa = para introducir la fórmula de la función. Al hacerlo se muestra una barra de menús como la
siguiente:
Pulsa ahora (CEL) para abrir un menú con seis funciones de hoja de cálculo:
Pulsa (Mean). Teclea el rango de valores – B1 a B5 en nuestro caso – y pulsa l. Aparece el resultado.
Observa que tecleando el nombre de la función y los parámetros “=CellMean(B1:B5)” obtienes una
resultado idéntico, pero acabas con un mensaje de error. La función media debe ser seleccionada
desde el menú.
b) Incrementa uno de los valores con 1 unidad. ¿Qué le ocurre a la media? Cambiando diferentes valores
en la columna B, ¿se obtienen diferentes efectos?
c) Incrementa todos los valores 1 unidad. ¿Qué le ocurre a la media?
d) La media de un conjunto de valores es 63. Incrementa un valor en 5. Disminuye otro valor en 5. Predice
el valor de la media.
e) Pregunta el número de calzado de los alumnos de tu clase. Teclea sus respuestas en una hoja de
cálculo. Calcula el número medio de calzado de tu clase.
f)
Usando una balanza, pesa a los estudiantes de tu clase. Puedes introducir sus pesos en una hoja de
cálculo. Calcula la media.
g) Selecciona todos los estudiantes con los zapatos del mismo número de calzado. Pesa sus zapatos.
Calcula su media. Comprueba que si el tamaño de los zapatos es exactamente igual a la media de los
tamaños, su peso medio es exactamente igual a la media de los pesos de todos los zapatos. Si la
diferencia de tamaños respecto a la media es la más grande, cabe esperar que también lo sea la
diferencia en pesos.
Pág. 7
•
Enero/Febrero 2008
La desviación típica con la hoja de cálculo
Observa la siguiente figura. Los dos conjuntos de datos tienen la misma media.
Sin embargo, los valores de la columna A a la izquierda son más dispersos respecto de la media que los de
la derecha. Expresamos este hecho mediante la desviación típica que mide la dispersión de los datos
respecto de la media. Se calcula con la fórmula:
n
σ=
∑ (x
i =1
i
− µ)2
n
a) Para calcular la desviación típica del conjunto de datos de la derecha con la hoja de cálculo, sigue los
siguientes pasos:
1. Calcula la media en la celda B1.
2. Calcula la diferencia entre los valores y la media (en la celda C1). Después copia la fórmula de C1 a
la columna C, tomando la referencia a B1 como referencia absoluta $B$1
3. Calcula los cuadrados de los valores de la columna C en la columna D.
4. Suma los cuadrados (pon el resultado en la celda E1).
5. Divide el resultado por el número de elementos (en la celda F1).
6. Calcula la raíz cuadrado del resultado anterior (en la celda G1).
La desviación típica de dicho conjunto de datos es 1.4142.
b) Calcula la media y la desviación típica para los datos de la izquierda. Observa que, aunque la media es
la misma, la desviación típica es diferente:
La desviación típica, 8.3666, es ahora mucho mayor, porque los datos están más dispersos.
c) Los cálculos anteriores muestran el algoritmo completo para obtener la desviación típica. Pero no
necesitamos realizarlos con tanto detalle. La hoja de cálculo dispone de una función que permite el
cálculo directo.
Por ejemplo, supongamos que hemos introducido los datos en la columna A.
Pág. 8
Enero/Febrero 2008
Pulsa [F6] (para que aparezca más opciones del menú desplegable). En dicho menú, pulsa CALC para
mostrar su submenú. En el submenú selecciona 1VAR. La nueva ventana obtenida es la siguiente:
En ella podemos observar los valores de los distintos parámetros estadísticos.
d) Halla la desviación típica del conjunto anterior en la celda G1. Selecciona al azar dos celdas en la
columna A. Aumenta un valor en 7 unidades. Disminuye el otro valor en 7 unidades. La media queda
igual. ¿Qué ocurre con la desviación típica?
e) Se divide la clase en cuatro grupos de estudiantes. Cada grupo puede cambiar una par diferente de
celdas:
1. Aumenta A1 en 4 unidades; disminuye A4 en 4 unidades.
2. Disminuye A1 en 4 unidades; aumenta A4 en 4 unidades.
3. Aumenta A2 en 6 unidades; disminuye A3 en 6 unidades.
4. Disminuye A2 en 6 unidades; aumenta A3 en 6 unidades.
Observa que todos los pares de operaciones preservan la media.
Cada grupo referirá a los otros lo que ocurre con la desviación típica: ¿Aumenta? ¿Disminuye?
Cuando los valores cambiados están cerca de la media, la desviación típica disminuye. Cuando los valores
están lejos de la media, la desviación típica aumenta.
Pág. 9
Enero/Febrero 2008
2.− Análisis de regresión
1. REGRESIÓN LINEAL I
Considera los datos de la siguiente tabla que representan los valores de las acciones de la compañía
Vanguard Index Trust desde 1987 a 1997.
a) Llamamos x=años e y=valor de las acciones de Vanguar Index Trust. Dibuja un diagrama de dispersión
para estos datos.
b) Calcula la pendiente de la recta que pasa por los dos puntos que representan el valor de la acción en
1987 y en 1991. Haz lo mismo para los puntos que representan los datos en 1991 y en 1995.
c) ¿Cuál de las pendientes calculadas en (b) es mayor en valor absoluto? ¿Qué significa esto?
d) Halla la recta que mejor se ajusta a los datos. ¿Cuál es esta recta? Interpreta la pendiente de esta recta.
e) Si tu fueras un dirigente de esta empresa, ¿cuál de las tres pendientes que has calculado utilizarías
para convencer a alguien para invertir?
f)
¿Cuál es la tendencia en los datos?
g) Suponiendo que la tendencia continua, ¿cuál será el valor de la acción en 2006?
AÑO
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
Valor
(dólares)
54.26
63.07
82.81
80.08
103.27
113.20
123.11
130.29
170.32
185.81
201.40
Solución:
Abrimos el Editor de Hoja de cálculo e introducimos los datos. Introducimos los años en la primera columna
y los valores de las acciones en la segunda columna, tal como se indica en la figura:
a) Pulsamos GRPH y SET para configurar los rangos de celdas del diagrama de puntos:
Pág. 10
Enero/Febrero 2008
b) Calculamos las pendientes de las rectas en el Editor RUN. La pendiente de la recta que une los puntos
(1987,54.26) y (1991,103.27) se calculan así:
La pendiente de la recta es 12.2525. Por otro lado, la recta que une los puntos (1991, 103.27) y
(1995,170.32) tiene pendiente 16.7625 y se calcula así:
c) La pendiente de la recta que une los puntos (1991, 103.27) y (1995,170.32) es mayor en valor absoluto
que la pendiente de la recta que une (1987,54.26) y (1991,103.27). Esto significa que entre los años
1991 y 1995, el valor de cada una de las acciones aumentó alrededor de 16.7625 dólares por término
medio. Este valor es superior en 4.51 al comprendido entre los años 1987 y 1991, en los cuales el valor
de cada acción aumentó alrededor de 12.2525 dólares por término medio).
d) Para hacer la recta de mejor ajuste, introducimos el comando Linear regression mientras el gráfico de
dispersión se muestra en pantalla:
La recta de mejor ajuste es y = 14.6313636x−29026.801. La recta se dibuja en el diagrama de puntos,
tal como vemos en la siguiente figura:
La pendiente de la recta de mejor ajuste puede interpretarse como el incremento medio del valor de la
acción para un año; en nuestro caso este incremento es de 14.6313636 dollars, aproximadamente.
¿Cuál es la bondad del ajuste? La respuesta se puede obtener calculando el coeficiente de correlación r
que es la medida de la intensidad de la relación lineal que existe entre dos variables. Cuanto más
próximo a 1 sea el valor de r más perfecta es la relación lineal entre las variables. En la pantalla
obtenida anteriormente, hemos visto que r es 0.98126479, lo que indica que el ajuste lineal entre las dos
variables es bueno.
e) Puede ser más razonable usar la pendiente 14.6313636 de la recta de mejor ajuste, la cual indica el
crecimiento en el valor de la acción para un incremento de x de un año y muestra la tendencia de los
datos.
f)
La tendencia de los datos es que el valor de la acción aumenta cuando x aumenta.
Pág. 11
Enero/Febrero 2008
g) Suponiendo que la tendencia continua, podemos usar la recta de mejor ajuste para determinar el valor
de la acción en 2006.
Primero, copiamos los cálculos que hemos obtenido respecto de la recta de mejor ajuste en el menú
gráfico con el Editor de Hoja de cálculo.
A continuación dibujamos el gráfico (en la pantalla de la izquierda en la siguiente figura). Después,
pulsamos [SHIFT] (G-Solv) y [Y-CAL], lo que nos permite aproximar el valor de la acción sustituyendo el
año 1997 usando la recta de mejor ajuste (pantalla de la derecha en la figura).
Podemos indicar el valor de x, por ejemplo, x=2006, y la calculadora muestra el correspondiente valor
de en el gráfico.
En el año 2006, el valor aproximado de la acción es de $323.71.
El valor de y correspondiente a x = 2006 usando la recta de mejor ajuste puede también obtenerse en el
Editor RUN, usando el comando OPTN STAT como se muestra a continuación:
En el Editor RUN, también puede obtener el valor de x correspondiente a un valor dado de y. Por
ejemplo, el apartado (g) que hemos visto puede sustituirse por el siguiente:
h) Suponiendo que la tendencia continua, ¿cuando el valor de la acción valdrá aproximadamente $500?
En el Editor RUN, obtenemos el siguiente cálculo:
Usando la recta de regresión, estimamos que el valor de la acción puede valer alrededor de $500 en el
año 2018.
Pág. 12
Enero/Febrero 2008
Observaciones: Observa que los cálculos en el Editor RUN pertenecen a los datos guardados en el Editor
de Hoja de cálculo (como los cálculos que hemos visto en las dos pantallas anteriores), pero no puede ser
utilizado en el modo e−activity. Este puede ser utilizado solamente cuando usamos el Editor de Hoja de
cálculo del menú principal.
ACTIVIDAD
Los siguientes datos indican el número de personas muertas a causa del SIDA en Estados Unidos desde
1982 hasta 1992.
años
Muertos
1982
843
1983
1651
1985
6681
1986
11535
1987
15451
1988
19656
1989
26151
1990
28053
1991
30579
1992
22660
a) Basándote en estos datos, compara el número de muertos interpolado en 1990 con el dato real 28053.
b) Usa el modelo de regresión lineal para estimar el número de muertos a causa del SIDA en el año 2006.
c) Si la tendencia continua, ¿es posible que los muertos a causa del SIDA lleguen a 200000? ¿En qué
año?
Solución:
a) En el Editor de Hoja de cálculo, introducimos los datos y dibujamos el diagrama de dispersión.
Entonces la recta de mejor ajuste es la siguiente, dibujada sobre el diagrama de dispersión:
La recta de regresión es y = 3067.32267x− 6079000. Usando la recta de regresión, el número
interpolado de muertos en 1990 es 24,607.77. El número real de muertos es 28053. Una diferencia de
aproximadamente 3445. Observa que la recta que hemos obtenido tiene coeficiente de correlación, r =
0.94, lo que sugiere una correlación positiva alta; no es perfecta, esperamos que exista alguna
diferencia entre los datos interpolados y los valores reales.
b) El número estimado de muertos en 2006 es alrededor de 73,685.
Pág. 13
Enero/Febrero 2008
c) En el Editor RUN, obtenemos aproximadamente que en 2047, los muertos serán alrededor de 200,000.
2. REGRESIÓN LINEAL II
•
Las pepitas de oro
Hay un rio cerca del campus. La mina de oro cercana está agotada desde hace algunos años, pero algunos
buscadores de oro ocasionales refinan el agua del rio para buscar pepitas de oro. Los estudiantes han
creado un Club de Buscadores de Oro como una especie de entretenimiento que puede también ayudarles
a recoger fondos para la fiesta de Navidad. Van en fines de semana, refinan la arena del rio y consiguen
records en sus hazañas (ver la tabla de la hoja de cálculo).
Como vemos en la tabla, no todos los miembros del club son igual de activos. Fiona – la presidenta del club
– opina que hay una relación entre el número de visitas al río y la cantidad de oro recolectado por cada
persona. Quiere demostrarlo a los otros. Ha estudiado un curso de Estadística y quiere aprovechar su
conocimiento del método denominado Regresión Lineal.
a) Fiona introduce los datos en una hoja de calculo de su calculadora. Primero muestra a los otros que los
datos pueden representarse en forma de nube de puntos. Para hacerlo, selecciona [GRAPH]. Del
submenú selecciona [SET].
Los días consumidos en el río forman la variable independiente x (las celdas B2 a B11), la cuenta de
pepitas de oro forma la variable dependiente y (las celdas C2 a C11). Regresando al submenú gráfico y
seleccionado q – el gráfico aparece en pantalla.
Pág. 14
Enero/Febrero 2008
La gráfica consiste en puntos aislados, uno por cada buscador de oro. Si la forma de la nube no es
complicada, tiene una tendencia: para valores muy grandes de x, los valores de y tienden a ser muy
grandes.
Esta tendencia puede expresarse por una recta de regresión, cuya ecuación general es y = ax + b
donde y representa la cuenta aproximada de pepitas encontradas en x días. Los parámetros a y b se
calculan desde la tabla de valores usando las fórmulas:
⎛ n
⎞ ⎛ n ⎞⎛ n
⎞
n⎜ ∑ xi y i ⎟ − ⎜ ∑ xi ⎟.⎜ ∑ y i ⎟
i
⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠
a = ⎝ =1
2
n
⎛
⎞ ⎛ n ⎞
n⎜ ∑ xi2 ⎟ − ⎜ ∑ xi ⎟
⎝ i =1 ⎠ ⎝ i =1 ⎠
n
b=
∑ yi
i =1
n
n
−a
∑x
i =1
i
n
En general, hemos de considerar todos los n pares de elementos de los dos conjuntos x1, x2, x3, …, xn
(número de visitas al río por persona) y y1, y2, y3, …, yn (número de pepitas de oro encontradas por cada
individuo). Combinando los números y usando las fórmulas, obtenemos el resultado.
Fiona no se asusta de estas espantosas fórmulas, porque sabe que la calculadora puede obtener a y b
directamente. Para hacerlo, pulsa [CALC]. El nuevo menú aparece en la parte inferior de la pantalla:
Después pulsa w (x), la calculadora muestra el siguiente resultado:
La función que permite aproximar el número de pepitas de oro después de x días está definida como y =
2.13871549x – 1.7604383. Para ver su gráfica, pulsa [DRAW].
ACTIVIDAD
¿Cuántas pepitas podemos esperar encontrar después de 30 días de búsqueda?
Solución:
Como hemos hecho una estimación, no necesitamos cálculos muy exactos. Dos cifras decimales son
suficientes: (2.14 x 30)- 1.76 = 62.4 Esperamos encontrar alrededor de 62 pepitas.
Pág. 15
•
Enero/Febrero 2008
El fertilizante
Durante los últimos años, un granjero está utilizando un fertilizante en sus campos. Mantiene registros de la
cantidad de fertilizante usado (en toneladas) y producción (en toneladas de cosecha). La tabla muestra
estos registros.
a) Usando regresión lineal, muestra la dependencia entre las cantidades de fertilizante y las cosechas.
Dibuja el diagrama de puntos.
b) Haz el cálculo correspondiente. Registra los parámetros a y b.
c) Dibuja la recta de regresión.
d) El granjero ha aceptado una oferta de un comprador a granel de 80 toneladas de productos de la última
cosecha. ¿Cuántas toneladas de fertilizante es recomendable que compre el granjero?
Solución:
El parámetro a vale 21.2, b vale 19.6. Hemos de resolver la ecuación 80 = 21.2x + 19.6. El resultado es
2.84 (aproximadamente 3 toneladas).
•
Resistencia deportiva
En un acontecimiento deportivo, un médico del equipo mide el tiempo empleado por los deportistas de
diferente edad en una carrera. Todos los deportistas empiezan en el mismo momento. El médico del equipo
anota el tiempo que tarda cada persona en pararse por estar exhausto. Los registros son los de la siguiente
hoja de cálculo.
a) Dibuja un diagrama de dispersión basado en estos datos. Haz el cálculo de los parámetros de la recta
de regresión y dibújala.
b) ¿Cuánto tiempo cabe esperar que resista una persona de 40 años?
c) ¿Qué edad aproximada corresponde a un tiempo de resistencia de 19 minutos?
d) ¿Por qué la recta de regresión es decreciente?
Solución:
a) El parámetro a es aproximadamente igual a -0.32; b es aproximadamente igual a 28.15:
y = -0.32x +28.15
y = 15.35
b) La persona de 40 años puede resistir alrededor de 15 minutos.
c) Como a = -0.32 y b = 28.15, hemos de resolver la ecuación: 19 = -0.32x + 28.15, cuya solución es x =
28.125. La persona capaz de resistir 19 minutos tiene, aproximadamente, 28 años de edad.
d) La duración de la carrera decrece con la edad. Por ello, la recta de regresión es decreciente.
Pág. 16
Enero/Febrero 2008
3. COEFICIENTE DE CORRELACIÓN I
Las pepitas de oro 2
Recuerda los datos del problema “Las pepitas de oro"
¿Por qué Fiona confía en la existencia de una relación entre las dos variables? Porque conoce la forma de
obtener el coeficiente de correlación con su calculadora.
Para ver la relación entre dos conjuntos de números, los datos deben ser introducidos en una tabla de hoja
de cálculo de la calculadora. Para ello, selecciona [CALC]. En el submenú CALC, primero selecciona [SET]
para especificar el rango de valores
Selecciona el rango B2 a B11 para la x; y el rango C2 a C11 para la y. Sin especificar ambos rangos, la
calculadora mostraría un mensaje de error o produciría resultados incorrectos.
Regresa a la hoja seleccionando [EXE]. Selecciona [CALC] [REG]. El siguiente submenú ofrece una
variedad de métodos de regresión. Elegimos el más sencillo, la regresión lineal pulsando [x].
El cálculo es ejecutado.
Observa el valor de r obtenido. Este valor se llama coeficiente de correlación y su fórmula es
verdaderamente compleja:
r=
⎞
⎞ ⎛ n ⎞⎛ n
⎛ n
n⎜ ∑ xi y i ⎟ − ⎜ ∑ xi ⎟.⎜ ∑ y i ⎟
⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠
⎝ i =1
2
⎡ ⎛ n 2 ⎞ ⎛ n ⎞2 ⎤⎡ ⎛ n 2 ⎞ ⎛ n
⎞ ⎤
⎢n⎜ ∑ xi ⎟ − ⎜ ∑ xi ⎟ ⎥ ⎢n⎜ ∑ y i ⎟ − ⎜ ∑ y i ⎟ ⎥
⎢⎣ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎥⎦ ⎢⎣ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎥⎦
Pág. 17
Enero/Febrero 2008
Por tanto, hemos de considerar todos los n pares de elementos de los dos conjuntos x1, x2, x3, …, xn (el
número de visitas al río por persona) y y1, y2, y3, …, yn (el número de pepitas de oro encontradas por cada
individuo). Sustituyendo los datos en la fórmula anterior obtenemos el resultado. Afortunadamente, la
calculadora permite su obtención, siempre que especifiquemos los rangos de x y de y. El resultado es
siempre un número real entre −1 y +1 (0.92383508 en nuestro caso). Los valores −1 y +1 (y valores
cercanos a los extremos del intervalo) indican una relación entre los conjuntos de datos comparados. Los
valores del centro del intervalo indican que no hay una relación (con valores 0 o cercanos a 0).
•
El fertilizante 2
Recuerda los datos del problema “El fertilizante”. Se muestran en la siguiente tabla.
Calcula el coeficiente de correlación y utiliza el resultado para extraer una conclusión sobre la fiabilidad de
la estimación para el presente año (evaluando los parámetros a y b de la recta de regresión). Observa que
la especificación del rango es fundamental porque tenemos tres columnas de números. Nuestros rangos a
seleccionar son la cantidad de fertilizante (B2 a B6) y la cosecha (C2 a C6).
•
Resistencia deportiva 2
Recuerda los datos del problema “Resistencia deportiva”
Calcula el coeficiente de correlación entre los dos conjuntos de datos. ¿Podemos utilizar lar regresión lineal
para hacer estimaciones en este caso?
•
Estatura y televisión
Un grupo de estudiantes recoge datos sobre su estatura (en metros) y la cantidad de horas de ven la
televisión diariamente. Están interesados en ver si hay una relación entre estos dos conjuntos de datos.
El coeficiente de correlación r = –0.2367005 indica que no hay una relación importante. Lo mismo podemos
observar en el diagrama de dispersión.
Pág. 18
Enero/Febrero 2008
En este caso se dice que no hay correlación entre las variables. En general esto ocurre cuando el
coeficiente de correlación r toma valores cercanos a 0.
4. COEFICIENTE DE CORRELACIÓN II
•
Las granjas en EEUU
Los siguientes datos indican el número de granjas en los Estados Unidos durante los años 1910 a 1999:
Años
Número de granjas
(en millones)
1910
6.4
1920
6.5
1930
6.3
1940
6.1
1950
5.4
1959
3.7
1969
2.7
1978
2.3
1987
2.1
1999
1.9
a. Dibuja un diagrama de dispersión de los datos.
b. Determina la función que mejor se ajusta a los datos.
c.
Usa la respuesta del apartado (b) para estimar el número de granjas en 1900 y en 1975.
Solución:
a) Accedemos al Editor de Hoja de cálculo. Tomamos como coordenada x de cada punto el número de
años transcurridos desde 1900 y como coordenada y el número de granjas. Los años los introducimos
en la columna A (1910 se introduce como 10, 1920 como 20 y así sucesivamente) y el número de
granjas en millones lo introducimos en la columna B:
Para dibujar el diagrama de dispersión, accedemos al menú GRPH. Asignamos el primer gráfico, GPH1
y especificamos las columnas que representan la x y la y, seleccionamos [Scatter] como tipo de gráfico.
Observa que el gráfico de puntos puede recorrerse con las teclas de cursor, lo que es una buena forma
de consultar los datos introducidos.
Pág. 19
Enero/Febrero 2008
b) Una vez dibujado el gráfico, el siguiente paso consiste en explorar la relación entre x e y buscando
funciones que ajusten los datos aproximadamente. Pulsamos [CALC] y elegimos el tipo de función.
Por ejemplo, supongamos que seleccionamos el modelo lineal. Los coeficientes de regresión se
calculan de la siguiente forma:
El modelo lineal obtenido es y =-0.0640032x + 7.80897744. Observa que el coeficiente de correlación r
es aproximadamente -0.9538903. El coeficiente de correlación mide el grado de bondad del ajuste por
una función lineal. En principio, observamos que el valor r ≈ 0.95 indica una muy buena regresión;
pero es posible que los datos se puedan ajustar por otro modelo funcional. De hecho, si dibujamos la
recta sobre la nube de puntos, podemos observar que la recta no parece ajustarse del todo bien.
Algunos puntos no están en la recta; de hecho, la nube de puntos no se parece mucho a una recta.
Así, un ajuste mejor se puede obtener mediante una curva. Experimentamos otros tipos de funciones
(cuadráticas, exponenciales, cúbicas, cuárticas) y observamos la calidad del ajuste.
En las siguientes pantallas se muestran los modelos de regresión exponencial y cuadrático:
Como en el modelo lineal, observamos que algunos puntos no están cerca de las curvas exponencial y
cuadrática. Los coeficientes de correlación correspondientes a los modelos exponencial y cuadrático
son aproximadamente −0.9532007 y −0.9560633 (alrededor de -0.95, la misma aproximación que la
obtenida con el modelo lineal)
Otra exploración produce los siguientes resultados: con la curva cúbica se obtiene r ≈ - 0.9911923 y con
la curva cuártica r ≈ - 0.9955864101. En ambos casos se obtiene un coeficiente de regresión: r ≈ 0.99,
que es muy cercano a 1. Sin embargo, el valor de r para la curva cuártica es más cercano a 1 que el
de la curva cúbica. ¡Por tanto, el mejor ajuste es aparentemente la curva cuártica!
La función cuártica de ajuste óptimo viene dada por la expresión:
0.000000089162x4 + 0.000009047x3- 0.003424x2+ 0.13022957x + 5.33504058
Pág. 20
Enero/Febrero 2008
Los valores negativos de r indican que la relación entre x e y es inversa. Así, cuando x crece, la y
decrece. Esta relación puede visualizarse en el diagrama de puntos. Observa que el valor de r no
aparece en estas pantallas. En realidad, no es necesario conocerlo. Basta saber el valor de r2, para
conocer la calidad del ajuste. Como el valor de r2 es cercano a 1, el ajuste es bueno.
Una buena forma de visualizar el ajuste por la curva es dibujarla sobre la nube de puntos. Esto es
especialmente útil para comparar los gráficos de los diferentes modelos funcionales respecto de los
datos.
Una vez obtenido y guardado en memoria el diagrama de dispersión con el nombre Pict1, pulsamos
[OPTN]:
El diagrama se puede usar ahora como dibujo [SHIFT SET UP] de la siguiente forma:
Los modelos funcionales obtenidos por regresión se pueden copiar a la lista de funciones gráficas y se
pueden guardar como pantallas de dibujo.
Por ejemplo, copiamos las funciones cúbica y cuártica obtenidas por regresión al Editor de Gráficos.
Asignamos los trazos “----” para la función cúbica y “__” para la función cuártica. Pulsamos [DefG] para
dibujar ambos gráficos con el diagrama de puntos como dibujo:
Podemos visualizar que ambas curvas de ajuste pasan muy cerca de los puntos y confirma esto que las
dos podrían usarse como curvas de ajuste.
Es difícil averiguar, en algunos casos, qué modelo es mejor usar, fijándose solamente en los gráficos o
en la forma de las nubes de puntos. Para decidir, por ejemplo, cuál de los dos modelos anteriores
(cúbico o cuártico) es mejor, hemos de referirnos al valor del coeficiente de correlación para determinar
la función de mejor ajuste.
Pág. 21
Enero/Febrero 2008
c) Usamos la función cuártica obtenida en (b) para estimar el número de granjas en 1900 y en 1975.
Después de pulsar [DefG], pulsamos [DRAW], después [SHIFT G-Solv Y-Cal]. Especificamos el valor de
x para obtener el correspondiente valor de y.
En el año 1900, habrán alrededor de 5.335 millones de granjas, y en 1975, alrededor de 2.477 millones
de granjas.
•
El Índice de Precios al Consumo
Los siguiente datos indican los niveles del Índice de Precios al Consumo (IPC) en Diciembre de distintos
años:
Año
IPC
1995
121.2
1996
128.0
1997
134.8
1998
137.2
1999
139.0
2000
143.0
2001
147.1
2002
150.2
2003
156.5
2004
158.9
a. Dibuja un diagrama de puntos de los datos.
b. Determina el modelo (exponencial, logarítmico, potencial o lineal) que mejor describe la relación entre
los años y el IPC.
c.
Usa el modelo obtenido en (b) para predecir el IPC para Diciembre de 2006.
Solución:
a) Accedemos al Editor de Hoja de cálculo, e introducimos los años en la primera columna y los niveles del
IPC en la segunda columna. Aplicamos la siguiente fórmula de sucesión para generar los años,
pulsando [EDIT] y después [SEQ].
El diagrama de puntos es el siguiente:
b) Los coeficientes de regresión para varios tipos de regresión son los siguientes:
Pág. 22
Enero/Febrero 2008
Resumimos los resultados obtenidos en la siguiente tabla:
Tipo de curva
Potencial
Exponencial
Logarítmica
Lineal
COEFICIENTE DE CORRELACIÓN
0.98788553
0.98783476
0.99129492
0.99127019
Los cuatro tipos de curvas dan una buena correlación. El hecho de que r
sea positiva indica que la relación entre x e y es directa. Cuando x crece, y
crece. El valor de r para todas las curvas es cercano a 1; sin embargo, el
mejor ajuste es aparentemente la curva logarítmica. El modelo logarítmico
es: −59682.713 + 7870.94425 ln x. El gráfico de la curva logarítmica
superpuesto en el diagrama de dispersión es el siguiente:
c) Usamos el modelo logarítmico para determinar el nivel del IPC en 2006. Obtenemos aproximadamente
167.1435873.
Observaciones:
Los cálculos y gráficos de regresión obtenidos en el Editor de Hoja de cálculo se pueden obtener también
en el Editor STAT usando los mismos comandos. Además, cuando trabajamos fuera de una hoja de
e−activity, es posible usar el modelo funcional para hacer cálculos a través de los editores GRAPH, TABLE
y RUN. Para hacer esto, la función debe copiarse primero en el Editor de Gráficos.
Por ejemplo, en el apartado (c) del problema anterior, calculamos el valor de y para x=2006 en el Editor
RUN, de la siguiente forma:
Trabajando en el Editor GRAPH o RUN podemos no sólo hayar la y, sino también la x.
Por ejemplo, supongamos que queremos determinar aproximadamente en qué año el IPC será 180.
Usando el Editor RUN, la respuesta es el año 2009: En el Editor GRAPH obtenemos una respuesta similar
usando una ventana apropiada:
Pág. 23
Enero/Febrero 2008
DISTRIBUCIONES DE PROBABILIDAD CON LA FX−9860G SLIM
Introducción
La palabra “azar” también puede significar una cierta desviación respecto de la uniformidad. Cuando vemos
un grupo de cinco personas, registramos diferencias en sus estaturas y pesos bastantes fuertes. Al mismo
tiempo, un grupo de cinco niños es aparentemente más pequeño que un grupo de cinco adultos. La
distribución de estaturas de cinco personas se puede caracterizar como una distribución de probabilidad.
Vamos a estudiar a continuación las utilidades de la nueva calculadora FX−9860G SLIM para el análisis de
distribuciones de probabilidad.
1.- Distribuciones de probabilidad I
1. MEDIA Y DESVIACIÓN TÍPICA. DISTRIBUCIÓN NORMAL
Recoge información sobre las estaturas de los compañeros de tu clase. Crea 10 grupos de estaturas, cada
uno de 5 cm de anchura, centrados en la media (por ejemplo, si la media es 170 cm, los grupos van desde
“menos de 150” hasta “más de 190”). Para cada grupo, cuenta el número de personas que tienen esa
estatura. Escribe los resultados en una tabla de hoja de cálculo (también llamada tabla de frecuencias, que
muestra las frecuencias de los estudiantes que tienen la misma estatura). Representa gráficamente los
resultados.
La forma real del gráfico depende de las personas que hay en cada clase, pero, en general, los valores
cercanos a la media son los más frecuentes y los valores alejados de la media tienen un carácter más
excepcional. Por tanto, el gráfico obtenido puede ser diferente al siguiente, pero tendrá una forma bastante
similar: los resultados más frecuentes en el centro y los menos frecuentes en los extremos.
Fija el rango de las celdas de tu gráfico (graph1) de forma que sea similar al anterior. Dependiendo de las
medidas reales de tu clase, los valores de Ymin e Ymax serán diferentes. La forma ideal de la distribución de
un conjunto de datos está expresada por una función llamada distribución normal.
Pulsa [DIST] y después [NORM]. De nuevo pulsa [Npd] para la distribución de probabilidad normal.
La pantalla muestra ahora el significado de cada ítem. La variable x representa los datos, σ la desviación
típica, µ la media. Mueve el cursor hacia abajo para seleccionar Execute y pulsa [DRAW]. Para σ =1 y µ = 0,
el gráfico de la función es el siguiente:
Pág. 24
Enero/Febrero 2008
Cambiando σ y µ resultan diferentes formas de la función de distribución normal. Su fórmula es:
f ( x) =
1
2πσ
−
e
( x− µ )2
2σ 2
Observa que la curva es simétrica respecto de la media µ. Como representa una distribución de
probabilidad, la media y valores cercanos son más probables. Los valores más alejados de la media son
menos probables. Esto se corresponde con la experiencia: los valores extremos son más raros.
•
ACTIVIDADES
1) Calcula la desviación típica σ y la media µ para los datos de tu clase. Dibuja el gráfico con una
configuracion apropiada para tus valores, usando la herramienta STAT.
2) Cambia el valor de µ. ¿Qué efectos tienen los cambios?
3) De la misma forma, cambia el valor de σ. ¿Qué efectos tienen los cambios?
Soluciones
a. Selecciona STAT de la pantalla de menús. Después pulsa F5, después F1 y de nuevo F1. Asigna tus
valores para la media y desviación típica. Mueve el cursor para ejecutar y después selecciona F6
(DRAW). No olvides configurar las dimensiones de la pantalla con los valores apropiados usando VWindow. En general, el intervalo de valores de x será simétrico entorno a la media µ. Los valores
recomendados de x están en el intervalo (µ–3σ, µ + 3σ).
b. Cada cambio de µ mueve los valores más probables hacia la izquierda o hacia la derecha, de forma que
la media siempre se mantiene como el valor más probable.
c.
El crecimiento de σ incrementa el intervalo de valores probables y la curva se vuelve aplastada. El
decrecimiento de σ hace que la curva se haga más estrecha, porque el intervalo de valores con alta
probabilidad se encoge.
2. DISTRIBUCIÓN DE POISSON
La distribución normal no es la única. Hay otra muy frecuente que es la distribución de Poisson. Por
ejemplo, el número de niños en las familias sigue esta distribución. Intenta llamar a todas las familias
que conoces, averigua si tienen niños o no y forma una tabla con los datos. Dibuja un diagrama de
dispersión con los datos.
Las figuras reales varían según países (y según regiones), pero siempre aparece una forma similar. La
curva crece cerca de la media porque las familias con un número de niños medio son más frecuentes.
En la figura, las familias con 1-2 niños son más frecuentes. Después la curva cae constantemente. La
probabilidad de valores muy altos es muy pequeña, pero nunca cero. (Alguna vez se han publicado
noticias de familias con 18 o 23 niños)
Pág. 25
Enero/Febrero 2008
La función de la distribución de Poisson se expresa por la fórmula:
P ( x) =
µ x e −µ
x!
donde x es el conjunto de números naturales (0, 1, 2, 3, …) y µ es la media (un número no negativo,
posiblemente con una cierta cantidad de decimales).
La gráfica para µ=1.5 es la siguiente:
Las diferentes distribuciones de probabilidad de Poisson dependen del valor de su media µ. Para ver
esta influencia inicia la aplicación STAT en la pantalla de menús. En la columna List1 introduce los
valores 0, 1, 2, 3, 4, 5, 6, que son los posibles hijos de las familias. Pulsa [DIST] [POISN] [Ppd]. En la
siguiente pantalla, en la línea µ introduce el valor 1,5. Mueve el cursor hasta la línea Execute y pulsa
[F1] (CALC). Aparece una pantalla en la que se indica que si la media fuera µ=1.5, entonces la
probabilidad de que una familia tenga 1 niño es 0.3346 (aproximadamente 1/3); la probabilidad de que
una familia tenga 3 niños es 0.1255 (aproximadamente 1/8).
Pulsa [EXIT] y en la pantalla de la distribución de Poisson, cambia el valor de µ por 2 y activa la opción
Execute moviendo el cursor y presionando [F1] (CALC). La columna que aparece recalcula las
probabilidades.
Para dibujar el gráfico, copia la nueva lista de probabilidades a la List2 de la ventana STAT. Después,
pulsa [GRPH] [SEL] [DRAW]. El nuevo gráfico aparece en pantalla.
•
ACTIVIDADES
1) Cambia el valor de la media µ a 1.5, 2.3, 3, 4, 5. Dibuja los gráficos correspondientes. ¿Qué
conclusiones puedes hacer acerca de la distribución de probabilidad de Poisson?
2) Pregunta a tus compañeros de clase sobre el número de coches en sus familias. Haz una tabla de
frecuencias para “ningún coche”, “un coche”, “dos coches”, etc. Dibuja un diagrama de dispersión
usando la tabla de la hoja de cálculo. ¿Cuál es vuestra estimación de la media de coches por familia?
3) Vigila durante una hora un semáforo cercano. Cuenta el número de coches lo cruzan en verde en una
dirección particular. Registra los datos en una tabla. Después de dejar el cruce, calcula las frecuencias
para cada número de coches que han pasado (0, 1, 2, 3, ...). Dibuja un diagrama de dispersión usando
una hoja de cálculo. ¿Qué puedes decir sobre la distribución de probabilidad?
Pág. 26
•
Enero/Febrero 2008
Soluciones
1) Con el crecimiento de la media, la probabilidad de que ocurran números altos crece (con el máximo
cerca de la media). En general, conforme la curva que conecta los puntos del diagrama de dispersión se
hace cada vez más achatada, su “pico” se hace más y más bajo.
3) Con tus resultados, podemos estimar el número de coches que atraviesan el cruce a la misma hora el
dia siguiente.
2.- Distribuciones de probabilidad II
1. MEDIA Y DESVIACIÓN TÍPICA. DISTRIBUCIÓN NORMAL
Una agencia de consumidores preguntó a 2750 familias que vivían en una pequeña población sobre el
número de aparatos de televisión que poseían. La siguiente tabla muestra la distribución de frecuencias de
los datos recogidos por la agencia.
Número de aparatos de TV propios
Número de familias
0
120
1
970
2
730
3
410
4
270
5
150
6
75
7
25
a. Construye una tabla de distribución de probabilidad para el número de aparatos de TV propios de estas
familias.
b. Haz una representación gráfica de la distribución de probabilidad.
c.
Si x representa el número de aparatos de TV propios para una familia seleccionada al azar entre las de
la población, halla las siguientes probabilidades:
1. P(x=1)
2. P(x>2)
3. P(x ≤ 1)
4. P(1 ≤ x ≤ 3)
d. Calcula la media y la desviación típica para la distribución de probabilidad.
•
Solución:
a) Abrimos el Editor de Hoja de cálculo.
Sea x el número de aparatos de TV propios de una familia seleccionada al azar entre las de esta población.
Introducimos los valores de x en la columna A y el número de familias (que es la frecuencia de cada grupo
de televisiones) en la columna B, tal como sigue:
Primero convertimos las frecuencias de la columna B en frecuencias relativas y las guardamos en la
columna C. Dividimos cada celda de la columna B por 1750, el número total de familias que participan en el
estudio. Introducimos [= $B1 ÷ 2750] y situamos el cursor en la tercera columna primera fila, es decir en la
celda C1. El resultado correspondiente aparece en la posición indicada y la fórmula introducida también
aparece (en la parte inferior derecha de la pantalla).
Copiamos esta fórmula a las sucesivas filas de la tercera columna. Haciendo esto obtenemos las
frecuencias relativas correspondientes a todas las entradas de la columna B:
Pág. 27
Enero/Febrero 2008
Construyendo la distribución de probabilidad con el Editor de Hoja de cálculo, descubrimos, exploramos y
verificamos fácilmente las características de la distribución de probabilidad de una variable aleatoria
discreta. Por ejemplo, las frecuencias relativas o probabilidades aproximadas obtenidas de la muestra están
comprendidas entre 0 y 1. Así mismo, la suma de las probabilidades asignadas a todos los posibles valores
es igual a 1.
La suma de celdas en la hoja de cálculo se puede obtener usando el comando [= Cel Sum]. Las referencias
de las celdas a sumar (consistentes en la letra de la columna y el número de la fila) deben especificarse. En
la pantalla de la derecha de la figura anterior vemos que la suma de las probabilidades de una distribución
de probabilidad es igual a 1.
b) La distribución de probabilidad de una variable aleatoria discreta se puede representar gráficamente
usando un histograma.
Para dibujar el histograma a partir de los datos, accedemos al menú GRPH. Asignamos a los datos el primer
gráfico, GPH1. Especificamos las columnas que representan los valores de x y las frecuencias relativas,
después seleccionamos “histograma” [Hist] como el tipo de gráfico:
El histograma se muestra en pantalla. Usamos una anchura de 1 para cada barra del gráfico.
c)
1. P(x=1)
La probabilidad de que una familia tenga exactamente un aparato de televisión se puede obtener
directamente de la hoja de cálculo. Esto también se puede obtener recorriendo el histograma mediante
[Trace]. En el histograma podemos ver que hay más familias que tienen un sólo aparato de TV.
Pág. 28
Enero/Febrero 2008
2. P(x>2)
La probabilidad de que una familia tenga más de dos aparatos de TV se obtiene sumando las
probabilidades de que tenga tres, cuatro, cinco, seis y siete aparatos de televisión. Así,
P(x>2) = P(x=3) + P(x=4) + P(x=5) + P(x=6) + P(x=7)
Usando la calculadora, sumamos las filas 4 a 8 de la columna C de la hoja de cálculo, de acuerdo con la
fórmula: P(x=3) + P(x=4) + P(x=5) + P(x=6) + P(x=7). Guardamos la suma en una posición libre de la hoja
de cálculo:
El resultado es P(x>2) = 0.3381.
3. P(x ≤ 1)
La probabilidd de que una familia tenga menos de un aparato de televisión se calcula así: P(x ≤ 1) = P(x=0)
+ P(x= 1). Usando la calculadora, sumamos las filas 1 y 2 de la columna C de la hoja de cálculo, de acuerdo
con la fórmula P(x=0) + P(x=1). El resultado es P(x ≤ 1) = 0.3963.
4. P(1 ≤ x ≤ 3)
La probabilidad de que una familia tenga entre uno y tres aparatos de TV se obtiene sumando las
probabilidades de que tenga uno, dos y tres aparatos.
P(1 ≤ x ≤ 3) = P(x=1) + P(x=2) + P(x=3)
Sumamos las filas 2, 3 y 4 de la columna C de la hoja de cálculo, de acuerdo con la fórmula P(x=1) + P(x=2)
+ P(x=3):
El resultado obtenido es P(1 ≤ x ≤ 3) = 0.7672.
d) Los cálculos 1Var se pueden usar para determinar alguna información sobre la distribución de
probabilidad. Pulsamos [CALC 1Var] después de ajustar las preferencias de cálculo (pantalla de la izquierda
en la siguiente figura). El número medio de televisiones por familia es 2,2 aproximadamente. Este también
es el valor esperado de x, es decir E(x) = 2.2. La desviación típica es 1.47.
Observaciones: En el estudio de distribuciones de frecuencia, es de gran ayuda obtener la distribución de
probabilidades acumuladas. Veamos un ejemplo en el Editor de Hoja de cálculo.
Pág. 29
Enero/Febrero 2008
Primero copiamos la primera entrada de la columna de las frecuencias relativas, en este caso C1, en la
primera fila de la cuarta columna, D1, en la cual almacenamos las frecuencias acumuladas relativas.
Usando [= GRAB] introducimos la fórmula de la suma para la primera y segunda frecuencias relativas, D1 +
C2 y almacenamos el resultado en D2:
Repetimos esta fórmula a lo largo de la cuarta columna, con los comandos Copiar y Pegar. En la tercera fila
de la cuarta columna, tenemos la suma de la primera y tercera frecuencias relativas, D2+C3; en la cuarta
fila, D3+C4 y así sucesivamente. En la última entrada tenemos que la suma de todas las frecuencias
relativas es igual a 1.
El gráfico de la distribución de probabilidad acumulada es como sigue:
Podemos responder la pregunta del ítem c del apartado 3, P(x ≤ 1) = 0.3963636364 usando la opción
[Trace] para recorrer el gráfico de la distribución de probabilidad acumulada:
Observación: Después de introducir los datos, podemos guardar toda la información en el menú de hoja de
cálculo. Llamamos al archivo “TVSETS’’. De la misma forma, llamamos al archivo de la siguiente actividad
“Machines”.
Pág. 30
•
Enero/Febrero 2008
ACTIVIDAD
Deportes Elmo vende máquinas de ejercicio. En días diferentes, venden diferentes cantidades de estas
máquinas. La tabla que sigue recoge la información del número de máquinas vendidas por día y las
probabilidades correspondientes.
Máquinas vendidas por dia
Probabilidad
4
0.08
5
0.11
6
0.14
7
0.19
8
0.20
9
0.16
10
0.12
a. Haz una representación gráfica de la distribución de probabilidad.
b. Determina la probabilidad de que el número de máquinas vendidas por día sea
1. exactamente 6
2. menor que 7
3. entre 5 y 8
4. a lo sumo 6
c. Calcula la media y desviación típica de la distribución de probabilidad
Solución:
a) Sea x el número de máquinas vendidas por día. Abrimos el Editor de Hoja de cálculo e introducimos los
valores de x en la primera columna y las probabilidades en la segunda columna.
b) El histograma es el siguiente:
La configuración utilizada es la siguiente:
c)
1. La probabilidad de que el número de máquinas de ejercicio vendidas por dia sea exactamente 6 es 0.14.
Este valor se puede obtener directamente de la hoja de cálculo. El valor también aparece cuando
recorremos el histograma mediante la opción [Trace].
Pág. 31
Enero/Febrero 2008
2. La probabilidad de que el número de máquinas de ejercicio vendidas por día sea menor que 7 viene dada
por
P(x<7) = P(x=6) + P(x=5) + P(x=4) = 0.33,
ya que P(x=3) = P(x=2) = P(x=1)= 0.
Como se ve en la pantalla anterior, sumamos desde la primera hasta la tercera filas de la columna B.
3. La probabilidad de que el número de máquinas de ejercicio vendidas por día esté entre 5 y 8 viene dada
por
P(5 ≤ x ≤ 8) = P(x=5) + P(x=6) + P(x=7)+ P(x=8)
El resultado se obtiene sumando desde la segunda fila hasta la quinta fila de la columna B.
4. La probabilidad de que el número de máquinas vendidas por día sea como mucho 6 se obtiene a través
de la fórmula
P(x ≤ 6) = P(x=4) + P(x=5) + P(x=6) = 0.33
que se ha calculado en el apartado (2).
c) La media y desviación típica se obtiene de la pantalla 1VAR como se muestra a continuación:
La media es 7.28 y la desviación típica es 1.77245592.
Observaciones:
Los cálculos estadísticos y gráficos relativos a las distribuciones de probabilidad obtenidas en el Editor de
Hoja de cálculo también se pueden obtener en el Editor STAT usando los mismos pasos, aunque hay
algunos cambios en los comandos:
Los valores de x se almacenan en la List1 y las frecuencias en la List2. Considera por ejemplo, la actividad
inicial (aparatos de televisión). Los datos se introducen así:
Las frecuencias se convierten en frecuencias relativas y se almacenan en la List3, usando el comando:
Pág. 32
Enero/Febrero 2008
El comando acumulativo [CUML] produce la distribución de probabilidad de la List4. Observa que la suma
de todas las frecuencias relativas es igual a 1.
MUESTRAS ALEATORIAS CON LA FX−9860G SLIM
Introducción
En las siguientes actividades, veremos como utilizar la calculadora FX−9860G SLIM para generar números
aleatorios, efectuar simulaciones y resolver problemas de probabilidad mediante simulaciones.
1.- Muestras aleatorias I
1. NÚMEROS ALEATORIOS
La palabra “azar” es bastante popular y su significado en la vida real difiere parcialmente del que tiene en
Estadística. Cuando alguien dice: “paseando por la calle me he encontrado por azar con Juliana”, no
menciona las docenas (posiblemente centenares) de personas conocidas que han pasado también por la
calle. Todas estas personas también podrían haber tenido un encuentro al azar. En la estadística no
matemática, la estadística de la calle, todos los encuentros se producen por azar. Para simular la realidad,
podemos utilizar los números aleatorios.
a) Para generar un número aleatorio, pulsa [OPTN] y selecciona el menú [PROB]. Pulsa [F4] (Ran#) y
[EXE]. Aparece en pantalla un número entre 0 y 1.
Observa que los valores 0 y 1 nunca aparecen. Solo se generan valores interiores del intervalo [0, 1].
•
Recoge los resultados de tu clase. ¿Habéis obtenido el mismo número?
Es posible obtener el mismo número, pero poco probable. El conjunto de números aleatorios de la
calculadora es grande. Una misma aparición de un número no se excluye, pero su probabilidad es
extremadamente baja.
b) Todos los números aleatorios tienen la forma 0.xxxxxxxx. El primer dígito es siempre cero −pero los
dígitos posteriores varían. Selecciona un dígito de 0 a 9. Genera números aleatorios hasta que el dígito que
has elegido aparezca como primer decimal después del punto. Cuenta el número de pruebas necesario
para que esto ocurra. Para generar el siguiente número aleatorio, simplemente basta que pulses [EXE].
Pág. 33
•
Enero/Febrero 2008
Repite el experimento anterior 10 veces. Registra las longitudes de los intervalos entre dos apariciones
consecutivas de números aleatorios con el mismo primer dígito decimal. ¿Observas una regularidad en
la longitud de los intervalos?
La ruptura entre dos primeros dígitos idénticos puede ser de cualquier longitud. Esta propiedad garantiza
que los números son realmente aleatorios.
c) Sitúa 10 valores aleatorios en una tabla de hoja de cálculo. Dibuja un diagrama de dispersión. Observa
que sus puntos no crean ninguna forma regular. Esto es otra indicación de que los números son aleatorios.
d) Calcula la media de los diez intervalos que has registrado. Compara tus resultados con los de tus
compañeros de clase. La media no estará lejos de 0.5.
Esto naturalmente sólo ocurre para grandes cantidades de números aleatorios. Entonces, la media de los
diez números aleatorios es 0.496. El valor de la media puede variar en las cercanías de 0.5, pudiendo ser
mayor o menor dependiendo de la combinación aleatoria.
•
Toma los dos últimos dígitos del año en que has nacido. (Si es 1987, usa 87). Genera números
aleatorios hasta que aparezca el primero de los dos dígitos. Haz una conjetura: ¿cuántos números
aleatorios (por término medio) tienes que seleccionar hasta que aparezca tu par de dígitos?
Como hay 100 pares diferentes de dígitos (desde 00 hasta 99) escritos en orden aleatorio, tu par puede
aparecer (en término medio) como el quincuagésimo. Si no has tenido suerte, repite la experiencia un
número mayor de veces.
•
Generación de números aleatorios enteros
Los números aleatorios entre 0 y 1 no son bonitos. Si necesitamos números aletorios, sus valores son
bastante diferentes. Por ejemplo:
•
Lanzando una moneda generamos uno de dos resultados que denotamos como 0 y 1.
•
Lanzando un dado generamos un número aleatorio entre 1 y 6.
•
En la Loto los números dependen del pais en que se juega.
Pág. 34
Enero/Febrero 2008
Así, preferimos tener la posibilidad de transformar los valores generados por la calculadora para nuestro
intervalo.
a) En principio expandimos el intervalo de números aleatorios desde 0 hasta 2. El método es simple:
multiplicar por 2 los números aleatorios del intervalo [0, 1]. El valor puede ser desde 0 hasta 2, excluyendo
los extremos del intervalo. Así, cada uno de ellos empieza por 0 o por 1 antes del punto decimal.
b) El método anterior genera números aleatorios apropiados, pero su formato es bastante complejo. Son
difíciles de leer. Buscamos resultados que contengan lo que necesitamos. Para ello, la parte decimal
puede ser truncada, es decir, eliminada. El número entero (0 o 1) es el único que nos interesa. La
función INT permite esto. Pertenece a las funciones numéricas. Cuando la ventana RUN-MATH está
abierta, pulsa [F4] (NUM). Aparece el submenú numérico. Pulsa [F2] para seleccionar el segundo ítem
(INT). A continuación escribe “(2x”. Después pulsa [EXIT] [F3] (PROB) y pulsa [F4] (Ran#). Cierra
paréntesis y pulsa [EXE]. Un número aleatorio 0 o 1 aparece en pantalla. Pulsando [EXE] varias veces
generas números aleatorios con el mismo formato.
c) Primero necesitamos expandir el intervalo para tener 6 valores diferentes. Así, 6xRan# es la fórmula
apropiada.
El primer número generado por esta fórmula varía entre 0 y 5. Así, sumando uno al resultado podemos
producir números entre 1 y 6.
•
ACTIVIDADES
a) Truncando los números de la actividad anterior, genera números aleatorios enteros entre 1 y 6.
b) En la Loto de Eslovaquia, la gente apuesta seis números entre 1 y 49. Busca una estrategia para
generarlos, sabiendo que los 6 números deben ser diferentes.
c) Usando tu generador de números aleatorios, selecciona al azar cinco estudiantes de tu clase.
d) ¿Podemos saltar u omitir algún número generado por un generador de números aleatorios?
Pág. 35
•
Enero/Febrero 2008
Solución
a) Usa la fórmula INT(6*Ran# + 1)
b) El primer número es seleccionado al azar. El segundo es generado (y solamente elegido si difiere del
primero). El tercero debe diferir de los dos seleccionados anteriormente. Esto se repite hasta que se
generan seis dígitos diferentes.
c) Asigna un número de orden a cada uno de tus compañeros de clase (por ejemplo, usando el orden
alfabético). Construye un generador de números aleatorios. Genera cinco números aleatorios diferentes.
d) No es recomendable. Puedes introducir elementos que eliminen la aleatoriedad.
2.- Muestras aleatorias II
1. MUESTREO CON LA CALCULADORA GRÁFICA
Suponemos que una factoria de chocolate produce 5000 piezas de chocolate diarias. La división de control
de calidad decide seleccionar al azar 50 piezas (el 1%) de chocolate para su inspección de calidad diaria
(antes de analizar los datos estadísticamente).
Como es usual, hoy el inspector de calidad ha numerado las piezas de chocolate de acuerdo con su orden
de producción, es decir, la primera pieza de chocolate producida en el día tiene el número 1, la segunda el
número 2 y así sucesivamente. Usando la calculadora gráfica, puede seleccionar 50 piezas de las 5000
usando la función [Ran#].
Abre el Editor RUN. Pulsa [OPTN] [F6] [Z] [F3] [PROB] [F4] [Ran#] y después pulsa [EXE]. Pulsando varias
veces obtendrás una pantalla similar a esta:
Observa que cada pulsación de [Ran#] produce diferentes dígitos decimales y siempre se cumple la
desigualdad:
0 < Ran# < 1
Podemos ayudar al inspector para adaptar esta salida a sus necesidades de muestreo. Si multiplicamos
[Ran#] por 5000 aseguramos que cada salida estará comprendida entre 0 y 5000.
0 < 5000×Ran# < 5000
Podemos ajustar la funición [Ran#] para ayudarle a seleccionar su muestra aleatoria. Pulsa [EXIT] [F4]
[NUM] [F2] [Int], seguida de la expresión 5000×Ran#, y súmale 1.
El inspector puede ahora generar 50 números aleatorios diferentes del 1 al 5000 en la ventana [Run]
pulsando [EXE] 50 veces. Es mucho más ventajoso y eficiente usar una hoja de cálculo para introducir los
datos del muestreo recordando los resultados del test de calidad del chocolate y además sirve para hacer
un análisis estadístico.
Pág. 36
•
Enero/Febrero 2008
ACTIVIDAD 1
Usa el menú Hoja de cálculo de la calculadora gráfica para ayudar al inspector a seleccionar al azar 50
chocolates para su test de hoy.
•
Solución:
a) Abre el menú Hoja de cálculo y guarda la hoja actual con el nombre “Act1A”. Para ello, pulsa [F1] [FILE]
[F3] [SV−AS] y en la siguiente pantalla introduce el nombre Act1A. Usamos la columna A para generar
números aleatorios y la llamaremos “Random”. También conseguiremos la muestra en la columna B y la
llamaremos “Sample”. Para escribir el nombre de la columna, basta situar el cursor en la primera celda y con
el teclado alfabético teclear el nombre entre comillas (“Random” o “Sample”). Después, mueve el cursor
hasta la primera celda vacía de la columna “Random”.
Introduce la fórmula “Int(5000Ran#)+1” en la celda seleccionada A2. Es similar a como la habíamos
introducido antes. Cuando pulsamos [EXE] se genera un número aleatorio.
b) Para esta actividad vamos a generar 49 números aleatorios más y de una forma rápida. Sitúa el cursor en
la celda A3 y selecciona (EDIT) (FILL). Introduce la fórmula “=Int(5000Ran#)+1” (en la línea encabezada por
[Formula]) y en el rango de celdas [Cell Range] escribe A3:A51. Pulsa [EXE] para generar los otros 49
números aleatorios.
c) A continuación guardamos los números de la columna “Random” en una lista antes de renombrar el
mismo conjunto de números para la columna “Sample”. Mueve el cursor a la primera celda, A2, de
“Random” y pulsa [SHIFT] [8] (CLIP). Con la celda A2 seleccionada, mueve el cursor hacia abajo hasta el
último número situado en la calda A51. En la parte inferior izquierda de la pantalla se muestra el rango de
celdas seleccionadas: A2:A51.
Para guardar estos números en una lista, pulsa [STO] [LIST] y en la siguiente pantalla guarda los números
en la lista [List1].
Pág. 37
Enero/Febrero 2008
Ves a la primera celda vacía de la columna “Sample” y pulsa [RCL] [LIST]. En la siguiente pantalla introduce
el nombre de la lista a recuperar [List1] y comprueba que en la línea 1st Cell pone B2. Pulsa [EXE] para
obtener los valores de la columna “Sample”.
d) Finalmente, ordenamos los números de la columna “Sample” en orden ascendente y observamos
posibles repeticiones de números. Ves a la primera celda de la columna “Sample”, pulsa [SHIFT] [8] y
mueve el cursor hasta la última celda no vacía, la celda B51. Para ordenar la columna, selecciona [EDIT]
[SRT−A], después explora la columna y averigua si hay algún número repetido.
Los números aleatorios obtenidos en nuestro caso no contienen repeticiones, pero si vemos números
repetidos, volvemos a empezar por el apartado (C).
Por lo tanto, conforme con los números aleatorios que hemos generado, el inspector de calidad puede
inspeccionar los chocolates producidos de acuerdo con el orden mostrado en la columna “Sample” de la
hoja de cálculo “Act1A”.
El inspector de calidad puede usar siempre esta misma hoja para seleccionar una muestra aleatoria para su
trabajo cada día y después estudiar los logros en calidad.
•
ACTIVIDAD 2
La factoría a veces produce entre 4000 y 4500 piezas de chocolate diarias, aparte de las usuales 5000. El
tamaño de la muestra requerido para el test de calidad es siempre el 1% de la producción diaria. En el test,
cada pieza de chocolate pasa el test (logra 1 punto) o no lo pasa (logra 0 puntos). No más de un 8% de la
muestra falla el test de calidad diariamente. El siguiente es el plan diario de producción para los próximos 5
días.
Día
Producción de Chocolate
1
5000
2
4000
3
4500
4
5000
5
5000
Improvisa la hoja de cálculo para ayudar el inspector en su trabajo.
•
Solución:
En resumen aquí están los tamaños necesarios de las muestras diarias y el 8% del tamaño de la muestra.
Producción de Chocolate
Tamaño de la muestra
8% del tamaño de la muestra
Dia1
5000
50
4
Dia2
4000
40
3.2
Día3
4500
45
3.6
Dia4
5000
50
4
Dia5
5000
50
4
a) Abre el Editor de Hoja de cálculo y guarda la nueva hoja con el nombre “Act2A”. Consideramos la
producicón diaria como parámetro en la generación del número aleatorio. La celda A2 la usamos para
registrar la producción diaria. También usamos la columna B como una columna indexada para facilitar
referencia a la producción y a los números aleatorios. Empezamos con la producción diaria de 5000 para el
Dia1.
Pág. 38
Enero/Febrero 2008
b) Las columna “Random” y “Sample” son colocadas en las columnas C y D respectivamente. Para generar
50 números aleatorios, sitúa el cursor en la celda C2, pulsa [EDIT] seguido de [FILL]. Esta vez introducimos
la fórmula “=Int($A$2Ran#)+1” en la línea [Formula] y el rango de celdas C2:C51 en la línea [Cell Range].
c) Aquí hemos generado 50 números aleatorios para el Dia1. De nuevo guardamos los números de la
columna “Random” en la lista [List1] antes de recolocar el mismo conjunto de números en la columna
“Sample”, ordenar dichos números y chequearlos para ver si hay números repetidos. Primero regresa a la
hoja de cálculo de trabajo:
Sitúa el cursor en la celda C2 y pulsa [SHIFT] [8] (CLIP), después mueve el cursor hacia abajo hasta la
celda C51. Con el rango de celdas C2:C51 seleccionado, pulsa [STO] [LIST] y guarda estos números en la
lista [List1].
Pulsa [EXE] para regresar a la hoja de cálculo de trabajo. Ves a la primera celda vacía de la columna
“Sample”, pulsa [RCL] [LIST] para recuperar las entradas de la lista [List1].
d) Ahora ordenados los números de la columna “Sample” en orden ascendente y chequeamos posibles
repeticiones de números. De nuevo usa [SHIFT] [8] para seleccionar desde la celda D2 hasta la celda D51 y
ordenar la columna con [EDIT] [SRT−A], después explora la lista para ver posibles repeticiones de números.
e) Añadimos otras dos columnas llamadas “Test” para registrar el resultado del test de calidad, y otra
llamada “#of 0” para calcular el número de 0 (fallos en el test.) La columna “#of 0” actual consta de la celda
$A$2
F2 que cuenta el número de fallos con la fórmula “
-CellSum(E2:E51)”. Ahora el inspector puede usar
100
esta hoja de cálculo para su trabajo diario.
Pág. 39
Enero/Febrero 2008
Dia1
Para la discusión de esta actividad, usamos los números aleatorios generados antes para el test de calidad
del Dia1 y los resultados del test se supone que son los siguientes.
La media de los resultados de los chocolates producidos el Dia1 que pasan la inspección de calidad es
necesaria. Podemos guardar los números aleatorios y los resultados del test en las listas [List1] y [List2]
usando [SHIFT] [8] (CLIP) y [STO].
También guardamos la muestra aleatoria del Dia1 y los resultados del test en las listas [List1] y [List2].
Dia2
Cambia la producción diaria en la celda A2 por 4000. Repite el proceso de los apartados C) y (D), pero
considera solo los primeros 40 números en la columna “Random”. La muestra aleatoria no está afectada en
este caso aunque generamos 50 números aleatorios. También, usa [List3] como lista de almacenamiento
temporal.
Cuando pegamos las entradas de la lista [List3] en la columna “Sample”, los contenidos de las celdas D2 a
D41 son reemplazados con el nuevo conjunto de números aleatorios. Podemos usar la columna “Index”
como guía para seleccionar la nueva generación de 40 números aleatorios, para ordenarlos y evitar
seleccionar las celdas D42 a D51.
Asumimos los resultados del test como los resultados actuales. Los contenidos de las celdas E42 a E51
deben ser eliminados para asegurar que se muestre el número correcto de 0.
Pág. 40
Enero/Febrero 2008
El número de 0 registrado es 4, que indica los chocolates producidos el Dia2 que no pasan la inspección de
calidad. Ahora guardamos los números aleatorios y el test en las listas [List3] y [List4].
Con similar aproximación, seleccionamos la muestra aleatoria apropiada para los dias Dia3, Dia4 y Dia5,
guardamos los correspondientes números aleatorios y los resultados correspondientes en las listas [List5] y
[List6] para Dia3, [List7] y [List8] para Dia4, y [List9] y [List10] para Dia5.
El método de muestreo que hemos usado anteriormente se llama muestreo aleatorio simple. Otro método
de muestreo aleatorio es el muestreo estratificado que se basa en identificar los estratos. Ejemplos de
estratos son “hombres” y “mujeres”, o ‘obeso’ y ‘no-obeso’. Un muestreo estratificado se hace separando
muestras aleatorias simples para cada uno de los estratos. Si conocemos las proporciones en la población
de las distintas categorías, podemos asegurar que las proporciones se reproducirán para la muestra.
•
ACTIVIDAD 3
Supongamos que la población de estudiantes de tu instituto puede ser descrita como sigue:
Estudiantes chicos
45%
Estudiantes chicas
55%
Usa muestreo estratificado para elegir una muestra aleatoria de 40 estudiantes.
•
Solución:
En este caso, podemos elegir una muestra aleatoria simple de 40×45%=18 estudiantes chicos y otra
muestra aleatoria simple de 40×55%=22 estudiantes chicas.
•
ACTIVIDAD 4
Suponiendo que la población de estudiantes de un instituto es 1750 y la composición chicos−chicas es
como se describe a continuación
Estudiantes chicos
38%
Estudiantes chicas
62%
Usa la hoja de cálculo para seleccionar una muestra estratificada de 50 estudiantes para medir la
preferencia de los estudiantes entre chocolate con almendras y chocolate con leche. Diseña una hoja de
cálculo para registrar las respuestas.
•
Solución
Peimero seleccionamos la muestra estratificada y después usamos la técnica de la Actividad 2 en la
muestra. En resumen, aquí está la informacion sobre las dos categorías.
% of population
Of 1750 population (%×1750)
Stratified sample size (%×50)
Male students
38%
665
19
Female students
62%
1085
31
Puedes usar el Editor RUN para calcular la información relevante que se muestra en la tabla anterior.
Pág. 41
Enero/Febrero 2008
Una posible forma de diseñar la hoja de cálculo es la siguiente:
•
Abrimos la Hoja de cálculo. Usamos las columnas A y B para registrar la población y el tamaño en la
muestra de cada estrato, también tenemos más control de los parámetros.
•
Utiliza la tercera columna para índice y la cuarta columna para generar números aleatorios. E primer
lugar, selecciona la muestra aleatoria de estudiantes chicos con la fórmula “=Int($B$2Ran#)+1” para el
rango D2 a D20 (tamaño de la muestra de 19.)
•
Crea dos columnas más denominadas “Chicos” y “Chicas”. Copia, pega y ordena los números de la
columna “Chicos” con los métodos usados en la Actividad 2. Después selecciona la muestra aleatoria
de chicas con la fórmula “=Int($B$3Ran#)+1” para el rango D2 a D32 (tamaño de la muestra de 31) de
la columna “Random” y copia y ordena los números en la columna “Chicas”.
•
Usa la columna F para registrar las respuestas de los estudiantes chicos para el cuestionario y la
columna H para las respuestas de las chicas. A continuación se muestran hojas de cálculo de posibles
respuestas donde 1 indica estudiantes que prefieren chocolate con almendras y 2 estudiantes que
prefieren chocolate con leche.
Pág. 42
Enero/Febrero 2008
INFERENCIA ESTADÍSTICA CON LA FX−9860G SLIM
Introducción
A continuación estudiaremos algunas de las posibilidades de la calculadora gráfica FX−9860G SLIM para el
estudio de la Inferencia Estadística en ESO y Bachillerato
1. ESTIMACIÓN ESTADÍSTICA
La Estadística estudia situaciones y muestras de la vida real para extraer conclusiones relevantes basadas
en los datos recogidos. Todos sabemos que los datos reales no son constantes. La gente nace, crece, se
mueve de un lugar a otro, pero no se libera de su peso. Por esta razón una cuestión aparentemente trivial
puede ser difícil de resolver completamente. Dice: “¿Cuál es el peso medio de la población?”
Primero, pesando miles (posiblemente, centenares o miles de millones) de personas es una pérdida de
tiempo. No podemos garantizar que algunos ciudadanos rehusen a hacerlo. Si todos aceptan, ¿cuál será la
última medida? Hasta que el último valor no sea determinado, la primera persona puede haber engordado
(o adelgazado) algunos kilos y tendríamos que volver a empezar. Si todos aceptan medir su peso el 17 de
Septiembre a las 8:30, no estamos seguros de que su balanza esté asegurada. Por otra parte, debemos
recoger y evaluar todos los datos. Para esto necesitamos bastante tiempo. Además, el valor que tomamos
como correcto de un dato puede que en el momento del cálculo ya no sea correcto.
Por esta razón, en Estadística simplificamos el trabajo. En vez de perseguir “soluciones ideales” e irreales,
simplificamos los trabajos, buscamos hipótesis para sus respuestas e intentamos estimar un nivel de
precisión en el que las respuestas puedan ser asumidas como suficientemente correctas.
Vamos a resolver un problema similar: “¿Cuál es el numero total de mascotas de los estudiantes de este
instituto?”
Solución:
El método más realista consiste en preguntar a todos los estudiantes sobre el número de mascotas que
tienen. Como hemos dicho antes, esto es una pérdida de tiempo y no tenemos un 100% de garantías de
que el resultado sea correcto.
Un segundo método está basado en seleccionar una muestra apropiada. Nuestra clase puede serlo. Por las
siguientes razones:
•
Tenemos una proporción bastante razonable del conjunto de estudiantes y, por tanto, los resultados
pueden ser una buena imagen de la situación real.
•
No tenemos una especial preferencia. Es probable que no tengamos muchas mas ni muchas menos
mascotas que los estudiantes de otras clases.
Observa que la segunda suposición no siempre es verdadera. Si nuestra clase es especial (por ejemplo,
orientada hacia la Biología) algunos estudiantes tendrán extremado interés en los animales y no
formaremos una muestra correcta. O, si media clase está formada por un grupo de estudiantes con un
inusual alto nivel de alergia a las pieles. En ambos casos, le evaluación será negativa por una mala
selección de los individuos de la muestra. Es más apropiado encontrar otro grupo−muestra más similar a la
media de los estudiantes.
La clase de 30 estudiantes recoge el número de mascotas en una tabla de hoja de cálculo. Suponiendo
que la clase es una “clase media”, ¿cuántas mascotas habrán entre todos los 480 estudiantes del
instituto?
La media es 2.6 mascotas por estudiante, lo que se recoge en la celda C2 como se muestra a
continuación:
Pág. 43
Enero/Febrero 2008
Con 480 estudiantes en el instituto, el resultado es 2.6 x 480 = 1248 animales.
Otro valor que podemos hallar el la desviación típica. Este parámetros se calcula automáticamente
pulsando [CALC] y después [1VAR].
En esta lista, el valor indicado de la desviación típica es xσn = 1.83666364.
Es difícil confiar en el resultado (“1248 animales”) sin alguna reservas. ¿Podemos hacer una estimación
del error?
En Estadística, la estimación se deriva del denominado error estándar de la media σx que se define
como:
σx =
σ
n
donde σ es la desviación típica y n es el tamaño de la muestra.
Calcula el error estándar sabiendo que la desviación típica es 1.836 y que la muestra consta de 30
estudiantes:
σx =
1.836
30
= 0.335
Uno puede difícilmente esperar que entre todos los estudiantes tengan exactamente 1248 mascotas. Al
mismo tiempo, nos gustaría tener cierta confianza en el resultado. Podemos suponer que si no es
exactamente 1248, entonces es un intervalo al cual pertenece el valor correcto. Ciertamente, podría ser
entre 0 y 3 millones, pero esta es una estimación demasiado basta.
Usando el error estándar, podemos calcular dos importantes valores:
Intervalo de confianza del 95%:
X ± 1.96
Intervalo de confianza del 99%:
X ± 2.58
σ
n
σ
n
También, los intervalos son calculados sabiendo la media, la desviación típica y el tamaño de la
muestra.
Observa que, por consenso entre estadísticos, los cálculos se suponen aceptables cuando la muestra
es bastante grande (por ejemplo, teniendo al menos 30 elementos). Esto ocurre en nuestra muestra.
Pág. 44
Enero/Febrero 2008
Con un 95% de confianza, el número medio de mascotas por estudiante está comprendido entre 1.945 y
3.255.
1.836
⎧
2.6 − 1.96
⎪
σ
⎪
30 = ⎧1.945
X ± 1.96
=⎨
⎨
n ⎪2.6 + 1.96 1.836 ⎩3.255
⎪⎩
30
Multiplicando estos límites del intervalo de confianza por 480 estudiantes, obtenemos 933 y 1562
mascotas como límites de nuestro intervalo de confianza.
Los resultados son ahora 1.738 y 3.462. Esto implica que el número de mascotas está comprendido
entre 834 y 1662. Como antes, los límites para el intervalo de confianza del 99% resultan de multiplicar
los límites para la media por estudiante (que son 1.738 y 3.462) por 480.
•
ACTIVIDADES
o
Usando una hoja de cálculo, calcula la media de mascotas y la desviación típica para la muestra
formada por tu grupo de clase. Forma un grupo de al menos 30 personas para hacer una muestra
suficientemente grande para futuros cálculos.
o
Usando los datos del apartado anterior, calcula el error estándar. Estima el número de mascotas que
tienen los estudiantes de tu instituto con un intervalo de confianza del 95%.
o
Un examen a 49 fumadores muestra que su gasto medio en cigarrillos es $20 por semana con una
desviación típica de $5. Usando un nivel de confianza de 0.95, ¿cuál es el gasto individual en cigarrillos
por semana?
Soluciones:
3) Entre $18.60 y $21.40.
2. INTERVALO DE CONFIANZA PARA LA MEDIA
•
ACTIVIDAD 1
Supongamos que se selecciona una muestra aleatoria de 64 dulces y la media de masa de estos dulces es
de 0.932 gramos y el valor de la desviación típica s es 0,1 gramos. Halla el intervalo de confianza del 95%
para la media de masa de la población.
Solución:
La media de la muestra es x =0.932, la desviación típica de la muestra es s=0.1 y el tamaño de la muestra
es n=64.
Como la varianza de la población es conocida y el tamaño de la muestra es > 30, podemos sustituir la
desviación típica de la población σ por s. Por lo tanto el intervalo de confianza del 95% puede calcularse
como sigue, donde z 0.025 denota el valor tal que P( Z < z 0.025 ) =0.95 donde Z ~ N(0,1) .
s
s ⎞
⎛
, x + z0.025
⎜ x − z0.025
⎟.
n
n⎠
⎝
Podemos hallar el mismo intervalo de confianza con la calculadora gráfica. Abre el menú [STAT]. Aparece la
siguiente pantalla:
Pág. 45
Enero/Febrero 2008
Ahora pulsa [F4] [INTR] [F1] [Z] [F1] [1−S] para seleccionar el comando 1-sample Z interval. En la línea
[Data] de la siguiente pantalla, seleciona Variable. Introduce los valores de los parámetros que se indican en
la pantalla de la derecha de la siguiente figura y pulsa [EXE].
En la siguiente pantalla vemos que los extremos inferior (left) y superior (right) del intervalo de confianza son
0.9075 y 0.9565 con 4 decimales exactos.
En resumen, el intervalo de confianza del 95% para la masa media de los dulces es, aproximadamente,
(0.9075, 0.9565) , o 0.9075 < µ < 0.9565 .
Frecuentemente el tamaño de la muestra se ve obligado por algunos factores y puede ser menor que 30.
Cuando una muestra pequeña es elegida de una población normal con varianza desconocida, es más
apropiado utilizar una distribución t de Student para hallar el intervalo de confianza.
•
ACTIVIDAD 2
Supongamos que debido a restricciones de tiempo, una muestra aleatoria de 16 dulces es elegida de entre
los 64 de la actividad 1 anterior. Se mide la masa de cada dulce, x (gramos), y las medidas se resumen por
los parámetros
∑ x =13.3 y ∑ x 2 =15.13. Suponiendo que la media de la masa sigue una distribución
normal, halla el intervalo de confianza del 95% para la media de la población. Da el intervalo de confianza
con 3 decimales exactos.
Solución:
Aunque la media y la varianza de la muestra no son conocidas, podemos calcularlas fácilmente en el Editor
RUN de la calculadora.
Del cálculo hallamos la media de la muestra x =0.83125 y la varianza de la muestra s 2 =0.271625 de
donde obtenemos la desviación típica muestral s=0.52118, con 5 decimales exactos.
[Nota]
La varianza de la muestra se halla con la fórmula:
Pág. 46
s =
2
n ∑ x 2 − (∑ x ) 2
n(n − 1)
Enero/Febrero 2008
2
(
x ) ⎞⎟
1 ⎛⎜
∑
2
=
∑x − n ⎟.
n −1⎜
⎠
⎝
Este intervalo de confianza se basará en la distribución t15, y el intervalo de confianza del 95% se puede
calcular usando la fórmula:
⎛
s ⎞
s
⎜x − c
⎟.
, x +c
⎜
⎟
n⎠
n
⎝
Donde c es el punto para el cual la probabilidad es p=0.975 en una distribución t de Student con 15 grados
de libertad. La probabilidad es 0.975 porque la probabilidad de 1-0.95=0.05 en dos ramas de la distribución
simétrica implica 0.025 en la rama superior y de aquí que p=0.975.
Podemos hallar el mismo intervalo de confianza con la calculadora gráfica. Abre el menú [STAT]. Pulsa [F4]
[INTR] [F2] [t] [F1] [1−S] para seleccionar el comando 1-sample t interval. En la línea [Data] de la siguiente
pantalla selecciona Variable. Selecciona [C-Level] como 0.95. Teclea en x =0.83125 (valor que hemos
obtenido ahora), y como es un intervalo de confianza basado en la distribución t de Student, introduce la
desviación típica muestral s=0.52118 en lugar de la desconocida σ (aparece como xσ n − 1 en la
calculadora.)
Al pulsar [EXE] obtenemos que los extremos inferior y superior del intervalo de confianza son 0.554 y 1.109
respectivamente, con 3 decimales exactos.
En resumen, el intervalo de confianza del 95% para la media de la masa en la población es
0.554 < µ < 1.109 .
En la siguiente actividad veremos el uso de la hoja de cálculo para resolver este tipo de problemas.
•
ACTIVIDAD 3
Supongamos que una compañía que produce dulces necesita hallar la media de masa de los dulces que
produce para poder imprimir este dato en la envoltura. Como la factoría produce 10000 piezas de dulces por
día, elegir una muestra aleatoria es la aproximación más factible. Su jefe de marketing decide elegir una
muestra aleatoria de 40 dulces para esta tarea.
Usa la calculadora gráfica para:
i. Seleccionar una muestra aleatoria de 40 piezas de dulces.
ii. Registrar la masa de cada dulce y calcular el resumen de parámetros estadísticos de los datos.
c) Hallar el intervalo de confianza del 99% para la media de la población.
Después, discute con tus compañeros sobre la media de masa poblacional obtenida.
Pág. 47
Enero/Febrero 2008
Solución:
a. Empezamos seleccionando al azar 40 números usando la función [Ran#]. Observa que las salidas
tienen diez dígitos decimales diferentes y que siempre se cumple esta desigualdad:
0 < Ran# < 1
Cuando multiplicamos [Ran#] por 10000, obtenemos 0<10000×Ran#<10000. Si utilizamos la función
parte entera [Int] (que está localizable en la pantalla RUN), seguida de la expresión 10000×Ran#, y
sumamos 1, obtenemos una expresión que produce valores enteros entre 1 y 10000, ambos inclusive.
Esta expresión puede obtenerse también en la hoja de cálculo. Abrimos el Editor de Hoja de cálculo.
Dejamos la columna A para ser usada después y nombramos la columna B como “Random”. Para
generar en la columna “Random” 40 números enteros desde 1 hasta 10000, selecciona [EDIT] seguido
de [FILL]. Después, en la línea Fórmula, introduce la fórmula “=Int(10000Ran#)+1” y en la línea [Cell
Range] introduce el rango de celdas B2:B41.
Habiendo generado los 40 números al azar, guardamos estos números en la lista [List1] antes de
recuperar el mismo conjunto de números en la columna C. En la columna ordenaremos los números en
orden ascendente y chequearemos alguna posible repetición de los números.
Ves a la celda B2, pulsa [SHIFT] [8] (CLIP), después mueve el cursor hacia abajo hasta la celda B41.
Con el rango de celdas B2:B41 seleccionado, pulsa [STO] [LIST] para guardar estos números en la lista
[List1].
Pulsa [EXE] para regresar a la hoja de cálculo y llama “Sample” a la columna C; despué ves a la
primera celda vacía en la columna “Sample” y pulsa [RCL] [LIST] para pegar los datos de la lista [List1].
Pág. 48
Enero/Febrero 2008
Para ordenar la columna “Sample”, usa también [SHIFT] [8] (CLIP) para seleccionar las celdas C2 a
C41 y ordena la columna con [EDIT] [SRT−A]; después explora y localiza posibles repeticiones de
números.
La lista no tiene números repetidos y, por tanto, hemos seleccionado una muestra aleatoria de 40
dulces. Observamos que el primer dulce que ha sido pesado es el que se ha producido en el lugar 207,
el segundo dulce ha sido el que ocupa el lugar de producción 268 y así sucesivamente (ver la columna
“Sample”)
b. Para empezar a registrar las masas de la muestra, cremos una columna denominada “Mass” para
guardar los datos de las masas de los dulces. Después iniciamos la introducción de las masas de los
dulces producidos en los lugares 207, 268, 341 …9437 y 9768. Supongamos que los datos parciales
que se muestran en la figura, en gramos, son los datos recogidos actualmente (explora la columna
‘Mass’ ) .
Para tener un significado de la muestra, calculamos el resumen de parámetros estadísticos. Mientras se
visualiza la pantalla de hoja de cálculo, pulsa [CALC] [SET] para hallar el resumen de estadísticos de los
datos registrados en las celdas D2 a D41.
Después selecciona [1 VAR] y aparecerán en pantalla los estadísticos de la muestra.
Observa que tenemos x =8.05125 y xσ n − 1 =0.03428294.
c.
Podemos improvisar una hoja de cálculo para halalr los extremos del intervalo de confianza para la
media de la masa de los dulces. Para esta actividad usamos la columna A para los percentiles de las
distribuciones normal y t de Student, como se muestra en la pantalla de la izquierda. También
arreglamos la hoja de cálculo para usar el percentil apropiado (ver la celda F2) basado en el tamaño de
la muestra introducido. La regla general es que si la muestra tiene más de 30 datos, los percentiles
están basados en la distribución normal estándar.
Pág. 49
Enero/Febrero 2008
En una situación de la vida real como en esta actividad, la varianza σ es raramente conocida. Cuando
esto ocurre usamos la desviación típica muestral s para reemplazar a σ , independientemente del
tamaño de la muestra. Después el intervalo de confianza se calcula como sigue, donde p es el percentil
apropiado.
s
s ⎞
⎛
, x+ p
⎜x − p
⎟
n
n⎠
⎝
Teniendo en cuenta esto, las expresiones para hallar los extremos inferior y superior del intervalo de
confianza se introducen, en este caso, en las celdas E4 y F4 como sigue.
Observa que actualmente x toma el valor 8.05125, y xσn − 1 es 0.03428294 cuando calculamos el
resumen de estadísticos para la media de masa. También, introducimos ambos x y xσn − 1 en las
celdas E4 y F4 con el CATÁLOG (pulsando [SHIFT] [4].
Para esta actividad el tamaño de la muestra (40) se considera grande y por tanto, la media de la
muestra se calculará con una distribución normal. De la tabla de la distribución normal estándar
obtenemos que el percentil que corresponde al intervalo de confianza del 99% es 2.576.
Puesto que la media de la muestra se considera que sigue una distribución normal, introducimos el valor
2.576 en la celda A2, seguida por el tamaño de la muestra 40. Como observamos, los extremos inferior
y superior del intervalo de confianza son 8.0372 y 8.0652 respectivamente, lo que dice que el intervalo
de confianza del 99% para la masa media de la población es (8.0372, 8.0652) .
Es decir, con una confianza del 99% la media de la masa de la población pertenecerá al intervalo
anterior. La compañía podrá imprimir en el envoltorio que la masa media es 8.05g, con 2 decimales
exactos.
Aparentemente la forma rápida para encontrar el intervalo de confianza de la Actividad 3 es usando la
función [INTR] en el modo [STAT], como vimos en la Actividad 1. En primer lugar, almacenamos los
datos de las celdas D2 a D41 en la lista [List2]. Después, abrimos el menú [STAT] para iniciar el Editor
de Listas.
Pulsamos [INTR] [Z] [1-S] para introducir el comando 1-sample Z interval. En la línea Data selecciona
List, en la línea C−Level introduce 0.99, en la línea σ introduce s=0.03428294 como aproximación de σ
(ya que la desviación típica poblacional es desconocida), en la línea List introduce la lista List2, deja la
frecuencia Freq=1 y pulsa [EXE]. El intervalo de confianza obtenido debe ser el mismo que el
encontrado en la Actividad 3.
Pág. 50
Enero/Febrero 2008
Hallar el intervalo de confianza usando el método anterior es más rápido, pero la creación de una hoja
de cálculo es más interactivo, versátil y flexible. Por otra parte, los datos y cálculos están disponibles
para revisarse en la misma ventana.
•
ACTIVIDADES
1) La variable aleatoria Y sigue una distribución normal con media µ y varianza desconocida. Una muestra
de 200 observaciones de Y da como resultado
∑ y =541.2, ∑ y 2 =1831.42. Halla:
a) Un intervalo de confianza del 90% para la media µ .
b) Un intervalo de confianza del 98% para la media µ .
2) Haz de nuevo la Actividad 3, pero seleccionando una muestra aleatoria solamente de tamaño 18.
Soluciones:
a. La media de la muestra y s se pueden calcular fácilmente con el Editor RUN.
Obtenemos que la media de la muestra es x ≈2.7060 y s≈1.3579.
Usando la opción [INTR], obtenemos que el intervalo de confianza para la media µ del 90% es (2.548,
2.864) y el intervalo de confianza para la media µ del 98% es (2.483, 2.929), con 3 decimales exactos.
b. Con la muestra de tamaño 18, es más apropiado el intervalo de confianza basado en la distribución t17
de Student. De la tabla obtenemos que el percentil para 17 grados de libertad y probabilidad de 0.995
es 2.898. Podemos crear una hoja de cálculo similar a la de la Actividad 3 para resolver el problema,
pero para la discusión de esta solución usaremos la hoja de cálculo de la Actividad 3 en la que
introduciremos el nuevo percentil y el nuevo tamaño de la muestra.
Pág. 51
Enero/Febrero 2008
El intervalo de confianza del 99% para la media de la población resulta ser (8.0278, 8.0746).
3. TESTS DE HIPÓTESIS I
•
ACTIVIDAD 1
La estatura media de un equipo de hockey es 182 cm con una desviación típica de 4.1 cm; el peso
medio es 77 kg con una desviación típica de 3.5 kg. Un equipo de hockey ha adquirido recientemente a
10 nuevos jugadores. Sus datos están en la siguiente tabla:
El entrenador presume de que las presentes medias son óptimas para su estrategia de juego. Sabe que
su asistente es hábil en Estadística y le pregunta sobre si las medias de los nuevos jugadores se
ajustan o no a la situación actual del equipo.
1. Ayuda al asistente a formular la hipótesis nula sobre las estaturas de los jugadores.
2. ¿Es un test unilateral o bilateral?
3. El test es bilateral. Suponiendo el nivel de significación 0.05, ¿qué valor crítico debemos usar?
Soluciones:
1. No hay diferencia significativa entre la estatura de los antiguos jugadores y de la de los nuevos.
2. El problema es bilateral. Estamos interesados en alguna diferencia (ambos lados) y se supone que una
media de los jugadores más baja que la antigua causaría problemas.
Los problemas unilaterales presuponen que es importante una cierta diferencia, pero no la otra. (Por
ejemplo, el entrenador no debe tener jugadores peores de los que ya tiene, pero no debe preocuparse si
los nuevos son mejores).
3. La región de no rechazo de la hipótesis nula es el intervalo desde −1.96 hasta +1.96.
Pág. 52
•
Enero/Febrero 2008
ACTIVIDAD 2
Una hipótesis nula correcta dice: “No hay diferencia significativa entre la estatura de la media de los
jugadores y la de los nuevos jugadores”.
Decidimos usar el nivel de significación 0.05 para aceptarla o rechazarla. Ahora calcularemos el estadístico
z del test. Su formula es
_
z=
X−µ
σ
n
_
donde X es la media de la muestra (por ejemplo la estatura media de los nuevos jugadores), µ es la media
de la población (en nuestro caso 182 cm), σ es la desviación típica de la población (en nuestro caso 4.1), y
n es el número de jugadores en nuestra muestra (en este caso, 10).
Calcula el estadístico z en una hoja de cálculo, usando los datos introducidos. Primero, calcula la media de
estaturas de los nuevos jugadores en la celda B12. Después con la celda seleccionada, pulsa [EDIT] [CELL]
[CEL] [Mean] para que aparezca en pantalla el comando (CellMean). Introduce el rango B2:B11, cierra
paréntesis y pulsa [EXE]. La media es 183.9.
El valor de z puede calcularse en la celda B13.
•
ACTIVIDADES
a) El valor de z es 1.4654. Interpreta el resultado.
b) Formula la hipótesis nula para el peso de los jugadores. ¿Es un problema unilateral o bilateral?
Soluciones:
a. El valor de la variable Y está entre −1.96 y 1.96. La hipótesis nula se acepta. La diferencia en estaturas
no es significativa.
b. No hay una diferencia significativa entre el peso medio del equipo y el de los nuevos jugadores.
•
ACTIVIDAD 3
Usando los datos de la hoja de cálculo, calcula el estadístico del test para el peso de los jugadores. Como
dijimos en una actividad anterior, el peso medio de los jugadores es 77 kg con una desviación típica de 3,5
kg.
•
ACTIVIDADES
a) z = 2.7105. Interpreta el resultado.
b) Oído el último resultado, el entrenador dice: “Necesito hombres duros. Si tengo en cuenta solamente
estos, son débiles.” Interpreta sus palabras en términos estadísticos.
Pág. 53
Enero/Febrero 2008
Soluciones:
a) La hipótesis nula debe ser rechazada. Hay diferencias significativas entre el peso de los antiguos y
nuevos jugadores.
b) El problema está cambiado para un test unilateral. La hipótesis nula es ahora: “El peso medio de los
nuevos jugadores no es significativamente inferior al de todos los jugadores”. El valor crítico para su
rechazo es −1.645.
•
ACTIVIDAD 4
Un fabricante de teléfonos móviles anuncia que el 96% de sus teléfonos móviles (con un 5% de desviación
típica) pueden funcionar regularmente tras caerse de una altura de 2 metros. Para demostrar esto, invita a
los representantes de los comerciantes y selecciona al azar 100 nuevos teléfonos móviles de la línea de
producción. Todos han sido lanzados de un armario de 2 metros de altura hasta el suelo. Cinco de ellos (es
decir, el 5%) no funcionan después del lanzamiento. ¿Puede ser aceptado como correcto el anuncio del
fabricante?
a) Formula la hipótesis nula.
b) ¿Es un test unilateral o bilateral?
c) Indica los datos necesarios para calcular el estadístico z del test.
Solución:
a. El número de teléfonos móviles rotos no es significativamente diferente del 5%.
b. El test es unilateral. Tenemos solamente interés en los peores resultados del test, no en los positivos.
Así, su valor crítico es 1.645.
_
c.
Usando X = 95, µ = 96, σ = 5, y n = 100, calculamos el estadístico del test con la fórmula:
_
z=
X−µ
σ
n
El anuncio debe ser rechazado. El valor crítico para el test unilateral es 1.645. El estadístico del test es
z=2. El valor cae en la región de rechazo.
4. TESTS DE HIPÓTESIS II
•
EJEMPLO
Un estudio indica que los adultos en América dedican una media de 18 horas por semana a actividades de
tiempo libre. Un investigador busca el test de este anuncio. Toma una muestra de 10 adultos y les pregunta
sobre el tiempo que dedican por semana a actividades de tiempo libre. Sus respuestas (en horas) son las
siguientes:
14
25
22
38
16
26
19
23
41
33
Suponemos que el tiempo dedicado a actividades de tiempo libre por todos los adultos sigue una
distribución normal. Usando el nivel de significación del 5%, ¿podemos concluir que el anuncio de este
estudio es verdadero?
Pág. 54
Enero/Febrero 2008
Solución:
Sea
µ
= 18 horas la media de horas que los adultos de América dedican por semana a actividades de
tiempo libre. Sea x la correspondiente media para la muestra.
Vamos a poner a prueba si la media de horas que los adultos americanos dedican a actividades de tiempo
libre es o no 18 horas. Nuestras hipótesis nula y alternativa son las siguientes:
Hipótesis nula: H 0 : µ 0 = 18 (la media de horas que los adultos americanos dedican por semana a
actividades de tiempo libre es 18 horas)
Hipótesis alternativa: H1 : µ ≠ 18 (la media de horas que los adultos americanos dedican por semana a
actividades de tiempo libre es diferente de 18 horas)
En el Editor [STAT], introducimos los datos en la lista List 1 como sigue:
En las pantallas de la figura, observa que uno de los ítems del menú es [TEST]. Seleccionando este menú
podemos ver los procedimientos de test de hipótesis disponibles. Elegimos el test t de Student pulsando [t],
en particular elegimos one-sample t test pulsando [1-S]:
Usualmente, las condiciones bajo las cuales se usa la distribución t de Student para hacer tests de hipótesis
sobre la media µ son las siguientes:
1. Si el tamaño de la muestra no es demasiado grande (la mayoría de las veces menor que 30),
2. La desviación típica de la población es desconocida y
3. La población de la que se extrae la muestra sigue una distribución normal.
Introducimos el valor
µ0 = 18 , la hipótesis alternativa µ ≠ µ0
e indicamos que nuestros datos aparecen en
la lista List 1. Después situamos el cursor en la línea [Execute]:
Cuando el test es ejecutado, podemos mostrar los cálculos (eligiendo [CALC]) o mostrar el gráfico (eligiendo
[DRAW]).
Pág. 55
Enero/Febrero 2008
La media para la muestra es x = 25.7, y la desviación típica de la población x σ n-1 es 9.0437. El valor del
estadístico del test es t = 2.692.
Ahora, determinamos las regiones de rechazo y no rechazo. El nivel de significación es 0.05. El signo ≠ en
la hipótesis alternativa indica que el test es bilateral con dos regiones de rechazo, una en cada lado de la
curva de la distribución t de Student para la media muestral x . Como el área total de ambas regiones de
rechazo es 0.05, el área de la región de rechazo en cada lado es 0.025. El número de grados de libertad es
n−1 = 9 , (donde n es el tamaño de la muestra). Hay dos puntos críticos que separan las regiones de
rechazo y de no rechazo. De la tabla de la distribución t de Student obtenemos que los puntos críticos son
2.262 y −2.262.
El valor del estadístico del test t = 2.692 cae en la rama de la derecha de la curva, después del valor crítico
2.262, lo que indica que pertenece a la región de rechazo. Consecuentemente, rechazamos H0. Concluimos
que la media de horas que los adultos americanos dedican por semana a actividades de tiempo libre no es
18 horas.
El gráfico muestra que es un test bilateral. Seleccionando [T] podemos visualizar el estadístico del test:
•
ACTIVIDADES
1) Una compañía anuncia que sus yogures bajos en calorías contienen, por término medio, a lo sumo 150
calorías por unidad. Una agencia de consumidores decide investigar si la afirmación de este anuncio es
no cierta. Una muestra aleatoria de 10 yogures produce los siguientes datos de calorías.
147
159
153
146
144
161
163
153
143
158
Con un nivel de significación del 2.5% investiga si la afirmación de la compañía es cierta. Suponemos
que el número de calorías para cada yogur producido por esta compañía sigue aproximadamente una
distribución normal.
2) Registramos de un anuncio de un supermercado que sus consumidores gastan una media de $65 por
compra. Recientemente, el jefe del almacén ha iniciado una promoción para animar a más
consumidores a gastar más dinero en el supermercado: cada cliente recibirá puntos basados en el
dinero total gastado en el supermercado, y estos puntos pueden ser canjeados por productos del
almacén. Para averiguar si la promoción está funcionando, el jefe toma una muestra de 12 clientes. Los
siguientes datos indican el dinero gastado, en dólares, por esos clientes en el supermercado durante
sus compras:
90
67
150
27
102
41
34
55
74
58
120
82
Suponemos que el dinero gastado por todos los consumidores de este supermercado sigue una
distribución normal. Usando un nivel de significación del 1%, ¿podemos concluir que la cantidad media
de dinero gastado por todos los clientes de este supermercado después de la campaña iniciada es más
de $65?
Pág. 56
Enero/Febrero 2008
Soluciones:
1) Testearemos si los yogures bajos en calorías contienen, por término medio, a lo sumo 150 calorías por
unidad. Nuestras hipótesis nula y alternativa son las siguientes:
Hipótesis nula: H 0 : µ ≤ 150 (la media de calorías por yogur es como mucho 150 calorías)
Hipótesis alternativa: H1 : µ > 150 (la media de calorías por yogur es mayor de 150 calorías)
Tras introducir los datos en la lista List 1 del Editor [STAT], introducimos la siguiente información
después de acceder al menú [TEST] (ignora los mensajes de error pulsando [EXIT])
Introducimos el valor
µ0 = 150 ,
la hipótesis alternativa
µ > 150
e indicamos que nuestros datos
aparecen en la lista List 1.
Nuestros cálculos dan los siguientes resultados:
La media de la muestra es x = 152.7, y la desviación típica de la población x σ n-1 es 7.3794.
El valor del estadístico del test es t = 1.1570248.
En este problema, el nivel de significación es 0.025. El signo > en la hipótesis alternativa indica que el
test es unilateral por la derecha y la región de rechazo queda en la reama de la derecha de la curva de
la distribución t de Student. El área de la rama de la derecha es 0.025 y los grados de libertad son n -1 =
9. De la tabla de la distribución t de Student deducimos que el valor crítico de t para 9 grados de libertad
y área 0.025 por la rama de la derecha es 2.262.
El estadístico del test es 1.1570248 y es menor que el valor crítico 2.262, obtenido de la tabla de la
distribución t de Student. Cae fuera de la región de rechazo. Consecuentemente, aceptamos H0. Así,
concluimos que la media de calorías por yogur es como mucho de 150 calorías.
A partir de la gráfica del test, vemos el valor del estadístico del test y el hecho de que es un test
unilateral con cola a la derecha.
Pág. 57
Enero/Febrero 2008
2) Para este problema, testearemos si la cantidad media de dinero gastado por todos los clientes del
supermercado tras la campaña iniciada es más de $65. Nuestras hipótesis nula y alternativa son las
siguientes:
Hipótesis nula: H 0 : µ > 65 (la cantidad media de dinero es mayor que 65)
Hipótesis alternativa: H1 : µ < 65 (la cantidad media de dinero es menor de 65)
En el Editor [STAT], introducimos el valor
µ 0 = 65 ,
la hipótesis alternativa
µ < 65
e indicamos que
nuestros datos aparecen en la lista List 1, tras acceder al menú [TEST].
Los cálculos son los siguientes:
La media de la muestra es x = 75, y la desviación típica de la población x σ n-1 es 36.366818. El valor del
estadístico del test es t = 0.9525446.
El nivel de significación es 0.01. El signo < en la hipótesis alternativa indica que el test es unilateral con cola
a la izquierda, con la región de rechazo en la cola de la izquierda de la curva de la distribución t de Student.
Para hallar el valor crítico de t, necesitamos conocer el área en la cola de la izquierda y los grados de
libertad.
En nuestro caso, el área en la cola de la izquierda es 0.01, y los grados de libertad son n -1 =12-1 =11. De
la tabla de la distribución t de Student, el valor crítico de t es −2.718. El valor de t es 0.9525446 mayor que 2.718 y cae fuera de la región de rechazo. Por tanto, aceptamos H0 y concluimos que la cantidad media de
dinero gastado por todos los clientes de este supermercado tras la campaña publicitaria es mayor de $65.
El gráfico del test muestra el estadístico del test y el hecho de que el test es unilateral con cola a la
izquierda.
Pág. 58

estadstica descriptiva y regresin con la fx-9860g sd

Transcripción

Documentos relacionados