1 ( − + − + − = nn S n S n S p - Estadística e Investigación Operativa

Transcripción

1 ( − + − + − = nn S n S n S p - Estadística e Investigación Operativa
Examen de Estadística: Segundo de Ingeniería Química: Primera parte 26 de enero de 2004.
1.- Se realiza un experimento para comparar las características de llenado del equipo de
embotellado de dos bodegas diferentes. Para ello se eligen al azar 20 botellas de cada bodega
obteniendo los resultados.
Bodega 1
Bodega 2
755 751 752 753 753
756 754 757 756 755
753 753 754 754 752
756 756 753 754 755
751 753 752 753 753
755 754 754 756 755
752 755 753 750 753
756 756 756 756 756
Suponiendo normalidad e igualdad de varianzas
a) Calcular un intervalo de confianza al 95% para la diferencia de medias (0.5 puntos)
b) ¿Apoyan los datos la afirmación de que ambas bodegas llenan las botellas con el mismo
volumen? Para responder a esta cuestión, plantear el contraste de hipótesis, calcular la
región crítica al nivel 0.05 y el p-valor de la prueba. (1 punto)
c) Calcular la potencia si la diferencia de medias fuera de 10cl. (0.5 puntos)
d) Construir un histograma, un diagrama de tallo-hojas y un diagrama de cajas para cada una
de las dos muestras e interpretar las gráficas. ¿Parece razonable la hipótesis de varianzas
iguales? (1 punto)
e) Contrastar la hipótesis de igualdad de varianzas (1 punto)
f) Con los datos de la bodega 1 contrastar la hipótesis de normalidad es decir
H0: Los datos provienen de una normal
H1: Los datos no provienen de una normal
Calcular el valor del estadístico χ2 y el p-valor de la prueba (1punto)
Solución:
a) algunas medidas muestrales
bodega 1
bodega 2
n
20
20
Media
752,75
755,3
Mediana
753
756
Variance
1,56579
1,06316
Desviacion estandard 1,25132
1,0311
Mínimo
750
753
Máximo
755
757
Rango
5
4
Primer cuartil
752
754,5
Tercer cuartil
753
756
Rango intercuartilico 1,0
1,5
Intervalo de confianza para la diferencia de medias asumiendo normalidad y varianzas
iguales y desconocidas
( X 1 − X 2 ) − tα
2
con
S
2
, n1 + n2 − 2
p
Sp
1
1
1
1
+
≤ μ1 − μ 2 ≤ ( X 1 − X 2 ) + t α
+
Sp
,n + n − 2
n1 n2
n1 n 2
2
( n 1 − 1) S 12 + ( n 2 − 1) S 22 = 1,3144
=
n1 + n 2 − 2
1
2
Sp= 1,1465
t0,025,40 = 2,021 t0,025,30 = 2,042 aproximo por el más próximo, la diferencia no es muy
grande
t0.025,38 ≈ t0,025,40 = 2,021
1
Intervalo : -2,55 +/- 0,7326 [-3,283,-1,817]
b) Test para comparar las medias
Ho: μ1 = μ2
H1: μ1 ≠ μ2
El estadístico usado para el contraste es T0 =
-3,283 ≤ μ1 - μ2 ≤-1,817
X1 − X 2
sp
1
1
+
n1 n 2
Región crítica : |T0|>tn1+n2-2,α/2
|T0|> 2,021
Para nuestros datos t0 = -7,0334 que cae dentro de la región crítica, es decir rechazamos la
hipótesis de igualdad de medias.
P-valor < 0,001 ya que éste viene expresado
P(|T38| > 7,0334) = 2 x P(T38 > 7,0334) ≈ 2 x P(T40 > 7,0334) < 2 x P(T40 > 3,551) = 2 x
0,0005 = 0,001
Este p-valor tan pequeño nos asegura de nuevo que los datos no están de acuerdo con la
hipòtesis nula de igualdad en el volumen de llenado.
Si miramos al intervalo de confianza calculado para la diferencia de medias, vemos que el 0
no está en este intervalo, lo que es otro punto que refuerza el rechazo de la hipótesis nula.
c) Potencia en el punto 10
P(10) = P(rechazar H0 / μ1-μ2 = 10) = P(|T0| >2,021/ μ1-μ2 = 10) =
X1 − X 2
X1 − X 2
P(
> 2,021 / μ1-μ2 = 10) + P(
< -2,021 / μ1-μ2 = 10) =
1
1
1
1
sp
sp
+
+
n1 n2
n1 n2
P(
X 1 − X 2 − 10
10
/ μ1-μ2 = 10) +
> 2,021 0,3625
0,3625
P(
X 1 − X 2 − 10
10
/ μ1-μ2 = 10) = P(T38 > -25,56) + P( T38 < -29,60) ≈ 1
< -2,021 0,3625
0,3625
d) Diagramas de tallo-hojas
Bodega 1
Bodega2
1 750|0
1 753|0
3 751|00
5 754|0000
7 752|0000
9 755|0000
(9) 753|000000000
(10) 756|0000000000
4 754|00
1 757|0
2 755|00
Tratamos los datos como contínuos, por eso dibujamos un histograma en vez de un
diagrama de barras ya que las medidas estan dadas en ml.
Los cuartiles para el diagrama de cajas ya estan halladas, vamos a calcular los límites
superior e inferior
Bodega 1
Bodega 2
Q1 – 1,5 x RI = 752 – 1,5 = 750,5
Q1 – 1,5 x RI = 754,5 – 1,5 x 1,5 = 752,25
Q3 + 1,5 x RI = 753 + 1,5 = 754,5
Q3 + 1,5 x RI = 756 + 1,5 x 1,5 = 758,25
LI = 750,5
LS = 754,5
LI = 753
LS = 758
2
Histograma
10
8
8
frecuencia
frecuencia
Histograma
10
6
4
2
0
749
750
751
752
753
754
6
4
2
0
755
752
753
bodega 1
751
752
753
755
756
757
diagrama de cajas
diagrama de cajas
750
754
bodega 2
754
753
755
754
755
756
757
755
757
bodega 2
bodega 1
bodega 1
diagrama de cajas
frecuencia
10
bodega 1
bodega 2
6
2
2
6
10
750
752
754
756
758
749
751
753
bodega 2
Mirando el histograma, los datos de la bodega 1 parecen más dispersos, tienen mayor
varianza y mayor rango; pero si nos fijamos en el diagrama de cajas, el rango de la bodega 1
es menor ya que la caja es bastante más estrecha y presenta 3 datos extremos que quizá sean
los que aumentan su varianza. Ambas variables presentan asimetría a la izquierda, más
marcada en la bodega 2. Por tanto a la vista de los gráficos la hipótesis de varianzas iguales
debería ser contrastada.
e) Comparación de las Varianzas
H0: σ1 = σ2
H1: σ1 ≠ σ2
Se utiliza el estadístico
S12 que bajo H0 tiene una distribución F (n1-1,n2-1)
F0 = 2
S2
Región crítica {F0>fn1-1,n2-1,α/2 }∪{F0<fn1-1,n2-1,1-α/2}
f0,025, 20, 19 = 2,51 f0,025, 15, 19 = 2,62
f0,975, 19, 20 = 1/2,51= 0,398 f0,975, 19, 15 = 1/2,62=0,38
Región crítica {F0 > 2,51 }∪{F0 < 0,38}
Para nuestros datos f0 = 1,47 que no cae dentro de la región crítica, es decir acepto la
hipótesis nula de igualdad de varianzas.
f) Para hacer el contraste necesitamos una tabla de distribución de frecuencias con la
frecuencia observada y la frecuencia esperada
3
Si suponemos que el volumen de llenado sigue una distribución normal, estimamos su
media y su desviación típica por los valores muestrales, es decir V→ N( 752,75 , 1,2196)
P(X ≤ 750) = P(Z ≤ (750-752,75)/1,2196) = Φ(-2,25) = 1–0,987 = 0,013
0,013 x 20 = 0,26
P(750 < X ≤ 751)=Φ(-1,43)-Φ(-2,25)=0,077–0,013=0,064
0,064 x 20 = 1,28
P(751 < X ≤ 752)=Φ(-0,61)-Φ(-1,43)=0,271–0,077=0,194
0,194 x 20 = 3,98
P(752 < X ≤ 753)=Φ(0,20)-Φ(-0,61)=0,579–0,271=0,308
0,308 x 20 = 6,16
P(753 < X ≤ 754)=Φ(1,02)-Φ(0,20)=0,846–0,579=0,267
0,267 x 20 = 5,34
P(X > 754)=1-Φ(1,02)=1–0,846=0,154
0,154 x 20 = 3,08
Clase
Oi
Ei
(Oi – Ei)2/Ei
X≤170
1
0,26
2,106
750 < X ≤ 751
2
1,28
0,405
751 < X ≤ 752
4
3,98
0,0001
752 < X ≤ 753
9
6,16
1,309
753 < X ≤ 754
2
5,34
2,089
X > 754
2
3,08
0,378
6,287
χ20 sigue una distribucion chi- cuadrado con 3 (6-2-1) grados de libertad.
x20 = 6,287
P-valor P(χ23 > 6,287) 0,05 < p-valor < 0,1
Ya que de las tablas obtenemos P(χ23 > 7,81) = 0,05 P(χ23 > 6,25) = 0,1
Aceptariamos la hipótesis al nivel 0,05, aunque el valor del estadístico χ20 está próximo a la
región de rechazo.
2.- Resolver las ecuaciones (0.5 puntos)
a) P(χ25 ≤ x) = 0,95
b) P(12,549 ≤ χ210 ≤ y) = 0,20
c) P(T15 ≤ z) = 0,01
d) P(T8 > t) = 0.9
e) P( 1,476 ≤ T5 ≤ u) = 0,075
f) P( F10,20 ≤ 2,42) = v
Solución
a) P(χ25≤ x) = 0,95 P(χ25 > x) = 0,05 x = 11,07
b) P(12,549 ≤ χ210 ≤ y) = P(χ210 ≤ y) - P(χ210 ≤ 12,549) = 0,20
P(χ210 >15,99) = 0,1 P(χ210 > 9,34 ) =0,5
0,5 < P(χ210 ≤ 12,549) < 0,9
2
2
0,7 < P(χ 10 ≤ y) < 1
P(χ 10 > y) < 0,3 y > 15,99
c) P(T15 ≤ z) = 0,01 z ha de ser negativo P(T15 > -z ) = 0,01 -z = 2,602 z = -2,602
d) P(T8 > t) = 0.9 t ha de ser negativo P(T8 > -t ) = 0,1 -t = 1,397 t = -1,398
e) P( 1,476 ≤ T5 ≤ u) = P(T5 ≤ u) - P(T5 ≤ 1,476) = 0,075
P(T5 > 1,476) = 0,1 P(T5 ≤ u) = 0,975 P(T5 > u) =0,025 u= 2,57
f) P( F10,20 ≤ 2,42)
P( F10,20 > 2,77) = 0,025 P( F10,20 > 2,35) = 0,05 0,025 < P( F10,20 > 2,42) < 0,05
0,95 ≤ P( F10,20 ≤ 2,42) ≤ 0,975
3.- Contesta lo más brevemente posible a las siguientes preguntas (1punto)
a) Define variable aleatoria discreta
b) Da la fórmula de la probabilidad total
c) Teorema de Bayes
d) Diferencia entre histograma y diagrama de barras y sus usos
e) Teorema Central del Límite (aproximación a la normal)
4
Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 26 de enero de 2004.
1.- Dado que no todos los pasajeros de una aerolínea abordan el vuelo para el que han
reservado, la compañía aérea vende 125 billetes para un vuelo de 100 pasajeros. Si la probabilidad
de que un pasajero no aborde el vuelo es de 0,05 y los pasajeros se comportan de forma
independiente unos de otros. Calcular o aproximar (1punto)
a) P (todos los pasajeros aborden el vuelo)
b) P (un vuelo parta vacío)
c) P (100 < nº de pasajeros ≤ 125)
d) P ( nº de pasajeros ≤ 100)
Solución:
Sea X el nº de pasajeros que abordan el vuelo. X → B (125, 0,95)
- P(X = 125) = (0,95)125 = 0,00164
- P(X = 0) = (0,05)125 = 2,35. 10-63 ≈ 0
- X puede ser aproximada por una distribución normal de media 125x0,95 = 118,75 y
varianza 125x0,95x0,05 = 5,9375; desviación estándar 2,437.
125 − 118,75 ⎤
⎡100 − 118,75
P(100 < X ≤ 125) ≈ P ⎢
<Z≤
= Φ(2,5649)-Φ(-7,695) ≈
2,437 ⎥⎦
⎣ 2,437
0,99484
- P(X ≤ 100) ≈ P(Z ≤ -7,695) ≈ 0.
2.- Se lanza un dado n veces. Sea p̂ = (1/n) x( nº de veces que ha salido el 1). (0.75 puntos)
a) Calcula la distribución de p̂ .
⎛
⎞
1
b) ¿Cuantas veces debemos lanzar el dado para P⎜⎜ pˆ − < 0,05 ⎟⎟ > 0.95 ?
6
⎝
⎠
Solución:
- p̂ es el estimador de una proporción y su distribución puede ser aproximada por una
normal de media 1/6 y varianza nx(1/6)x(5/6)
⎞
⎞
⎞
⎛
⎛
⎛
1
⎟
⎟
⎟
⎜ pˆ −
⎜
⎜
⎛
⎞
1
0,05 ⎟
0,05 ⎟
0,05 ⎟
6
⎜
⎜
⎜
- P⎜⎜ p̂ − < 0,05 ⎟⎟ = P
<
= P Z <
=2Φ
-1 > 0,95.
⎜
⎜
⎜ 5 ⎟
6
5
5 ⎟
5 ⎟
⎝
⎠
⎟
⎟
⎟
⎜
⎜
⎜
36n ⎠
36n ⎠
⎝ 36n
⎝
⎝ 36n ⎠
⎞
⎞
⎛
⎛
⎟
⎟
⎜
⎜
0,05 ⎟
0,05 ⎟
⎜
⎜
> 0,975 . Buscando en las tablas
= 1,96
Despejando Φ
⎜ 5 ⎟
⎜ 5 ⎟
⎟
⎟
⎜
⎜
⎝ 36n ⎠
⎝ 36n ⎠
Resolviendo n = 213,42 y redondeando obtenemos n = 214
3.- El espesor de la película fotoprotectora en un proceso de fabricación de semiconductores
tiene una media de 10 micrómetros y una desviación estándar de 1 micrómetro. Acotar la
probabilidad de que el espesor sea menor que 6 o mayor que 14. (0.75 puntos)
Solución:
5
Llamemos E a la variable espesor
⎛E −μ 6−μ⎞
<
P(E <6) + P(E>14) = P⎜
⎟ +
σ ⎠
⎝ σ
⎛ E−μ
⎞
⎛ E − μ 14 − μ ⎞
P⎜
> 4 ⎟⎟ = P ( E − μ > 4σ ) ≤1/16 = 0,0625. Para la cota
>
⎟ = P⎜⎜
σ ⎠
⎝ σ
⎝ σ
⎠
hemos utilizado la desigualdad de Chebychev con k = 4.
4.- Los clientes se encargan de evaluar los diseños preliminares de varios productos. Se sabe
que de los productos con éxito en el mercado el 95% recibió buenas evaluaciones, de los productos
con éxito moderado el 60% recibió buenas evaluaciones y de los productos con escaso éxito el 10%
recibió buena evaluación. Además el 40% de los productos han tenido éxito, el 35% éxito
moderado y el 25% baja aceptación. (1punto)
a) Calcular la probabilidad de que un producto obtenga buena evaluación.
b) Si un nuevo diseño de un producto recibe buena evaluación. ¿Cual es la probabilidad
de
que el producto alcance éxito en el mercado?
Solución:
Definimos los sucesos
B – Recibir buena evaluación
E – Producto con éxito.
M – Producto con éxito moderado.
F – Producto con escaso éxito.
Los datos suministrados son: P(E) = 0,4
P(M) = 0,35 P(F) = 0,25
P(B/E) = 0,95 P(B/M) = 0,60
P(B/F) = 0,10
- P(B) = P(B/E) P(E) + P(B/M) P(M) + P(B/F) P(F) = 0,615 Regla de la probabilidad total
- P(E/B) = P(B/E) P(E)/ P(B) = 0,618 Fórmula de Bayes.
6
Examen de Estadística Segundo de Ingeniería Química:
Primera parte 13 de setiembre de 2004.
1.- Dada la siguiente tabla, que es una salida proporcionada por statgraphics. Se pide dar una
explicación de toda la información suministrada por esta tabla. (0.5 punto)
Goodness-of-Fit Tests for Col_9
Chi-Square Test
---------------------------------------------------------------------------Lower
Upper
Observed
Expected
Limit
Limit
Frequency
Frequency
Chi-Square
---------------------------------------------------------------------------at or below
162,167
8
8,37
0,02
162,167
167,013
11
8,37
0,82
167,013
170,636
13
8,37
2,55
170,636
173,881
2
8,38
4,85
173,881
177,125
11
8,38
0,82
177,125
180,749
8
8,37
0,02
180,749
185,594
7
8,37
0,23
above
185,594
7
8,37
0,23
---------------------------------------------------------------------------Chi-Square = 9,53741 with 5 d.f.
P-Value = 0,0894551
2.- Para controlar el volumen de llenado de una planta embotelladora se toma una muestra
aleatoria de tamaño 20 obteniendose las siguientes medidas en ml
750 746 747 748 748 748 748 749 749 747 746 747 747
748 748
747 750 748 745 748
Suponiendo normalidad
g) Calcular un intervalo de confianza al 95% para la media (0.5 puntos)
h) ¿Apoyan los datos la afirmación de que el volumen medio de llenado es de 750 ml? Para
responder a esta cuestión, plantear el contraste de hipótesis, calcular la región crítica al nivel
0.05 y el p-valor de la prueba. (1 punto)
i) Calcular la potencia si el volumen medio de llenado fuera de 745ml. (0.5 puntos)
j) Construir un histograma, un diagrama de tallo-hojas y un diagrama de cajas para la muestra
e interpretar las gráficas. ¿Parece razonable la hipótesis de normalidad? (1 punto)
k) Contrastar la hipótesis de varianza 1 frente a la alternativa <1 y calcular la potencia para la
varianza 1,4 (1 punto)
l) Contrastar la hipótesis de normalidad. Calcular el valor del estadístico χ2 y el p-valor de la
prueba (0.5 punto)
3.- Resolver las ecuaciones (0.5 puntos)
a) P(χ210 ≤ x) = 0,95
b) P(2,16 ≤ χ210 ≤ y) = 0,20
e) P( 2,015 ≤ T5 ≤ u) = 0,025
d) P(T8 > t) = 0.5
a)
b)
c)
d)
e)
c) P(T15 ≤ z) = 0,9
f) P( F10,20 ≤ 1,42) = v
4.- Contesta lo más brevemente posible a las siguientes preguntas (1punto)
Clasifica las variables aleatorias
Da la fórmula de Bayes
Probabilidad a posteriori y Teorema de Bayes
Diagrama de tallo-hojas
Aproximaciones de la distribución binomial
7
Examen de Estadística.Segundo de Ingeniería Química.
Segunda parte 13 de setiembre de 2004.
1.- El tiempo de duración de un ensamble mecánico en una prueba de vibración tiene una
distribución exponencial con media 400 horas. (1.5 punto)
a) ¿ Cual es la probabilidad de que el ensamble falle en la prueba antes de 100 horas ?
b) Si el ensamble lleva probandose 400 horas sin que haya fallado ¿Cuál es la
probabilidad de que falle en las proximas 100 horas ?
c) Si se prueban 100 ensambles ¿ Cual es la probabilidad de que falle al menos uno
de
ellos en menos de 100 horas? ¿Aproxima la probabilidad de que fallen 5 o menos
2.- La alineación entre la cinta mágnetica y el cabezal de un sistema de almacenamiento de
datos afecta a la lectura de los mismos. Si el 10% de las operaciones de lectura se ven afectadas por
una alineación oblicua, el 5% por alineación descentrada y las demás lecturas se efectúan
correctamente. La probabilidad de un error de lectura por alinezción oblicua es 0,01, por alinezción
descentrada 0,02 y 0,001 cuando la alineación es correcta. (1punto)
a) Probabilidad de un error de lectura
b) Dado que ha habido un error de lectura. Calcular la probabilidad de que este sea debido
a una alineación oblícua.
3.- En una muestra de tamaño 25, se ha obtenido una media muestral de 3,5 y una
desviación estándar muestral de 1.25. (1punto)
a. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [1, 6]?
b. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [-0,25, 7,25]?
8
Examen de Estadística: Segundo de Ingeniería Química: Primera parte
18 de febrero de 2005.
1.- Se han obtenido los siguientes datos del rendimiento de dos catalizadores
Catalizador I: 91.5 94.18 92.18 95.39 91.79 89.07 94.72 89.21
Catalizador II: 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75
a) Hacer un diagrama de tallo-hojas para los datos de cada catalizador (0.5 puntos)
b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 de cada catalizador y hacer algún comentario
comparando los rendimientos. (0.5 puntos)
c) Realizar una tabla de distribución de frecuencias y un histograma de los rendimientos de cada
catalizador en la misma gráfica. (0.5 puntos)
d) Hacer los diagramas de cajas de los dos rendimientos en la misma gráfica y comentar los
gráficos. (0.5 puntos)
e) Calcular un intervalo de confianza para el cociente de varianzas
Realizar el contraste H0: σ1 = σ2 mediante el cálculo de la región crítica y el p-valor.
H1: σ1#σ2
Calcular la potencia en el punto 0.5 (1 punto)
f) Calcular un intervalo de confianza para la diferencia de medias.
Realizar el contraste H0: μ1 = μ2 mediante el cálculo de la región crítica y el p-valor.
H1: μ1< μ2
Calcular la potencia en el punto -0.5 (1 punto)
Solución:
Diagrama de tallo-hojas
2
2
4
4
3
3
1
Catalizador I
Catalizador II
89|02
90|
91|57
92|1
93|
94|17
95|3
1
3
4
4
3
2
2
2
2
Percentiles
Catalizador I
5,0% = 89,07
15,0% = 89,21
25,0% = 90,355
50,0% = 91,985
75,0% = 94,45
85,0% = 94,72
95,0% = 95,39
89|1
90|49
91|0
92|7
93|2
94|
95|
96|
97|01
Catalizador II
dato 1
dato 2
(dato2+dato3)/2
(dato4+dato5)/2
(dato6+dato7)/2
dato 7
dato 8
5,0% = 89,19
15,0% = 90,46
25,0% = 90,705
50,0% = 91,91
75,0% = 95,125
85,0% = 97,04
95,0% = 97,19
Los percentiles del segundo catalizador, están por encima de los percentiles del primero,
indicando que quizá el rendimiento sea mayor; pero la mediana es mayor en el catalizador I. Los
percentiles no son simétricos respecto de la mediana en ninguno de los dos catalizadores, la
asimetría está más marcada en el segundo catalizador.
9
Tabla de distribución de frecuencias
Catalizador I
-------------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia Frecuencia
Clase
Inferior Superior
Marca
Frecuencia Relativa
Acumulada
Rel. Acu.
-------------------------------------------------------------------------------Menor o igual
89,0
0
0,0000
0
0,0000
1
89,0
92,0
90,5
4
0,5000
4
0,5000
2
92,0
95,0
93,5
3
0,3750
7
0,8750
3
95,0
98,0
96,5
1
0,1250
8
1,0000
Mayor
98,0
0
0,0000
8
1,0000
-------------------------------------------------------------------------------Media = 92,255 Desviación estándar = 2,38502
Catalizador II
-------------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia Frecuencia
Clase
Inferior Superior
Marca
Frecuencia Relativa
Acumulada
Rel. Acu.
-------------------------------------------------------------------------------Menor o igual
89,0
0
0,0000
0
0,0000
1
89,0
92,0
90,5
4
0,5000
4
0,5000
2
92,0
95,0
93,5
2
0,2500
6
0,7500
3
95,0
98,0
96,5
2
0,2500
8
1,0000
Mayor
98,0
0
0,0000
8
1,0000
-------------------------------------------------------------------------------Media = 92,7325
Desviación estándar = 2,98345
Histograma
catalizador I
Frecuencia
4
2
0
2
4
89
91
93
95
97
99
catalizador II
Diagrama de cajas:
Catalizador I
RI= 94.45 – 90.35 = 4.10
Q1 – 4.10 x1.5 = 84,2
Q3 + 4.10 x1.5 = 100.65
LI = 89,07
LS= 95.39
Catalizador II
RI= 95.125 – 90.70 = 4.425
Q1 – 4.425 x1.5 = 84,06
Q3 + 4.425 x1.5 = 101.76
LI = 89,18
LS= 97.19
10
Diagrama de cajas
Catalizador I
Catalizador II
89
91
93
95
97
99
Las medianas son similares en los dos catalizadores. Ambos catalizadores presentan asimetría a la
derecha. El catalizador II presenta mayor dispersión y mayor asimetría hacia la derecha.
Cociente de varianzas:
Intervalo de confianza
Catalizador I
Catalizador II
-----------------------------------------------------------n
8
8
Media
92,255
92,7325
Mediana
91,985
91,91
Varianza
5,68831
8,90099
Desviación Estándar
2,38502
2,98345
Mínimo
89,07
89,19
Máximo
95,39
97,19
Rango
6,32
8,0
Primer Cuartil
90,355
90,705
Tercer Cuartil
94,45
95,125
Rango Intercuartílico 4,095
4,42
------------------------------------------------------------
Radio de varianzas = 0,639065 f0.025,7,7 = 4.99 f0.975,7,7 = 0.2
Intervalo de confianza [0,127943; 3,19207]
Contraste de hipótesis:
Región crítica {F0< 0.2 } Ụ {F0 >4.99 } f0 = 0.63 no está en la región crítica aceptamos igualdad de
varianzas.
P-valor P(F7,7 >0.63)
De las tablas P(F7,7 >1,7) = 0.25 P(F7,7 >0,58) = 0.75
0.25 < p-valor < 0.75 Apoya nuestra decisión de aceptar la hipótesis nula.
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 0,639065
P-value = 0,569131
Potencia
P(0.5) = P(RC/(σ1/ σ2) = 0.5) = P (F0 < 0.2 /(σ1/ σ2) = 0.5) + P (F0 > 4.99 /(σ1/ σ2) = 0.5) = P(F7,7 <
0.2/0.25) + P(F7,7 > 4.99/0.25) = P(F7,7 < 0.8) +P(F7,7 >19.96)
De las tablas P(F7,7 > 6,99) = 0.01 P(F7,7 > 19,96) < 0.01
P(F7,7 > 1,7) = 0.25 luego P(F7,7 > 1/1,7) = 0,75 P(F7,7 > 0,58) = 0,75
P(F7,7 < 0,58) = 0.25 De donde P(F7,7 < 0.8) > P(F7,7 < 0,58) = 0.25
P(0,5) > 0,25
11
Diferencia de medias: - 0.4775 t14,0.025 = 1,746
Intervalo de confianza asumiendo varianzas iguales S p = 2.67
-0,4775 +/- 2,89639
[-3,37389,2,41889]
Contraste de hipótesis
Región crítica {T0 <-1.746} t0 = - 0.23 no está en la región crítica luego que la primera media es
mayor o igual que la segunda
p-valor P(T14 < -0.23) = P(T14 > 0.23) > P(T14 >0.25) = 0.4
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = -0,353591
P-value = 0,728914
Potencia (-0.5) = P(T0 < -1,746/μ1 – μ2 = -0.5) = P(T14 < -1.746 + 0.5/1.89) =
P(T14 < -1.48) = P(T14 > 1.48)
P(T14 > 1.34) = 0.1
P(T14 >.1.76) = 0.05
0.05 < P(-0.5) < 0.1
2.- En un proceso de fabricación de semiconductores ciertos problemas técnicos pueden
generar un defecto funcional, un defecto menor o ningún defecto en la proporción 10%, 60% y
30%. Si suponemos que los efectos de 10 problemas técnicos son independientes.
a) Calcular la probabilidad que 10 problemas técnicos generen 2 defectos funcionales y 5 defectos
menores.
b) Dar la distribución del nº de problemas técnicos entre 10 que no da como resultado defecto.
Calcular su media y su varianza. (1punto)
Solución:
⎛10 ⎞⎛ 8 ⎞
P (2 def fun., 5 def meno, 3 sin def) = ⎜⎜ ⎟⎟⎜⎜ ⎟⎟0.12 x 0.6 5 x 0.33 = 0.0529
⎝ 2 ⎠⎝ 5 ⎠
La variable es binomial de parámetros 10 y 0,3.
Su media es 3 y su varianza 2.1
3.- En las siguientes preguntas elige la respuesta justificando la opción elegida (1 punto)
1. Si la probabilidad de error de tipo I de un contraste bilateral es de 0'02, entonces
a) La probabilidad de cometer un error de tipo II es del 0'98.
b) Se rechaza H0 para todo nivel de significación superior a 0'01.
c) Se aceptará H0 el 98% de las veces.
xd) Ninguna de las otras respuestas.
2.- Se denomina “nivel de significación” de un test de hipótesis
xa) A la probabilidad de rechazar H0 cuando H0 es cierto.
b) A la probabilidad de aceptar H0 cuando H0 es cierto.
c) A la probabilidad de rechazar H0 cuando H0 es falso.
d) A la probabilidad de aceptar H0 cuando H0 es falso.
3.- Un test de hipótesis es “estadísticamente significativo” si
a) La hipótesis nula es correcta.
b) La hipótesis nula es incorrecta.
xc) Si el estadístico del contraste cae en la región de aceptación.
d) Ninguna de las otras tres respuestas.
12
4.- En la Figura., se representan los residuos de un modelo de regresión frente al
número de
orden. De él se deduce
Studentized residual
Residual Plot
2
1
0
-1
-2
0
10
20
30
40
50
60
row number
a) Que sería mejor hacer un ajuste parabólico.
b) Que los residuos no son normales.
c) Que no se ha tenido en cuenta una variable de clasificación.
xd) Que los datos son heterocedásticos.
5.- Del siguiente contraste se deduce
a) De la aplicación de este contraste no podemos obtener una conclusión
acerca de la hipótesis.
xb) El p-valor del contraste nos dice que podemos rechazar la hipótesis.
c) El resultado del contraste es 42,9108 y se acepta la hipótesis.
d) Ninguna de las otras tres respuestas.
Analysis Summary Data variable: lanzamientos
53 values ranging from 1,0 to 8,0
Fitted geometric distribution: event probability = 0,321212
Goodness-of-Fit Tests for lanzamientos
Chi-Square Test
---------------------------------------------------------------------------Frecuencia
Frecuencia
clase
valor
observada
esperada
Chi-Square
--------------------------------------------------------------------------1
0
0
17,02
17,02
2
1
25
11,56
15,64
3
2
11
7,84
1,27
4
3
11
5,32
6,05
5
4
3
3,61
0,10
6
5
1
2,45
0,86
7
6, 7
1
2,80
1,15
8
>8
1
2,39
0,81
---------------------------------------------------------------------------Chi-Square = 42,9108 with 6 d.f.
P-Value = 1,2148E-7
13
Examen de Estadística: Segundo de Ingeniería Química: Segunda parte
18 de febrero de 2005.
1.- El peso de un caramelo tiene una distribución normal de media 5 gr. Y desviación
estándar 0,25gr. Se empaquetan de 16 en 16 Calcular la media y la desviación estándar del paquete,
así como la probabilidad de que su peso sea mayor de 85 gr. (1punto)
Solución: El peso total es la suma de los pesos de los 16 caramelos
P = X1 + X2 + … + X16 E(P) = 16x5 =80 gr. Var (P)= 16x 0.52 = 1 gr2
La variable peso sigue una distribución normal de media 80 y desviación estándar 1.
⎛ P − 80 85 − 80 ⎞
>
P (P > 85) = P⎜
⎟ = P( Z > 5) ≈ 0
1 ⎠
⎝ 1
2.- Tres máquinas producen arandelas. El ritmo de producción de A es el doble que el de B
y el mismo que el de C. Las arandelas producidas por cada máquina se van empaquetando en lotes
que son colocados en un almacén a medida que se van produciendo. De las arandelas producidas
por A, el 10% son defectuosas por grandes y el 5% por pequeñas. Para B, el 5% son defectuosas por
grandes y el 10% por pequeñas. Para C, el 10% son defectuosas por grandes y el 10% por pequeñas.
(1punto)
Se extrae al azar un lote del almacén y se comprueba la validez de 20 arandelas del lote, resultando
3 defectuosas por grandes y ninguna por pequeña.
a) Hallar la probabilidad de que se trate de un lote producido por la máquina A.
b) Hallar la probabilidad de que de 10 arandelas elegidas al azar, 9 sean buenas y una defectuosa
por grande.
Solución:
P(A) = 0.4 P(B) = 0.2 P(C) = 0.4 Probabilidades a priori
Sea G el suceso la pieza es grande; P el suceso la pieza es pequeña ; N la pieza es buena; y H el
suceso de un lote de 20 arandelas 3 son grandes, 0 pequeñas y 17 buenas.
Se conocen las probabilidades condicionadas
P(G/A) = 0.1 P(P/A) = 0.05 P(N/A) = 0.85
P(G/B) = 0.05 P(P/B) = 0.1 P(N/B) = 0.85
P(G/C) = 0.1 P(P/C) = 0.1 P(N/C) = 0.8
Nos piden encontrar P(A/H) una probabilidad a posteriori
Aplicamos la fórmula de Bayes
⎛ 20 ⎞
P(H/A) = ⎜⎜ ⎟⎟0.13 x 0.8517 = 0.0719
⎝3⎠
⎛ 20 ⎞
P(H/B) = ⎜⎜ ⎟⎟0.05 3 x 0.8517 = 0.00899
⎝3⎠
⎛ 20 ⎞
P(H/C) = ⎜⎜ ⎟⎟0.13 x 0.817 = 0.0257
⎝3⎠
0.0719 x0.4
= 0.704
P(A/H) =
0.0719 x0.4 + 0.00899 x0.2 + 0.0257 x0.4
Sea el suceso Y de 10 arandelas elegidas al azar, 9 son buenas y una grande
Utilizamos la fórmula de la probabilidad total
P Y/A) = 10 x 0,1x 0,859 = 0,2316
P (Y/B) = 10 x 0,05x 0.859 = 0,1158
14
P (Y/C) = 10 x 0,1x 0.89 = 0,1342
P (Y) = 0,2316 x 0,.4 + 0,1158 x 0,2,+ 0,134 x 0,4 = 0.1695
3.- En un libro de 400 páginas, el número de erratas de cada página sigue una distribución G
(0.05) Aproximar la probabilidad de que el número total de erratas del libro esté comprendido entre
375 y 410. (1punto)
Solución:
El número total de erratas, N, es la suma de las erratas de cada página
Sea Xi el número de erratas de la página i
E (Xi) = 0,95/0,05 = 19 Var (Xi) = 0,95/(0,05)2 = 380
E (N) = 400x19 = 7600 Var (N) = 400x380 = 152000 Desviación estándar = 389,87
N es la suma de 400 variables independientes e igualmente distribuidas, aplicando el teorema
central del límite
410 − 7600 ⎞
⎛ 375 − 7600
P (375 ≤ N ≤ 410) = P⎜
<Z<
⎟ = P( Z < −18,44) − P( Z < −18,53) ≈ 0
389,87 ⎠
⎝ 389,87
4.- La Distribución beta es una distribución de una variable aleatoria X continua. Con los
datos de las siguientes salidas responder a las preguntas (1punto)
P(X<0.1)
P(0.1<X < 0.2)
P(X>0.5)
Mediana de la distribución
Primer cuartil
Tercer cuartil
Inverse CDF
----------Distribution:
CDF
0,01
0,1
0,25
0,5
0,75
0,9
0,99
Beta
Dist. 1
0,0267632
0,0925953
0,161163
0,26445
0,38948
0,510316
0,705686
Cumulative Distribution
----------------------Distribution: Beta
Lower Tail Area (<)
Variable
Dist. 1
0,1
0,114265
0,2
0,34464
0,3
0,579824
0,4
0,766719
0,5
0,890624
Probability Density
Dist. 1
1,9683
2,4576
2,1609
1,5552
0,9375
Upper Tail Area (>)
Dist. 1
0,885735
0,65536
0,420176
0,233281
0,109376
Solución
P(X< 0.1) = 0,114265
P (0.1<X < 0.2) = P(X<0.2)-P(X<0.1) = 0,34464 – 0,114265 = 0,230375 por ser la distribución
continua
P(X>0.5) = 0,109376
Mediana de la distribución 0,26445 inversa de la función de distribución en 0,5
Primer cuartil
0,161163 inversa de la función de distribución en 0,25
Tercer cuartil
0,38948
inversa de la función de distribución en 0,75
15
Examen de Estadística: Segundo de Ingeniería Química: Primera parte
13 de setiembre de 2005.
1.- Un ingeniero que trabaja para un fabricante de llantas investiga la duración promedio de
un compuesto nuevo de caucho. Para ello toma una muestra de 16 llantas y las prueba en la
carretera hasta alcanzar el fin de la vida útil de estas. Los datos obtenidos en kms. Son los
siguientes
60613
59836
59554
60252
59784
60221
60311
59040
60545
60257
60000
59997
60947
60135
60220
60523
a) Hacer un diagrama de tallo-hojas para los datos (0.5 puntos)
b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 (0.5 puntos)
c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de
la duración y comentar los gráficos (0.5 puntos)
d) Realizar el contraste de normalidad (0.5 puntos)
e) Calcular un intervalo de confianza para la duración media de la llanta.(2 puntos)
Calcular un intervalo de confianza para la varianza.
Al ingeniero le gustaría demostrar que la duración media excede los 60000kms. Proponer y
contrastar la hipótesis adecuada y obtener una conclusión.).
Calcular la potencia en el punto 61000
Si la duración media fuese de 61000 Kms al ingeniero le gustaría detectarla con una
probabilidad de al menos 0.90. ¿Es adecuado el tamaño muestral tomado? En caso negativo
determinar el tamaño muestral
2.- En un proceso de fabricación de semiconductores ciertos problemas técnicos pueden
generar un defecto en el semiconductor con probabilidad 0.4. Si suponemos que los efectos los
problemas técnicos son independientes. (1punto)
a) Calcular la probabilidad que 100 problemas técnicos no generen defectos.
b) Dar la distribución del nº de problemas técnicos entre 10 que no da como resultado defecto.
Calcular su media y su varianza.
3.- En las siguientes preguntas elige la respuesta justificando la opción elegida (1 punto)
1. Hipótesis estadística
a) Una afirmación sobre la distribución de una población o poblaciones.
b) Estamos dispuestos a aceptarla a no ser que los datos digan locontrario
c) La hipótesis nula es una afirmación sobre la distribución de la muestra.
d) Ninguna de las otras respuestas.
2.- Errores
a) Error de tipo I es la prob. de rechazar Ho cuando es cierta
b) Error de tipo II es la prob. de aceptar Ho cuando es cierta .
c) Potencia es la prob. de rechazar Ho cuando es cierta.
d) Ninguna de las otras respuestas.
3.- Región crítica
a) Si el parámetro estimado cae dentro de la región crítica aceptamos Ho
b) Si el parámetro estimado cae dentro de la región crítica rechazamos Ho
c) La región crítica cambia con la muestra
d) Ninguna de las otras tres respuestas.
16
4.-Distribuciones en el muestreo
a) La distribución de la media muestral es una normal
b) La distribución de la media muestral es una T
c) La distribución de la varianza muestral es una χ2
d) Ninguna de las otras tres respuestas.
4.- Define (0.5 puntos)
a) p-valor
b) Muestra
c) Población
d) Estadístico
Examen de Estadística: Segundo de Ingeniería Química: Segunda parte
13 de setiembre de 2005.
1.- Un ensamble está compuesto por 5 componentes colocados uno junto al otro. La longitud
de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0.02 cm. Las
especificaciones requieren que todos los ensambles tengan una longitud entre 9.9 y 10.1 cm.
¿Cuántos ensambles verificarán estos requerimientos? (1 punto)
2.- En una factoría se producen piezas que se empaquetan en tres tipos diferentes de cajas
con 20 unidades cada una en proporción 4, 3, 6. Las cajas de tipo I contienen 3 unidades
defectuosas, las de tipo II, 5 defectuosas y las de tipo III, 6 defectuosas. Se elige una caja al azar y
se extraen 3 unidades resultando una de ellas defectuosa y 2 buenas. ¿Qué tipo de caja tiene mayor
probabilidad de ser la elegida? (1punto)
3.- Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases
contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el
número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor
contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación
realizada (1 punto).
4.- Resolver las ecuaciones (0.5 puntos)
a) P(χ25 ≤ x) = 0,95
b) P(12,549 ≤ χ210 ≤ y) = 0,20
e) P( 1,476 ≤ T5 ≤ u) = 0,075
d) P(T8 > t) = 0.9
c) P(T15 ≤ z) = 0,01
f) P(F10,20 ≤ 2,42) = v
17
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química
10 de febrero de 2006. Primera parte
1.- Se llevó a cabo un estudio para determinar la relación entre el número de años de
experiencia
y el salario mensual, en euros,
entre los ingenieros químicos de Castilla y
León. Se seleccionó una muestra aleatoria de 17 ingenieros químicos y se obtuvo la siguiente
información
∑ xi = 247 ∑ yi = 29902 ∑ xi2 = 5065 ∑ yi2 = 52330680
∑x y
i
i
= 483750
∑e
2
i
= 434772
Con los datos del Problema. Responde verdadero o falso justificando las respuestas
1) 0.5 puntos
β̂1 = 43,22
a)
c)
β̂1 = 1072
β̂ 0 = 43,22
d)
β̂ 0 = 1072
b)
2) 0.25 puntos
a) Como t = 12,56 la variable años de experiencia es significativa
b) Como t = 17,53, tendremos dudas acerca de la influencia de la variable años de
experiencia.
c) Como t = 17,53 la variable años de experiencia es significativa
b) Como t = 12,56, tendremos dudas acerca de la influencia de la variable años de
experiencia.
3) la predicción de salario para un ingeniero químico con diez años de experiencia es 0.25
puntos
1162,2
a)
1504.2
b)
c)
1723.2
1389
d)
4) Responde verdadero o falso justificando 1 punto
a)
La variación no explicada es 434772
La variación total es 49440272
b)
El coeficiente R-cuadrado es 0.99
c)
d)
El valor del estadístico F es 2314,5
Un I.C. al 95% para la pendiente es (35,89 50,55)
e)
18
2.- Se está estudiando el tiempo transcurrido entre dos intentos de introducir un virus
informático via e-mail en el sistema informático de una empresa. Se han observado los tiempos (en
cientos de horas) desde el comienzo de año para los primeros veinte intentos obteniendo los
resultados expuestos en la tabla adjunta. 1punto
Al ajustar una distribución exponencial (con f. distribución F(x) = 1 - e- x) a estas
observaciones, el test chi cuadrado con puntos de división de las clases: 5, 10, 15 y 20, concluye
que
a. El test chi-cuadrado no se puede aplicar porque la distribución es continua.
b. Se rechaza que los datos siguen una distribución exponencial con < 0'5.
c. El p-valor del contraste está entre 0'1 y 0'5 y, por tanto, el contraste no es concluyente.
d. Ninguna de las otras tres respuestas.
3.- Dos máquinas A y B fabrican la misma pieza, con una producción aceptable del 70% y
80% respectivamente. Del total de la producción el 40\% corresponde a la màquina A y el resto a la
B. Se elige una pieza al azar y resulta no ser aceptable. Calcular la probabilidad de que haya sido
producida por cada una de las dos máquinas. 1 punto
4.- Dados los siguientes datos de pureza de un hidrocarburo.
Pureza ( %) 86,91 89,85 90,28 86,34 92,58 87,33 86,29 91,86 95,61 89,86
96,73 99,42 98,66 96,07 93,65 87,31 95
96,85 85,2
90,56
a)
Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar,
primer cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95
muestrales (0.5)
b)
Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un
histograma y un diagrama de cajas y comenta los gráficos.(1)
19
EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química
10 de febrero de 2006. Segunda parte
1.- Sea X una variable con las siguientes características: E(X)=5, E(X2)=29
Determinar una cota inferior de P (2≤X≤ 8) 0.5 puntos
Si la variable tiene una distribución uniforme en el intervalo (a, b), Hallar P (2≤X≤ 8) 0.5 p.
2.- Supongamos que en un proceso de fabricación de rodamientos se aceptan las bolas de
acero con diámetro comprendido entre dos valores fijos 100.1 y 100.6. Estudiado anteriormente el
diámetro de las bolas, se dedujo que seguía una ley Normal de media 100.3 y desviación típica 0.2.
Calcular la probabilidad de que en un lote de 100 bolas rechacemos 4 por grandes y 4 por
pequeñas. 0.5 puntos
Calcular la probabilidad de que un lote de tamaño 1000 contenga al menos 750 piezas
aceptables.0.5 puntos
3.- Define lo más brevemente posible 1.5 puntos
Población:
Muestra:
Tamaño muestral.
Muestreo aleatorio simple
Espacio muestral
Parámetro
Estadístico
Estimador.
Estimador de la media poblacional,
Estimador de la varianza poblacional,
Contraste hipótesis
Hipótesis estadística
Paramétrica
No Paramétrica:
Hipótesis nula
Estadístico del contraste:
Error tipo I
Error tipo II
Nivel de significación
La región de Rechazo
La región de Aceptación
Nivel crítico o p-valor
4.- El gráfico siguiente representa el diagrama de tallo-hojas del número de lanzamientos
necesarios para que salga cruz. 0.5 puntos
19 1|0000000000000000000
(14) 2|00000000000000
15 3|000000000
6 4|000
3 5|
3 6|00
HI|14,0
Calcular los cuartiles y percentiles 40 y 60
20
Examen de Estadística: Segundo de Ingeniería Química
15 de setiembre de 2006.
Apellidos
Nombre
Entregar con el examen
1.- Un biólogo ha tomado una muestra de tortugas y ha medido su longitud y su anchura
obteniendo los siguientes diagramas de tallo-hojas
longitud: 1|2 representa 12,0
anchura: 1|2 representa 12,0
2 9|34
3 9|6
1 7|4
7 10|1234
2 7|8
9 10|67
8 8|012334
12 11|234
(5) 8|56899
12 11|6779
11 9|001333
8 12|001
5 9|5556
5 12|578
1 10|
2 13|1
1 10|6
1 13|5
Se pide
a) Tamaño muestral
b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 (0.5)
c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de la
longitud y comentar los gráficos (1.5)
d) Realizar el contraste de normalidad de la longitud (0.5)
e) Calcular un intervalo de confianza para la longitud media de la longitud.(0.25)
f) Calcular un intervalo de confianza para la varianza. (0.25)
g) Al ingeniero le gustaría demostrar que la longitud media excede los 100 cms.
Proponer y contrastar la hipótesis adecuada y obtener una conclusión.). (0.5)
h) Calcular la potencia en el punto 95 (0.5)
Análisis de regresión
Variable dependiente: longitud
Variable independiente: anchura
Parameter
Intercept
Slope
Estimate
-26,2686
1,58162
Error
9,83848
0,11109
Standard
Statistic
-2,66998
14,2372
T
P-Value
0,0140
0,0000
Análisis de la varianza
Source
Sum of Squares
Df
Mean Square
F-Ratio
P-Value
Model
2879,14
1
2879,14
202,70
0,0000
Residual
312,489
22
14,2041
-------------------------------------------------------------------------------Total (Corr.)
3191,63
23
Coeficiente correlación = 0,949785
R-cuadrado = 90,2091 percent
R-cuadrado (adjusted for d.f.) = 89,764 percent
Standard Error of Est. = 3,76883
j)Explicar todo lo que aparece en las tablas de regresión y hacer el contraste de la regresión (2)
(Da la vuelta a la hoja)
21
2.- Explica brevemente (2)
1. Hipótesis estadística
2. Error de tipo I
3. Error de tipo II
4. Potencia
5. Región crítica
6. Relación entre región crítica y muestra
7.-Distribución en el muestreo
8. p-valor
9. Muestra
10. Población
11. Estadístico
12. Fórmula de Bayes
13. Fórmula de la probabilidad total
14. Fórmula producto
15. Parámetro poblacional
16. Parámetro muestral
17. Estimador de un parámetro
18. Estadístico utilizado en el contraste de varianzas
19. Relación entre p-valor y muestra
20. Gráficos utilizados en la descripción de datos categóricos.
3.- Resolver las ecuaciones (0.5 puntos)
a) P(χ28 ≤ x) = 0,95
b) P(12,549 ≤ χ220 ≤ y) = 0,20
e) P( 1,476 ≤ Z ≤ u) = 0,075
d) P(T18 > t) = 0.9
c) P(T35 ≤ z) = 0,01
f) P(F10,20 ≤ 2,42) = v
4.- De un proceso químico se toman cada hora una muestra de 60 partes. Lo común es que el
1% de las partes requieran volver a ser procesadas. Sea X el número de partes de una muestra de
60 que necesitan ser reprocesadas. Se sospecha de un problema en el proceso si X es mayor que
su media por tres desviaciones estándar. (1)
a. Calcular la probabilidad de que se sospeche de la existencia de un problema.
b. Si el porcentaje de partes que necesita reprocesarse es de 5%. Calcular la probabilidad de X
sea mayor que 1.
c. Calcular la probabilidad de que X sea mayor que 1 en al menos una de las muestras tomadas
en las próximas 5 horas.
5.- Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases
contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular
el número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor
contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación
realizada (0.5).
22
Examen de prácticas: Estadística. Segundo de Ingeniería Química
12 de febrero de 2007
1.- Distribución Chi-cuadrado con parámetros: n = 23
Media = 23 Mediana =22,33 primer cuartil =18,1373 tercer cuartil =27,1423
Percentil 1 =10,197 percentil 5 = 13,0905 percentil 95 =35,1725percentil 99 =41,6384
Simular 100 valores de una distribución Chi-cuadrado : n = 23
Rellenar el siguiente cuadro para las clases 3 y 6
Comentar el diagrama de cajas observado
--------------------------------------------------------------------------------
Clase
Límite
Inferior
Límite
Superior
Marca
Frecuencia
Frecuencia
Relativa
Probabilidad
--------------------------------------------------------------------------------
Menor o igual
2
13,0
3
18,0
4
23,0
5
28,0
6
33,0
7
38,0
8
43,0
Mayor
48,0
8.0
18,0
23,0
28,0
33,0
38,0
43,0
48,0
15,5
20,5
25,5
30,5
35,5
40,5
45,5
---34----
---0,34---
---0,297----
---6----
---0,06---
---0,056----
--------------------------------------------------------------------------------
Media =23,44 Desviación estándar=6,89 Media poblacional=23 Desviación estándar pob.=6,78
2.- Datos correspondientes a la variable ¿vives?
Realiza una tabulación cruzada de esta variable con el sexo
Estimador de la proporción de chicas que viven en Valladolid 0,4286---------------Estimador de la proporción de chicos que viven en Valladolid 0,6923---------------Intervalos de confianza bilaterales para la diferencia de proporciones α = 0,01; 0,05; 0,1
Nivel de confianza
Intervalo
Tamaños muestrales
90 %
[0,0319 ;0,4954]
370
302
95 %
[-0,0124 ;0,5398]
214
176
99 %
[-0,099 ;0,626]
151
124
Tamaños muestrales necesarios para cometer un error de 0,1 para los mismosα.
Contrastar la hipótesis de que las proporciones son iguales
p-valor = 0,069
z0 = 1,817
Región crítica | Z0|>1,959
Resultados: Aceptamos que las proporciones son iguales al nivel 0,05; pero lo rechazaríamos al
nivel 0,1. El valor de z0 está muy cercano a la región crítica.
Tamaños muestrales para detectar una diferencia de proporciones de 0,2 con una potencia de 0,9
----205 y 155 ---------------------------------
23
3.- Trabajar con la variable altura en el grupo de hombres:
Estimador de la media 179,923
Estimador de la desviación estándar 4,95518
Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1
Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota
superior y los niveles de significación anteriores
confianza Para la media
Superior
90%
181,202
95 %
181,583
99 %
182,338]
inferior
178,644
178,263]
177,508
Para la desviación estándar
Superior
inferior
6,10433
4,22539
6,48162
4,03769]
7,29842
3,72185
confianza Error
1cm.
2cm.
3cm
90%
42
12
6
95 %
69
19
10
99 %
136
37
18
Explicar los resultados: Las cotas superiores crecen con el nivel de confianza; las cotas interiores
decrecen. A igual confianza, los tamaños muestrales decrecen al aumentar el error. A igual error los
tamaños muestrales crecen al aumentar la confianza
4.- Trabajar con la variable altura
Contrastar la hipótesis de que las varianzas son iguales.
Región crítica F0 > 2,07392
p-valor = 0,797952 F0 = 0,902241
Resultado: Aceptamos la igualdad de varianzas a cualquier nivel
Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 2: 88 y 70
5.- Trabajar con las variables altura y peso en las mujeres
El contraste de regresión tiene un p valor de -0,64- por tanto -no- rechazamos la hipótesis nula
y -no- admitimos que existe relación lineal entre las variables.
El contraste para la ordenada en el origen tiene un p-valor de -0- por tanto -si- rechazamos la
hipótesis nula y -si- admitimos que ésta es distinta de 0.
Región crítica para este contraste …|T|>…… 2,09303 ………………………
El contraste F de regresión tiene un p valor de -0,64- por tanto -no- rechazamos la hipótesis
nula y -no- admitimos que existe relación lineal entre las variables.
Región crítica para este contraste……F> 4,38077 ……………………..
El -1,14%- de la variabilidad de los datos queda recogida por el modelo.
La relación lineal -no- recoge la dependencia entre variables
VE = 6,23933
VNE = 538,046
Error estándar de la regresión = 5,3214
24
Examen de Estadística: Segundo de Ingeniería Química. 12 de febrero de 2007
Los datos siguientes muestran la salida de CD de un generador de viento (y) y la velocidad
del viento(x).
Velocidad viento(mph) Salida deCD
Velocidad viento
Salida de CD
5
1,582
3,05
0,558
6
1,822
8,15
2,166
3,4
1,057
6,2
1,866
2,7
0,5
2,9
0,653
10
2,236
6,35
1,930
9,7
2,386
4,6
1,562
9,55
2,294
5,8
1,737
7,4
2,088
9,1
2,303
3,6
1,137
10,2
2,31
7,85
2,179
4,1
1,194
8,8
2,112
3,95
1,144
7
1,8
2,45
0,123
5,45
1,501
1.- Calcular el valor de los estadísticos habituales para la variable velocidad del viento,
Media, varianza, desviación estándar, máximo, mínimo, rango, mediana, cuartiles y rango
intercuartílico.(0.5)
n = 25
Media = 6,132
Mediana = 6,0
Varianza = 6,3981
Desviación estándar = 2,52945
Mínimo = 2,45
Máximo = 10,2
Rango = 7,75
Primer cuartil = 3,95
Tercer cuartil = 8,15
Rango intercuartílico = 4,2
2.- (1)
Dibujar un diagrama de tallo-hojas
1|2 representa 1,2
3 2|479
7 3|0469
9 4|16
12 5|048
(3) 6|023
10 7|048
7 8|18
5 9|157
2 10|02
Dibujar un histograma
25
Histogram
6
frequency
5
4
3
2
1
0
0
2
4
6
8
10
12
velocidadv
Tabla de distribución de frecuencias
-------------------------------------------------------------------------------Clase
Límite
Inferior
Limite
Superior
Marca
frecuencia
frecuencia frecuencia
relativa
acumulada
frecuencia
relat. Acu.
-------------------------------------------------------------------------------Menor o igual
2,4
0
0,0000
0
0,0000
1
2,4
3,7
3,05
6
0,2400
6
0,2400
2
3,7
5,0
4,35
4
0,1600
10
0,4000
3
5,0
6,3
5,65
4
0,1600
14
0,5600
4
6,3
7,6
6,95
3
0,1200
17
0,6800
5
7,6
8,9
8,25
3
0,1200
20
0,8000
6
8,9
10,2
9,55
5
0,2000
25
1,0000
Mayor
10,2
0
0,0000
25
1,0000
--------------------------------------------------------------------------------
Dibujar un diagrama de cajas.
Box-and-Whisker Plot
0
2
4
6
8
10
12
velocidadv
Media = 6,132
Mediana = 6,0
Mínimo = 2,45
Máximo = 10,2
Primer cuartil = 3,95 Tercer cuartil = 8,15 Rango intercuartílico = 4,2
3,95- 1,5x4,2 = -2,35 8,15 + 1,5x4,2=14,45 LS = 10,2 LI= 2,45
Comentar gráficos obtenidos, simetría, datos atípicos, normalidad.
Del gráfico del histograma se desprende que los datos no se parecen a la distribución
normal, no se aprecia asimetría. En el diagrama de cajas se ve que los datos son bastante
simétricos, la media es casi igual a la mediana y los cuartiles son casi simétricos respecto a
la mediana. No se aprecian datos atípicos.
Contraste de normalidad.Explica la tabla, el gráfico y da el resultado del contraste
(0.5)
26
acumulada
Plot Probabilistico Normal
99,9
99
95
80
50
20
5
1
0,1
0
2
4
6
8
10
12
velocidadv
Goodness-of-Fit Tests for velocidadv
Lower Limit
Upper Limit Observed Frequency
Expected Frequency
at or below
3,68495
6
4,17
3,68495
5,04249
4
4,17
5,04249
6,132
3
4,17
6,132
7,22151
3
4,17
7,22151
8,57905
3
4,17
above 8,57905
6
4,17
Chi-Square = 2,60011 with 3 d.f.
P-Value = 0,457466
Chi-Square
0,81
0,01
0,33
0,33
0,33
0,81
El gráfico es un plot Probabilístico normal. En el eje de las X se representa la función de
distribución empírica de la muestra y en el eje de las Y la función de distribución de la normal. Si
los datos proceden de una distribución normal deberían estar alineados. Se ve que los datos oscilan
en torno a una línea recta por lo que podemos suponer que no se apartan mucho de la distribución
normal.
En la tabla tenemos el resultado de un contraste del ajuste de los datos a una distribución
normal. Se ha dividido el rango de valores en 6 clases, se calcula la frecuencia esperada de cada
clase y después se calcula el valor del estadístico con un valor de 2,6. Los grados de libertad son 62(parámetros estimados, media y varianza)-1, es decir 3. El p-valor es la probabilidad de que una
chi cuadrado con 3 grados de libertad sea mayor que 2,6 que da 0,45; con lo que aceptamos la
hipótesis nula de que los datos son normales a cualquier nivel menor que0,45. Si α = 0,05
aceptamos la normalidad de los datos.
3.- (0.75)
Calcula un intervalo de confianza para la media al 95%.
Como la varianza es desconocida el estadístico utilizado es una T con 24 grados de libertad
T24,0,025 = 2,064 El intervalo es X ±
s
25
t 24, 0, 025
6,132 ± 1,04411 [5,08789;7,17611]
Calcula el tamaño muestral necesario para estimar la media con un error de 0,75 mph.
El error cometido viene dado por s t 24,0,025 2,53 2,064 = 0,75 n = 49
n
n
27
4.- (0.75)
Realiza el siguiente contraste: Región crítica, p-valor y resultado del contraste.
H0: μ =6 H1: μ >6
6,132 − 6
t0 =
= 0,26
Calculamos el valor del estadístico T = X − μ 0
0
2,53
s
25
p-valor P(T24 >0,26)≈ 0,4 ya que P(T24 >0,256)= 0,4. En cualquier caso
0,25<p-valor<0,4
Es decir aceptamos la hipótesis nula de que la media es ≤ 6
Región crítica {T0 > 1,711}
ya que t24,0,05= 1,711 en términos de la media
muestral {X > 6,865}
Ni t0, ni la media muestral están en la región crítica por lo que aceptamos la hipótesis nula.
Calcula la potencia en el punto 6,5
n
P (6,5) = P (T0 > 1,711 / μ = 6,5) = P (
P(
X − 6,5
s/ n
+
6,5 − 6
s/ n
X −6
s/ n
> 1,711 / μ = 6,5) = P (
> 1,711 / μ = 6,5) =
X − 6,5
s/ n
> 1,711 −
0,5
2,53 / 25
/ μ = 6,5) = P(T24 > 0,72)
0,1 < P (T24 > 0,72) < 0,25
Por lo tanto 0,1< P (6,5) < 0,25
5.De las siguientes tablas del análisis de regresión Rellenar huecos (0.5)
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: salidaCD
Independent variable: velocidadv
Parameter
Estimate
Error Standard
T Statistic
P-Value
1,039
[0,2; 0,5]
Intercept
0,130875
0,125989
12,66
0
Slope
0,241149 0,0190492
0,130875/0,125989 = 1,039
P(|T23| > 1,039) = 2x P(T23 > 1,039) 0,2 < p-valor < 0,5
0,241149 / 0,0190492 =12,66
P(|T23| > 12,66) = 2x P(T23 > 12,66) ≈ 0
Analysis of Variance
Source
Sum of Squares
Df
Mean Square F-Ratio P-Value
160,254
0
Model
8,92961
1
8,92961
1,28
23
0,0557
Residual
Total (Corr.) 10,2112
24
VNE = VT- VE = 10,2112 – 8,92961 = 1,28
S2R= VNE/(n-2) = 1,28/23 = 0,0557
F = VE/(VNE/n-2) = 8,92961/0,0557=160,254
p-valor = P(F1,23 >160,254) ≈ 0
Calcular R-cuadrado, r, error estándar de la regresión.
R-cuadrado = VE/VT = 8,92961/10,2112 = 0,87449
r = √R-cuadrado = 0,935
SR = √0,0557 = 0,236
Contraste de la regresión (los dos) (0.5)
28
En el contraste de la pendiente el valor del estadístico es 12,66 y el p-valor 0 por lo que
rechazamos la hipótesis nula de que la pendiente es 0 y por tanto existe relación lineal.
El contraste F tenemos un valor del estadístico de 160,254 y un p-valor 0 por lo que
rechazamos la hipótesis nula de que no hay relación entre las variables
Intervalo de confianza para la pendiente al 95% (0.25)
bˆ ± t 0, 025, 23 s b = 0,2411 ± 2,069 x 0,019 = [0,21 ; 0,28]
Ecuación de la recta de regresión.(0.25)
salidaCD = 0,130875 +0,241149 x velocidadv
Comentar los siguientes gráficos y tablas del análisis de los residuos (0.5)
Normal Probability Plot
4,7
percentage
Studentized residual
Residual Plot
2,7
0,7
-1,3
-3,3
0
5
10
15
20
99,9
99
95
80
50
20
5
1
0,1
-0,6
25
-0,4
row number
-0,2
0
0,2
0,4
0,4
0,7
RESIDUALS
Box-and-Whisker Plot
Histogram
frequency
10
-0,6
-0,4
-0,2
0
RESIDUALS
0,2
0,4
8
6
4
2
0
-0,8
-0,5
-0,2
0,1
RESIDUALS
En el plot de los residuos no se aprecia ninguna pauta que nos haga pensar que no son aleatorios.
En el plot Probabilístico normal no parece muy claro que los residuos estén alineados. Haría falta
comprobar la normalidad por otros medios. En el diagrama de cajas se aprecia una asimetría
bastante marcada a la izquierda, lo mismo en el histograma. Por lo que faltaría comprobar que los
residuos son normales mediante el contraste chi cuadrado.
29
6.- (0.5)
Con ayuda de las tablas calcula
P( 2,06 < F10,15 < 3,8) = P( F10,15 < 3,8) - P( F10,15 < 2,06) =
P( F10,15 > 2,06) - P( F10,15 > 3,8) = 0,1 – 0,01 = 0,09
P( 0,263 < F15,10 < 0,485) = P( F15,10 < 0,485) - P(F15,10 < 0,263) =
P( F10,15 >1/0,485) - P(F10,15 >1/ 0,263) = P( F10,15 >2,06) - P(F10,15 >3,8) = 0,09
P( 1,325 < T20 < 2,845) = P(T20 < 2,845)- P(T20 < 1,325) = P(T20 > 1,325) - P(T20 > 2,845)
= 0,1-0,005 = 0,095
P(Z < x ) = 0,147 x es negativo P(Z <- x ) = 0,853
P( χ215 < y ) = 0,5
–x = 1,05 x = -1,05
y = 14,34
P(T20 < z) = 0,025 z es negativo P(T20 > -z) = 0,025 -z = 2,086 z =- 2,086
7.- (0.75)
La irregularidad del corte de productos de papel depende del grado de uso de las cuchillas.
Si las cuchillas son nuevas el 1% de los productos presentan un corte irregular; si las cuchillas
tienen un uso medio, el 3% de los cortes presentan irregularidades; si las cuchillas están
desgastadas, el 10% de los cortes son defectuosos. Si se conoce que de las cuchillas utilizadas en el
proceso de corte, el 10% son nuevas y el 60% tienen un uso medio.
Calcular la proporción de productos con cortes irregulares.
Sea N el suceso, cuchilla nueva; M, cuchilla de uso medio y D, cuchilla desgastada.
Sea I el suceso el corte es irregular.
Por los datos del problema P(N) = 0,1 P(M) = 0,6 P(D) = 0,3 P(I/N) = 0,01 P(I/M) =
0,03 P(I/D) = 0,1; aplicando la fórmula de la probabilidad total
P(I) = P(I/N) P(N) + P(I/M) P(M) + P(I/D) P(D) = 10-3 + 18x10-3 + 3x10-2 = 49x10-3
Proporción de productos con cortes irregulares 4,9 %
8.El peso de una zapatilla deportiva tiene una media de 250 g. y una desviación estándar de
5g.(0.75)
Acotar la probabilidad de que el peso esté comprendido entre 235 y 265 g.
Llamamos X a la variable peso de la zapatilla
P ( 235 <X < 265) = P( 235-250 <X-250 < 265-250) = P( -15 <X-μ < 15) = P(|X-μ| < 3x5) = P(|Xμ| < 3σ) ≥ 1- (1/9) =8/9 = 0,88
Se toma una muestra de tamaño 100. Aproximar la probabilidad de que el número de
zapatillas cuyo peso no está comprendido entre los valores anteriores sea menor que10. Tomar
como valor de p la cota calculada anteriormente.
P(X ≤ 235) + P(X ≥ 265) ≤ 0,12
El número de zapatillas con peso fuera del intervalo anterior sigue una distribución B(100; 0,12).
Sea Y esta variable E (Y) = 12 var (Y) = 10,56
var(Y ) = 3,25 . Aproximamos por una normal
P (Y < 10) = P (
Y _ 12 10 − 12
<
) = P ( Z < −0,85) = 1 − P ( Z < 0,85) = 0,198
3,25
3,25
30
Examen de Estadística: Segundo de Ingeniería Química. 6 de setiembre de 2007
Nombre
Apellidos
Los datos siguientes muestran el índice de refracción y la densidad de 12 trozos de cristal
Índice de refracción
densidad
1,514
2,480
1,515
2,482
1,516
2,481
1,517
2,490
1,518
2,483
1,520
2,505
1,516
2,484
1,517
2,486
1,518
2,495
1,519
2,498
1,522
2,511
1,525
2,520
1.- Calcular el valor de los estadísticos habituales para la variable índice de refracción.
Media, varianza, desviación estándar, máximo, mínimo, rango, mediana, cuartiles y rango
intercuartílico. (0.5)
2.- (1)
Tabla de distribución de frecuencias y dibujar un diagrama de tallo-hojas, un histograma y
un diagrama de cajas para ambas variables
Comentar gráficos obtenidos, simetría, datos atípicos, normalidad.
Contrastar la normalidad de la variable índice de refracción
3.- (0.75)
Calcula un intervalo de confianza para la media del índice de refracción al 95%.
Calcula el tamaño muestral necesario para estimar la media con un error de 0,05.
4.- (0.75)
Realiza el siguiente contraste: Región crítica, p-valor y resultado del contraste.
H0: μ = 1,5 H1: μ >1,5
Calcula la potencia en el punto 1,4
31
5.-
De las siguientes tablas del análisis de regresión Rellenar huecos (0.5)
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: densidad
Independent variable: indicerefra
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
-3,68673
-6,2112
0,0001
Slope
4,07069
10,4111
0,0000
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares Df Mean Square F-Ratio P-Value
----------------------------------------------------------------------------Model
0,00173852 1
0,00173852
0,0000
Residual
10
----------------------------------------------------------------------------Total (Corr.)
0,00189892
Correlation Coefficient =
R-squared =
Standard Error of Est. =
Contraste de la regresión (los dos) (0.5)
Intervalo de confianza para la pendiente al 95% (0.25)
Ecuación de la recta de regresión.(0.25)
Comentar los siguientes gráficos y tablas del análisis de los residuos (0.5)
32
Normal Probability Plot
4,1
percentage
Studentized residual
Residual Plot
2,1
0,1
-1,9
-3,9
0
2
4
6
8
10
99,9
99
95
80
50
20
5
1
0,1
-10
12
-7
-4
-1
2
RESIDUALS
row number
5
(X 0,001)
Histogram
Box-and-Whisker Plot
frequency
8
6
4
2
0
-10
-7
-4
-1
RESIDUALS
2
5
(X 0,001)
-11
-7
-3
1
RESIDUALS
Goodness-of-Fit Tests for RESIDUALS
Chi-Square Test
Lower
Upper
Observed
Expected
Limit
Limit
Frequency
Frequency
at or below
-0,00321376
2
2,40
-0,00321376 -0,000967417
2
2,40
-0,000967417 0,000967419
1
2,40
0,000967419 0,00321376
5
2,40
above
0,00321376
2
2,40
Chi-Square = 3,83342 with 2 d.f.
P-Value = 0,14709
5
(X 0,001)
Chi-Square
0,07
0,07
0,82
2,82
0,07
33
6.- (0.5) Con ayuda de las tablas calcula
P( 2,54 < F10,15 < 3,8)
P( 4,56 < F15,10 < 2,24)
P( 1,77 < T13 < 3,85)
P(Z < x ) = 0,95
P( χ215 < y ) = 0,05
P(T30 < z) = 0,25
7.-
(0.75) La irregularidad del corte de productos de papel depende del grado de uso de las
cuchillas. Si las cuchillas son nuevas el 0,5% de los productos presentan un corte irregular;
si las cuchillas tienen un uso medio, el 5% de los cortes presentan irregularidades; si las
cuchillas están desgastadas, el 20% de los cortes son defectuosos. Si se conoce que de las
cuchillas utilizadas en el proceso de corte, el 10% son nuevas y el 60% tienen un uso medio.
Calcular la proporción de productos con cortes irregulares.
8.-
El peso de una zapatilla deportiva tiene una media de 220 g. y una desviación estándar de
10g.(0.75)
Acotar la probabilidad de que el peso esté comprendido entre 205 y 235 g.
Se toma una muestra de tamaño 100. Aproximar la probabilidad de que el número de
zapatillas cuyo peso no está comprendido entre los valores anteriores sea menor que10.
Tomar como valor de p la cota calculada anteriormente.
34
Examen de prácticas: Estadística. Segundo de Ingeniería Química
6 de setiembre de 2007
1.- Distribución binomial: n = 150 p = 0.01
Media =
Mediana =
primer cuartil =
tercer cuartil =
Percentil 1 =
percentil 5 =
percentil 95 =
percentil 99 =
Simular 100 valores de una distribución binomial con n = 150 p=0.01
Rellenar el siguiente cuadro para las clases 3 y 6
Comentar el diagrama de cajas observado
-----------------------------------------------------------------------Relative
Class
Value
Frequency Frequency
Probabilidad
F. distribucion
-----------------------------------------------------------------------1
0
2
1
3
2
4
3
5
4
6
5
Media =
Desviación estándar=
Media poblacional=
Desviación est.pob.=
2.- Datos correspondientes a la variable venir a clase
Realiza una tabulación cruzada de esta variable con el sexo
Estimador de la proporción de chicas que vienen andando ---------------Estimador de la proporción de chicos que vienen andando ---------------Intervalos de confianza bilaterales para la diferencia de proporciones α = 0,01; 0,05; 0,1
Nivel de confianza
Intervalo
Tamaños muestrales
90 %
95 %
99 %
Tamaños muestrales necesarios para cometer un error de 0,1 para los mismosα.
Contrastar la hipótesis de que las proporciones son iguales
Región crítica
p-valor =
Z0 =
Resultado
Tamaños muestrales para detectar una diferencia de proporciones de 0,2 con una potencia de 0,9 --3.- Trabajar con la variable peso en el grupo de mujeres:
Estimador de la media
Estimador de la desviación estándar
Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1
confianza Para la media
Para la desviación estándar
Superior
inferior
Superior
inferior
90%
95 %
99 %
35
Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota
superior y los niveles de significación anteriores
confianza Error
90%
95 %
99 %
Explicar los resultados:
4.- Trabajar con la variable peso
Contrastar la hipótesis de que las varianzas son iguales en la población de hombres y mujeres.
Región crítica
p-valor =
f20 =
Resultado:
Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 2
5.- Trabajar con las variables altura y peso en hombres
El contraste de regresión tiene un p valor de --- por tanto -- rechazamos la hipótesis nula y -admitimos que existe relación lineal entre las variables.
El contraste para la ordenada en el origen tiene un p-valor de --- por tanto -- rechazamos la
hipótesis nula y -- admitimos que ésta es distinta de 0.
Región crítica para este contraste ………………………………
El contraste F de regresión tiene un p valor de --- por tanto -- rechazamos la hipótesis nula y
--- admitimos que existe relación lineal entre las variables.
Región crítica para este contraste…………………………..
El ----- de la variabilidad de los datos queda recogida por el modelo.
La relación lineal -- recoge la dependencia entre variables
VE =
VNE =
Error estándar de la regresión =
36
Control 1: Segundo de Ingeniería Química
31 de octubre de 2007
Apellidos
Nombre
Entregar con el examen
1.- Un biólogo ha tomado una muestra de tortugas y ha medido su longitud obteniendo el
siguiente diagrama de tallo-hojas
longitud: 1|2 representa 12,0
2 9|34
3 9|6
7 10|1234
9 10|67
12 11|234
12 11|6779
8 12|001
5 12|578
2 13|1
1 13|5
Se pide
a) Tamaño muestral
meda
cuartil 1
mínimo
máximo
b) Calcular los percentiles
5
15
media
cuartil 3
25
50
desviación estándar
rango intercuartílico
75
mediana
85
95
c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de la
longitud y comentar los gráficos
2.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una
desviación estándar muestral de 1.25.
c. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5?
d. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5?
37
Control 2: 2º curso de Ingeniería Química
19 de diciembre de 2007
1.- La siguiente sentencia fue mantenida por un “experto” en estadística. “Si se extrajera
una muestra de tamaño 64 de una población normal con media µ, se podría asegurar con una
confianza del 95% que µ estaría dentro del intervalo X ± 1,96s / 8 ”. ¿Es correcta esta afirmación?
2.- 20 estudiantes de Ingeniería Química midieron el punto de licuación del plomo. La
media y la desviación típica muestrales fueron 330,2ºC y 15,4ºC.
Construir un intervalo de confianza para el punto de licuación del plomo con una confianza
del 95% y del 99%.
Calcular el error cometido en ambos casos.
Determinar el tamaño muestral necesario para cometer un error de 5ºC en ambos casos
3.- Define:
Variable aleatoria:
Función de densidad
Función de probabilidad
Estadístico
Estimador
4:- En la siguiente función de densidad de una distribución normal en cada trozo de la
gráfica pon el valor del área de la región comprendida entre la gráfica y el eje de las x
función de densidad de la normal (0,1)
densidad
0,4
0,3
0,2
0,1
0
-4
-3
-2
-1
0
1
2
3
4
x
38
Examen de estadística: Prácticas 11 de febrero de 2008
1.- Simula 100 valores de una distribución N (3,2) Nómbrala X (0.5p)
Media = 3
Mediana = 3
primer cuartil = 1,65
Percentil 1 = -1,65
percentil 5 = -0,29
tercer cuartil = 4,35
percentil 95 = 6,29 percentil 99 =7,65
Media muestral = 3,14
Mediana muestral = 3,32
primer cuartil muestral = 1,73
Tercer cuartil muestral=4,49 Percentil 1 muestral =-1,78 percentil 5 muestral = -0,30
Percentil 95 muestral =6,58 percentil 99 muestral = 7,35
Rellenar el siguiente cuadro para las clases 3 y 6
Comentar el diagrama de cajas observado
-------------------------------------------------------------------------------Límite
Límite
Frecuencia
Probabilidad
Clase
Inferior Superior
Marca
Frecuencia Relativa
-------------------------------------------------------------------------------Menor o igual
-3.0
2
-3, 0
-1,0
-2
3
-1,0
1,0
0 -------8----------0,08------------0,136
4
1,0
3,0
2
5
3,0
5,0
4
6
5,0
7,0
6 -------13---------0,13------------0,136
7
7,0
9,0
8
Mayor
9,0
-------------------------------------------------------------------------------Media =
3,14
Desviación estándar= 1,98 Media poblacional= 3
Desviación estándar pob.= 2
2.- Trabajar con la variable simulada X: (0.5p)
Estimador de la media 3,14
Estimador de la desviación estándar 1,98
Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1
Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota
superior y los niveles de significación anteriores
confianza
90%
95 %
99 %
confianza
90%
95 %
99 %
Para la media
Superior
3,39
3,47
3,60
Para la desviación estándar
Superior
inferior
inferior
2,88
2,81
2,67
Error
0,5
2,17
2,24
2,36
0,4
28
46
90
1,81
1,77
1,69
0,3
43
70
139
75
123
244
Continúa a la vuelta
39
3.- Contrasta la normalidad de la variable simulada X (0.5p)
Nº de clases 8
Valor chi-cuadrado 3,36
Grados de libertad 5
p-valor 0,64
Conclusión Aceptamos normalidad de los datos
4.- Simular 80 valores de una N (3.1 , 2) variable Y (0.5p)
Contrastar la hipótesis de que las varianzas de las variables X e Y son iguales.
p-valor = 0,38
F0 = 1,21
Región crítica {F0>f99,790,025 }∪{F0<f9979,0,975}
{S12/S22>1,531 }∪{S12/S22<0,66}
Resultado: Acepto igualdad de varianzas
Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 1,5: 250, 200
Intervalo de confianza para la diferencia de medias al 95% 0,045±0,562 (-0,52, 0,61)
Asumiendo varianzas iguales
5:- Trabaja con la variable deporte (0.5p)
Haz una tabulación cruzada de esta variable con la variable sexo y responde
Proporción de chicos que no realizan ningún deporte. 15,38%
Proporción de chicas que juegan al baloncesto 9,52%
Proporción de chicos que hacen natación 7,69%
De los que no hacen ningún deporte, proporción de chicos.21,05%
De los que juegan al frontenis, proporción de chicas 33,33%
40
Examen de estadística: 2º curso de ingeniería química.
11 de febrero de 2008
Nombre
Apellidos
1.- Los siguientes datos corresponden al número de trabajadores en la industria en la
Comunidad de Castilla y León durante el periodo 1993-2006 (1p)
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
133.96 133.74 135.34 135.09 132.20 138.49 140.59 141.00 140.56 144.36 146.58 147.4 151.62 151.85
0
1
7
1
5
3
3
5
1
1
0
47
0
9
Calcular
Media 140.918 varianza 43.671.485 máximo151.859 mínimo132.205
rango 19.654
Mediana 140.577 meda 5744,5
Primer cuartil 135.091 tercer cuartil 146.580
rango intercuartilico 11.489
percentil10 133.741
Dibujar un diagrama de cajas
Q1= 135.091
Q2 = 140.577
Q3 = 146.580
Media 140.919
LI = min. = 132.205
LS = Máx. = 152.859
13
13,4
13,8
14,2
14,6
15
15,4
(X 10000)
2.- Un fabricante de pilas alcalinas sabe que la duración de las mismas se distribuye según
una ley normal de varianza 3600 horas. Para estimar la media toma una muestra de su producción y
un nivel de confianza del 95% obteniendo el intervalo (372,6 392,2).(1p)
Calcular la media estimada y el tamaño muestral utilizado.
El intervalo es X ± σ Z 0,o 25 La media estimada es el centro del intervalo X = 382,4 y σ Z 0,o 25 = 9,8
n
n
z0,025 = 1,96 σ =60 y n = 144
Calcular el error de estimación para un tamaño muestral de 200 pilas y una confianza del
90%.
El error es
X ±
σ
Z 0.05 z0,05 = 1,64 E = 6,96
n
3.- Las cuasivarianzas muestrales de dos muestras de tamaños 51 y 101 de dos poblaciones
normales independientes son 70,2 y 76,8. (1.5p)
Demostrar que puede admitirse que las varianzas poblacionales son iguales al nivel 10%
H0: σ12 = σ22 El estadístico F = S12 Bajo H0 se distribuye como una F50,100
0
S 22
f50,100, 0,95 = 0,66
H1: σ12 ≠σ22 f50,100,0,05 = 1,48 f100,50, 0,05 = 1,52
RA 0,66< F0 <1,48 f0 = 0,91 por tanto acepto H0
Calcular la potencia de la prueba en el punto 1,5
P(0,66< F0 <1,48/σ12/σ22=1,5) = P(0,66< S12 <1,48/(σ12/σ22)=1,5) =
S 22
P(0,66 (σ22/σ12) <
S /σ
2
1
2
1
S /σ
2
2
2
2
<1,48 (σ22/σ12) /(σ12/σ22)=1,5) = P(0,44< F50,100 < 0,98)
P(1,5) = 1 - P(0,44< F50,100 < 0,98)
41
4.-Se ha realizado un análisis de regresión tomando como variable dependiente millas por
galón y variable independiente caballos de potencia del vehículo. Se ha obtenido(1.5p)
Dependent variable: mpg
Independent variable: horsepower
Parameter
Intercept
Slope
Standard
Error
1,403
0,0152283
Estimate
49,8706
-0,237707
Source
Model
Residual
Total (Corr.)
T
Statistic
35,5426
-15,61
Analysis of Variance
Sum of Squares
Df Mean Square
5030,95
1
5030,95
148
20,6475
8086,77
149
F-Ratio
243,66
P-Value
0,0000
0,0000
P-Value
0,0000
Correlation Coefficient = -0,788746
R-squared = 0,622
Standard Error of Est. = 4,54
Rellenar los huecos
Ecuación de la recta de regresión
Mpg = 49,87 – 0,24 x horsepower
Resultado del contraste F
VE / 1
H0: Modelo inadecuado
F=
→ F1,148 f0 = 243,66 p-valor 0
VNE / 148
H1: Modelo adecuado
Rechazamos y el modelo es adecuado
Resultado del contraste de la pendiente
βˆ1
H : β1 = 0
t = -15,61 p-valor 0
T=
0
sβ
→ T148
0
H1: β1 ≠ 0
Rechazamos H0 y admitimos que existe relación lineal
Intervalo de confianza al 95% para la pendiente
-0,24 ± 1,98x0,0152 0,24 ± 0,03
βˆ1 ± t 0, 025,148 s β
(-0,27, -0,21)
5.- Una empresa compra cierto tipo de pieza que es suministrada por 3 proveedores: el 45%
de las piezas son compradas al primer proveedor resultando defectuoso el 1%, el segundo
proveedor suministra 30% de las piezas y de ellas es defectuoso el 2%. Las restantes piezas
provienen del tercer proveedor, siendo defectuoso el 3% de las mismas.
En un control de recepción de artículos se selecciona una pieza al azar y es defectuosa. Calcular la
probabilidad de que la haya suministrado el segundo proveedor.(1p)
P(1) = 0,45 P(2) = 0,3 P(3) = 0,25 P(D/1)= 0,01 P(D/2)= 0,02 P(D/3)= 0,03
P(2/D)= P(D/2)xP(2)/P(D) = 0.33
P(D) = P(D/1)xP(1)+ P(D/2)xP(2) +P(D/3)xP(3) =0,018
6.- Resuelve las ecuaciones (0.5p)
P(Z < x ) = 0,1587
x = -1
P(T11< y) = 0,85
y = 1,088
z= 13,24
P(χ221 < z) = 0.1
P(F30,19 <t) = 0,95
t= 2,07
P(Z>1) = 0,1587 =P(Z< -1)
P(T11<1,088) = 0,15 P(T11<1,088) = 0,85
P(χ221 <13,24) = 0,9 P(χ221 <13,24) = 0,1
P(F30,19 > 2,07) = 0,05 P(F30,19 < 2,07) = 0,95
42
7.- Elige la respuesta correcta (1p)
1. Sean X1 y X2 dos variables aleatorias independientes B(5, 0.4). La varianza de Y = (X1 + X2)es
(a) 1.2
(b) 0.6
(c) Ninguna de las otras dos
2. Si dos sucesos son incompatibles, son independientes
(a) Si, claro.
(b) No
(c) Si la intersección es el conjunto vacío.
3. Si lanzamos 3 monedas al aire, ¿cual es la probabilidad de que las 3 sean caras o las 3 sean
cruces?
(a) 1/4
(b) 1/8
(c) 1/2
4. Para estimar la media de una población normal, la media muestral es
(a) Un estimador insesgado pero no consistente.
(b) Un estimador insesgado y consistente.
(c) Un estimador insesgado, consistente y con error cuadrático medio nulo.
5. Un intervalo de confianza al 90% para estimar θ es
(a) Un intervalo que contiene al 90% de los posibles valores de θ.
(b) Un intervalo aleatorio que contiene a θ para el 90% de las muestras aleatorias
extraídas de la población.
6. En una muestra aleatoria simple
(a) las observaciones son independientes
(b) todos los elementos de la población son iguales
(c) los valores de una muestra particular son variables aleatorias
7. La distribución en el muestreo de la media muestral
(a) es una distribución normal siempre
(b) es una distribución normal si las observaciones son independientes
(c) de forma general, sigue aproximadamente una distribución normal
8. La probabilidad de error de tipo II de un contraste de hipótesis
(a) es igual a 1-P(error tipo I)
(b) siempre es mayor o igual que la probabilidad de error de tipo I
(c) es 1-Potencia del test
9. El intervalo de confianza para la desviación típica de una población normal
(a) no es simétrico porque los datos son siempre mayores o iguales que cero
(b) no es simétrico porque la distribución normal es mayor o igual que cero
(c) no es simétrico porque la distribución χ2 es no negativa
10. Si aumentamos el valor del nivel de confianza, la longitud del intervalo de confianza seria:
(a) mayor
(b) menor
(c) podría ser mayor o menor, dependiendo del valor desconocido del parámetro
43
Examen de estadística: Prácticas 9 de septiembre de 2008
Nombre
Apellidos
1.- Simula 100 valores de una distribución χ295 Nómbrala X (0.5p)
Media =
Percentil 1 =
Mediana =
primer cuartil =
tercer cuartil =
percentil 5 =
percentil 95 =
percentil 99 =
Media muestral =
Mediana muestral =
primer cuartil muestral =
Tercer cuartil muestral =
Percentil 1 muestral =
percentil 5 muestral =
Percentil 95 muestral =
percentil 99 muestral =
Rellenar el siguiente cuadro para las clases 3 y 6
Comentar el diagrama de cajas observado
-------------------------------------------------------------------------------Límite
Límite
Frecuencia
Probabilidad
Clase
Inferior Superior
Marca
Frecuencia Relativa
-------------------------------------------------------------------------------Menor o igual
59,0
1
59,0
69,0
2
69,0
79,0
3
79,0
89,0
4
89,0
99,0
5
99,0
109,0
6
109,0
119,0
7
119,0
129,0
Mayor 129,0
--------------------------------------------------------------------------------
Media =
Media poblacional=
Desviación estándar=
Desviación estándar pob.=
2.- Trabajar con la variable simulada X: (0.5p)
Estimador de la media
Estimador de la desviación estándar
Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1
Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota
superior y los niveles de significación anteriores
Para la desviación estándar
confianza Para la media
Superior
inferior
Superior
inferior
90%
95 %
99 %
confianza
Error
3
2
90%
95 %
99 %
44
3.- Contrasta la normalidad de la variable simulada X (0.5p)
Nº de clases
Valor chi-cuadrado
Grados de libertad
p-valor
Conclusión
4.- Simular 150 valores de una χ292 Variable Y (0.5p)
Contrastar la hipótesis de que las varianzas de las variables X e Y son iguales.
Región crítica
p-valor =
F0 =
Resultado:
Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 1,5:
Intervalo de confianza para la diferencia de medias al 95%
5:- Trabaja con la variable vives (0.5p)
Haz una tabulación cruzada de esta variable con la variable sexo y responde
Proporción de chicos que vive en Valladolid.
Proporción de chicas que viven en un pueblo
Proporción de chicos que viven en urbanización
De los que viven en Valladolid, proporción de chicos.
De los que viven en un pueblo, proporción de chicas
45
Examen de estadística: 2º curso de ingeniería química.
9 de septiembre de 2008
Nombre
Apellidos
1.- Los siguientes datos representan los días de baja por enfermedad en un grupo de 50
trabajadores (1p)
2
1
2
7
Media
Meda
0
2
0
5
5
5
8
4
3
3
4
3
1
0
0
0
0
2
7
5
1
1
7
3
1
0
5
1
4
0
0
2
4
4
1
5
8
0
- Calcular
varianza
máximo
mínimo
Primer cuartil
tercer cuartil
rango intercuartilico
- Presentar los datos en forma de tabla de distribución de frecuencias
9
5
7
7
0
5
0
1
Mediana
percentil10
- Dibujar un diagrama de cajas y un diagrama de barras
- Calcular el número de trabajadores que han estado de baja al menos 1 día
2.- Las longitudes de un tipo de cojinete de bolas se distribuyen normalmente con una
desviación típica de 0,5 mm.(1p)
¿Qué tamaño de muestra se necesita si se pretende que el estimador de la media difiera de la
media poblacional en ±0,1 mm. con una confianza del 95%?
¿Qué error de estimación se comete para un tamaño muestral de 100 y una confianza del
99%?
46
3.- Una compañía debe decidir entre dos suministradores de lámparas. La dirección ha
decidido hacer el pedido al suministrador A, a menos que se pueda probar que la vida media de las
lámparas del suministrador B es mayor. Para ello se prueban 31 lámparas de A y 31 lámparas de B,
obteniéndose los siguientes resultados. (1.5 p)
A 121 76 88 103 96 89 100 112 105 101 92 98 87 75 111 118
121 96 93 82 105 78 84 96 103 119 85 84 90 110 105
B 127 133 87 91 81 122 115 107 109 89 82 90 81 104 109 110
85 93 90 100 122 117 109 98 94 103 107 101 99 112 106
¿Qué suministrador elegirías para un nivel de significación de 0.05?
Plantea el contraste de hipótesis correspondiente y razona la respuesta.
Calcula la región crítica y el p-valor.
Calcula la potencia si la diferencia de medias es de 10.
4.-Se ha realizado un análisis de regresión tomando como variable dependiente Ávila y
variable independiente Burgos. Se ha obtenido (1.5p)
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: avila
Independent variable: leon
Standard
T
Parameter
Estimate
Error
Statistic
Intercept
-333,414
222,269
Slope
0,317519
19,9313
Analysis of Variance
Source
Sum of Squares
Df Mean Square
Model
1,14214E8
1,14214E8
Residual
5,95138E7
207
287506,0
Total (Corr.)
Correlation Coefficient = 0,810821
R-squared =
percent
R-squared (adjusted for d.f.) = 65,5776 percent
Standard Error of Est. =
Mean absolute error = 476,173
Durbin-Watson statistic = 0,0554521 (P=0,0000)
Lag 1 residual autocorrelation = 0,97107
P-Value
0,1351
0,0000
F-Ratio
P-Value
0,0000
- Rellenar los huecos
- Ecuación de la recta de regresión
- Resultado del contraste F
- Resultado del contraste de la pendiente y de la ordenada en el origen
- Intervalo de confianza al 95% para la pendiente
47
5.- Un proceso químico utiliza un catalizador con las siguientes características (1p)
P(catalizador funcione más de 1000horas)= 0,8
P(catalizador funcione más de 2000horas)= 0,4
P(catalizador funcione más de 3000horas)= 0,1
Sabiendo que un catalizador ha estado funcionando 1000horas encontrar las probabilidades
condicionadas
P( tiempo total de funcionamiento exceda las 2000horas)
P( continúe funcionando más de 2000horas)
6.- Sea X una v.a. binomial con E(X)=6 Var(X) = 2,4 (0.5p). Calcular
P(X>2)
P(X≤9)
P(X=12)
7.- Contesta brevemente (1p)
1. Coeficiente R cuadrado
2. Hipótesis estadística
3. Estadístico
4. Región crítica
5. Nivel de significación
6. Varianza muestral
7. Función de densidad de probabilidad
8. Espacio muestral
9. Sucesos independientes
10. fórmula de Bayes
48

Documentos relacionados