1 ( − + − + − = nn S n S n S p - Estadística e Investigación Operativa
Transcripción
1 ( − + − + − = nn S n S n S p - Estadística e Investigación Operativa
Examen de Estadística: Segundo de Ingeniería Química: Primera parte 26 de enero de 2004. 1.- Se realiza un experimento para comparar las características de llenado del equipo de embotellado de dos bodegas diferentes. Para ello se eligen al azar 20 botellas de cada bodega obteniendo los resultados. Bodega 1 Bodega 2 755 751 752 753 753 756 754 757 756 755 753 753 754 754 752 756 756 753 754 755 751 753 752 753 753 755 754 754 756 755 752 755 753 750 753 756 756 756 756 756 Suponiendo normalidad e igualdad de varianzas a) Calcular un intervalo de confianza al 95% para la diferencia de medias (0.5 puntos) b) ¿Apoyan los datos la afirmación de que ambas bodegas llenan las botellas con el mismo volumen? Para responder a esta cuestión, plantear el contraste de hipótesis, calcular la región crítica al nivel 0.05 y el p-valor de la prueba. (1 punto) c) Calcular la potencia si la diferencia de medias fuera de 10cl. (0.5 puntos) d) Construir un histograma, un diagrama de tallo-hojas y un diagrama de cajas para cada una de las dos muestras e interpretar las gráficas. ¿Parece razonable la hipótesis de varianzas iguales? (1 punto) e) Contrastar la hipótesis de igualdad de varianzas (1 punto) f) Con los datos de la bodega 1 contrastar la hipótesis de normalidad es decir H0: Los datos provienen de una normal H1: Los datos no provienen de una normal Calcular el valor del estadístico χ2 y el p-valor de la prueba (1punto) Solución: a) algunas medidas muestrales bodega 1 bodega 2 n 20 20 Media 752,75 755,3 Mediana 753 756 Variance 1,56579 1,06316 Desviacion estandard 1,25132 1,0311 Mínimo 750 753 Máximo 755 757 Rango 5 4 Primer cuartil 752 754,5 Tercer cuartil 753 756 Rango intercuartilico 1,0 1,5 Intervalo de confianza para la diferencia de medias asumiendo normalidad y varianzas iguales y desconocidas ( X 1 − X 2 ) − tα 2 con S 2 , n1 + n2 − 2 p Sp 1 1 1 1 + ≤ μ1 − μ 2 ≤ ( X 1 − X 2 ) + t α + Sp ,n + n − 2 n1 n2 n1 n 2 2 ( n 1 − 1) S 12 + ( n 2 − 1) S 22 = 1,3144 = n1 + n 2 − 2 1 2 Sp= 1,1465 t0,025,40 = 2,021 t0,025,30 = 2,042 aproximo por el más próximo, la diferencia no es muy grande t0.025,38 ≈ t0,025,40 = 2,021 1 Intervalo : -2,55 +/- 0,7326 [-3,283,-1,817] b) Test para comparar las medias Ho: μ1 = μ2 H1: μ1 ≠ μ2 El estadístico usado para el contraste es T0 = -3,283 ≤ μ1 - μ2 ≤-1,817 X1 − X 2 sp 1 1 + n1 n 2 Región crítica : |T0|>tn1+n2-2,α/2 |T0|> 2,021 Para nuestros datos t0 = -7,0334 que cae dentro de la región crítica, es decir rechazamos la hipótesis de igualdad de medias. P-valor < 0,001 ya que éste viene expresado P(|T38| > 7,0334) = 2 x P(T38 > 7,0334) ≈ 2 x P(T40 > 7,0334) < 2 x P(T40 > 3,551) = 2 x 0,0005 = 0,001 Este p-valor tan pequeño nos asegura de nuevo que los datos no están de acuerdo con la hipòtesis nula de igualdad en el volumen de llenado. Si miramos al intervalo de confianza calculado para la diferencia de medias, vemos que el 0 no está en este intervalo, lo que es otro punto que refuerza el rechazo de la hipótesis nula. c) Potencia en el punto 10 P(10) = P(rechazar H0 / μ1-μ2 = 10) = P(|T0| >2,021/ μ1-μ2 = 10) = X1 − X 2 X1 − X 2 P( > 2,021 / μ1-μ2 = 10) + P( < -2,021 / μ1-μ2 = 10) = 1 1 1 1 sp sp + + n1 n2 n1 n2 P( X 1 − X 2 − 10 10 / μ1-μ2 = 10) + > 2,021 0,3625 0,3625 P( X 1 − X 2 − 10 10 / μ1-μ2 = 10) = P(T38 > -25,56) + P( T38 < -29,60) ≈ 1 < -2,021 0,3625 0,3625 d) Diagramas de tallo-hojas Bodega 1 Bodega2 1 750|0 1 753|0 3 751|00 5 754|0000 7 752|0000 9 755|0000 (9) 753|000000000 (10) 756|0000000000 4 754|00 1 757|0 2 755|00 Tratamos los datos como contínuos, por eso dibujamos un histograma en vez de un diagrama de barras ya que las medidas estan dadas en ml. Los cuartiles para el diagrama de cajas ya estan halladas, vamos a calcular los límites superior e inferior Bodega 1 Bodega 2 Q1 – 1,5 x RI = 752 – 1,5 = 750,5 Q1 – 1,5 x RI = 754,5 – 1,5 x 1,5 = 752,25 Q3 + 1,5 x RI = 753 + 1,5 = 754,5 Q3 + 1,5 x RI = 756 + 1,5 x 1,5 = 758,25 LI = 750,5 LS = 754,5 LI = 753 LS = 758 2 Histograma 10 8 8 frecuencia frecuencia Histograma 10 6 4 2 0 749 750 751 752 753 754 6 4 2 0 755 752 753 bodega 1 751 752 753 755 756 757 diagrama de cajas diagrama de cajas 750 754 bodega 2 754 753 755 754 755 756 757 755 757 bodega 2 bodega 1 bodega 1 diagrama de cajas frecuencia 10 bodega 1 bodega 2 6 2 2 6 10 750 752 754 756 758 749 751 753 bodega 2 Mirando el histograma, los datos de la bodega 1 parecen más dispersos, tienen mayor varianza y mayor rango; pero si nos fijamos en el diagrama de cajas, el rango de la bodega 1 es menor ya que la caja es bastante más estrecha y presenta 3 datos extremos que quizá sean los que aumentan su varianza. Ambas variables presentan asimetría a la izquierda, más marcada en la bodega 2. Por tanto a la vista de los gráficos la hipótesis de varianzas iguales debería ser contrastada. e) Comparación de las Varianzas H0: σ1 = σ2 H1: σ1 ≠ σ2 Se utiliza el estadístico S12 que bajo H0 tiene una distribución F (n1-1,n2-1) F0 = 2 S2 Región crítica {F0>fn1-1,n2-1,α/2 }∪{F0<fn1-1,n2-1,1-α/2} f0,025, 20, 19 = 2,51 f0,025, 15, 19 = 2,62 f0,975, 19, 20 = 1/2,51= 0,398 f0,975, 19, 15 = 1/2,62=0,38 Región crítica {F0 > 2,51 }∪{F0 < 0,38} Para nuestros datos f0 = 1,47 que no cae dentro de la región crítica, es decir acepto la hipótesis nula de igualdad de varianzas. f) Para hacer el contraste necesitamos una tabla de distribución de frecuencias con la frecuencia observada y la frecuencia esperada 3 Si suponemos que el volumen de llenado sigue una distribución normal, estimamos su media y su desviación típica por los valores muestrales, es decir V→ N( 752,75 , 1,2196) P(X ≤ 750) = P(Z ≤ (750-752,75)/1,2196) = Φ(-2,25) = 1–0,987 = 0,013 0,013 x 20 = 0,26 P(750 < X ≤ 751)=Φ(-1,43)-Φ(-2,25)=0,077–0,013=0,064 0,064 x 20 = 1,28 P(751 < X ≤ 752)=Φ(-0,61)-Φ(-1,43)=0,271–0,077=0,194 0,194 x 20 = 3,98 P(752 < X ≤ 753)=Φ(0,20)-Φ(-0,61)=0,579–0,271=0,308 0,308 x 20 = 6,16 P(753 < X ≤ 754)=Φ(1,02)-Φ(0,20)=0,846–0,579=0,267 0,267 x 20 = 5,34 P(X > 754)=1-Φ(1,02)=1–0,846=0,154 0,154 x 20 = 3,08 Clase Oi Ei (Oi – Ei)2/Ei X≤170 1 0,26 2,106 750 < X ≤ 751 2 1,28 0,405 751 < X ≤ 752 4 3,98 0,0001 752 < X ≤ 753 9 6,16 1,309 753 < X ≤ 754 2 5,34 2,089 X > 754 2 3,08 0,378 6,287 χ20 sigue una distribucion chi- cuadrado con 3 (6-2-1) grados de libertad. x20 = 6,287 P-valor P(χ23 > 6,287) 0,05 < p-valor < 0,1 Ya que de las tablas obtenemos P(χ23 > 7,81) = 0,05 P(χ23 > 6,25) = 0,1 Aceptariamos la hipótesis al nivel 0,05, aunque el valor del estadístico χ20 está próximo a la región de rechazo. 2.- Resolver las ecuaciones (0.5 puntos) a) P(χ25 ≤ x) = 0,95 b) P(12,549 ≤ χ210 ≤ y) = 0,20 c) P(T15 ≤ z) = 0,01 d) P(T8 > t) = 0.9 e) P( 1,476 ≤ T5 ≤ u) = 0,075 f) P( F10,20 ≤ 2,42) = v Solución a) P(χ25≤ x) = 0,95 P(χ25 > x) = 0,05 x = 11,07 b) P(12,549 ≤ χ210 ≤ y) = P(χ210 ≤ y) - P(χ210 ≤ 12,549) = 0,20 P(χ210 >15,99) = 0,1 P(χ210 > 9,34 ) =0,5 0,5 < P(χ210 ≤ 12,549) < 0,9 2 2 0,7 < P(χ 10 ≤ y) < 1 P(χ 10 > y) < 0,3 y > 15,99 c) P(T15 ≤ z) = 0,01 z ha de ser negativo P(T15 > -z ) = 0,01 -z = 2,602 z = -2,602 d) P(T8 > t) = 0.9 t ha de ser negativo P(T8 > -t ) = 0,1 -t = 1,397 t = -1,398 e) P( 1,476 ≤ T5 ≤ u) = P(T5 ≤ u) - P(T5 ≤ 1,476) = 0,075 P(T5 > 1,476) = 0,1 P(T5 ≤ u) = 0,975 P(T5 > u) =0,025 u= 2,57 f) P( F10,20 ≤ 2,42) P( F10,20 > 2,77) = 0,025 P( F10,20 > 2,35) = 0,05 0,025 < P( F10,20 > 2,42) < 0,05 0,95 ≤ P( F10,20 ≤ 2,42) ≤ 0,975 3.- Contesta lo más brevemente posible a las siguientes preguntas (1punto) a) Define variable aleatoria discreta b) Da la fórmula de la probabilidad total c) Teorema de Bayes d) Diferencia entre histograma y diagrama de barras y sus usos e) Teorema Central del Límite (aproximación a la normal) 4 Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 26 de enero de 2004. 1.- Dado que no todos los pasajeros de una aerolínea abordan el vuelo para el que han reservado, la compañía aérea vende 125 billetes para un vuelo de 100 pasajeros. Si la probabilidad de que un pasajero no aborde el vuelo es de 0,05 y los pasajeros se comportan de forma independiente unos de otros. Calcular o aproximar (1punto) a) P (todos los pasajeros aborden el vuelo) b) P (un vuelo parta vacío) c) P (100 < nº de pasajeros ≤ 125) d) P ( nº de pasajeros ≤ 100) Solución: Sea X el nº de pasajeros que abordan el vuelo. X → B (125, 0,95) - P(X = 125) = (0,95)125 = 0,00164 - P(X = 0) = (0,05)125 = 2,35. 10-63 ≈ 0 - X puede ser aproximada por una distribución normal de media 125x0,95 = 118,75 y varianza 125x0,95x0,05 = 5,9375; desviación estándar 2,437. 125 − 118,75 ⎤ ⎡100 − 118,75 P(100 < X ≤ 125) ≈ P ⎢ <Z≤ = Φ(2,5649)-Φ(-7,695) ≈ 2,437 ⎥⎦ ⎣ 2,437 0,99484 - P(X ≤ 100) ≈ P(Z ≤ -7,695) ≈ 0. 2.- Se lanza un dado n veces. Sea p̂ = (1/n) x( nº de veces que ha salido el 1). (0.75 puntos) a) Calcula la distribución de p̂ . ⎛ ⎞ 1 b) ¿Cuantas veces debemos lanzar el dado para P⎜⎜ pˆ − < 0,05 ⎟⎟ > 0.95 ? 6 ⎝ ⎠ Solución: - p̂ es el estimador de una proporción y su distribución puede ser aproximada por una normal de media 1/6 y varianza nx(1/6)x(5/6) ⎞ ⎞ ⎞ ⎛ ⎛ ⎛ 1 ⎟ ⎟ ⎟ ⎜ pˆ − ⎜ ⎜ ⎛ ⎞ 1 0,05 ⎟ 0,05 ⎟ 0,05 ⎟ 6 ⎜ ⎜ ⎜ - P⎜⎜ p̂ − < 0,05 ⎟⎟ = P < = P Z < =2Φ -1 > 0,95. ⎜ ⎜ ⎜ 5 ⎟ 6 5 5 ⎟ 5 ⎟ ⎝ ⎠ ⎟ ⎟ ⎟ ⎜ ⎜ ⎜ 36n ⎠ 36n ⎠ ⎝ 36n ⎝ ⎝ 36n ⎠ ⎞ ⎞ ⎛ ⎛ ⎟ ⎟ ⎜ ⎜ 0,05 ⎟ 0,05 ⎟ ⎜ ⎜ > 0,975 . Buscando en las tablas = 1,96 Despejando Φ ⎜ 5 ⎟ ⎜ 5 ⎟ ⎟ ⎟ ⎜ ⎜ ⎝ 36n ⎠ ⎝ 36n ⎠ Resolviendo n = 213,42 y redondeando obtenemos n = 214 3.- El espesor de la película fotoprotectora en un proceso de fabricación de semiconductores tiene una media de 10 micrómetros y una desviación estándar de 1 micrómetro. Acotar la probabilidad de que el espesor sea menor que 6 o mayor que 14. (0.75 puntos) Solución: 5 Llamemos E a la variable espesor ⎛E −μ 6−μ⎞ < P(E <6) + P(E>14) = P⎜ ⎟ + σ ⎠ ⎝ σ ⎛ E−μ ⎞ ⎛ E − μ 14 − μ ⎞ P⎜ > 4 ⎟⎟ = P ( E − μ > 4σ ) ≤1/16 = 0,0625. Para la cota > ⎟ = P⎜⎜ σ ⎠ ⎝ σ ⎝ σ ⎠ hemos utilizado la desigualdad de Chebychev con k = 4. 4.- Los clientes se encargan de evaluar los diseños preliminares de varios productos. Se sabe que de los productos con éxito en el mercado el 95% recibió buenas evaluaciones, de los productos con éxito moderado el 60% recibió buenas evaluaciones y de los productos con escaso éxito el 10% recibió buena evaluación. Además el 40% de los productos han tenido éxito, el 35% éxito moderado y el 25% baja aceptación. (1punto) a) Calcular la probabilidad de que un producto obtenga buena evaluación. b) Si un nuevo diseño de un producto recibe buena evaluación. ¿Cual es la probabilidad de que el producto alcance éxito en el mercado? Solución: Definimos los sucesos B – Recibir buena evaluación E – Producto con éxito. M – Producto con éxito moderado. F – Producto con escaso éxito. Los datos suministrados son: P(E) = 0,4 P(M) = 0,35 P(F) = 0,25 P(B/E) = 0,95 P(B/M) = 0,60 P(B/F) = 0,10 - P(B) = P(B/E) P(E) + P(B/M) P(M) + P(B/F) P(F) = 0,615 Regla de la probabilidad total - P(E/B) = P(B/E) P(E)/ P(B) = 0,618 Fórmula de Bayes. 6 Examen de Estadística Segundo de Ingeniería Química: Primera parte 13 de setiembre de 2004. 1.- Dada la siguiente tabla, que es una salida proporcionada por statgraphics. Se pide dar una explicación de toda la información suministrada por esta tabla. (0.5 punto) Goodness-of-Fit Tests for Col_9 Chi-Square Test ---------------------------------------------------------------------------Lower Upper Observed Expected Limit Limit Frequency Frequency Chi-Square ---------------------------------------------------------------------------at or below 162,167 8 8,37 0,02 162,167 167,013 11 8,37 0,82 167,013 170,636 13 8,37 2,55 170,636 173,881 2 8,38 4,85 173,881 177,125 11 8,38 0,82 177,125 180,749 8 8,37 0,02 180,749 185,594 7 8,37 0,23 above 185,594 7 8,37 0,23 ---------------------------------------------------------------------------Chi-Square = 9,53741 with 5 d.f. P-Value = 0,0894551 2.- Para controlar el volumen de llenado de una planta embotelladora se toma una muestra aleatoria de tamaño 20 obteniendose las siguientes medidas en ml 750 746 747 748 748 748 748 749 749 747 746 747 747 748 748 747 750 748 745 748 Suponiendo normalidad g) Calcular un intervalo de confianza al 95% para la media (0.5 puntos) h) ¿Apoyan los datos la afirmación de que el volumen medio de llenado es de 750 ml? Para responder a esta cuestión, plantear el contraste de hipótesis, calcular la región crítica al nivel 0.05 y el p-valor de la prueba. (1 punto) i) Calcular la potencia si el volumen medio de llenado fuera de 745ml. (0.5 puntos) j) Construir un histograma, un diagrama de tallo-hojas y un diagrama de cajas para la muestra e interpretar las gráficas. ¿Parece razonable la hipótesis de normalidad? (1 punto) k) Contrastar la hipótesis de varianza 1 frente a la alternativa <1 y calcular la potencia para la varianza 1,4 (1 punto) l) Contrastar la hipótesis de normalidad. Calcular el valor del estadístico χ2 y el p-valor de la prueba (0.5 punto) 3.- Resolver las ecuaciones (0.5 puntos) a) P(χ210 ≤ x) = 0,95 b) P(2,16 ≤ χ210 ≤ y) = 0,20 e) P( 2,015 ≤ T5 ≤ u) = 0,025 d) P(T8 > t) = 0.5 a) b) c) d) e) c) P(T15 ≤ z) = 0,9 f) P( F10,20 ≤ 1,42) = v 4.- Contesta lo más brevemente posible a las siguientes preguntas (1punto) Clasifica las variables aleatorias Da la fórmula de Bayes Probabilidad a posteriori y Teorema de Bayes Diagrama de tallo-hojas Aproximaciones de la distribución binomial 7 Examen de Estadística.Segundo de Ingeniería Química. Segunda parte 13 de setiembre de 2004. 1.- El tiempo de duración de un ensamble mecánico en una prueba de vibración tiene una distribución exponencial con media 400 horas. (1.5 punto) a) ¿ Cual es la probabilidad de que el ensamble falle en la prueba antes de 100 horas ? b) Si el ensamble lleva probandose 400 horas sin que haya fallado ¿Cuál es la probabilidad de que falle en las proximas 100 horas ? c) Si se prueban 100 ensambles ¿ Cual es la probabilidad de que falle al menos uno de ellos en menos de 100 horas? ¿Aproxima la probabilidad de que fallen 5 o menos 2.- La alineación entre la cinta mágnetica y el cabezal de un sistema de almacenamiento de datos afecta a la lectura de los mismos. Si el 10% de las operaciones de lectura se ven afectadas por una alineación oblicua, el 5% por alineación descentrada y las demás lecturas se efectúan correctamente. La probabilidad de un error de lectura por alinezción oblicua es 0,01, por alinezción descentrada 0,02 y 0,001 cuando la alineación es correcta. (1punto) a) Probabilidad de un error de lectura b) Dado que ha habido un error de lectura. Calcular la probabilidad de que este sea debido a una alineación oblícua. 3.- En una muestra de tamaño 25, se ha obtenido una media muestral de 3,5 y una desviación estándar muestral de 1.25. (1punto) a. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [1, 6]? b. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [-0,25, 7,25]? 8 Examen de Estadística: Segundo de Ingeniería Química: Primera parte 18 de febrero de 2005. 1.- Se han obtenido los siguientes datos del rendimiento de dos catalizadores Catalizador I: 91.5 94.18 92.18 95.39 91.79 89.07 94.72 89.21 Catalizador II: 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75 a) Hacer un diagrama de tallo-hojas para los datos de cada catalizador (0.5 puntos) b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 de cada catalizador y hacer algún comentario comparando los rendimientos. (0.5 puntos) c) Realizar una tabla de distribución de frecuencias y un histograma de los rendimientos de cada catalizador en la misma gráfica. (0.5 puntos) d) Hacer los diagramas de cajas de los dos rendimientos en la misma gráfica y comentar los gráficos. (0.5 puntos) e) Calcular un intervalo de confianza para el cociente de varianzas Realizar el contraste H0: σ1 = σ2 mediante el cálculo de la región crítica y el p-valor. H1: σ1#σ2 Calcular la potencia en el punto 0.5 (1 punto) f) Calcular un intervalo de confianza para la diferencia de medias. Realizar el contraste H0: μ1 = μ2 mediante el cálculo de la región crítica y el p-valor. H1: μ1< μ2 Calcular la potencia en el punto -0.5 (1 punto) Solución: Diagrama de tallo-hojas 2 2 4 4 3 3 1 Catalizador I Catalizador II 89|02 90| 91|57 92|1 93| 94|17 95|3 1 3 4 4 3 2 2 2 2 Percentiles Catalizador I 5,0% = 89,07 15,0% = 89,21 25,0% = 90,355 50,0% = 91,985 75,0% = 94,45 85,0% = 94,72 95,0% = 95,39 89|1 90|49 91|0 92|7 93|2 94| 95| 96| 97|01 Catalizador II dato 1 dato 2 (dato2+dato3)/2 (dato4+dato5)/2 (dato6+dato7)/2 dato 7 dato 8 5,0% = 89,19 15,0% = 90,46 25,0% = 90,705 50,0% = 91,91 75,0% = 95,125 85,0% = 97,04 95,0% = 97,19 Los percentiles del segundo catalizador, están por encima de los percentiles del primero, indicando que quizá el rendimiento sea mayor; pero la mediana es mayor en el catalizador I. Los percentiles no son simétricos respecto de la mediana en ninguno de los dos catalizadores, la asimetría está más marcada en el segundo catalizador. 9 Tabla de distribución de frecuencias Catalizador I -------------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Marca Frecuencia Relativa Acumulada Rel. Acu. -------------------------------------------------------------------------------Menor o igual 89,0 0 0,0000 0 0,0000 1 89,0 92,0 90,5 4 0,5000 4 0,5000 2 92,0 95,0 93,5 3 0,3750 7 0,8750 3 95,0 98,0 96,5 1 0,1250 8 1,0000 Mayor 98,0 0 0,0000 8 1,0000 -------------------------------------------------------------------------------Media = 92,255 Desviación estándar = 2,38502 Catalizador II -------------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Marca Frecuencia Relativa Acumulada Rel. Acu. -------------------------------------------------------------------------------Menor o igual 89,0 0 0,0000 0 0,0000 1 89,0 92,0 90,5 4 0,5000 4 0,5000 2 92,0 95,0 93,5 2 0,2500 6 0,7500 3 95,0 98,0 96,5 2 0,2500 8 1,0000 Mayor 98,0 0 0,0000 8 1,0000 -------------------------------------------------------------------------------Media = 92,7325 Desviación estándar = 2,98345 Histograma catalizador I Frecuencia 4 2 0 2 4 89 91 93 95 97 99 catalizador II Diagrama de cajas: Catalizador I RI= 94.45 – 90.35 = 4.10 Q1 – 4.10 x1.5 = 84,2 Q3 + 4.10 x1.5 = 100.65 LI = 89,07 LS= 95.39 Catalizador II RI= 95.125 – 90.70 = 4.425 Q1 – 4.425 x1.5 = 84,06 Q3 + 4.425 x1.5 = 101.76 LI = 89,18 LS= 97.19 10 Diagrama de cajas Catalizador I Catalizador II 89 91 93 95 97 99 Las medianas son similares en los dos catalizadores. Ambos catalizadores presentan asimetría a la derecha. El catalizador II presenta mayor dispersión y mayor asimetría hacia la derecha. Cociente de varianzas: Intervalo de confianza Catalizador I Catalizador II -----------------------------------------------------------n 8 8 Media 92,255 92,7325 Mediana 91,985 91,91 Varianza 5,68831 8,90099 Desviación Estándar 2,38502 2,98345 Mínimo 89,07 89,19 Máximo 95,39 97,19 Rango 6,32 8,0 Primer Cuartil 90,355 90,705 Tercer Cuartil 94,45 95,125 Rango Intercuartílico 4,095 4,42 ------------------------------------------------------------ Radio de varianzas = 0,639065 f0.025,7,7 = 4.99 f0.975,7,7 = 0.2 Intervalo de confianza [0,127943; 3,19207] Contraste de hipótesis: Región crítica {F0< 0.2 } Ụ {F0 >4.99 } f0 = 0.63 no está en la región crítica aceptamos igualdad de varianzas. P-valor P(F7,7 >0.63) De las tablas P(F7,7 >1,7) = 0.25 P(F7,7 >0,58) = 0.75 0.25 < p-valor < 0.75 Apoya nuestra decisión de aceptar la hipótesis nula. Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,639065 P-value = 0,569131 Potencia P(0.5) = P(RC/(σ1/ σ2) = 0.5) = P (F0 < 0.2 /(σ1/ σ2) = 0.5) + P (F0 > 4.99 /(σ1/ σ2) = 0.5) = P(F7,7 < 0.2/0.25) + P(F7,7 > 4.99/0.25) = P(F7,7 < 0.8) +P(F7,7 >19.96) De las tablas P(F7,7 > 6,99) = 0.01 P(F7,7 > 19,96) < 0.01 P(F7,7 > 1,7) = 0.25 luego P(F7,7 > 1/1,7) = 0,75 P(F7,7 > 0,58) = 0,75 P(F7,7 < 0,58) = 0.25 De donde P(F7,7 < 0.8) > P(F7,7 < 0,58) = 0.25 P(0,5) > 0,25 11 Diferencia de medias: - 0.4775 t14,0.025 = 1,746 Intervalo de confianza asumiendo varianzas iguales S p = 2.67 -0,4775 +/- 2,89639 [-3,37389,2,41889] Contraste de hipótesis Región crítica {T0 <-1.746} t0 = - 0.23 no está en la región crítica luego que la primera media es mayor o igual que la segunda p-valor P(T14 < -0.23) = P(T14 > 0.23) > P(T14 >0.25) = 0.4 t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = -0,353591 P-value = 0,728914 Potencia (-0.5) = P(T0 < -1,746/μ1 – μ2 = -0.5) = P(T14 < -1.746 + 0.5/1.89) = P(T14 < -1.48) = P(T14 > 1.48) P(T14 > 1.34) = 0.1 P(T14 >.1.76) = 0.05 0.05 < P(-0.5) < 0.1 2.- En un proceso de fabricación de semiconductores ciertos problemas técnicos pueden generar un defecto funcional, un defecto menor o ningún defecto en la proporción 10%, 60% y 30%. Si suponemos que los efectos de 10 problemas técnicos son independientes. a) Calcular la probabilidad que 10 problemas técnicos generen 2 defectos funcionales y 5 defectos menores. b) Dar la distribución del nº de problemas técnicos entre 10 que no da como resultado defecto. Calcular su media y su varianza. (1punto) Solución: ⎛10 ⎞⎛ 8 ⎞ P (2 def fun., 5 def meno, 3 sin def) = ⎜⎜ ⎟⎟⎜⎜ ⎟⎟0.12 x 0.6 5 x 0.33 = 0.0529 ⎝ 2 ⎠⎝ 5 ⎠ La variable es binomial de parámetros 10 y 0,3. Su media es 3 y su varianza 2.1 3.- En las siguientes preguntas elige la respuesta justificando la opción elegida (1 punto) 1. Si la probabilidad de error de tipo I de un contraste bilateral es de 0'02, entonces a) La probabilidad de cometer un error de tipo II es del 0'98. b) Se rechaza H0 para todo nivel de significación superior a 0'01. c) Se aceptará H0 el 98% de las veces. xd) Ninguna de las otras respuestas. 2.- Se denomina “nivel de significación” de un test de hipótesis xa) A la probabilidad de rechazar H0 cuando H0 es cierto. b) A la probabilidad de aceptar H0 cuando H0 es cierto. c) A la probabilidad de rechazar H0 cuando H0 es falso. d) A la probabilidad de aceptar H0 cuando H0 es falso. 3.- Un test de hipótesis es “estadísticamente significativo” si a) La hipótesis nula es correcta. b) La hipótesis nula es incorrecta. xc) Si el estadístico del contraste cae en la región de aceptación. d) Ninguna de las otras tres respuestas. 12 4.- En la Figura., se representan los residuos de un modelo de regresión frente al número de orden. De él se deduce Studentized residual Residual Plot 2 1 0 -1 -2 0 10 20 30 40 50 60 row number a) Que sería mejor hacer un ajuste parabólico. b) Que los residuos no son normales. c) Que no se ha tenido en cuenta una variable de clasificación. xd) Que los datos son heterocedásticos. 5.- Del siguiente contraste se deduce a) De la aplicación de este contraste no podemos obtener una conclusión acerca de la hipótesis. xb) El p-valor del contraste nos dice que podemos rechazar la hipótesis. c) El resultado del contraste es 42,9108 y se acepta la hipótesis. d) Ninguna de las otras tres respuestas. Analysis Summary Data variable: lanzamientos 53 values ranging from 1,0 to 8,0 Fitted geometric distribution: event probability = 0,321212 Goodness-of-Fit Tests for lanzamientos Chi-Square Test ---------------------------------------------------------------------------Frecuencia Frecuencia clase valor observada esperada Chi-Square --------------------------------------------------------------------------1 0 0 17,02 17,02 2 1 25 11,56 15,64 3 2 11 7,84 1,27 4 3 11 5,32 6,05 5 4 3 3,61 0,10 6 5 1 2,45 0,86 7 6, 7 1 2,80 1,15 8 >8 1 2,39 0,81 ---------------------------------------------------------------------------Chi-Square = 42,9108 with 6 d.f. P-Value = 1,2148E-7 13 Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 18 de febrero de 2005. 1.- El peso de un caramelo tiene una distribución normal de media 5 gr. Y desviación estándar 0,25gr. Se empaquetan de 16 en 16 Calcular la media y la desviación estándar del paquete, así como la probabilidad de que su peso sea mayor de 85 gr. (1punto) Solución: El peso total es la suma de los pesos de los 16 caramelos P = X1 + X2 + … + X16 E(P) = 16x5 =80 gr. Var (P)= 16x 0.52 = 1 gr2 La variable peso sigue una distribución normal de media 80 y desviación estándar 1. ⎛ P − 80 85 − 80 ⎞ > P (P > 85) = P⎜ ⎟ = P( Z > 5) ≈ 0 1 ⎠ ⎝ 1 2.- Tres máquinas producen arandelas. El ritmo de producción de A es el doble que el de B y el mismo que el de C. Las arandelas producidas por cada máquina se van empaquetando en lotes que son colocados en un almacén a medida que se van produciendo. De las arandelas producidas por A, el 10% son defectuosas por grandes y el 5% por pequeñas. Para B, el 5% son defectuosas por grandes y el 10% por pequeñas. Para C, el 10% son defectuosas por grandes y el 10% por pequeñas. (1punto) Se extrae al azar un lote del almacén y se comprueba la validez de 20 arandelas del lote, resultando 3 defectuosas por grandes y ninguna por pequeña. a) Hallar la probabilidad de que se trate de un lote producido por la máquina A. b) Hallar la probabilidad de que de 10 arandelas elegidas al azar, 9 sean buenas y una defectuosa por grande. Solución: P(A) = 0.4 P(B) = 0.2 P(C) = 0.4 Probabilidades a priori Sea G el suceso la pieza es grande; P el suceso la pieza es pequeña ; N la pieza es buena; y H el suceso de un lote de 20 arandelas 3 son grandes, 0 pequeñas y 17 buenas. Se conocen las probabilidades condicionadas P(G/A) = 0.1 P(P/A) = 0.05 P(N/A) = 0.85 P(G/B) = 0.05 P(P/B) = 0.1 P(N/B) = 0.85 P(G/C) = 0.1 P(P/C) = 0.1 P(N/C) = 0.8 Nos piden encontrar P(A/H) una probabilidad a posteriori Aplicamos la fórmula de Bayes ⎛ 20 ⎞ P(H/A) = ⎜⎜ ⎟⎟0.13 x 0.8517 = 0.0719 ⎝3⎠ ⎛ 20 ⎞ P(H/B) = ⎜⎜ ⎟⎟0.05 3 x 0.8517 = 0.00899 ⎝3⎠ ⎛ 20 ⎞ P(H/C) = ⎜⎜ ⎟⎟0.13 x 0.817 = 0.0257 ⎝3⎠ 0.0719 x0.4 = 0.704 P(A/H) = 0.0719 x0.4 + 0.00899 x0.2 + 0.0257 x0.4 Sea el suceso Y de 10 arandelas elegidas al azar, 9 son buenas y una grande Utilizamos la fórmula de la probabilidad total P Y/A) = 10 x 0,1x 0,859 = 0,2316 P (Y/B) = 10 x 0,05x 0.859 = 0,1158 14 P (Y/C) = 10 x 0,1x 0.89 = 0,1342 P (Y) = 0,2316 x 0,.4 + 0,1158 x 0,2,+ 0,134 x 0,4 = 0.1695 3.- En un libro de 400 páginas, el número de erratas de cada página sigue una distribución G (0.05) Aproximar la probabilidad de que el número total de erratas del libro esté comprendido entre 375 y 410. (1punto) Solución: El número total de erratas, N, es la suma de las erratas de cada página Sea Xi el número de erratas de la página i E (Xi) = 0,95/0,05 = 19 Var (Xi) = 0,95/(0,05)2 = 380 E (N) = 400x19 = 7600 Var (N) = 400x380 = 152000 Desviación estándar = 389,87 N es la suma de 400 variables independientes e igualmente distribuidas, aplicando el teorema central del límite 410 − 7600 ⎞ ⎛ 375 − 7600 P (375 ≤ N ≤ 410) = P⎜ <Z< ⎟ = P( Z < −18,44) − P( Z < −18,53) ≈ 0 389,87 ⎠ ⎝ 389,87 4.- La Distribución beta es una distribución de una variable aleatoria X continua. Con los datos de las siguientes salidas responder a las preguntas (1punto) P(X<0.1) P(0.1<X < 0.2) P(X>0.5) Mediana de la distribución Primer cuartil Tercer cuartil Inverse CDF ----------Distribution: CDF 0,01 0,1 0,25 0,5 0,75 0,9 0,99 Beta Dist. 1 0,0267632 0,0925953 0,161163 0,26445 0,38948 0,510316 0,705686 Cumulative Distribution ----------------------Distribution: Beta Lower Tail Area (<) Variable Dist. 1 0,1 0,114265 0,2 0,34464 0,3 0,579824 0,4 0,766719 0,5 0,890624 Probability Density Dist. 1 1,9683 2,4576 2,1609 1,5552 0,9375 Upper Tail Area (>) Dist. 1 0,885735 0,65536 0,420176 0,233281 0,109376 Solución P(X< 0.1) = 0,114265 P (0.1<X < 0.2) = P(X<0.2)-P(X<0.1) = 0,34464 – 0,114265 = 0,230375 por ser la distribución continua P(X>0.5) = 0,109376 Mediana de la distribución 0,26445 inversa de la función de distribución en 0,5 Primer cuartil 0,161163 inversa de la función de distribución en 0,25 Tercer cuartil 0,38948 inversa de la función de distribución en 0,75 15 Examen de Estadística: Segundo de Ingeniería Química: Primera parte 13 de setiembre de 2005. 1.- Un ingeniero que trabaja para un fabricante de llantas investiga la duración promedio de un compuesto nuevo de caucho. Para ello toma una muestra de 16 llantas y las prueba en la carretera hasta alcanzar el fin de la vida útil de estas. Los datos obtenidos en kms. Son los siguientes 60613 59836 59554 60252 59784 60221 60311 59040 60545 60257 60000 59997 60947 60135 60220 60523 a) Hacer un diagrama de tallo-hojas para los datos (0.5 puntos) b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 (0.5 puntos) c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de la duración y comentar los gráficos (0.5 puntos) d) Realizar el contraste de normalidad (0.5 puntos) e) Calcular un intervalo de confianza para la duración media de la llanta.(2 puntos) Calcular un intervalo de confianza para la varianza. Al ingeniero le gustaría demostrar que la duración media excede los 60000kms. Proponer y contrastar la hipótesis adecuada y obtener una conclusión.). Calcular la potencia en el punto 61000 Si la duración media fuese de 61000 Kms al ingeniero le gustaría detectarla con una probabilidad de al menos 0.90. ¿Es adecuado el tamaño muestral tomado? En caso negativo determinar el tamaño muestral 2.- En un proceso de fabricación de semiconductores ciertos problemas técnicos pueden generar un defecto en el semiconductor con probabilidad 0.4. Si suponemos que los efectos los problemas técnicos son independientes. (1punto) a) Calcular la probabilidad que 100 problemas técnicos no generen defectos. b) Dar la distribución del nº de problemas técnicos entre 10 que no da como resultado defecto. Calcular su media y su varianza. 3.- En las siguientes preguntas elige la respuesta justificando la opción elegida (1 punto) 1. Hipótesis estadística a) Una afirmación sobre la distribución de una población o poblaciones. b) Estamos dispuestos a aceptarla a no ser que los datos digan locontrario c) La hipótesis nula es una afirmación sobre la distribución de la muestra. d) Ninguna de las otras respuestas. 2.- Errores a) Error de tipo I es la prob. de rechazar Ho cuando es cierta b) Error de tipo II es la prob. de aceptar Ho cuando es cierta . c) Potencia es la prob. de rechazar Ho cuando es cierta. d) Ninguna de las otras respuestas. 3.- Región crítica a) Si el parámetro estimado cae dentro de la región crítica aceptamos Ho b) Si el parámetro estimado cae dentro de la región crítica rechazamos Ho c) La región crítica cambia con la muestra d) Ninguna de las otras tres respuestas. 16 4.-Distribuciones en el muestreo a) La distribución de la media muestral es una normal b) La distribución de la media muestral es una T c) La distribución de la varianza muestral es una χ2 d) Ninguna de las otras tres respuestas. 4.- Define (0.5 puntos) a) p-valor b) Muestra c) Población d) Estadístico Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 13 de setiembre de 2005. 1.- Un ensamble está compuesto por 5 componentes colocados uno junto al otro. La longitud de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0.02 cm. Las especificaciones requieren que todos los ensambles tengan una longitud entre 9.9 y 10.1 cm. ¿Cuántos ensambles verificarán estos requerimientos? (1 punto) 2.- En una factoría se producen piezas que se empaquetan en tres tipos diferentes de cajas con 20 unidades cada una en proporción 4, 3, 6. Las cajas de tipo I contienen 3 unidades defectuosas, las de tipo II, 5 defectuosas y las de tipo III, 6 defectuosas. Se elige una caja al azar y se extraen 3 unidades resultando una de ellas defectuosa y 2 buenas. ¿Qué tipo de caja tiene mayor probabilidad de ser la elegida? (1punto) 3.- Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación realizada (1 punto). 4.- Resolver las ecuaciones (0.5 puntos) a) P(χ25 ≤ x) = 0,95 b) P(12,549 ≤ χ210 ≤ y) = 0,20 e) P( 1,476 ≤ T5 ≤ u) = 0,075 d) P(T8 > t) = 0.9 c) P(T15 ≤ z) = 0,01 f) P(F10,20 ≤ 2,42) = v 17 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 10 de febrero de 2006. Primera parte 1.- Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia y el salario mensual, en euros, entre los ingenieros químicos de Castilla y León. Se seleccionó una muestra aleatoria de 17 ingenieros químicos y se obtuvo la siguiente información ∑ xi = 247 ∑ yi = 29902 ∑ xi2 = 5065 ∑ yi2 = 52330680 ∑x y i i = 483750 ∑e 2 i = 434772 Con los datos del Problema. Responde verdadero o falso justificando las respuestas 1) 0.5 puntos β̂1 = 43,22 a) c) β̂1 = 1072 β̂ 0 = 43,22 d) β̂ 0 = 1072 b) 2) 0.25 puntos a) Como t = 12,56 la variable años de experiencia es significativa b) Como t = 17,53, tendremos dudas acerca de la influencia de la variable años de experiencia. c) Como t = 17,53 la variable años de experiencia es significativa b) Como t = 12,56, tendremos dudas acerca de la influencia de la variable años de experiencia. 3) la predicción de salario para un ingeniero químico con diez años de experiencia es 0.25 puntos 1162,2 a) 1504.2 b) c) 1723.2 1389 d) 4) Responde verdadero o falso justificando 1 punto a) La variación no explicada es 434772 La variación total es 49440272 b) El coeficiente R-cuadrado es 0.99 c) d) El valor del estadístico F es 2314,5 Un I.C. al 95% para la pendiente es (35,89 50,55) e) 18 2.- Se está estudiando el tiempo transcurrido entre dos intentos de introducir un virus informático via e-mail en el sistema informático de una empresa. Se han observado los tiempos (en cientos de horas) desde el comienzo de año para los primeros veinte intentos obteniendo los resultados expuestos en la tabla adjunta. 1punto Al ajustar una distribución exponencial (con f. distribución F(x) = 1 - e- x) a estas observaciones, el test chi cuadrado con puntos de división de las clases: 5, 10, 15 y 20, concluye que a. El test chi-cuadrado no se puede aplicar porque la distribución es continua. b. Se rechaza que los datos siguen una distribución exponencial con < 0'5. c. El p-valor del contraste está entre 0'1 y 0'5 y, por tanto, el contraste no es concluyente. d. Ninguna de las otras tres respuestas. 3.- Dos máquinas A y B fabrican la misma pieza, con una producción aceptable del 70% y 80% respectivamente. Del total de la producción el 40\% corresponde a la màquina A y el resto a la B. Se elige una pieza al azar y resulta no ser aceptable. Calcular la probabilidad de que haya sido producida por cada una de las dos máquinas. 1 punto 4.- Dados los siguientes datos de pureza de un hidrocarburo. Pureza ( %) 86,91 89,85 90,28 86,34 92,58 87,33 86,29 91,86 95,61 89,86 96,73 99,42 98,66 96,07 93,65 87,31 95 96,85 85,2 90,56 a) Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar, primer cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95 muestrales (0.5) b) Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un histograma y un diagrama de cajas y comenta los gráficos.(1) 19 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 10 de febrero de 2006. Segunda parte 1.- Sea X una variable con las siguientes características: E(X)=5, E(X2)=29 Determinar una cota inferior de P (2≤X≤ 8) 0.5 puntos Si la variable tiene una distribución uniforme en el intervalo (a, b), Hallar P (2≤X≤ 8) 0.5 p. 2.- Supongamos que en un proceso de fabricación de rodamientos se aceptan las bolas de acero con diámetro comprendido entre dos valores fijos 100.1 y 100.6. Estudiado anteriormente el diámetro de las bolas, se dedujo que seguía una ley Normal de media 100.3 y desviación típica 0.2. Calcular la probabilidad de que en un lote de 100 bolas rechacemos 4 por grandes y 4 por pequeñas. 0.5 puntos Calcular la probabilidad de que un lote de tamaño 1000 contenga al menos 750 piezas aceptables.0.5 puntos 3.- Define lo más brevemente posible 1.5 puntos Población: Muestra: Tamaño muestral. Muestreo aleatorio simple Espacio muestral Parámetro Estadístico Estimador. Estimador de la media poblacional, Estimador de la varianza poblacional, Contraste hipótesis Hipótesis estadística Paramétrica No Paramétrica: Hipótesis nula Estadístico del contraste: Error tipo I Error tipo II Nivel de significación La región de Rechazo La región de Aceptación Nivel crítico o p-valor 4.- El gráfico siguiente representa el diagrama de tallo-hojas del número de lanzamientos necesarios para que salga cruz. 0.5 puntos 19 1|0000000000000000000 (14) 2|00000000000000 15 3|000000000 6 4|000 3 5| 3 6|00 HI|14,0 Calcular los cuartiles y percentiles 40 y 60 20 Examen de Estadística: Segundo de Ingeniería Química 15 de setiembre de 2006. Apellidos Nombre Entregar con el examen 1.- Un biólogo ha tomado una muestra de tortugas y ha medido su longitud y su anchura obteniendo los siguientes diagramas de tallo-hojas longitud: 1|2 representa 12,0 anchura: 1|2 representa 12,0 2 9|34 3 9|6 1 7|4 7 10|1234 2 7|8 9 10|67 8 8|012334 12 11|234 (5) 8|56899 12 11|6779 11 9|001333 8 12|001 5 9|5556 5 12|578 1 10| 2 13|1 1 10|6 1 13|5 Se pide a) Tamaño muestral b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 (0.5) c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de la longitud y comentar los gráficos (1.5) d) Realizar el contraste de normalidad de la longitud (0.5) e) Calcular un intervalo de confianza para la longitud media de la longitud.(0.25) f) Calcular un intervalo de confianza para la varianza. (0.25) g) Al ingeniero le gustaría demostrar que la longitud media excede los 100 cms. Proponer y contrastar la hipótesis adecuada y obtener una conclusión.). (0.5) h) Calcular la potencia en el punto 95 (0.5) Análisis de regresión Variable dependiente: longitud Variable independiente: anchura Parameter Intercept Slope Estimate -26,2686 1,58162 Error 9,83848 0,11109 Standard Statistic -2,66998 14,2372 T P-Value 0,0140 0,0000 Análisis de la varianza Source Sum of Squares Df Mean Square F-Ratio P-Value Model 2879,14 1 2879,14 202,70 0,0000 Residual 312,489 22 14,2041 -------------------------------------------------------------------------------Total (Corr.) 3191,63 23 Coeficiente correlación = 0,949785 R-cuadrado = 90,2091 percent R-cuadrado (adjusted for d.f.) = 89,764 percent Standard Error of Est. = 3,76883 j)Explicar todo lo que aparece en las tablas de regresión y hacer el contraste de la regresión (2) (Da la vuelta a la hoja) 21 2.- Explica brevemente (2) 1. Hipótesis estadística 2. Error de tipo I 3. Error de tipo II 4. Potencia 5. Región crítica 6. Relación entre región crítica y muestra 7.-Distribución en el muestreo 8. p-valor 9. Muestra 10. Población 11. Estadístico 12. Fórmula de Bayes 13. Fórmula de la probabilidad total 14. Fórmula producto 15. Parámetro poblacional 16. Parámetro muestral 17. Estimador de un parámetro 18. Estadístico utilizado en el contraste de varianzas 19. Relación entre p-valor y muestra 20. Gráficos utilizados en la descripción de datos categóricos. 3.- Resolver las ecuaciones (0.5 puntos) a) P(χ28 ≤ x) = 0,95 b) P(12,549 ≤ χ220 ≤ y) = 0,20 e) P( 1,476 ≤ Z ≤ u) = 0,075 d) P(T18 > t) = 0.9 c) P(T35 ≤ z) = 0,01 f) P(F10,20 ≤ 2,42) = v 4.- De un proceso químico se toman cada hora una muestra de 60 partes. Lo común es que el 1% de las partes requieran volver a ser procesadas. Sea X el número de partes de una muestra de 60 que necesitan ser reprocesadas. Se sospecha de un problema en el proceso si X es mayor que su media por tres desviaciones estándar. (1) a. Calcular la probabilidad de que se sospeche de la existencia de un problema. b. Si el porcentaje de partes que necesita reprocesarse es de 5%. Calcular la probabilidad de X sea mayor que 1. c. Calcular la probabilidad de que X sea mayor que 1 en al menos una de las muestras tomadas en las próximas 5 horas. 5.- Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación realizada (0.5). 22 Examen de prácticas: Estadística. Segundo de Ingeniería Química 12 de febrero de 2007 1.- Distribución Chi-cuadrado con parámetros: n = 23 Media = 23 Mediana =22,33 primer cuartil =18,1373 tercer cuartil =27,1423 Percentil 1 =10,197 percentil 5 = 13,0905 percentil 95 =35,1725percentil 99 =41,6384 Simular 100 valores de una distribución Chi-cuadrado : n = 23 Rellenar el siguiente cuadro para las clases 3 y 6 Comentar el diagrama de cajas observado -------------------------------------------------------------------------------- Clase Límite Inferior Límite Superior Marca Frecuencia Frecuencia Relativa Probabilidad -------------------------------------------------------------------------------- Menor o igual 2 13,0 3 18,0 4 23,0 5 28,0 6 33,0 7 38,0 8 43,0 Mayor 48,0 8.0 18,0 23,0 28,0 33,0 38,0 43,0 48,0 15,5 20,5 25,5 30,5 35,5 40,5 45,5 ---34---- ---0,34--- ---0,297---- ---6---- ---0,06--- ---0,056---- -------------------------------------------------------------------------------- Media =23,44 Desviación estándar=6,89 Media poblacional=23 Desviación estándar pob.=6,78 2.- Datos correspondientes a la variable ¿vives? Realiza una tabulación cruzada de esta variable con el sexo Estimador de la proporción de chicas que viven en Valladolid 0,4286---------------Estimador de la proporción de chicos que viven en Valladolid 0,6923---------------Intervalos de confianza bilaterales para la diferencia de proporciones α = 0,01; 0,05; 0,1 Nivel de confianza Intervalo Tamaños muestrales 90 % [0,0319 ;0,4954] 370 302 95 % [-0,0124 ;0,5398] 214 176 99 % [-0,099 ;0,626] 151 124 Tamaños muestrales necesarios para cometer un error de 0,1 para los mismosα. Contrastar la hipótesis de que las proporciones son iguales p-valor = 0,069 z0 = 1,817 Región crítica | Z0|>1,959 Resultados: Aceptamos que las proporciones son iguales al nivel 0,05; pero lo rechazaríamos al nivel 0,1. El valor de z0 está muy cercano a la región crítica. Tamaños muestrales para detectar una diferencia de proporciones de 0,2 con una potencia de 0,9 ----205 y 155 --------------------------------- 23 3.- Trabajar con la variable altura en el grupo de hombres: Estimador de la media 179,923 Estimador de la desviación estándar 4,95518 Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1 Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota superior y los niveles de significación anteriores confianza Para la media Superior 90% 181,202 95 % 181,583 99 % 182,338] inferior 178,644 178,263] 177,508 Para la desviación estándar Superior inferior 6,10433 4,22539 6,48162 4,03769] 7,29842 3,72185 confianza Error 1cm. 2cm. 3cm 90% 42 12 6 95 % 69 19 10 99 % 136 37 18 Explicar los resultados: Las cotas superiores crecen con el nivel de confianza; las cotas interiores decrecen. A igual confianza, los tamaños muestrales decrecen al aumentar el error. A igual error los tamaños muestrales crecen al aumentar la confianza 4.- Trabajar con la variable altura Contrastar la hipótesis de que las varianzas son iguales. Región crítica F0 > 2,07392 p-valor = 0,797952 F0 = 0,902241 Resultado: Aceptamos la igualdad de varianzas a cualquier nivel Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 2: 88 y 70 5.- Trabajar con las variables altura y peso en las mujeres El contraste de regresión tiene un p valor de -0,64- por tanto -no- rechazamos la hipótesis nula y -no- admitimos que existe relación lineal entre las variables. El contraste para la ordenada en el origen tiene un p-valor de -0- por tanto -si- rechazamos la hipótesis nula y -si- admitimos que ésta es distinta de 0. Región crítica para este contraste …|T|>…… 2,09303 ……………………… El contraste F de regresión tiene un p valor de -0,64- por tanto -no- rechazamos la hipótesis nula y -no- admitimos que existe relación lineal entre las variables. Región crítica para este contraste……F> 4,38077 …………………….. El -1,14%- de la variabilidad de los datos queda recogida por el modelo. La relación lineal -no- recoge la dependencia entre variables VE = 6,23933 VNE = 538,046 Error estándar de la regresión = 5,3214 24 Examen de Estadística: Segundo de Ingeniería Química. 12 de febrero de 2007 Los datos siguientes muestran la salida de CD de un generador de viento (y) y la velocidad del viento(x). Velocidad viento(mph) Salida deCD Velocidad viento Salida de CD 5 1,582 3,05 0,558 6 1,822 8,15 2,166 3,4 1,057 6,2 1,866 2,7 0,5 2,9 0,653 10 2,236 6,35 1,930 9,7 2,386 4,6 1,562 9,55 2,294 5,8 1,737 7,4 2,088 9,1 2,303 3,6 1,137 10,2 2,31 7,85 2,179 4,1 1,194 8,8 2,112 3,95 1,144 7 1,8 2,45 0,123 5,45 1,501 1.- Calcular el valor de los estadísticos habituales para la variable velocidad del viento, Media, varianza, desviación estándar, máximo, mínimo, rango, mediana, cuartiles y rango intercuartílico.(0.5) n = 25 Media = 6,132 Mediana = 6,0 Varianza = 6,3981 Desviación estándar = 2,52945 Mínimo = 2,45 Máximo = 10,2 Rango = 7,75 Primer cuartil = 3,95 Tercer cuartil = 8,15 Rango intercuartílico = 4,2 2.- (1) Dibujar un diagrama de tallo-hojas 1|2 representa 1,2 3 2|479 7 3|0469 9 4|16 12 5|048 (3) 6|023 10 7|048 7 8|18 5 9|157 2 10|02 Dibujar un histograma 25 Histogram 6 frequency 5 4 3 2 1 0 0 2 4 6 8 10 12 velocidadv Tabla de distribución de frecuencias -------------------------------------------------------------------------------Clase Límite Inferior Limite Superior Marca frecuencia frecuencia frecuencia relativa acumulada frecuencia relat. Acu. -------------------------------------------------------------------------------Menor o igual 2,4 0 0,0000 0 0,0000 1 2,4 3,7 3,05 6 0,2400 6 0,2400 2 3,7 5,0 4,35 4 0,1600 10 0,4000 3 5,0 6,3 5,65 4 0,1600 14 0,5600 4 6,3 7,6 6,95 3 0,1200 17 0,6800 5 7,6 8,9 8,25 3 0,1200 20 0,8000 6 8,9 10,2 9,55 5 0,2000 25 1,0000 Mayor 10,2 0 0,0000 25 1,0000 -------------------------------------------------------------------------------- Dibujar un diagrama de cajas. Box-and-Whisker Plot 0 2 4 6 8 10 12 velocidadv Media = 6,132 Mediana = 6,0 Mínimo = 2,45 Máximo = 10,2 Primer cuartil = 3,95 Tercer cuartil = 8,15 Rango intercuartílico = 4,2 3,95- 1,5x4,2 = -2,35 8,15 + 1,5x4,2=14,45 LS = 10,2 LI= 2,45 Comentar gráficos obtenidos, simetría, datos atípicos, normalidad. Del gráfico del histograma se desprende que los datos no se parecen a la distribución normal, no se aprecia asimetría. En el diagrama de cajas se ve que los datos son bastante simétricos, la media es casi igual a la mediana y los cuartiles son casi simétricos respecto a la mediana. No se aprecian datos atípicos. Contraste de normalidad.Explica la tabla, el gráfico y da el resultado del contraste (0.5) 26 acumulada Plot Probabilistico Normal 99,9 99 95 80 50 20 5 1 0,1 0 2 4 6 8 10 12 velocidadv Goodness-of-Fit Tests for velocidadv Lower Limit Upper Limit Observed Frequency Expected Frequency at or below 3,68495 6 4,17 3,68495 5,04249 4 4,17 5,04249 6,132 3 4,17 6,132 7,22151 3 4,17 7,22151 8,57905 3 4,17 above 8,57905 6 4,17 Chi-Square = 2,60011 with 3 d.f. P-Value = 0,457466 Chi-Square 0,81 0,01 0,33 0,33 0,33 0,81 El gráfico es un plot Probabilístico normal. En el eje de las X se representa la función de distribución empírica de la muestra y en el eje de las Y la función de distribución de la normal. Si los datos proceden de una distribución normal deberían estar alineados. Se ve que los datos oscilan en torno a una línea recta por lo que podemos suponer que no se apartan mucho de la distribución normal. En la tabla tenemos el resultado de un contraste del ajuste de los datos a una distribución normal. Se ha dividido el rango de valores en 6 clases, se calcula la frecuencia esperada de cada clase y después se calcula el valor del estadístico con un valor de 2,6. Los grados de libertad son 62(parámetros estimados, media y varianza)-1, es decir 3. El p-valor es la probabilidad de que una chi cuadrado con 3 grados de libertad sea mayor que 2,6 que da 0,45; con lo que aceptamos la hipótesis nula de que los datos son normales a cualquier nivel menor que0,45. Si α = 0,05 aceptamos la normalidad de los datos. 3.- (0.75) Calcula un intervalo de confianza para la media al 95%. Como la varianza es desconocida el estadístico utilizado es una T con 24 grados de libertad T24,0,025 = 2,064 El intervalo es X ± s 25 t 24, 0, 025 6,132 ± 1,04411 [5,08789;7,17611] Calcula el tamaño muestral necesario para estimar la media con un error de 0,75 mph. El error cometido viene dado por s t 24,0,025 2,53 2,064 = 0,75 n = 49 n n 27 4.- (0.75) Realiza el siguiente contraste: Región crítica, p-valor y resultado del contraste. H0: μ =6 H1: μ >6 6,132 − 6 t0 = = 0,26 Calculamos el valor del estadístico T = X − μ 0 0 2,53 s 25 p-valor P(T24 >0,26)≈ 0,4 ya que P(T24 >0,256)= 0,4. En cualquier caso 0,25<p-valor<0,4 Es decir aceptamos la hipótesis nula de que la media es ≤ 6 Región crítica {T0 > 1,711} ya que t24,0,05= 1,711 en términos de la media muestral {X > 6,865} Ni t0, ni la media muestral están en la región crítica por lo que aceptamos la hipótesis nula. Calcula la potencia en el punto 6,5 n P (6,5) = P (T0 > 1,711 / μ = 6,5) = P ( P( X − 6,5 s/ n + 6,5 − 6 s/ n X −6 s/ n > 1,711 / μ = 6,5) = P ( > 1,711 / μ = 6,5) = X − 6,5 s/ n > 1,711 − 0,5 2,53 / 25 / μ = 6,5) = P(T24 > 0,72) 0,1 < P (T24 > 0,72) < 0,25 Por lo tanto 0,1< P (6,5) < 0,25 5.De las siguientes tablas del análisis de regresión Rellenar huecos (0.5) Regression Analysis - Linear model: Y = a + b*X Dependent variable: salidaCD Independent variable: velocidadv Parameter Estimate Error Standard T Statistic P-Value 1,039 [0,2; 0,5] Intercept 0,130875 0,125989 12,66 0 Slope 0,241149 0,0190492 0,130875/0,125989 = 1,039 P(|T23| > 1,039) = 2x P(T23 > 1,039) 0,2 < p-valor < 0,5 0,241149 / 0,0190492 =12,66 P(|T23| > 12,66) = 2x P(T23 > 12,66) ≈ 0 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value 160,254 0 Model 8,92961 1 8,92961 1,28 23 0,0557 Residual Total (Corr.) 10,2112 24 VNE = VT- VE = 10,2112 – 8,92961 = 1,28 S2R= VNE/(n-2) = 1,28/23 = 0,0557 F = VE/(VNE/n-2) = 8,92961/0,0557=160,254 p-valor = P(F1,23 >160,254) ≈ 0 Calcular R-cuadrado, r, error estándar de la regresión. R-cuadrado = VE/VT = 8,92961/10,2112 = 0,87449 r = √R-cuadrado = 0,935 SR = √0,0557 = 0,236 Contraste de la regresión (los dos) (0.5) 28 En el contraste de la pendiente el valor del estadístico es 12,66 y el p-valor 0 por lo que rechazamos la hipótesis nula de que la pendiente es 0 y por tanto existe relación lineal. El contraste F tenemos un valor del estadístico de 160,254 y un p-valor 0 por lo que rechazamos la hipótesis nula de que no hay relación entre las variables Intervalo de confianza para la pendiente al 95% (0.25) bˆ ± t 0, 025, 23 s b = 0,2411 ± 2,069 x 0,019 = [0,21 ; 0,28] Ecuación de la recta de regresión.(0.25) salidaCD = 0,130875 +0,241149 x velocidadv Comentar los siguientes gráficos y tablas del análisis de los residuos (0.5) Normal Probability Plot 4,7 percentage Studentized residual Residual Plot 2,7 0,7 -1,3 -3,3 0 5 10 15 20 99,9 99 95 80 50 20 5 1 0,1 -0,6 25 -0,4 row number -0,2 0 0,2 0,4 0,4 0,7 RESIDUALS Box-and-Whisker Plot Histogram frequency 10 -0,6 -0,4 -0,2 0 RESIDUALS 0,2 0,4 8 6 4 2 0 -0,8 -0,5 -0,2 0,1 RESIDUALS En el plot de los residuos no se aprecia ninguna pauta que nos haga pensar que no son aleatorios. En el plot Probabilístico normal no parece muy claro que los residuos estén alineados. Haría falta comprobar la normalidad por otros medios. En el diagrama de cajas se aprecia una asimetría bastante marcada a la izquierda, lo mismo en el histograma. Por lo que faltaría comprobar que los residuos son normales mediante el contraste chi cuadrado. 29 6.- (0.5) Con ayuda de las tablas calcula P( 2,06 < F10,15 < 3,8) = P( F10,15 < 3,8) - P( F10,15 < 2,06) = P( F10,15 > 2,06) - P( F10,15 > 3,8) = 0,1 – 0,01 = 0,09 P( 0,263 < F15,10 < 0,485) = P( F15,10 < 0,485) - P(F15,10 < 0,263) = P( F10,15 >1/0,485) - P(F10,15 >1/ 0,263) = P( F10,15 >2,06) - P(F10,15 >3,8) = 0,09 P( 1,325 < T20 < 2,845) = P(T20 < 2,845)- P(T20 < 1,325) = P(T20 > 1,325) - P(T20 > 2,845) = 0,1-0,005 = 0,095 P(Z < x ) = 0,147 x es negativo P(Z <- x ) = 0,853 P( χ215 < y ) = 0,5 –x = 1,05 x = -1,05 y = 14,34 P(T20 < z) = 0,025 z es negativo P(T20 > -z) = 0,025 -z = 2,086 z =- 2,086 7.- (0.75) La irregularidad del corte de productos de papel depende del grado de uso de las cuchillas. Si las cuchillas son nuevas el 1% de los productos presentan un corte irregular; si las cuchillas tienen un uso medio, el 3% de los cortes presentan irregularidades; si las cuchillas están desgastadas, el 10% de los cortes son defectuosos. Si se conoce que de las cuchillas utilizadas en el proceso de corte, el 10% son nuevas y el 60% tienen un uso medio. Calcular la proporción de productos con cortes irregulares. Sea N el suceso, cuchilla nueva; M, cuchilla de uso medio y D, cuchilla desgastada. Sea I el suceso el corte es irregular. Por los datos del problema P(N) = 0,1 P(M) = 0,6 P(D) = 0,3 P(I/N) = 0,01 P(I/M) = 0,03 P(I/D) = 0,1; aplicando la fórmula de la probabilidad total P(I) = P(I/N) P(N) + P(I/M) P(M) + P(I/D) P(D) = 10-3 + 18x10-3 + 3x10-2 = 49x10-3 Proporción de productos con cortes irregulares 4,9 % 8.El peso de una zapatilla deportiva tiene una media de 250 g. y una desviación estándar de 5g.(0.75) Acotar la probabilidad de que el peso esté comprendido entre 235 y 265 g. Llamamos X a la variable peso de la zapatilla P ( 235 <X < 265) = P( 235-250 <X-250 < 265-250) = P( -15 <X-μ < 15) = P(|X-μ| < 3x5) = P(|Xμ| < 3σ) ≥ 1- (1/9) =8/9 = 0,88 Se toma una muestra de tamaño 100. Aproximar la probabilidad de que el número de zapatillas cuyo peso no está comprendido entre los valores anteriores sea menor que10. Tomar como valor de p la cota calculada anteriormente. P(X ≤ 235) + P(X ≥ 265) ≤ 0,12 El número de zapatillas con peso fuera del intervalo anterior sigue una distribución B(100; 0,12). Sea Y esta variable E (Y) = 12 var (Y) = 10,56 var(Y ) = 3,25 . Aproximamos por una normal P (Y < 10) = P ( Y _ 12 10 − 12 < ) = P ( Z < −0,85) = 1 − P ( Z < 0,85) = 0,198 3,25 3,25 30 Examen de Estadística: Segundo de Ingeniería Química. 6 de setiembre de 2007 Nombre Apellidos Los datos siguientes muestran el índice de refracción y la densidad de 12 trozos de cristal Índice de refracción densidad 1,514 2,480 1,515 2,482 1,516 2,481 1,517 2,490 1,518 2,483 1,520 2,505 1,516 2,484 1,517 2,486 1,518 2,495 1,519 2,498 1,522 2,511 1,525 2,520 1.- Calcular el valor de los estadísticos habituales para la variable índice de refracción. Media, varianza, desviación estándar, máximo, mínimo, rango, mediana, cuartiles y rango intercuartílico. (0.5) 2.- (1) Tabla de distribución de frecuencias y dibujar un diagrama de tallo-hojas, un histograma y un diagrama de cajas para ambas variables Comentar gráficos obtenidos, simetría, datos atípicos, normalidad. Contrastar la normalidad de la variable índice de refracción 3.- (0.75) Calcula un intervalo de confianza para la media del índice de refracción al 95%. Calcula el tamaño muestral necesario para estimar la media con un error de 0,05. 4.- (0.75) Realiza el siguiente contraste: Región crítica, p-valor y resultado del contraste. H0: μ = 1,5 H1: μ >1,5 Calcula la potencia en el punto 1,4 31 5.- De las siguientes tablas del análisis de regresión Rellenar huecos (0.5) Regression Analysis - Linear model: Y = a + b*X Dependent variable: densidad Independent variable: indicerefra Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept -3,68673 -6,2112 0,0001 Slope 4,07069 10,4111 0,0000 Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,00173852 1 0,00173852 0,0000 Residual 10 ----------------------------------------------------------------------------Total (Corr.) 0,00189892 Correlation Coefficient = R-squared = Standard Error of Est. = Contraste de la regresión (los dos) (0.5) Intervalo de confianza para la pendiente al 95% (0.25) Ecuación de la recta de regresión.(0.25) Comentar los siguientes gráficos y tablas del análisis de los residuos (0.5) 32 Normal Probability Plot 4,1 percentage Studentized residual Residual Plot 2,1 0,1 -1,9 -3,9 0 2 4 6 8 10 99,9 99 95 80 50 20 5 1 0,1 -10 12 -7 -4 -1 2 RESIDUALS row number 5 (X 0,001) Histogram Box-and-Whisker Plot frequency 8 6 4 2 0 -10 -7 -4 -1 RESIDUALS 2 5 (X 0,001) -11 -7 -3 1 RESIDUALS Goodness-of-Fit Tests for RESIDUALS Chi-Square Test Lower Upper Observed Expected Limit Limit Frequency Frequency at or below -0,00321376 2 2,40 -0,00321376 -0,000967417 2 2,40 -0,000967417 0,000967419 1 2,40 0,000967419 0,00321376 5 2,40 above 0,00321376 2 2,40 Chi-Square = 3,83342 with 2 d.f. P-Value = 0,14709 5 (X 0,001) Chi-Square 0,07 0,07 0,82 2,82 0,07 33 6.- (0.5) Con ayuda de las tablas calcula P( 2,54 < F10,15 < 3,8) P( 4,56 < F15,10 < 2,24) P( 1,77 < T13 < 3,85) P(Z < x ) = 0,95 P( χ215 < y ) = 0,05 P(T30 < z) = 0,25 7.- (0.75) La irregularidad del corte de productos de papel depende del grado de uso de las cuchillas. Si las cuchillas son nuevas el 0,5% de los productos presentan un corte irregular; si las cuchillas tienen un uso medio, el 5% de los cortes presentan irregularidades; si las cuchillas están desgastadas, el 20% de los cortes son defectuosos. Si se conoce que de las cuchillas utilizadas en el proceso de corte, el 10% son nuevas y el 60% tienen un uso medio. Calcular la proporción de productos con cortes irregulares. 8.- El peso de una zapatilla deportiva tiene una media de 220 g. y una desviación estándar de 10g.(0.75) Acotar la probabilidad de que el peso esté comprendido entre 205 y 235 g. Se toma una muestra de tamaño 100. Aproximar la probabilidad de que el número de zapatillas cuyo peso no está comprendido entre los valores anteriores sea menor que10. Tomar como valor de p la cota calculada anteriormente. 34 Examen de prácticas: Estadística. Segundo de Ingeniería Química 6 de setiembre de 2007 1.- Distribución binomial: n = 150 p = 0.01 Media = Mediana = primer cuartil = tercer cuartil = Percentil 1 = percentil 5 = percentil 95 = percentil 99 = Simular 100 valores de una distribución binomial con n = 150 p=0.01 Rellenar el siguiente cuadro para las clases 3 y 6 Comentar el diagrama de cajas observado -----------------------------------------------------------------------Relative Class Value Frequency Frequency Probabilidad F. distribucion -----------------------------------------------------------------------1 0 2 1 3 2 4 3 5 4 6 5 Media = Desviación estándar= Media poblacional= Desviación est.pob.= 2.- Datos correspondientes a la variable venir a clase Realiza una tabulación cruzada de esta variable con el sexo Estimador de la proporción de chicas que vienen andando ---------------Estimador de la proporción de chicos que vienen andando ---------------Intervalos de confianza bilaterales para la diferencia de proporciones α = 0,01; 0,05; 0,1 Nivel de confianza Intervalo Tamaños muestrales 90 % 95 % 99 % Tamaños muestrales necesarios para cometer un error de 0,1 para los mismosα. Contrastar la hipótesis de que las proporciones son iguales Región crítica p-valor = Z0 = Resultado Tamaños muestrales para detectar una diferencia de proporciones de 0,2 con una potencia de 0,9 --3.- Trabajar con la variable peso en el grupo de mujeres: Estimador de la media Estimador de la desviación estándar Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1 confianza Para la media Para la desviación estándar Superior inferior Superior inferior 90% 95 % 99 % 35 Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota superior y los niveles de significación anteriores confianza Error 90% 95 % 99 % Explicar los resultados: 4.- Trabajar con la variable peso Contrastar la hipótesis de que las varianzas son iguales en la población de hombres y mujeres. Región crítica p-valor = f20 = Resultado: Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 2 5.- Trabajar con las variables altura y peso en hombres El contraste de regresión tiene un p valor de --- por tanto -- rechazamos la hipótesis nula y -admitimos que existe relación lineal entre las variables. El contraste para la ordenada en el origen tiene un p-valor de --- por tanto -- rechazamos la hipótesis nula y -- admitimos que ésta es distinta de 0. Región crítica para este contraste ……………………………… El contraste F de regresión tiene un p valor de --- por tanto -- rechazamos la hipótesis nula y --- admitimos que existe relación lineal entre las variables. Región crítica para este contraste………………………….. El ----- de la variabilidad de los datos queda recogida por el modelo. La relación lineal -- recoge la dependencia entre variables VE = VNE = Error estándar de la regresión = 36 Control 1: Segundo de Ingeniería Química 31 de octubre de 2007 Apellidos Nombre Entregar con el examen 1.- Un biólogo ha tomado una muestra de tortugas y ha medido su longitud obteniendo el siguiente diagrama de tallo-hojas longitud: 1|2 representa 12,0 2 9|34 3 9|6 7 10|1234 9 10|67 12 11|234 12 11|6779 8 12|001 5 12|578 2 13|1 1 13|5 Se pide a) Tamaño muestral meda cuartil 1 mínimo máximo b) Calcular los percentiles 5 15 media cuartil 3 25 50 desviación estándar rango intercuartílico 75 mediana 85 95 c) Realizar una tabla de distribución de frecuencias, un histograma, un diagrama de cajas de la longitud y comentar los gráficos 2.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una desviación estándar muestral de 1.25. c. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5? d. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5? 37 Control 2: 2º curso de Ingeniería Química 19 de diciembre de 2007 1.- La siguiente sentencia fue mantenida por un “experto” en estadística. “Si se extrajera una muestra de tamaño 64 de una población normal con media µ, se podría asegurar con una confianza del 95% que µ estaría dentro del intervalo X ± 1,96s / 8 ”. ¿Es correcta esta afirmación? 2.- 20 estudiantes de Ingeniería Química midieron el punto de licuación del plomo. La media y la desviación típica muestrales fueron 330,2ºC y 15,4ºC. Construir un intervalo de confianza para el punto de licuación del plomo con una confianza del 95% y del 99%. Calcular el error cometido en ambos casos. Determinar el tamaño muestral necesario para cometer un error de 5ºC en ambos casos 3.- Define: Variable aleatoria: Función de densidad Función de probabilidad Estadístico Estimador 4:- En la siguiente función de densidad de una distribución normal en cada trozo de la gráfica pon el valor del área de la región comprendida entre la gráfica y el eje de las x función de densidad de la normal (0,1) densidad 0,4 0,3 0,2 0,1 0 -4 -3 -2 -1 0 1 2 3 4 x 38 Examen de estadística: Prácticas 11 de febrero de 2008 1.- Simula 100 valores de una distribución N (3,2) Nómbrala X (0.5p) Media = 3 Mediana = 3 primer cuartil = 1,65 Percentil 1 = -1,65 percentil 5 = -0,29 tercer cuartil = 4,35 percentil 95 = 6,29 percentil 99 =7,65 Media muestral = 3,14 Mediana muestral = 3,32 primer cuartil muestral = 1,73 Tercer cuartil muestral=4,49 Percentil 1 muestral =-1,78 percentil 5 muestral = -0,30 Percentil 95 muestral =6,58 percentil 99 muestral = 7,35 Rellenar el siguiente cuadro para las clases 3 y 6 Comentar el diagrama de cajas observado -------------------------------------------------------------------------------Límite Límite Frecuencia Probabilidad Clase Inferior Superior Marca Frecuencia Relativa -------------------------------------------------------------------------------Menor o igual -3.0 2 -3, 0 -1,0 -2 3 -1,0 1,0 0 -------8----------0,08------------0,136 4 1,0 3,0 2 5 3,0 5,0 4 6 5,0 7,0 6 -------13---------0,13------------0,136 7 7,0 9,0 8 Mayor 9,0 -------------------------------------------------------------------------------Media = 3,14 Desviación estándar= 1,98 Media poblacional= 3 Desviación estándar pob.= 2 2.- Trabajar con la variable simulada X: (0.5p) Estimador de la media 3,14 Estimador de la desviación estándar 1,98 Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1 Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota superior y los niveles de significación anteriores confianza 90% 95 % 99 % confianza 90% 95 % 99 % Para la media Superior 3,39 3,47 3,60 Para la desviación estándar Superior inferior inferior 2,88 2,81 2,67 Error 0,5 2,17 2,24 2,36 0,4 28 46 90 1,81 1,77 1,69 0,3 43 70 139 75 123 244 Continúa a la vuelta 39 3.- Contrasta la normalidad de la variable simulada X (0.5p) Nº de clases 8 Valor chi-cuadrado 3,36 Grados de libertad 5 p-valor 0,64 Conclusión Aceptamos normalidad de los datos 4.- Simular 80 valores de una N (3.1 , 2) variable Y (0.5p) Contrastar la hipótesis de que las varianzas de las variables X e Y son iguales. p-valor = 0,38 F0 = 1,21 Región crítica {F0>f99,790,025 }∪{F0<f9979,0,975} {S12/S22>1,531 }∪{S12/S22<0,66} Resultado: Acepto igualdad de varianzas Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 1,5: 250, 200 Intervalo de confianza para la diferencia de medias al 95% 0,045±0,562 (-0,52, 0,61) Asumiendo varianzas iguales 5:- Trabaja con la variable deporte (0.5p) Haz una tabulación cruzada de esta variable con la variable sexo y responde Proporción de chicos que no realizan ningún deporte. 15,38% Proporción de chicas que juegan al baloncesto 9,52% Proporción de chicos que hacen natación 7,69% De los que no hacen ningún deporte, proporción de chicos.21,05% De los que juegan al frontenis, proporción de chicas 33,33% 40 Examen de estadística: 2º curso de ingeniería química. 11 de febrero de 2008 Nombre Apellidos 1.- Los siguientes datos corresponden al número de trabajadores en la industria en la Comunidad de Castilla y León durante el periodo 1993-2006 (1p) 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 133.96 133.74 135.34 135.09 132.20 138.49 140.59 141.00 140.56 144.36 146.58 147.4 151.62 151.85 0 1 7 1 5 3 3 5 1 1 0 47 0 9 Calcular Media 140.918 varianza 43.671.485 máximo151.859 mínimo132.205 rango 19.654 Mediana 140.577 meda 5744,5 Primer cuartil 135.091 tercer cuartil 146.580 rango intercuartilico 11.489 percentil10 133.741 Dibujar un diagrama de cajas Q1= 135.091 Q2 = 140.577 Q3 = 146.580 Media 140.919 LI = min. = 132.205 LS = Máx. = 152.859 13 13,4 13,8 14,2 14,6 15 15,4 (X 10000) 2.- Un fabricante de pilas alcalinas sabe que la duración de las mismas se distribuye según una ley normal de varianza 3600 horas. Para estimar la media toma una muestra de su producción y un nivel de confianza del 95% obteniendo el intervalo (372,6 392,2).(1p) Calcular la media estimada y el tamaño muestral utilizado. El intervalo es X ± σ Z 0,o 25 La media estimada es el centro del intervalo X = 382,4 y σ Z 0,o 25 = 9,8 n n z0,025 = 1,96 σ =60 y n = 144 Calcular el error de estimación para un tamaño muestral de 200 pilas y una confianza del 90%. El error es X ± σ Z 0.05 z0,05 = 1,64 E = 6,96 n 3.- Las cuasivarianzas muestrales de dos muestras de tamaños 51 y 101 de dos poblaciones normales independientes son 70,2 y 76,8. (1.5p) Demostrar que puede admitirse que las varianzas poblacionales son iguales al nivel 10% H0: σ12 = σ22 El estadístico F = S12 Bajo H0 se distribuye como una F50,100 0 S 22 f50,100, 0,95 = 0,66 H1: σ12 ≠σ22 f50,100,0,05 = 1,48 f100,50, 0,05 = 1,52 RA 0,66< F0 <1,48 f0 = 0,91 por tanto acepto H0 Calcular la potencia de la prueba en el punto 1,5 P(0,66< F0 <1,48/σ12/σ22=1,5) = P(0,66< S12 <1,48/(σ12/σ22)=1,5) = S 22 P(0,66 (σ22/σ12) < S /σ 2 1 2 1 S /σ 2 2 2 2 <1,48 (σ22/σ12) /(σ12/σ22)=1,5) = P(0,44< F50,100 < 0,98) P(1,5) = 1 - P(0,44< F50,100 < 0,98) 41 4.-Se ha realizado un análisis de regresión tomando como variable dependiente millas por galón y variable independiente caballos de potencia del vehículo. Se ha obtenido(1.5p) Dependent variable: mpg Independent variable: horsepower Parameter Intercept Slope Standard Error 1,403 0,0152283 Estimate 49,8706 -0,237707 Source Model Residual Total (Corr.) T Statistic 35,5426 -15,61 Analysis of Variance Sum of Squares Df Mean Square 5030,95 1 5030,95 148 20,6475 8086,77 149 F-Ratio 243,66 P-Value 0,0000 0,0000 P-Value 0,0000 Correlation Coefficient = -0,788746 R-squared = 0,622 Standard Error of Est. = 4,54 Rellenar los huecos Ecuación de la recta de regresión Mpg = 49,87 – 0,24 x horsepower Resultado del contraste F VE / 1 H0: Modelo inadecuado F= → F1,148 f0 = 243,66 p-valor 0 VNE / 148 H1: Modelo adecuado Rechazamos y el modelo es adecuado Resultado del contraste de la pendiente βˆ1 H : β1 = 0 t = -15,61 p-valor 0 T= 0 sβ → T148 0 H1: β1 ≠ 0 Rechazamos H0 y admitimos que existe relación lineal Intervalo de confianza al 95% para la pendiente -0,24 ± 1,98x0,0152 0,24 ± 0,03 βˆ1 ± t 0, 025,148 s β (-0,27, -0,21) 5.- Una empresa compra cierto tipo de pieza que es suministrada por 3 proveedores: el 45% de las piezas son compradas al primer proveedor resultando defectuoso el 1%, el segundo proveedor suministra 30% de las piezas y de ellas es defectuoso el 2%. Las restantes piezas provienen del tercer proveedor, siendo defectuoso el 3% de las mismas. En un control de recepción de artículos se selecciona una pieza al azar y es defectuosa. Calcular la probabilidad de que la haya suministrado el segundo proveedor.(1p) P(1) = 0,45 P(2) = 0,3 P(3) = 0,25 P(D/1)= 0,01 P(D/2)= 0,02 P(D/3)= 0,03 P(2/D)= P(D/2)xP(2)/P(D) = 0.33 P(D) = P(D/1)xP(1)+ P(D/2)xP(2) +P(D/3)xP(3) =0,018 6.- Resuelve las ecuaciones (0.5p) P(Z < x ) = 0,1587 x = -1 P(T11< y) = 0,85 y = 1,088 z= 13,24 P(χ221 < z) = 0.1 P(F30,19 <t) = 0,95 t= 2,07 P(Z>1) = 0,1587 =P(Z< -1) P(T11<1,088) = 0,15 P(T11<1,088) = 0,85 P(χ221 <13,24) = 0,9 P(χ221 <13,24) = 0,1 P(F30,19 > 2,07) = 0,05 P(F30,19 < 2,07) = 0,95 42 7.- Elige la respuesta correcta (1p) 1. Sean X1 y X2 dos variables aleatorias independientes B(5, 0.4). La varianza de Y = (X1 + X2)es (a) 1.2 (b) 0.6 (c) Ninguna de las otras dos 2. Si dos sucesos son incompatibles, son independientes (a) Si, claro. (b) No (c) Si la intersección es el conjunto vacío. 3. Si lanzamos 3 monedas al aire, ¿cual es la probabilidad de que las 3 sean caras o las 3 sean cruces? (a) 1/4 (b) 1/8 (c) 1/2 4. Para estimar la media de una población normal, la media muestral es (a) Un estimador insesgado pero no consistente. (b) Un estimador insesgado y consistente. (c) Un estimador insesgado, consistente y con error cuadrático medio nulo. 5. Un intervalo de confianza al 90% para estimar θ es (a) Un intervalo que contiene al 90% de los posibles valores de θ. (b) Un intervalo aleatorio que contiene a θ para el 90% de las muestras aleatorias extraídas de la población. 6. En una muestra aleatoria simple (a) las observaciones son independientes (b) todos los elementos de la población son iguales (c) los valores de una muestra particular son variables aleatorias 7. La distribución en el muestreo de la media muestral (a) es una distribución normal siempre (b) es una distribución normal si las observaciones son independientes (c) de forma general, sigue aproximadamente una distribución normal 8. La probabilidad de error de tipo II de un contraste de hipótesis (a) es igual a 1-P(error tipo I) (b) siempre es mayor o igual que la probabilidad de error de tipo I (c) es 1-Potencia del test 9. El intervalo de confianza para la desviación típica de una población normal (a) no es simétrico porque los datos son siempre mayores o iguales que cero (b) no es simétrico porque la distribución normal es mayor o igual que cero (c) no es simétrico porque la distribución χ2 es no negativa 10. Si aumentamos el valor del nivel de confianza, la longitud del intervalo de confianza seria: (a) mayor (b) menor (c) podría ser mayor o menor, dependiendo del valor desconocido del parámetro 43 Examen de estadística: Prácticas 9 de septiembre de 2008 Nombre Apellidos 1.- Simula 100 valores de una distribución χ295 Nómbrala X (0.5p) Media = Percentil 1 = Mediana = primer cuartil = tercer cuartil = percentil 5 = percentil 95 = percentil 99 = Media muestral = Mediana muestral = primer cuartil muestral = Tercer cuartil muestral = Percentil 1 muestral = percentil 5 muestral = Percentil 95 muestral = percentil 99 muestral = Rellenar el siguiente cuadro para las clases 3 y 6 Comentar el diagrama de cajas observado -------------------------------------------------------------------------------Límite Límite Frecuencia Probabilidad Clase Inferior Superior Marca Frecuencia Relativa -------------------------------------------------------------------------------Menor o igual 59,0 1 59,0 69,0 2 69,0 79,0 3 79,0 89,0 4 89,0 99,0 5 99,0 109,0 6 109,0 119,0 7 119,0 129,0 Mayor 129,0 -------------------------------------------------------------------------------- Media = Media poblacional= Desviación estándar= Desviación estándar pob.= 2.- Trabajar con la variable simulada X: (0.5p) Estimador de la media Estimador de la desviación estándar Cotas de confianza para la media y la desviación estándar para α = 0,01; 0,05; 0,1 Fijar tres errores de acuerdo al valor de la media y calcular tamaño muestral necesario para la cota superior y los niveles de significación anteriores Para la desviación estándar confianza Para la media Superior inferior Superior inferior 90% 95 % 99 % confianza Error 3 2 90% 95 % 99 % 44 3.- Contrasta la normalidad de la variable simulada X (0.5p) Nº de clases Valor chi-cuadrado Grados de libertad p-valor Conclusión 4.- Simular 150 valores de una χ292 Variable Y (0.5p) Contrastar la hipótesis de que las varianzas de las variables X e Y son iguales. Región crítica p-valor = F0 = Resultado: Calcular tamaños muestrales para alcanzar una potencia de 0.85 en el punto 1,5: Intervalo de confianza para la diferencia de medias al 95% 5:- Trabaja con la variable vives (0.5p) Haz una tabulación cruzada de esta variable con la variable sexo y responde Proporción de chicos que vive en Valladolid. Proporción de chicas que viven en un pueblo Proporción de chicos que viven en urbanización De los que viven en Valladolid, proporción de chicos. De los que viven en un pueblo, proporción de chicas 45 Examen de estadística: 2º curso de ingeniería química. 9 de septiembre de 2008 Nombre Apellidos 1.- Los siguientes datos representan los días de baja por enfermedad en un grupo de 50 trabajadores (1p) 2 1 2 7 Media Meda 0 2 0 5 5 5 8 4 3 3 4 3 1 0 0 0 0 2 7 5 1 1 7 3 1 0 5 1 4 0 0 2 4 4 1 5 8 0 - Calcular varianza máximo mínimo Primer cuartil tercer cuartil rango intercuartilico - Presentar los datos en forma de tabla de distribución de frecuencias 9 5 7 7 0 5 0 1 Mediana percentil10 - Dibujar un diagrama de cajas y un diagrama de barras - Calcular el número de trabajadores que han estado de baja al menos 1 día 2.- Las longitudes de un tipo de cojinete de bolas se distribuyen normalmente con una desviación típica de 0,5 mm.(1p) ¿Qué tamaño de muestra se necesita si se pretende que el estimador de la media difiera de la media poblacional en ±0,1 mm. con una confianza del 95%? ¿Qué error de estimación se comete para un tamaño muestral de 100 y una confianza del 99%? 46 3.- Una compañía debe decidir entre dos suministradores de lámparas. La dirección ha decidido hacer el pedido al suministrador A, a menos que se pueda probar que la vida media de las lámparas del suministrador B es mayor. Para ello se prueban 31 lámparas de A y 31 lámparas de B, obteniéndose los siguientes resultados. (1.5 p) A 121 76 88 103 96 89 100 112 105 101 92 98 87 75 111 118 121 96 93 82 105 78 84 96 103 119 85 84 90 110 105 B 127 133 87 91 81 122 115 107 109 89 82 90 81 104 109 110 85 93 90 100 122 117 109 98 94 103 107 101 99 112 106 ¿Qué suministrador elegirías para un nivel de significación de 0.05? Plantea el contraste de hipótesis correspondiente y razona la respuesta. Calcula la región crítica y el p-valor. Calcula la potencia si la diferencia de medias es de 10. 4.-Se ha realizado un análisis de regresión tomando como variable dependiente Ávila y variable independiente Burgos. Se ha obtenido (1.5p) Regression Analysis - Linear model: Y = a + b*X Dependent variable: avila Independent variable: leon Standard T Parameter Estimate Error Statistic Intercept -333,414 222,269 Slope 0,317519 19,9313 Analysis of Variance Source Sum of Squares Df Mean Square Model 1,14214E8 1,14214E8 Residual 5,95138E7 207 287506,0 Total (Corr.) Correlation Coefficient = 0,810821 R-squared = percent R-squared (adjusted for d.f.) = 65,5776 percent Standard Error of Est. = Mean absolute error = 476,173 Durbin-Watson statistic = 0,0554521 (P=0,0000) Lag 1 residual autocorrelation = 0,97107 P-Value 0,1351 0,0000 F-Ratio P-Value 0,0000 - Rellenar los huecos - Ecuación de la recta de regresión - Resultado del contraste F - Resultado del contraste de la pendiente y de la ordenada en el origen - Intervalo de confianza al 95% para la pendiente 47 5.- Un proceso químico utiliza un catalizador con las siguientes características (1p) P(catalizador funcione más de 1000horas)= 0,8 P(catalizador funcione más de 2000horas)= 0,4 P(catalizador funcione más de 3000horas)= 0,1 Sabiendo que un catalizador ha estado funcionando 1000horas encontrar las probabilidades condicionadas P( tiempo total de funcionamiento exceda las 2000horas) P( continúe funcionando más de 2000horas) 6.- Sea X una v.a. binomial con E(X)=6 Var(X) = 2,4 (0.5p). Calcular P(X>2) P(X≤9) P(X=12) 7.- Contesta brevemente (1p) 1. Coeficiente R cuadrado 2. Hipótesis estadística 3. Estadístico 4. Región crítica 5. Nivel de significación 6. Varianza muestral 7. Función de densidad de probabilidad 8. Espacio muestral 9. Sucesos independientes 10. fórmula de Bayes 48