Prueba de hipótesis - Estadística inferencial Juan José Hernández
Transcripción
Prueba de hipótesis - Estadística inferencial Juan José Hernández
PRUEBA DE HIPÓTESIS Juan José Hernández Ocaña [email protected] [email protected] Una hipótesis es una afirmación o una suposición, sobre un parámetro de la población En cambio una prueba de hipótesis es un procedimiento basado en evidencia de la muestra para determinar si la hipótesis es una afirmación razonable en términos de probabilidad [email protected] Conceptos básicos Una hipótesis estadística es una declaración o afirmación tentativa acerca del valor de un parámetro de una población. ◦ Es tentativa debido a que los verdaderos valores de los parámetros ( los datos de la población) en cuestión se desconocen ◦ Se emplean en la mayoría de los casos datos sobre una muestra y se trata de inferir en base a ellos sobre ciertas propiedades de toda la población [email protected] ¿ Cómo hacer una prueba de hipótesis? [email protected] Establecer Ho Ha Rechazo o no Ho Seleccionar nivel de significancia Identificar estadístico de la prueba Empleando una muestra tomar decisiones Formular regla para tomar decisiones [email protected] Hipótesis Hipótesis alternativa ( o de investigación) ◦ “La hipótesis alternativa es la que afirma que la variable independiente es la causa de la diferencia de los resultados entre las condiciones observadas”. ◦ ES LO QUE VAMOS A PROBAR… Hipótesis nula ◦ “La hipótesis nula es la que afirma que la variable independiente no es la causa de la diferencia de los resultados entre las condiciones observadas y que los resultados son producto del azar debido al muestreo Si la hipótesis nula es rechazada como verdadera , la hipótesis alternativa debe ser aceptada Por ello deben de ser mutuamente excluyentes y exhaustivas [email protected] 1.- Prepare Ho y Ha La hipótesis nula Ho siempre se determina en términos estadísticos utilizando parámetros de la población El subíndice cero implica que no hay “ diferencia” o “ no existe diferencias significativas” Es necesario recordar que, sin importar la manera de plantear el problema, la hipótesis nula siempre incluirá el signo de igual [email protected] Cuando no rechazamos Ho lo que estamos afirmando es “ que no existe una diferencia significativa entre la media de la muestra y la media de la población y que dicha diferencia se debe al azar debido al error por muestreo” Pero cuando la rechazamos estamos afirmando que la diferencia es suficientemente significativa y que dichas diferencias se deben a la variable independiente y no pueden ser explicadas por el azar… [email protected] Ejemplo Pensemos que queremos probar que la cafeína puede producir el efecto de modificar el desempeño en realizar una tarea especifica en las personas adultas durante un tiempo determinado de 40 minutos Veamos los siguientes tres casos 1.- La cafeína modifica el tiempo de desempeño óptimo de 40 minutos 2. – La cafeína aumenta el tiempo de desempeño óptimo de 40 minutos 3.- La cafeína disminuye el tiempo de desempeño óptimo de 40 minutos [email protected] Clasificación de la Prueba de Hipótesis 1.- Si la hipótesis alternativa es no direccional, se trata de demostrar que la variable independiente tiene un efecto en cualquier dirección ( mayor o menor) especificada por la hipótesis alternativa Si la hipótesis alternativa no especifica la dirección de la diferencia, a la prueba se le denomina prueba de dos colas ( valor critico en dos colas) H a : µ ≠ 40 Ho : µ = 40 Para una prueba de dos colas el nivel de significancia deberá dividirse en dos partes iguales La cafeína afecta el nivel de atención [email protected] Si el resultado está en la región de Ho, se pueden considerar que se deben al azar Ha Si los resultados están en la región de Ha , los resultados se consideran que son producto de la variable independiente Ho azar Ha [email protected] 2.- Si la hipótesis alternativa es direccional, la hipótesis alternativa afirma que la variable independiente influye sobre la variable dependiente en la dirección señalada por la hipótesis alternativa Si la hipótesis alternativa puede implicar una alternativa unilateral se denomina prueba de una cola ( valor critico en una cola) Ha : µ > 40 la cafeína aumenta el nivel de atención Ho : µ ≤ 40 [email protected] 2.- Si la hipótesis alternativa es direccional, la hipótesis alternativa afirma que la variable independiente influye sobre la variable dependiente en la dirección señalada por la hipótesis alternativa Si la hipótesis alternativa puede implicar una alternativa unilateral se denomina prueba de una cola ( valor critico en una cola) Ha : µ< 40 la cafeína disminuye el nivel de atención Ho: µ ≥ 40 [email protected] Ejemplos Se quiere determinar si el tiempo de espera al pedir una orden se ha modificado durante el último año respecto a el valor promedio de 4 en los últimos años ( media poblacional) Ho µ=4 Ha µ≠ 4 [email protected] Ejercicio 1.-Supóngase que el promedio de palabras leídas por minuto en los alumnos de licenciatura es de 60. El director de psicología quiere saber si un nuevo método pedagógico tiene beneficios en aumentar el promedio de palabras leídas 2.- Se sabe que un fármaco X tiene una efectividad de 70%. Se ha desarrollado un nuevo fármaco Y para el mismo tipo de enfermedad y si se quiere saber si es menos efectiva que el anterior Para ambas preguntas Planteé la hipótesis nula y alternativa [email protected] Ejercicios Una compañía de cereales quiere determinar si el peso especificado en su producto es el correcto y no realizar acciones correctivas en su proceso. El supervisor dese determinar si el peso del cereal es de 386 gramos ¿ Cuál es la hipótesis nula y cuál es la hipótesis alternativa? Un psicólogo quiere determinar el ansiedad de las personas con problemas en su relación de pareja es menor a 100 puntos en la escala de Beck ¿ Cuál es su Ho y su Ha? [email protected] 2.- Nivel de significancia ¿Cuándo puede considerarse una media muestral como significativamente diferente para rechazar la hipótesis nula? ◦ Eso depende el nivel de error que se desee tolerar y es llamado nivel de significancia o alfa ◦ El nivel de significancia es la probabilidad de rechazar una hipótesis nula verdadera o de cometer lo que se denomina error tipo I. ◦ Por otro lado, el error de no rechazar la hipótesis nula cuando es falsa se denomina error de tipo II. [email protected] Podemos cometer un error al decidir? DECISIÓN Hipótesis nula verdadera Hipótesis nula falsa Se rechaza la hipótesis nula Porque se considera que los datos no son resultado del azar Erro de tipo I o alfa Se rechaza hipótesis nula siendo verdadera Decisión correcta No se rechaza la hipótesis nula ( se conserva Ho) Decisión correcta ( 1 – alfa) Error de tipo II No se rechaza hipótesis nula siendo falsa Porque se considera que los datos pueden ser resultado del azar [email protected] Errores tipo I y II De manera coloquial podemos decir “ qué la máxima probabilidad permisible de cometer un error de tipo I ( Rechazar Ho siendo verdadera) se llama nivel de significancia esto es se tiene un alto nivel de confianza (1-ά) en que sea correcta la decisión de rechazar Ho [email protected] Determinar un valor critico ◦ Se realiza una comparación calculando la probabilidad de obtener una valor tan extremo que nos permita determinar s el efecto que señala la hipótesis alternativa ◦ En otras palabras buscamos saber sí ambas poblaciones tienen características similares en términos de probabilidad [email protected] Ejemplo Olvidemos que sabemos estadística Sin emplear datos estadísticos, pensemos que se ofrece un producto X que garantiza tener una niña en un 80% a las parejas que están buscando tener un bebé. Si consideramos que la probabilidad de tener una niña o niño es del 50% y sí se obtienen los siguientes resultados: ◦ En una muestra de 100 nacimientos sin que se administre el producto X, esperaríamos tener 50 niños y 50 niñas ◦ Pero ahora administramos el producto X que conclusiones obtendríamos: ◦ A) Y sí obtenemos 52 niñas ◦ B) Y sí se obtiene un resultado de 90 niñas ◦ Para 52 niñas , se concluye que el producto no tiene efecto dado que el resultado puede ocurrir fácilmente por el azar ◦ Es muy improbable que el resultado de 90 niñas se deba al azar, por lo que el producto debe tener el efecto que predice. [email protected] Determinar un valor critico “Es un intento en distinguir entre resultados que puede ocurrir fácilmente por el azar y resultados que son extremadamente improbables que ocurran por el azar ” [email protected] Como podemos observar , dependiendo de los elementos seleccionados para cada muestra, ésta puede variar respecto al valor de la media de la población y entre los valores de cada una de las muestras Consideremos para este caso el total de la población como 30 La media poblacional es de 1.63 Las diferencias en los valores encontrados se deben a las diferentes muestras empleadas Estatura de estudiantes de administración Son muestras de tres grupos diferentes M1 M2 m3 1.60 1.65 1.64 1.65 1.7 1.63 1.70 1.69 1.65 1.63 1.65 1.58 1.62 1.64 1.61 1.64 1.63 1.60 1.68 1.66 1.63 1.57 1.56 1.62 1.55 1.67 1.63 1.54 1.67 1.62 1.618 1.652 1.621 [email protected] Concepto de Valor critico De acuerdo a la teoría de la probabilidad, podemos afirmar que es muy probable encontrar un valor cercano a la media y que conforme nos alejamos de la media es muy improbable encontrar un valor [email protected] Concepto de Valor critico Las proporciones muestrales tienen una posibilidad relativamente pequeña de caer en las colas α/2 Pero hay un posibilidad relativamente alta de caer en 1- α La puntuación z que separa a ambas regiones se le conoce como valor crítico Un valor critico es el número que está en la frontera que separa las estadísticas de muestra que probablemente ocurrirán, de aquellas que no tienen posibilidades de ocurrir [email protected] Si los resultados están en la región de α/2 … se deben al efecto de la variable Concepto de Valor critico Si los resultados caen en la región de 1- α, los resultados pueden explicarse por efecto del azar [email protected] En otras palabras es la probabilidad de cometer el error de rechazar la hipótesis nula cuando es verdadera Si afirmamos que la diferencia encontrada se debe a la variable y no es cierto, nuestra probabilidad de equivocarnos es alfa [email protected] 3.- Qué estadístico emplear ????? [email protected] Teorema del límite Central Supuestos ◦ La variable aleatoria x tiene una distribución con una media µ y una desviación estándar ◦ Las muestras se seleccionan de modo que todas las muestras posibles de tamaño n tengan la misma posibilidad de seleccionarse ◦ La distribución de las medias de la muestra se aproximara a una distribución normal, conforme el tamaño de la muestra aumente ( valores de n mayores a 30) ◦ La media de todas las medias de muestra es la media poblacional µ ◦ La desviación estándar de todas las medias de muestras está definido por [email protected] Prueba de aseveraciones acerca de una media poblacional cuando se conoce la desviación estándar de la población Supuestos para el empleo del estadístico Z ◦1.-La muestra es aleatoria simple ◦2.-Se conoce el valor de la desviación estándar poblacional o puede estimarse de la desviación estándar de la muestra ◦3.-Se considera un muestreo con reemplazo [email protected] Prueba de aseveraciones acerca de una media poblacional cuando se conoce la desviación estándar de la población Supuestos para el empleo del estadístico Z ◦ 4- Se satisface una o ambas de las siguientes condiciones ◦ La población se distribuye normalmente ◦ El tamaño de la muestra es mayor a 30, ◦ Recordemos que estamos evaluando medias muestrales y no valores individuales [email protected] Estadístico Z [email protected] 4.- Criterios de decisión Método tradicional ◦ Rechace Ho si el estadístico de prueba cae dentro de la región crítica o de rechazo ◦ No rechace Ho si el estadístico de prueba no cae dentro de la región crítica [email protected] Si el resultado está en la región de Ho, se pueden considerar que se deben al azar Ha Si los resultados están en la región de Ha , los resultados se consideran que son producto de la variable independiente Ho azar Ha [email protected] Criterios de decisión Método del valor de P ◦ Rechace Ho si el valor de p ≤ α ( una cola) ◦ Rechace Ho si el valor de 2p ≤ α ( dos colas) ◦ El valor P es la probabilidad de obtener un valor estadístico de prueba que sea al menos tan extremo como el que representa a los datos muestrales, suponiendo que la hipótesis nula sea verdadera. [email protected] Criterios de decisión Puntaje z ◦ Rechazo Ho Sí ◦ Zobt < o > que Z critico para una prueba de dos colas ◦ Zobt > Z critico para una prueba de cola derecha ◦ Zobt < Z critico para una prueba de cola izquierda [email protected] Ejercicios [email protected] Ejercicio 1.-Supóngase que el promedio de palabras leídas por minuto en los alumnos de licenciatura es de 60. El director de psicología quiere saber si un nuevo método pedagógico tiene beneficios en aumentar el promedio de palabras leídas 2.- Se sabe que un fármaco X tiene una efectividad de 70%. Se ha desarrollado un nuevo fármaco Y para el mismo tipo de enfermedad y si se quiere saber si es menos efectiva que el anterior Para ambas preguntas Planteé la hipótesis nula y alternativa Planteé la regla de decisión [email protected] En una encuesta Nielsen se obtuvo la estimación de que la media del número de horas de ver la TV por familia es de 7.25 horas diarias. Suponga que en esta encuesta participaron 200 familias . Hace 10 años, la media de ver la TV era de 6.70 y los datos tuvieron una desviación estándar de 2.5 horas . Si considera que los datos se distribuyen normalmente y si emplea un alfa de 0.01, podría aseverar que el promedio de horas de ver la TV ha aumentado en los últimos 10 años: Ejercicio 1 ◦ Cuál es la hipótesis nula? ◦ Cuál es su hipótesis alternativa? ◦ Cuál es el criterio de decisión de acuerdo al valor de p ◦ Cuál es el criterio de decisión de acuerdo al estadístico z ◦ Rechace o no la hipótesis nula de acuerdo a los criterios p y z ◦ Cuáles son sus conclusiones? [email protected] Un rector de una universidad tiene la idea de que la edad promedio de los estudiantes que se gradúan ha cambiado durante los últimos años. Para probar la aseveración, se registró la edad de 150 alumnos que egresaron este último año ( elegidos al azar) y se encontró un valor promedio de 22.4 años . Si la media histórica registrada es de 23.5 años y tenía una desviación estándar de 7.6. Considerando un nivel de confianza del 95%. Cuál es la hipótesis nula? Cuál es su hipótesis alternativa? Cuál es el criterio de decisión de acuerdo al valor de p Cuál es el criterio de decisión de acuerdo al estadístico z Rechace o no la hipótesis nula de acuerdo a los criterios p y z Sí es factible calcule el intervalo de confianza Cuáles son sus conclusiones [email protected] Se quiere investigar si la competencia lectora en los estudiantes de su escuela es mayor a la reportada al promedio de la nación. Una muestra aleatoria de 64 estudiantes de esa población mostró una habilidad media de lectura igual a 78. Las normas nacionales sobre la habilidades de lectura, muestran una distribución normal de los datos históricos con una media (µ ) de 75 y una desviación estándar igual a 16. Con un alfa de 0.05 puede afirmar que la competencia lectora de su escuela es mayor al promedio nacional? Cuál es la hipótesis nula? Cuál es su hipótesis alternativa? Cuál es el criterio de decisión de acuerdo al valor de p Cuál es el criterio de decisión de acuerdo al estadístico z Rechace o no la hipótesis nula de acuerdo a los criterios p y z Cuáles son sus conclusiones [email protected] Este año se realizaron cursos propedéuticos más estrictos para el ingreso a nivel licenciatura en las áreas de Ciencias Sociales, por lo cuál se cree que los alumnos de nuevo ingreso obtendrán mejores calificaciones en sus exámenes de Matemáticas .Los resultados históricos muestran una media de 82 puntos y una desviación estándar de 15.Un grupo de 40 alumnos de nuevo ingreso que fueron evaluados obtuvieron un resultado promedio de 87 puntos en sus exámenes , y sí se considera un alfa de 0.05 Cuál es la hipótesis nula? Cuál es su hipótesis alternativa? Cuál es el criterio de decisión de acuerdo al valor de p Cuál es el criterio de decisión de acuerdo al estadístico z Rechace o no la hipótesis nula de acuerdo a los criterios p y z Cuáles son sus conclusiones Considere ahora un nivel del 99% [email protected] El departamento de investigación de UNITEC ha realizado un estudio para determinar si existe una diferencia entre los valores encontrados en los niveles de plomo en sangre en niños menores de 12 años en el municipio de Naucalpan y los reportados en el Valle de México. Los datos muestran una media de 50mg / litro, y una desviación estándar de 12 en los niños evaluados en los últimos diez años en el Valle de México. Los resultados encontrados en una muestra de 36 niños del municipio de Naucalpan mostraron una media de 54 mg/litro. Si considera un nivel de confianza del 99% , determine Cuál es la hipótesis nula? Cuál es su hipótesis alternativa? Cuál es el criterio de decisión de acuerdo al valor de p Cuál es el criterio de decisión de acuerdo al estadístico z Rechace o no la hipótesis nula de acuerdo a los criterios p y z Cuáles son sus conclusiones [email protected] Un método que incluye ejercicios físicos novedosos prometen que pueden retardar el proceso de envejecimiento. Por regla general, cuando una persona envejece, su consumo máximo de oxígeno disminuye, por lo que se espera que el consumo del nivel de oxígeno no disminuya como consecuencia del método implementado. Los resultados observados en personas mayores a 50 años muestran un consumo de oxígeno de 30 mililitros minutos por kilogramo/ min con una desviación estándar de 8.6 . Si un grupo de 36 personas mayores que han seguido el programa muestran un consumo promedio de 33 mililitros por kilogramo/min. Si considera una alfa de 0.01 ◦ Cuál es la hipótesis nula? ◦ Cuál es su hipótesis alternativa? ◦ Cuál es el criterio de decisión de acuerdo al valor de p ◦ Cuál es el criterio de decisión de acuerdo al estadístico z ◦ Rechace o no la hipótesis nula de acuerdo a los criterios p y z Cuáles son sus conclusiones [email protected] La American Water Works Association estima que la persona promedio en Estados Unidos consume 123 galones de agua por día y los datos muestran una desviación estándar de 27.6. Suponga que algunos investigadores piensan que se usa mas agua ahora y se desea determinar si esto es así. Ellos selecciona una muestra de 40 personas y obtiene un promedio de consumo de 132.36 galones por día. Suponga un alfa de 0.05 y que los datos se distribuyen normalmente. Cuáles serían sus conclusiones? [email protected] Estadístico Z Una línea de producción de llenado de alimento para animales, funciona con una media con un peso de 16 onzas por envase . Los datos históricos muestran una desviación estándar de 0.8 onzas. El sobrellenado o la falta de llenado son problemas graves , y la línea de producción debe parar si se presenta alguno de ellos. Iniciando el turno un supervisor toma una muestra de 36 artículos cada dos horas y de acuerdo a los resultados ( PRIMER TURNO 16.32) Y SEGUNDO TURNO (15.82) toma la decisión de realizar ajustes o detener la producción. ◦ ◦ ◦ ◦ ◦ Cuál es la hipótesis nula? Cuál es su hipótesis alternativa? Cuál es el criterio de decisión de acuerdo al valor de p Cuál es el criterio de decisión de acuerdo al estadístico z Rechace o no la hipótesis nula de acuerdo a los criterios p y z Cuáles son sus conclusiones SI USA UN ALFA DE 0.05 [email protected]