Validez y Confiabilidad - Oficina de Evaluación Estudiantil
Transcripción
Validez y Confiabilidad - Oficina de Evaluación Estudiantil
Validez y Confiabilidad Julio E. Rodríguez-Torres, Ed.D. 17 de diciembre de 2014 CONTENIDO 1. Definición de conceptos asociados al desarrollo y evaluación de pruebas. 2. Importancia de la Validez y la confiabilidad. 3. Ejemplo de la UPR-RP. 4. ¿Hacia dónde nos dirigimos? Definición de términos Medición Proceso de asignar cantidad a propiedades o atributos siguiendo unas reglas o indicadores claramente establecidos. (Vera,2002). Asignar u obtener expresiones numéricas de las propiedades o atributos de los objetos o personas siguiendo unas reglas específicas. (Medina y Verdejo, 2000). Definición de términos Todas las mediciones se caracterizan por la mayor o menor presencia de dos atributos o aspectos sicométricas: Validez Confiabilidad Validez Se dice que una medición es válida si mide lo que en realidad trata de medir. Es asegurarse de que se mide lo que se intenta medir. TIPOS DE VALIDEZ ¿Cuan representativo es el comportamiento elegido como muestra del universo que se intenta representar? Validez de Contenido ¿Qué significado tiene el comportamiento con respecto a los atributos del individuo que son de interés para la medición? Validez de Constructo ¿Hasta donde se puede predecir la actuación de un sujeto a partir de su ejecución en la prueba? Validez Predictiva 7 VALIDEZ DE CONTENIDO Se refiere a cuan bien el contenido de la prueba, en términos de los conceptos, destrezas, ítemes y ejercicios, corresponde fielmente a la materia o curso de enseñanza. Para evaluar la validez de contenido hay que analizar el contenido (conceptos/destrezas) y los niveles de conocimiento. Para realizar una validez de contenido se necesita: la planilla de especificación diseñada para construir la prueba, los planes de la clase (objetivos operacionales, destrezas, procesos, estrategias educativas, técnicas específicas y asignaciones dadas), libro de texto y materiales utilizados. Ver ejemplo en la página 203, libro de texto EVIDENCIA RELACIONADA CON EL CONTENIDO Se determina hasta dónde los items de un instrumento son representativos de las variables que se desea medir (grado de representatividad). Palella y Martins; 2006 No puede ser expresada cuantitativante (Ruiz; 2003) Método: Validez de Contenido Técnica: Juicio de Expertos Ítems 1 2 4 5 6 7 8 9 10 11 Congruencia Claridad Tendenciosidad Si No Si No Si No . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Observaciones __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ __________________________ 9 VALIDEZ DE CONSTRUCTO O CONCEPTUAL Se refiere a la conceptualización científica que se establece para definir los aspectos fundamentales de la conducta humana. Ejemplo: motivación, actitudes, personalidad, intereses vocacionales, la ansiedad, entre otros de índole psicológica. Para cada uno éstos constructos hay que diseñar una prueba estandarizada y someterla a todo el rigor del proceso de estandarización de dicha prueba. Este tipo de validez corresponde mayormente a los especialistas o expertos en la materia. EVIDENCIA RELACIONADA CON EL CONSTRUCTO Verifica que el instrumento contenga todas las dimensiones, indicadores y variables que se reflejan en la operacionalización de variables. (Palella y Matins; 2006) ¿Hasta donde un instrumento mide realmente un determinado rasgo latente o una característica de las personas ? ¿Con cuanta eficacia lo hace? (Ruiz; 2003) Método: Validez de Constructo Técnica: Análisis Factorial 1. Ruiz (1988) desarrolló la escala AC 2000 que mide autoconcepto de alumnos de 6to. grado Con la Técnica Análisis Factorial comprobó que las dimensiones (Autoconcepto: social, personal y escolar) tenían soporte empírico en los datos EVIDENCIA RELACIONADA CON EL CONSTRUCTO 2. Información Correlacional. Ruiz (1988) Item Factor 1 A. Social Item Factor 2 A. Escolar Item Factor 3 A. Personal 3 0.51 4 0,52 1 0.30 6 0.63 8 0,43 2 0.48 16 0.49 12 0,45 5 0.58 22 0.48 25 0,54 7 0.43 26 0.64 28 0,57 9 0.57 27 0.54 29 0.55 10 0.56 30 0.40 13 0.41 Instrumento AC - 2000 Escala Auto -.Estima de Coopersmith (1959) Coeficiente de Correlación 0.79 12 VALIDEZ DE CRITERIO Es aquella en la cual el alcance o el grado de los resultados de una prueba se relaciona o se comparan con otra medida de ejecución, ya sea de otra prueba o instrumento de evaluación. Validez predictiva = Cuando las puntuaciones o resultados de un examen se usan para predecir ejecutorias futuras o estimar ejecución sobre alguna medida. Ver ejemplo página 208, texto. Validez concurrente = Cuando los resultados de una prueba concurren con los resultados de otra prueba. Lo que realmente se hace es comparar los resultados de una prueba con los de otra con el fin de predecir ejecuciones en áreas relacionadas o para predecir ejecuciones futuras tomando como base los resultados de una prueba. EVIDENCIA RELACIONADA CON LA PREDICCIÓN Establece la validez de un instrumento de medición comparándola con algún criterio externo. Entre más se relacionen los resultados del instrumento con el criterio, mayor será su validez (Silva; 2009) Alumno PAA (X) L (Y) Egledis 650 75 Ronny 710 87 Frank 682 85 Victor 700 83 Vanesa 691 80 Liévana 705 82 Ruben 600 81 Maybeth 690 90 Julio 709 90 Marbelis 715 78 Método: Validez Predictiva Técnica: Análisis Correlacional La PAA es un instrumento Válido Coeficiente de Correlación entre X e Y: Spearman: 0,83 Pearson: 0,87 FACTORES QUE AFECTAN LA VALIDEZ 1. Construcción del Instrumento 2. Administración y Calificación a) Instrucciones imprecisas o vagas b) Estructura de la oración demasiado difícil c) Preguntas que sugieren las respuestas d)Ambigüedad en la formación de los reactivos e) Pruebas demasiado cortas f) Ítems incongruentes con el contenido g) Ordenamiento inadecuado a) Tiempo insuficiente para responder b) Ayuda adicional a algunos sujetos c) Subjetividad en la puntuación 3. Respuestas de los sujetos 4. Naturaleza del Grupo o Criterio a) Bloqueo de los sujetos al responder b) Situaciones externas Principio: La validez es específica con respecto a un grupo en particular Ej: comprensión de lectura el alumnos 6to grado y 9no. Grado ¿Cómo sabemos que estamos haciendo la inferencia correcta? Un instrumento que no tiene una validez demostrada no vale la pena aplicarlo IMPORTANCIA DE LA VALIDEZ Construir un instrumento técnicamente bien hecho, implica en sí mismo una investigación Consciencia de usar instrumentos técnicamente bien calibrados Confiabilidad Decimos que una medición es “confiable” si podemos esperar, de manera razonable, que los resultados de dicha medición sean sistemáticamente precisos. Representa la consistencia en la reproducción de los valores obtenidos en la medición. La confiabilidad es una condición necesaria pero no suficiente para la validez. CONFIABILIDAD Se refiere al grado en que su aplicación de un instrumento repetida al mismo sujeto produce iguales resultados” Hernández, Fernández y Bastita (1998) “(p.21) Se refiere a la consistencia de los resultados. En el análisis de la confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados del cuestionario en otra ocasión. Menéndez (2009) Se refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados. Silva (2009) Reproducibilidad Estabilidad y Predictibilidad Seguridad Precisión Consistencia Interna u Homogeneidad Confiabilidad Método División por mitades: Confiabilidad Pearson / Spearman – Brown. Confiabilidad Rulón. Confiabilidad Guttman. Confiabilidad de consistencia interna (Homogeneidad) Confiabilidad KUDER –RICHARDSON (KR 20) Confiabilidad Alfa DE CRONBACH 6. Importancia de la validez y ejemplos. CONFIABILIDAD Supuestos Básicos: La persona no cambia -Diferentes tiempos (Test – Retest) -Diferentes observadores (Confiablidad interobservador) - Diferentes versiones (Confiabilidad en paralelo) Muñoz, (2009) Grupo homogéneo: Confiabilidad baja Grupo heterogéneo: Confiablidad alta TIPOS DE CONFIABILIDAD MÉTODO TÉCNICA PROPÓSITO Test/retest Coeficiente r correlación de Pearson Consistencia en el tiempo de los puntajes Formas Equivalentes Coeficiente r correlación de Pearson Estabilidad Temporal, consistencia de las respuestas. División por dos mitades Pearson/SpearmanBrown. Rulon Guttman Homogeneidad de los itemes al medir el constructo Análisis de homogeneidad de los Itemes KR 20 Coeficientes de fiabilidad como consistencia interna para itemes dicotómicos (KR20). Alfa de Cronbach Homogeneidad de los itemes con escala tipo Lickert. DESCRIPCIÓN DE LOS MÉTODOS Método: TEST – RETEST Características: El investigador debe aplicar el mismo instrumento dos veces al mismo grupo después de cierto período. Debe calcular la confiabilidad del instrumento ANTES de la aplicación definitiva del mismo. Coeficiente de Correlación de Pearson altamente positivo = Instrumento confiable. Debilidades: El periodo de tiempo (corto – largo) entre las mediciones puede afectar el coeficiente de confiabilidad. DESCRIPCIÓN DE LOS MÉTODOS Método: FORMAS EQUIVALENTES Características: Se administran dos o más versiones equivalentes de un mismo instrumento. Deben ser similares en contenido, instrucciones, tipos de preguntas y dificultad. Son administradas al mismo grupo en un período relativamente corto. Los patrones de respuestas deben variar POCO entre las aplicaciones. Coeficiente de Confiabilidad = Fórmula de Correlación de Pearson. Debilidades: Dificultad para obtener dos pruebas realmente paralelas Implica doble trabajo Confiable solo si la correlación entre los resultados de ambas aplicaciones es positiva DESCRIPCIÓN DE LOS MÉTODOS Técnica: Alfa de Cronbach Características: Requiere sólo una aplicación del instrumento de medición. Produce valores que oscilan entre cero (0) y uno (1). No es necesario dividir en mitades los ítems del instrumento. Se aplica la medición y se calcula el coeficiente. Técnica: Kuder – Richardson KR - 20 Permite calcular la confiabilidad con una sola aplicación del instrumento. No requiere el diseño de pruebas paralelas. Es aplicable sólo en instrumentos con ítems dicotómicos, que puedan ser codificados con 1 – 0 (correcto – incorrecto, presente – ausente, a favor – en contra, etc.) . CONFIABILIDAD KUDER-RICHARDSON (KR-20) PROCEDIMIENTO: Correlación a través de proporciones de aciertos y desaciertos y varianza del total de aciertos. APLICABLE EN: Lista de Cotejo y cuestionarios preguntas cerradas con opciones respuestas dicotómicas (SI- NO) de de CONFIABILIDAD KUDER-RICHARDSON (KR 20) K= Número de Ítems. ∑p.q= sumatoria de proporciones de aciertos por desaciertos. S2T= Varianza del total de aciertos. CONFIABILIDAD ALFA DE CRONBACH PROCEDIMIENTO: Correlación a través de la varianza de cada ítem asociado por variables y la varianza de las puntuaciones totales. APLICABLE EN : Escalas de Estimación, Escala de Lickert, cuestionario de preguntas cerradas con opciones policotómicas , test de aptitud verbal, test de aptitud no verbal , test psicológico, etc. CONFIABILIDAD ALFA DE CRONBACH K= Número de Ítems. S2= Varianza de los puntajes de cada ítems. S2T= Varianza de los puntajes totales. Instrumento HOJA DE CÁLCULO EN EXCEL CONFIABILIDAD RANGOS MAGNITUD 0.81 A 1,00 Muy Alta 0.61 A 0,80 Alta 0.41 A 0,60 Moderada 0.21 A 0,40 Baja 0.01 A 0,20 Muy Baja FUENTE: RUIZ (2002). Nivel de dificultad de los ítems Delta Porcentaje de estudiantes que responden correctamente 6 95 7 92 8 90 9 85 10 80 11 70 12 60 13 50 14 40 15 30 16 20 17 15 18 10 19 5 Fácil Mediana Difícil Ejemplo de la UPR-RP Prueba de Razonamiento Lógico Matemático Definición del dominio de aprendizaje Razonamiento lógico-matemático y/o cuantitativo es la habilidad para identificar, entender, generar y evaluar argumentos lógicos e información cuantitativa con el fin de utilizarlos en situaciones del diario vivir y relacionadas con su campo de estudio. Competencias generales 1. Cómputos 2. Representación 3. Evaluación Objetivos generales 1. Usar enfoques y métodos matemáticos diversos para el análisis y la solución de problemas reales y llevar a cabo los cómputos pertinentes. 2. Utilizar gráficas, tablas, símbolos, conceptos y metodología cuantitativa o matemática en aritmética, álgebra o analítica o estadística para representar y analizar procesos y situaciones reales. 3. Interpretar modelos matemáticos y hacer inferencias a partir de los mismos. 4. Evaluar argumentos lógicos e información cuantitativa para formular juicios, llegar a conclusiones y resolver situaciones reales en distintos contextos. 5. Emplear métodos cuantitativos para representar y analizar la relación entre variables. 6. Comunicar argumentos lógicos o resultados cuantitativos de forma efectiva. Cómputos: Entender y utilizar la aritmética, el álgebra y la estadística para resolver problemas que involucren: Utilizar las cuatro operaciones básicas con números enteros, decimales y fracciones; Resolver problemas que requieran por cientos, tasas y proporciones; Resolver ecuaciones e inecuaciones y poder aplicarlas; Utilizar competencias cuantitativas que le permitan analizar y resolver situaciones de su diario vivir y en sus estudios; Utilizar principios de estadística para describir situaciones. Representación: Entender e interpretar modelos matemáticos representados por ecuaciones, gráficas y tablas y poder hacer inferencias de las mismas y resolver problemas que involucren: Construir e interpretar gráficas; Analizar y visualizar conceptos geométricos; Aplicar conceptos de medición; Utilizar modelos matemáticos y estadísticos para representar relaciones entre variables; Analizar situaciones que requieran razonamiento cuantitativo con el apoyo de la tecnología; Representar funciones como ecuaciones o gráficamente; Interpretar y hacer predicciones utilizando conceptos básicos de la probabilidad y estadística. Evaluación: Pensar críticamente sobre el uso de la información cuantitativa. Identificar relaciones cuantitativas en diferentes contextos, interpretarlas en su contexto y comunicar su interpretación; Analizar evidencias, llegar a conclusiones, comunicar y defender interpretaciones; Identificar los supuestos tras un argumento que utiliza información cuantitativa y explorar las implicaciones de cambios en los supuestos; Entender la relación entre la información cuantitativa y sus diferentes representaciones; Utilizar competencias cuantitativas para generar, interpretar y analizar un argumento o utilizar apropiadamente simbología lógica en razonamientos deductivos; Conocer y aplicar distintos modos de razonamiento lógicomatemático. 37 Administración La prueba fue administrada a 521 estudiantes en 9 cursos (34 secciones) de un total de 806 estudiantes en la semana del 16 al 20 de mayo de 2011. Lo anterior equivalente al 65% de los estudiantes que finalizaron el semestre matriculados en estos cursos. Las pruebas fueron corregidas en el Centro de Cómputos del Recinto por un lector óptico, utilizando una clave. Los datos crudos fueron enviados a la OEAE. En la OEAE se llevó a cabo un análisis de ítems, que incluyó la elaboración de estadísticas como el índice de dificultad e índice de discriminación por ítem, distribución de las puntuaciones globales, distribución de selección de alternativas por ítem, entre otros, que les presentamos a continuación. Oficina de Evaluación del Aprendizaje Estudiantil 38 Resultados Generales Oficina de Evaluación del Aprendizaje Estudiantil 39 DistribucIón de puntuaciones totales Oficina de Evaluación del Aprendizaje Estudiantil 40 Resultados: ítem 1 Oficina de Evaluación del Aprendizaje Estudiantil 41 Resultados: ítem 2 Oficina de Evaluación del Aprendizaje Estudiantil 42 Resultados: ítem 3 Oficina de Evaluación del Aprendizaje Estudiantil 43 Resultados: ítem 4 Oficina de Evaluación del Aprendizaje Estudiantil 44 Resultados: ítem 5 Oficina de Evaluación del Aprendizaje Estudiantil 45 Resultados: ítem 6 Oficina de Evaluación del Aprendizaje Estudiantil 46 Resultados: ítem 8 Oficina de Evaluación del Aprendizaje Estudiantil 47 Resultados: ítem 9 Oficina de Evaluación del Aprendizaje Estudiantil 48 Resultados: ítem 10 Oficina de Evaluación del Aprendizaje Estudiantil 49 Resultados: ítem 12 Oficina de Evaluación del Aprendizaje Estudiantil 50 Resultados: ítem 13 Oficina de Evaluación del Aprendizaje Estudiantil 51 Resultados: ítem 14 Oficina de Evaluación del Aprendizaje Estudiantil 52 Resultados: ítem 15 Oficina de Evaluación del Aprendizaje Estudiantil 53 Resultados: ítem 16 Oficina de Evaluación del Aprendizaje Estudiantil 54 Resultados: ítem 19 Oficina de Evaluación del Aprendizaje Estudiantil 55 Resultados: ítem 21 Oficina de Evaluación del Aprendizaje Estudiantil 56 Resultados: ítem 22 Oficina de Evaluación del Aprendizaje Estudiantil 57 Áreas de fortaleza o Necesidad Área de fortaleza: Competencias específicas del área de Evaluación Cuatro ítems (19, 22, 17 y 7) con índices de dificultad entre 0.72 y 0.79, con índices de discriminación entre 0.4 y 0.26. Área de necesidad: Competencias específicas del área de Cómputos Cinco ítems (4, 12, 8, 13, 9 y 21) con índice de dificultad entre 0.26 y 0.49, pero con índices de discriminación entre 0.34 y 0.51. Los resultados de los ítems de área de representación se distribuyen equitativamente (2) por clasificación (fortaleza, alguna dificultad, necesidad). Oficina de Evaluación del Aprendizaje Estudiantil 58 Resumen Delta (expertos) Dificultad del ítem 6-8 9-11 12-14 15-19 Muy fácil Fácil Mediana Difícil Índice ≥.40 .39-30 .29-20 ≤.19 Negativo Dificultad de los ítems Porcentaje de estudiantes que responden correctamente 95-90 85-70 60-40 30-5 Cantidad de ítems en la prueba 0 8 9 5 Discriminación de los ítems Cantidad de ítems en la Discriminación prueba Muy buena 15 Discrimina bien 2 Puede revisarse 3 Cotejar dificultad, No debe usarse 2 instrucciones No discrimina y 0 debe eliminarse Índice de dificultad de la prueba: .54 (delta equivalente 12.5) - Mediana dificultad Oficina de Evaluación del Aprendizaje Estudiantil Una alta confiabilidad, por si sola, no garantiza “buenos” resultados científicos. Pero no puede haber “buenos” resultados científicos sin instrumentos confiables. Carlos Ruiz Bolívar (2003)