Validez y Confiabilidad - Oficina de Evaluación Estudiantil

Transcripción

Validez
y Confiabilidad
Julio E. Rodríguez-Torres, Ed.D.
17 de diciembre de 2014
CONTENIDO
1. Definición de conceptos asociados al desarrollo y
evaluación de pruebas.
2. Importancia de la Validez y la confiabilidad.
3. Ejemplo de la UPR-RP.
4. ¿Hacia dónde nos dirigimos?
Definición de términos

Medición


Proceso de asignar cantidad a propiedades o
atributos siguiendo unas reglas o indicadores
claramente establecidos. (Vera,2002).
Asignar u obtener expresiones numéricas de las
propiedades o atributos de los objetos o personas
siguiendo unas reglas específicas. (Medina y Verdejo,
2000).
Definición de términos
 Todas
las mediciones se caracterizan por la
mayor o menor presencia de dos atributos o
aspectos sicométricas:


Validez
Confiabilidad
Validez
 Se
dice que una medición es válida si
mide lo que en realidad trata de medir. Es
asegurarse de que se mide lo que se
intenta medir.
TIPOS DE VALIDEZ
¿Cuan representativo es el
comportamiento elegido como
muestra del universo que se
intenta representar?
Validez de Contenido
¿Qué
significado
tiene
el
comportamiento con respecto a
los atributos del individuo que
son de interés para la medición?
Validez de Constructo
¿Hasta
donde
se
puede
predecir la actuación de un
sujeto a partir de su ejecución en
la prueba?
Validez Predictiva
7
VALIDEZ DE CONTENIDO

Se refiere a cuan bien el contenido de la prueba, en términos
de los conceptos, destrezas, ítemes y ejercicios, corresponde
fielmente a la materia o curso de enseñanza.

Para evaluar la validez de contenido hay que analizar el
contenido (conceptos/destrezas) y los niveles de
conocimiento.

Para realizar una validez de contenido se necesita: la planilla
de especificación diseñada para construir la prueba, los
planes de la clase (objetivos operacionales, destrezas,
procesos, estrategias educativas, técnicas específicas y
asignaciones dadas), libro de texto y materiales utilizados.

Ver ejemplo en la página 203, libro de texto
EVIDENCIA RELACIONADA CON EL CONTENIDO
Se determina hasta dónde los items de
un instrumento son representativos de las
variables que se desea medir (grado de
representatividad). Palella y Martins;
2006
No puede ser
expresada
cuantitativante
(Ruiz; 2003)
Método: Validez de Contenido
Técnica: Juicio de Expertos
Ítems
1
2
4
5
6
7
8
9
10
11
Congruencia
Claridad
Tendenciosidad
Si
No
Si
No
Si
No
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Observaciones
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
__________________________
9
VALIDEZ DE CONSTRUCTO O CONCEPTUAL

Se refiere a la conceptualización científica que se
establece para definir los aspectos fundamentales de
la conducta humana.

Ejemplo: motivación, actitudes, personalidad, intereses
vocacionales, la ansiedad, entre otros de índole
psicológica.

Para cada uno éstos constructos hay que diseñar una
prueba estandarizada y someterla a todo el rigor del
proceso de estandarización de dicha prueba.

Este tipo de validez corresponde mayormente a los
especialistas o expertos en la materia.
EVIDENCIA RELACIONADA CON EL CONSTRUCTO
Verifica que el instrumento
contenga todas las dimensiones,
indicadores y variables que se
reflejan en la operacionalización
de variables. (Palella y Matins;
2006)
¿Hasta donde un instrumento
mide realmente un determinado
rasgo latente o una característica
de las personas ? ¿Con cuanta
eficacia lo hace? (Ruiz; 2003)
Método: Validez de Constructo
Técnica: Análisis Factorial
1. Ruiz (1988)
desarrolló la escala
AC 2000 que mide
autoconcepto de
alumnos de 6to.
grado
Con la Técnica Análisis Factorial
comprobó que las dimensiones
(Autoconcepto: social, personal y
escolar) tenían soporte empírico en
los datos
EVIDENCIA RELACIONADA CON EL CONSTRUCTO
2. Información
Correlacional.
Ruiz (1988)
Item
Factor 1
A. Social
Item
Factor 2
A. Escolar
Item
Factor 3
A. Personal
3
0.51
4
0,52
1
0.30
6
0.63
8
0,43
2
0.48
16
0.49
12
0,45
5
0.58
22
0.48
25
0,54
7
0.43
26
0.64
28
0,57
9
0.57
27
0.54
29
0.55
10
0.56
30
0.40
13
0.41
Instrumento AC - 2000
Escala Auto -.Estima de
Coopersmith (1959)
Coeficiente de Correlación 0.79
12
VALIDEZ DE CRITERIO

Es aquella en la cual el alcance o el grado de los resultados de
una prueba se relaciona o se comparan con otra medida de
ejecución, ya sea de otra prueba o instrumento de evaluación.

Validez predictiva = Cuando las puntuaciones o resultados de un
examen se usan para predecir ejecutorias futuras o estimar
ejecución sobre alguna medida. Ver ejemplo página 208, texto.

Validez concurrente = Cuando los resultados de una prueba
concurren con los resultados de otra prueba. Lo que realmente se
hace es comparar los resultados de una prueba con los de otra
con el fin de predecir ejecuciones en áreas relacionadas o para
predecir ejecuciones futuras tomando como base los resultados de
una prueba.
EVIDENCIA RELACIONADA CON LA PREDICCIÓN
Establece la validez de un instrumento de medición
comparándola con algún criterio externo. Entre más se
relacionen los resultados del instrumento con el criterio,
mayor será su validez (Silva; 2009)
Alumno
PAA (X)
L (Y)
Egledis
650
75
Ronny
710
87
Frank
682
85
Victor
700
83
Vanesa
691
80
Liévana
705
82
Ruben
600
81
Maybeth
690
90
Julio
709
90
Marbelis
715
78
Método: Validez Predictiva
Técnica: Análisis Correlacional
La PAA es un
instrumento
Válido
Coeficiente de Correlación
entre X e Y:
Spearman: 0,83
Pearson: 0,87
FACTORES QUE AFECTAN LA VALIDEZ
1. Construcción del
Instrumento
2. Administración y
Calificación
a) Instrucciones imprecisas o vagas
b) Estructura de la oración demasiado difícil
c) Preguntas que sugieren las respuestas
d)Ambigüedad en la formación de los reactivos
e) Pruebas demasiado cortas
f) Ítems incongruentes con el contenido
g) Ordenamiento inadecuado
a) Tiempo insuficiente para responder
b) Ayuda adicional a algunos sujetos
c) Subjetividad en la puntuación
3. Respuestas de los
sujetos
4. Naturaleza del Grupo
o Criterio
a) Bloqueo de los sujetos al responder
b) Situaciones externas
Principio: La validez es específica con
respecto a un grupo en particular
Ej: comprensión de lectura el alumnos
6to grado y 9no. Grado
¿Cómo sabemos que
estamos haciendo la
inferencia correcta?
Un instrumento que
no tiene una validez
demostrada no vale
la pena aplicarlo
IMPORTANCIA
DE LA VALIDEZ
Construir un instrumento
técnicamente bien
hecho, implica en sí
mismo una investigación
Consciencia de usar
instrumentos
técnicamente bien
calibrados
Confiabilidad



Decimos que una medición es “confiable” si
podemos esperar, de manera razonable, que
los resultados de dicha medición sean
sistemáticamente precisos.
Representa la consistencia en la
reproducción de los valores obtenidos en la
medición.
La confiabilidad es una condición necesaria
pero no suficiente para la validez.
CONFIABILIDAD
Se refiere al grado en que su aplicación de un
instrumento repetida al mismo sujeto produce
iguales resultados” Hernández, Fernández y
Bastita (1998) “(p.21)
Se refiere a la consistencia de los resultados.
En el análisis de la confiabilidad se busca que
los resultados de un cuestionario concuerden
con los resultados del cuestionario en otra
ocasión. Menéndez (2009)
Se refiere al grado en que su aplicación repetida
al mismo sujeto u objeto produce iguales
resultados. Silva (2009)
Reproducibilidad
Estabilidad y
Predictibilidad
Seguridad
Precisión
Consistencia
Interna u
Homogeneidad
Confiabilidad
Método División por mitades:
 Confiabilidad Pearson / Spearman – Brown.
 Confiabilidad Rulón.
 Confiabilidad Guttman.
Confiabilidad
de
consistencia
interna
(Homogeneidad)
 Confiabilidad KUDER –RICHARDSON (KR 20)
 Confiabilidad Alfa DE CRONBACH
6. Importancia de la validez y ejemplos.
CONFIABILIDAD
Supuestos Básicos: La persona no cambia
-Diferentes tiempos (Test – Retest)
-Diferentes observadores (Confiablidad interobservador)
- Diferentes versiones (Confiabilidad en paralelo)
Muñoz, (2009)
Grupo homogéneo: Confiabilidad baja
Grupo heterogéneo: Confiablidad alta
TIPOS DE CONFIABILIDAD
MÉTODO
TÉCNICA
PROPÓSITO
Test/retest
Coeficiente r correlación
de Pearson
Consistencia en el
tiempo de los puntajes
Formas Equivalentes
Coeficiente r correlación
de Pearson
Estabilidad Temporal,
consistencia de las
respuestas.
División por dos mitades
Pearson/SpearmanBrown.
Rulon
Guttman
Homogeneidad de los
itemes al medir el
constructo
Análisis de
homogeneidad de los
Itemes
KR 20
Coeficientes de fiabilidad
como consistencia
interna para itemes
dicotómicos (KR20).
Alfa de Cronbach
Homogeneidad de los
itemes con escala tipo
Lickert.
DESCRIPCIÓN DE LOS MÉTODOS
Método: TEST – RETEST
Características:

El investigador debe aplicar el mismo instrumento dos veces al
mismo grupo después de cierto período.

Debe calcular la confiabilidad del instrumento ANTES de la
aplicación definitiva del mismo.

Coeficiente de Correlación de Pearson altamente positivo =
Instrumento confiable.
Debilidades:

El periodo de tiempo (corto – largo) entre las mediciones puede
afectar el coeficiente de confiabilidad.
Método: FORMAS EQUIVALENTES
Características:

Se administran dos o más versiones equivalentes de un mismo
instrumento.


Deben ser similares en contenido, instrucciones, tipos de
preguntas y dificultad.
Son administradas al mismo grupo en un período relativamente
corto.

Los patrones de respuestas deben variar POCO entre las
aplicaciones.

Coeficiente de Confiabilidad = Fórmula de Correlación de
Pearson.
Debilidades:

Dificultad para obtener dos pruebas realmente paralelas

Implica doble trabajo

Confiable solo si la correlación entre los resultados de ambas
aplicaciones es positiva
Técnica: Alfa de Cronbach
Características:

Requiere sólo una aplicación del instrumento de medición.

Produce valores que oscilan entre cero (0) y uno (1).

No es necesario dividir en mitades los ítems del instrumento.

Se aplica la medición y se calcula el coeficiente.
Técnica: Kuder – Richardson KR - 20

Permite calcular la confiabilidad con una sola aplicación del
instrumento.

No requiere el diseño de pruebas paralelas.

Es aplicable sólo en instrumentos con ítems dicotómicos, que
puedan ser codificados con 1 – 0 (correcto – incorrecto,
presente – ausente, a favor – en contra, etc.) .
CONFIABILIDAD KUDER-RICHARDSON (KR-20)
PROCEDIMIENTO:
Correlación a través de proporciones de
aciertos y desaciertos y varianza del total de
aciertos.
APLICABLE EN:
Lista de Cotejo y cuestionarios
preguntas
cerradas
con
opciones
respuestas dicotómicas (SI- NO)
de
de
CONFIABILIDAD KUDER-RICHARDSON (KR 20)
K= Número de Ítems.
∑p.q= sumatoria de proporciones de aciertos
por desaciertos.
S2T= Varianza del total de aciertos.
CONFIABILIDAD ALFA DE CRONBACH
PROCEDIMIENTO:
Correlación a través de la varianza de cada ítem
asociado por variables y la varianza de las
puntuaciones totales.
APLICABLE EN :
Escalas de Estimación, Escala de Lickert,
cuestionario de preguntas cerradas con opciones
policotómicas , test de aptitud verbal, test de aptitud
no verbal , test psicológico, etc.
CONFIABILIDAD ALFA DE CRONBACH
K= Número de Ítems.
S2= Varianza de los puntajes de cada ítems.
S2T= Varianza de los puntajes totales.
Instrumento
HOJA DE CÁLCULO EN EXCEL
CONFIABILIDAD
RANGOS
MAGNITUD
0.81 A 1,00
Muy Alta
0.61 A 0,80
Alta
0.41 A 0,60
Moderada
0.21 A 0,40
Baja
0.01 A 0,20
Muy Baja
FUENTE: RUIZ (2002).
Nivel de dificultad de los ítems
Delta
Porcentaje de estudiantes que
responden correctamente
6
95
7
92
8
90
9
85
10
80
11
70
12
60
13
50
14
40
15
30
16
20
17
15
18
10
19
5
Fácil
Mediana
Difícil
Ejemplo de la UPR-RP
Prueba de Razonamiento Lógico
Matemático
Definición del dominio de aprendizaje
Razonamiento lógico-matemático y/o
cuantitativo es la habilidad para
identificar, entender, generar y evaluar
argumentos lógicos e información
cuantitativa con el fin de utilizarlos en
situaciones del diario vivir y
relacionadas con su campo de
estudio.
Competencias generales
1. Cómputos
2. Representación
3. Evaluación
Objetivos generales
1. Usar enfoques y métodos matemáticos diversos para el
análisis y la solución de problemas reales y llevar a cabo
los cómputos pertinentes.
2. Utilizar gráficas, tablas, símbolos, conceptos y metodología
cuantitativa o matemática en aritmética, álgebra o
analítica o estadística para representar y analizar procesos
y situaciones reales.
3. Interpretar modelos matemáticos y hacer inferencias a
partir de los mismos.
4. Evaluar argumentos lógicos e información cuantitativa
para formular juicios, llegar a conclusiones y resolver
situaciones reales en distintos contextos.
5. Emplear métodos cuantitativos para representar y analizar
la relación entre variables.
6. Comunicar argumentos lógicos o resultados cuantitativos
de forma efectiva.
Cómputos:
Entender y utilizar la aritmética, el álgebra y la estadística
para resolver problemas que involucren:
Utilizar las cuatro operaciones básicas con números enteros,
decimales y fracciones;
Resolver problemas que requieran por cientos, tasas y
proporciones;
Resolver ecuaciones e inecuaciones y poder aplicarlas;
Utilizar competencias cuantitativas que le permitan analizar
y resolver situaciones de su diario vivir y en sus estudios;
Utilizar principios de estadística para describir situaciones.
Representación:
Entender e interpretar modelos matemáticos representados
por ecuaciones, gráficas y tablas y poder hacer inferencias de
las mismas y resolver problemas que involucren:
Construir e interpretar gráficas;
Analizar y visualizar conceptos geométricos;
Aplicar conceptos de medición;
Utilizar modelos matemáticos y estadísticos para representar
relaciones entre variables;
Analizar situaciones que requieran razonamiento cuantitativo
con el apoyo de la tecnología;
Representar funciones como ecuaciones o gráficamente;
Interpretar y hacer predicciones utilizando conceptos básicos
de la probabilidad y estadística.
Evaluación:
Pensar críticamente sobre el uso de la información cuantitativa.
Identificar relaciones cuantitativas en diferentes contextos,
interpretarlas en su contexto y comunicar su interpretación;
Analizar evidencias, llegar a conclusiones, comunicar y defender
interpretaciones;
Identificar los supuestos tras un argumento que utiliza información
cuantitativa y explorar las implicaciones de cambios en los
supuestos;
Entender la relación entre la información cuantitativa y sus
diferentes representaciones;
Utilizar competencias cuantitativas para generar, interpretar y
analizar un argumento o utilizar apropiadamente simbología
lógica en razonamientos deductivos;
Conocer y aplicar distintos modos de razonamiento lógicomatemático.
37
Administración

La prueba fue administrada a 521 estudiantes en 9 cursos
(34 secciones) de un total de 806 estudiantes en la semana
del 16 al 20 de mayo de 2011. Lo anterior equivalente al
65% de los estudiantes que finalizaron el semestre
matriculados en estos cursos.

Las pruebas fueron corregidas en el Centro de Cómputos
del Recinto por un lector óptico, utilizando una clave. Los
datos crudos fueron enviados a la OEAE.

En la OEAE se llevó a cabo un análisis de ítems, que incluyó
la elaboración de estadísticas como el índice de dificultad
e índice de discriminación por ítem, distribución de las
puntuaciones globales, distribución de selección de
alternativas por ítem, entre otros, que les presentamos a
continuación.
Oficina de Evaluación del Aprendizaje Estudiantil
38
Resultados Generales
39
DistribucIón de puntuaciones
totales
40
Resultados: ítem 1
41
Resultados: ítem 2
42
Resultados: ítem 3
43
Resultados: ítem 4
44
Resultados: ítem 5
45
Resultados: ítem 6
46
Resultados: ítem 8
47
Resultados: ítem 9
48
Resultados: ítem 10
49
50
51
52
53
54
55
56
57
Áreas de fortaleza o Necesidad
 Área
de fortaleza: Competencias específicas del área
de Evaluación

Cuatro ítems (19, 22, 17 y 7) con índices de dificultad entre 0.72
y 0.79, con índices de discriminación entre 0.4 y 0.26.
 Área
de necesidad: Competencias específicas del
área de Cómputos

Cinco ítems (4, 12, 8, 13, 9 y 21) con índice de dificultad entre
0.26 y 0.49, pero con índices de discriminación entre 0.34 y 0.51.
 Los
resultados de los ítems de área de representación
se distribuyen equitativamente (2) por clasificación
(fortaleza, alguna dificultad, necesidad).
58
Resumen
Delta
(expertos)
Dificultad
del ítem
6-8
9-11
12-14
15-19
Muy fácil
Fácil
Mediana
Difícil
Índice
≥.40
.39-30
.29-20
≤.19
Negativo
Dificultad de los ítems
Porcentaje de estudiantes
que responden
correctamente
95-90
85-70
60-40
30-5
Cantidad de ítems
en la prueba
0
8
9
5
Discriminación de los ítems
Cantidad de ítems en la
Discriminación
prueba
Muy buena
15
Discrimina bien
2
Puede revisarse
3
Cotejar
dificultad,
No debe usarse
2
instrucciones
No discrimina y
0
debe eliminarse
Índice de dificultad de la prueba: .54 (delta equivalente 12.5) - Mediana
dificultad
Una alta confiabilidad, por si sola, no
garantiza
“buenos”
resultados
científicos. Pero no puede haber
“buenos” resultados científicos sin
instrumentos confiables.
Carlos Ruiz Bolívar (2003)

Validez y Confiabilidad - Oficina de Evaluación Estudiantil

Transcripción

Documentos relacionados

Descarga - matejercitando

VARIABLES E INDICADORES Para poder cumplir con

Precio Máximo del Cargo por Confiabilidad para la Vigencia