E N D
Universidad Autónoma de Baja CaliforniaInstituto de Investigación y Desarrollo EducativoAspectos psicométricos básicos de la evaluación del aprendizajeResumen del libro Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and Bacon.Luís Ángel Contreras NiñoFebrero de 2003
Dos distinciones basicas entre pruebas criteriales y normativas Una segunda distinción se refiere a la interpretación de los puntajes brutos obtenidos en la prueba En un test normativo se elaboran tablas normativas de tal manera que se pueda encontrar con facilidad el equivalente percentil de cada puntaje bruto Ejemplo: Juan contestó bien 37 ítems de 60. En la tabla ese puntaje es equivalente al rango percentil 63. Por lo tanto, el puntaje de Juan es igual o mejor que la ejecución del 63% de los examinados del grupo normativo Así, la interpretación es completamente relativa
Dos distinciones basicas entre pruebas criteriales y normativas En un test criterial, Juan contestó bien 20 preguntas de 25. Dado que queremos saber qué tan bien logró el dominio conductual definido por el test, reportamos que obtuvo un puntaje de 80% de respuestas correctas En este caso, la interpretación es absoluta pues describe el estatus del examinado en relación con el dominio total
Relación entre la estrategia de medición y la misión del test Escenario con requisitos de habilidad. Aquí no se requiere saber quién es el mejor o el peor, sino quién está calificado; se quiere reflejar el dominio con precisión. Por lo tanto se requiere un test criterial. Un test normativo no sería útil en este caso: ¿te dejarías operar por un cirujano que recibió su título porque obtuvo el percentil 75 de entre una clase de incompetentes? En cambio un test criterial se orienta a detectar a los candidatos que despliegan las habilidades que son requisito para tal ejercicio profesional; es decir, que reflejan el dominio del campo de conocimientos que mide el test
Evaluando la calidad de un test 1. Descripción de la conducta medida Al evaluar, se pretende determinar el nivel de un examinado respecto a un foco particular (no podemos medir todo en una sola ocasión) Por ello, el test debe incluir una descripción de las habilidades, aptitudes y actitudes del pretende examinado que se medir La descripción puede ser breve (enunciado de un objetivo conductual) o muy detallada (especificaciones de ítems)
Evaluando la calidad de un test 2. Número de Ítems por conducta medida ¿Cuántos ítems debe incluir la prueba? Un factor clave a considerar es la importancia de la decisión involucrada. Si se quiere hacer una estimación general de la ejecución del examinado, en general se requieren pocos ítems. Si se quiere diagnosticar habilidades particulares, en conjunto se necesitan bastantes reactivos
Evaluando la calidad de un test 2. Número de Ítems por conducta medida Si el examen tiene alto impacto (las consecuencias de su aplicación afectarán de manera importante la vida de los examinados, profesores o directivos escolares), usualmente serán necesarios muchos más reactivos que si se trata de un examen parcial de un curso. Como regla práctica, podría decirse que deberían emplearse 10 ítems por conducta medida cuando se toma una decisión educativa razonablemente importante. Tal número podría elevarse a 20 ítems o más si el examen es de gran impacto y disminuir a unos 5 reactivos cuando el impacto sea menor.
Evaluando la calidad de un test 3. Alcance de la medida Se refiere a la amplitud del atributo que mide el test. Puede ser muy restringido (objetivo conductual, lo cual resulta fácil de enseñar pero puede resultar muy puntual para ser útil: objetivitis) o ser muy amplio (Ej. el conocimiento, lo cual resulta difícil de definir y medir) A mayor espectro de contenido a evaluar, menos precisa la descripción conductual y será necesario un mayor número de ítems La determinación del alcance de la medida es una operación de juicios
Evaluando la calidad de un test 4. Confiabilidad Se refiere a la consistencia con la que una prueba mide lo que se supone que mide La consistencia de la medida puede ser en el tiempo, en índice de cuyo caso nos referimos a ella como el estabilidad . Aquí, los alumnos son examinados tras un período de tiempo para ver qué tan comparables son los puntajes individuales en las dos ocasiones (operación denominada test-retest; si el coeficiente de correlación es alto, digamos 0.80 ó 0.90, podemos tener la seguridad de que los examinados obtienen puntajes comparables en el test aún cuando se administre en tiempos diferentes)
Evaluando la calidad de un test 4. Confiabilidad Dado el alto costo que implica y otras dificultades asociadas, pocas pruebas realizan estudios de estabilidad. En algunos casos aplican retests a muestras de estudiantes Tanto en los tests normativos como es los criteriales la estabilidad de la prueba aumenta a medida que se incrementa el número de ítems
Evaluando la calidad de un test 4. Confiabilidad Para crear retos de una dificultad equivalente, se puede emplear un sistema de puntajes escalares Se trata de un procedimiento estadístico, post facto, de igualación de formas de examen. En un sistema escalar de 500 a 1000, un alumno necesita para pasar 800 puntos en un examen de 75 ítems. En una versión muy difícil del test, un puntaje de 55 ítems correctos puede ser igual al puntaje escalar de 800. En una forma muy fácil, se necesita un puntaje de 60 ítems correctos para lograr un puntaje escalar de 800 y lograr pasar.
Evaluando la calidad de un test 4. Confiabilidad Otra forma de confiabilidad es la consistencia interna, misma que indica la consistencia individual de los ítems del test; Sirve para determinar la medida en la que los ítems individuales están funcionando más o menos de la misma manera; es decir, si son homogéneos Una técnica consiste en dividir la prueba en dos partes iguales, digamos reactivos pares y nones. Los dos subtests se correlacionan. El coeficiente de correlación resultante es una estimación del grado en que las mitades del test están cumpliendo su función de manera consistente
Evaluando la calidad de un test 5. Validez Evidencia de validez relacionada con el contenido Demuestra el grado en el que la muestra de ítems del test es representativa de un universo definido o dominio de contenido (¿el test cubre el contenido que se supone que cubre? La clave para asegurarla es el juicio humano: Expertos en contenido definen el universo de contenido que el test representa (muestra) Después, expertos independientes juzgan la representatividad del contenido
Evaluando la calidad de un test 5. Validez Evidencia de validez relacionada con el criterio Demuestra en qué medida los puntajes en el test de un examinado nos permiten inferir la ejecución que tendrá en una variable criterio (por ejemplo, las calificaciones que obtendrá en la universidad-- el criterio ) Existen dos tipo de evidencias: predictiva y concurrente Los estudios de validez predictiva requieren que ocurra un intervalo de tiempo considerable (por ejemplo, para correlacionar los resultados del examen de admisión y el promedio de calificaciones obtenidas por el examinado durante el primer semestre de la carrera, es necesario esperar 6 u 8 meses al menos)
Evaluando la calidad de un test 5. Validez En los estudios de validez concurrente tal intervalo de tiempo no ocurre Por ejemplo, aplicamos el examen de admisión a la universidad a los alumnos que recién terminaron el primer semestre de la carrera, el mismo día en que se da a conocer el promedio de calificaciones que obtuvieron Aunque el test fue diseñado para egresados del bachillerato y no para estudiantes universitarios, los coeficientes de correlación resultantes entre los puntajes en el test de los examinados y su promedio de calificaciones en el primer semestre, nos proporcionan alguna evidencia relacionada con el criterio Se denomina concurrente por que ambas medidas ocurren aproximadamente en el mismo tiempo
Evaluando la calidad de un test 5. Validez Una validación ideal de un test incluye acumular evidencias de distintos tipos, incluidas las tres categorías tradicionales antes descritas La evidencia de validez (junto con la confiabilidad) es el indicador más importante de la calidad de un test La confiabilidad es una condición necesaria para la validez de la prueba, pero no es una condición suficiente, como hemos visto
Evaluando la calidad de un test 7. Ausencia de sesgo Actualmente resultan particularmente importantes las serias desigualdades que puede ocasionar el uso inadecuado de los tests Los ítems del test pueden ofender o penalizar a un examinado con antecedentes socioeconómicos, culturales, de género u otros, que los pongan en desventaja respecto a otros examinados Existen dos aproximaciones para detectar problemas de sesgo: basadas en juicios y empíricas
Evaluando la calidad de un test 7. Ausencia de sesgo Esencialmente, las técnicas de juicios para detectar sesgo en la prueba se basan en paneles formados con individuos similares a los examinados que pueden ser sesgados por los ítems, a quienes se les pide buscar que las preguntas: No ofendan a cierto grupo (que los retrate de manera esterotipada) No los penalice injustamente (que los examinados tengan una ejecución más deficiente aún cuando posean la misma habilidad que se está midiendo)