1 / 104

Una segunda distinción se refiere a la interpretación

yan
Download Presentation

Una segunda distinción se refiere a la interpretación

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universidad Autónoma de Baja CaliforniaInstituto de Investigación y Desarrollo EducativoAspectos psicométricos básicos de la evaluación del aprendizajeResumen del libro Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and Bacon.Luís Ángel Contreras NiñoFebrero de 2003

  2. Dos distinciones basicas entre pruebas criteriales y normativas Una segunda distinción se refiere a la interpretación de los puntajes brutos obtenidos en la prueba En un test normativo se elaboran tablas normativas de tal manera que se pueda encontrar con facilidad el equivalente percentil de cada puntaje bruto Ejemplo: Juan contestó bien 37 ítems de 60. En la tabla ese puntaje es equivalente al rango percentil 63. Por lo tanto, el puntaje de Juan es igual o mejor que la ejecución del 63% de los examinados del grupo normativo Así, la interpretación es completamente relativa

  3. Dos distinciones basicas entre pruebas criteriales y normativas En un test criterial, Juan contestó bien 20 preguntas de 25. Dado que queremos saber qué tan bien logró el dominio conductual definido por el test, reportamos que obtuvo un puntaje de 80% de respuestas correctas En este caso, la interpretación es absoluta pues describe el estatus del examinado en relación con el dominio total

  4. Relación entre la estrategia de medición y la misión del test Escenario con requisitos de habilidad. Aquí no se requiere saber quién es el mejor o el peor, sino quién está calificado; se quiere reflejar el dominio con precisión. Por lo tanto se requiere un test criterial. Un test normativo no sería útil en este caso: ¿te dejarías operar por un cirujano que recibió su título porque obtuvo el percentil 75 de entre una clase de incompetentes? En cambio un test criterial se orienta a detectar a los candidatos que despliegan las habilidades que son requisito para tal ejercicio profesional; es decir, que reflejan el dominio del campo de conocimientos que mide el test

  5. Evaluando la calidad de un test 1. Descripción de la conducta medida Al evaluar, se pretende determinar el nivel de un examinado respecto a un foco particular (no podemos medir todo en una sola ocasión) Por ello, el test debe incluir una descripción de las habilidades, aptitudes y actitudes del pretende examinado que se medir La descripción puede ser breve (enunciado de un objetivo conductual) o muy detallada (especificaciones de ítems)

  6. Evaluando la calidad de un test 2. Número de Ítems por conducta medida ¿Cuántos ítems debe incluir la prueba? Un factor clave a considerar es la importancia de la decisión involucrada. Si se quiere hacer una estimación general de la ejecución del examinado, en general se requieren pocos ítems. Si se quiere diagnosticar habilidades particulares, en conjunto se necesitan bastantes reactivos

  7. Evaluando la calidad de un test 2. Número de Ítems por conducta medida Si el examen tiene alto impacto (las consecuencias de su aplicación afectarán de manera importante la vida de los examinados, profesores o directivos escolares), usualmente serán necesarios muchos más reactivos que si se trata de un examen parcial de un curso. Como regla práctica, podría decirse que deberían emplearse 10 ítems por conducta medida cuando se toma una decisión educativa razonablemente importante. Tal número podría elevarse a 20 ítems o más si el examen es de gran impacto y disminuir a unos 5 reactivos cuando el impacto sea menor.

  8. Evaluando la calidad de un test 3. Alcance de la medida Se refiere a la amplitud del atributo que mide el test. Puede ser muy restringido (objetivo conductual, lo cual resulta fácil de enseñar pero puede resultar muy puntual para ser útil: objetivitis) o ser muy amplio (Ej. el conocimiento, lo cual resulta difícil de definir y medir) A mayor espectro de contenido a evaluar, menos precisa la descripción conductual y será necesario un mayor número de ítems La determinación del alcance de la medida es una operación de juicios

  9. Evaluando la calidad de un test 4. Confiabilidad Se refiere a la consistencia con la que una prueba mide lo que se supone que mide La consistencia de la medida puede ser en el tiempo, en índice de cuyo caso nos referimos a ella como el estabilidad . Aquí, los alumnos son examinados tras un período de tiempo para ver qué tan comparables son los puntajes individuales en las dos ocasiones (operación denominada test-retest; si el coeficiente de correlación es alto, digamos 0.80 ó 0.90, podemos tener la seguridad de que los examinados obtienen puntajes comparables en el test aún cuando se administre en tiempos diferentes)

  10. Evaluando la calidad de un test 4. Confiabilidad Dado el alto costo que implica y otras dificultades asociadas, pocas pruebas realizan estudios de estabilidad. En algunos casos aplican retests a muestras de estudiantes Tanto en los tests normativos como es los criteriales la estabilidad de la prueba aumenta a medida que se incrementa el número de ítems

  11. Evaluando la calidad de un test 4. Confiabilidad Para crear retos de una dificultad equivalente, se puede emplear un sistema de puntajes escalares Se trata de un procedimiento estadístico, post facto, de igualación de formas de examen. En un sistema escalar de 500 a 1000, un alumno necesita para pasar 800 puntos en un examen de 75 ítems. En una versión muy difícil del test, un puntaje de 55 ítems correctos puede ser igual al puntaje escalar de 800. En una forma muy fácil, se necesita un puntaje de 60 ítems correctos para lograr un puntaje escalar de 800 y lograr pasar.

  12. Evaluando la calidad de un test 4. Confiabilidad Otra forma de confiabilidad es la consistencia interna, misma que indica la consistencia individual de los ítems del test; Sirve para determinar la medida en la que los ítems individuales están funcionando más o menos de la misma manera; es decir, si son homogéneos Una técnica consiste en dividir la prueba en dos partes iguales, digamos reactivos pares y nones. Los dos subtests se correlacionan. El coeficiente de correlación resultante es una estimación del grado en que las mitades del test están cumpliendo su función de manera consistente

  13. Evaluando la calidad de un test 5. Validez Evidencia de validez relacionada con el contenido Demuestra el grado en el que la muestra de ítems del test es representativa de un universo definido o dominio de contenido (¿el test cubre el contenido que se supone que cubre? La clave para asegurarla es el juicio humano: Expertos en contenido definen el universo de contenido que el test representa (muestra) Después, expertos independientes juzgan la representatividad del contenido

  14. Evaluando la calidad de un test 5. Validez Evidencia de validez relacionada con el criterio Demuestra en qué medida los puntajes en el test de un examinado nos permiten inferir la ejecución que tendrá en una variable criterio (por ejemplo, las calificaciones que obtendrá en la universidad-- el criterio ) Existen dos tipo de evidencias: predictiva y concurrente Los estudios de validez predictiva requieren que ocurra un intervalo de tiempo considerable (por ejemplo, para correlacionar los resultados del examen de admisión y el promedio de calificaciones obtenidas por el examinado durante el primer semestre de la carrera, es necesario esperar 6 u 8 meses al menos)

  15. Evaluando la calidad de un test 5. Validez En los estudios de validez concurrente tal intervalo de tiempo no ocurre Por ejemplo, aplicamos el examen de admisión a la universidad a los alumnos que recién terminaron el primer semestre de la carrera, el mismo día en que se da a conocer el promedio de calificaciones que obtuvieron Aunque el test fue diseñado para egresados del bachillerato y no para estudiantes universitarios, los coeficientes de correlación resultantes entre los puntajes en el test de los examinados y su promedio de calificaciones en el primer semestre, nos proporcionan alguna evidencia relacionada con el criterio Se denomina concurrente por que ambas medidas ocurren aproximadamente en el mismo tiempo

  16. Evaluando la calidad de un test 5. Validez Una validación ideal de un test incluye acumular evidencias de distintos tipos, incluidas las tres categorías tradicionales antes descritas La evidencia de validez (junto con la confiabilidad) es el indicador más importante de la calidad de un test La confiabilidad es una condición necesaria para la validez de la prueba, pero no es una condición suficiente, como hemos visto

  17. Evaluando la calidad de un test 7. Ausencia de sesgo Actualmente resultan particularmente importantes las serias desigualdades que puede ocasionar el uso inadecuado de los tests Los ítems del test pueden ofender o penalizar a un examinado con antecedentes socioeconómicos, culturales, de género u otros, que los pongan en desventaja respecto a otros examinados Existen dos aproximaciones para detectar problemas de sesgo: basadas en juicios y empíricas

  18. Evaluando la calidad de un test 7. Ausencia de sesgo Esencialmente, las técnicas de juicios para detectar sesgo en la prueba se basan en paneles formados con individuos similares a los examinados que pueden ser sesgados por los ítems, a quienes se les pide buscar que las preguntas: No ofendan a cierto grupo (que los retrate de manera esterotipada) No los penalice injustamente (que los examinados tengan una ejecución más deficiente aún cuando posean la misma habilidad que se está midiendo)

More Related