460 likes | 844 Views
Confiabilidad, Validez y Ensamblaje. Andrea Abarzúa. Confiabilidad. Qué es Cosas que limitan la confiabilidad Cómo se estima la confiabilidad. Qué es la confiablidad. La confiabilidad tiene que ver con el error propio de “el hecho” de medir.
E N D
Confiabilidad, Validez y Ensamblaje Andrea Abarzúa.
Confiabilidad • Qué es • Cosas que limitan la confiabilidad • Cómo se estima la confiabilidad
Qué es la confiablidad • La confiabilidad tiene que ver con el error propio de “el hecho” de medir. • A mayor confiabilidad, menor error en la estimación de puntajes de los evaluados. • Si podemos estimar la varianza error de una medida, podemos estimar su confiabilidad (más adelante en esta presentación).
Qué es la confiablidad Confiable pero no válido Confiable y válido
Entonces… • Nuestra confiabilidad le pone un techo a nuestra validez… • Un test no puede ser válido si no es confiable
Limitaciones para la confiabilidad • Número de ítems de una escala (no olvidar la profecía de Spearman-Brown) • Variabilidad del grupo examinado • Limitación de tiempo
Métodos para estimar la confiabilidad • Métodos empíricos • Formas paralelas • Test-retest • Métodos basados en la aplicación única de un test • Bipartición • Consistencia interna • Métodos para estimar la consistencia entre jueces
Una mirada a los índices de consistencia interna • Basta con sólo una aplicación • Son difíciles de lograr cuando medimos cosas diversas
Validez • Definiciones • Fuentes de amenaza a la validez • Procedimientos para mejorar y reunir evidencia sobre la validez • Categorías de evidencia sobre validez • Presentación de Resultados y Validez • Estándares referidos a la validez en sistemas de medición
1. Definiciones • Definición tradicional • La prueba o evaluación mide aquello que se propone medir, es una característica propia del test • Definición actualizada • Involucra la interpretación de los resultados para un propósito en particular o uso (ya que un puntaje puede ser utilizado válidamente para un uso, pero no para otro) • Es un asunto de “grados”.
Definiciones • Validez es el grado en el cual la evidencia y teoría fundamenta las interpretaciones o inferencias que se hacen a partir de los puntajes o resultados de una prueba y las decisiones que se basan en ellos. “Validez es un un juicio evaluativo integrado sobre el grado en que la evidencia empírica y la teoría fundamentan la adecuación de las inferencias y acciones basadas en los puntajes o resultados de una prueba u otros modos de evaluación” (Messick, 1989, p. 13)
Por lo tanto: • Validez no es una característica de la prueba en sí sino de la interpretación, las inferencias y decisiones que se toman a partir de sus resultados. • El juicio sobre la validez de las interpretaciones requiere considerar el contexto y uso de los resultados, un mismo test puede dar origen a interpretaciones válidas en un contexto y menos válidas en otro. • La pregunta por la validez no se responde dicotómicamente, es un continuo algunas inferencias tienen mayor fundamento que otras. • La validación es un proceso de acumulación de evidencia sobre lo apropiado de las inferencias
2. Amenazas a la validez • Fuentes de amenaza a la validez (Koretz, 2008) : • Sub-representación del dominio: vacíos al cubrir el dominio: La prueba se concibe como una muestra del dominio evaluado y como tal existe el riesgo que no sea representativa de este, que haya aspectos relevantes excluidos, amenazando las inferencias que se realizan a partir de este “muestreo” inapropiado. • Varianza irrelevante para el dominio evaluado Evaluar algo ajeno a lo que se busca evaluar: : los sujetos varían en su desempeño por factores irrelevantes para el constructo que se quiere evaluar (construct irrelevant variance). • Usos y consecuencias que amenazan validez: por ejemplo entrenamiento o “trampas”
Procedimientos para incrementar la validez de la medición y reunir evidencia sobre ella • Antes y durante la elaboración (Haladyna, 1999) • Evidencia sobre validez • Presentación de resultados
Procedimientos • Definición del dominio y especificaciones de la prueba • Messick: “permite delimitar la frontera de lo que es evaluado” • Generalmente se define contenido y habilidades • Definición sobre aquello que aportará dificultad a las preguntas, es decir, en qué consiste “ser más hábil” en el dominio especificado. • El tipo de contextos y características de los ítemes • El balance requerido entre las sub-dimensiones del dominio • Entrenamiento, selección de los elaboradores y procedimientos apropiados de desarrollo de preguntas y tareas. • Revisión cuidadosa de errores de construcción (habilidad escasa y entrenable) • Lista de chequeo o verificación para cada pregunta, juicio global. • Clasificación de los ítemes y monitoreo de la “cobertura” de las especificaciones durante la producción. • Importancia de cada una de las preguntas en un contexto de altas consecuencias y creciente presión por transparencia.
Ejemplo PISA 2003 • Dimensión de contenido Matemáticas: cantidad, formas y espacio, cambio y relaciones, incertidumbre Lectura: textos continuos y discontinuos • Dimensión de Proceso Matemáticas: reproducción, conexiones, reflexión Lectura: extraer información, interpretar textos, reflexionar y evaluar • Dimensión de situación o contexto Matemáticas: situaciones auténticas personales, educacionales u ocupacionales, situaciones públicas o de interés comunitario, situaciones científicas. Lectura: textos personales, públicos, ocupacionales, educacionales
Balance buscado Por ejemplo NAEP especifica que para grados inferiores predominarán textos narrativos, mientras que para estudiantes mayores el % de textos argumentativos e informativos pesa más.
Tipos de evidencia acerca de la validez • Evidencia basada en el contenido del test • Evidencia basada en los procesos de respuesta • Evidencia basada en la relación con otras variables • Evidencia basada en la estructura interna del test • Evidencia basada en las consecuencias de la medición (validez consecuencial)
Evidencia basada en el contenido Juicio experto sobre el contenido del test y el grado en que este es representativo del dominio que busca evaluar Se juzga la medida en que el test en su conjunto y cada uno de sus ítemes “cubre” apropiadamente el dominio, y la medida en que se evita exitosamente la “contaminación” con aspectos ajenos al dominio. Herramientas: -Clasificación de las preguntas (antes de la prueba piloto), es posible comparar clasificaciones según distintos jueces y reunir evidencia sobre la consistencia de sus clasificaciones. -Verificación de alineamiento entre preguntas y definiciones del dominio (juicio analítico y de conjunto). ¿pertenece o no? -Revisión de “sensibilidad” (para reducir varianza debida a elementos ajenos) y confusiones frecuentes. Riesgo de insipidez.
Evidencia basada en procesos de respuesta Procedimientos: • Registro de preguntas durante la aplicación experimental o piloto. • Revisión por parte de los sujetos: argumentos a favor de respuestas (correctas/incorrectas). • Pensamiento en voz alta: entrevista para describir los procesos utilizados al responder al ítem*.
Evidencia basada en la relación con otras variables • Evidencia de validez predictiva • Evidencia sobre validez convergente y discriminante: correlación con otros tests que miden el mismo constructo y con otros tests que miden diferentes constructos. • Se debe obtener evidencia de ambos, se espera mayores correlaciones con tests que miden el mismo constructo que con los que miden constructos* diferentes.
Evidencia basada en la estructura interna del test • Medida en la cual los ítemes o tareas del test se relacionan del modo esperado con el constructo • Análisis factorial
Evidencia basada en las consecuencias y usos del test • Análisis de consecuencias esperadas y no esperadas, para verificar si se cumplen los propósitos que motivaron la creación del test • Diferentes consecuencias para distintos grupos • Entrevistas • Registros de decisiones basadas en los resultados
Actualmente Estudios de validez de sistemas de rendición de cuentas “-Does the accountability system pick the right schools for rewards, sanctions and intervention? - Does the accountability system do what it is intended to do? To what degree are the intended actions ocurring in relation to the application of rewards, sanctions and interventions? (A Framework for examining validity in state accountability systems, CCSSO, 2004)
Estándares asociados a validez de las mediciones Ejemplo ETS: -Proveer evidencia de los estudios que apoyan la validez de las inferencias basadas en la prueba. -Difundir una clara definición del constructo que se está evaluando: habilidades, conocimiento, el propósito de la evaluación, la interpretación adecuada de los puntajes o resultados, y la población objetivo de la prueba. -Corregir los efectos de inadecuada cobertura o representación del constructo y reducir las fuentes de varianza no relacionadas con este. -Advertir sobre posibles interpretaciones inadecuadas de los resultados.
Validez y presentación de los resultados Algunos problemas frecuentes: • Listados de resultados (rankings) • Presentación de tablas que inducen a comparaciones inapropiadas sin las advertencias y reglas de interpretación correspondientes: • Subescalas de distinto nivel de dificultad y número de ítemes, • Presentación de datos de años sucesivos sin equiparación de pruebas • Ausencia de información sobre significancia de las diferencias.
¿Se cumplen estos estándares de medición? • ¿Cuán frecuente es que se presente evidencia que apoye la validez de las interpretaciones? • Lo más frecuente: revisiones de contenido • Estudios de validez predictiva • Lo menos: correlaciones con tests que evalúan el mismo dominio y distintos dominios.
Ensamblaje: orientaciones básicas • La cantidad de preguntas por eje debe acercarse lo más posible a lo planificado inicialmente. • Dentro de cada forma, las preguntas se distribuyen por ejes y bloques de preguntas, es decir, si hay dos o tres ejes, las preguntas van agrupadas por su pertenencia el eje. • En caso de introducir en las formas preguntas ligadas a un mismo estímulo éstas no debe ser idealmente más de tres y un máximo cuatro en una misma forma. Esto implica que si frente a un mismo estímulo se tienen construidas 6 preguntas, se pondrá un estímulo y tres preguntas en una forma, y el mismo estímulo con otras tres preguntas en otra forma. Por ejemplo, preguntas que orientadas a la comprensión de un mismo texto; preguntas orientadas a resolver un tipo de problema matemático; preguntas dirigidas a conocer la percepción o valoración de un mismo fenómeno o sujeto, entre otras formas de agrupación posibles.
Sugerencias para ítems comunes o anclaje (pruebas con equating) • Debe corresponde a una “mini prueba”, que refleje las especificaciones de la prueba total • Deben incluir un número suficiente de ítems(reglas sugeridas: 20% de la prueba total, al menos 10-12 ítems?) • Los ítems deben ocupar la misma o aproximadamente la misma posición en las formas que se comparan (evitar que aparezcan al final de las pruebas) • Los ítems deben poseer parámetros adecuados: • Ni excesivamente fáciles ni difíciles • No pueden tener baja capacidad discriminativa • Se debe verificar si sus parámetros varían en el tiempo • Evaluar el riesgo que produzca la sobreexposición a estos ítems