E lementy teorii testów osiągnięć szkolnych

Elementy teorii testów osiągnięć szkolnych Roman Dolata Wydział Pedagogiczny UW

Kontakt Roman Dolata • Dyżury Piątki od 16 do 17, s. 314 • Poczta r.dolata@uw.edu.pl

Co to jest test? • Mała próbka zadań, której używamy do oszacowania opanowania przez uczniów szerokiego wachlarza wiadomości i umiejętności (Daniel Koretz) Cechy formalne testu: - obiektywność • standaryzacja • liczbowa postać wyniku

Podstawowe pojęcia statystyczne przydatne przy konstrukcji testów i analizie ich wyników

Rozkład liczebnościWyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Rozkład procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Rozkład skumulowany, procentowyWyniki sprawdzianu 2009, rozkład dla kraju, n=400887

Podstawowe parametry rozkładu1. Miary tendencji centralnej i inne miary pozycji Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887 • Średnia arytmetyczna x: 22,6 • Mediana Me: 23 • Pierwszy kwartyl (25 percentyl): 17 • Drugi kwartyl (mediana, 50 percentyl): 23 • Trzeci kwartyl (75 percentyl): 28

Jak wyznaczamy medianę i kwartyle • Porządkujemy wszystkie uzyskane wyniki od najmniejszego do największego (400887 wyników, najpierw zera, potem jedynki itd.) • Poczynając od wyników najniższych szukamy takiego wyniku, że: • a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl • b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana • c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl minimum 1. kwartyl mediana 3.kwartyl maksimum 25% wyników 25% wyników 25% wyników 25% wyników

Podstawowe parametry rozkładu2. Miary zmienności wynikówWyniki sprawdzianu 2009, rozkład dla kraju, n=400887 średnia 3. kwartyl 1. kwartyl • Wariancja: 58,2 • Odchylenie standardowe: 7,6 • Odchylenie kwartylowe (ćwiartkowe): 11

Porównanie dwóch rozkładówSprawdzian 2009, szkoły publiczne i niepubliczne

Porównanie dwóch rozkładówSprawdzian 2009, dwie szkoły

Badanie współzmienności wyników dwóch testów • Czy zmianom jednej zmiennej towarzyszą zmiany drugiej zmiennej? • Analiza graficzna: wykresy rozrzutu • Możliwe do zastosowania statystyki: - współczynnik korelacji r Pearsona - współczyniki regresji

Korelacja dodatnia (pozytywna)współczynnik korelacji wyższy od zera

Korelacja ujemna (negatywna) współczynnik korelacji niższy od zera

Brak korelacji (zerowa)współczynnik korelacji bliski zeru

Korelacja nieliniowa

Konstruowanie testów osiągnięć szkolnych

Testy osiągnięć a testy zdolności

Typy testów osiągnięć szkolnych • Do pomiaru indywidualnej cechy lub cechy grupy • Indywidualne: • Przesiewowe (minimum kompetencji) • Szerokiego stosowania • Selekcyjne • Testy różnicujące i testy kryterialne • Testy mocy i testy szybkości • Koncepcja oceniania kształtującego

Konstrukcja testu – podejście klasyczne

Schemat konstrukcyjny testów osiągnięć szkolnych Cele kształcenia Zadania testowe Badania pilotażowe – wybór zadań, określenie rzetelności testu Ostateczna postać testu Wynik surowy Skalowanie Wynik testu Normy wykonania

Elementy składowe testu 1. Lista celów edukacyjnych 2. Plan testu 3. Zadania testowe 4. Schematy punktacji 5. Kwestionariusz testu 6. Instrukcja przeprowadzenia testu (standaryzacja sytuacji testowej) 7. Normy wykonania testu: ilościowe i treściowe

Zadania testowe: klasyfikacja

Trafność testu

Trafność testu • Podejście dydaktyczne: test jest trafny, gdy: • uczniowie wykonują, te operacje umysłowe, na których nam zależy • możemy dostać na to dowód

Trafność testu Aspekt trafności: Dydaktyczny Czy zadania sprawdzają przyswojenie wiadomości i umiejętności przewidzianych w programie Fasadowy Czy test zdaniem użytkowników i odbiorców jest adekwatny Kryterialny Czy wynik testu koreluje z uznanymi miarami danego zasobu wiedzy lub ich korelatami Prognostyczny Czy test pozwala prognozować przyszłe osiągnięcia Interpretacyjny Czy wynik jest właściwie interpretowany i na jego podstawie podejmowane są adekwatne decyzje Konsekwencyjny Jakie konsekwencje społeczne niesie za sobą stosowanie testu

Metody analizy trafności • Analiza treściowa testu • Analiza jakościowa rozwiązywania zadań: wywiady pogłębione z uczniem (Jak rozwiązywałeś to zadanie?) • Analiza statystyczna: związek z innymi miarami odniesienia

Rzetelność testu

Rzetelność testu • Każdy pomiar obarczony jest niepewnością pomiarową • Klasyczne ujęcie niepewności pomiarowej wynik empiryczny = wynik prawdziwy + błąd pomiaru Wynik prawdziwy: średni wynik z nieskończonej liczby powtórzeń testu

Błąd pomiaru Wynik ucznia w teście Uczeń Wysokie Niskie Wyniki

Błąd pomiaru Wynik ucznia w teście Wynik prawdziwy Uczeń Błąd pomiaru Wysokie Niskie Wyniki

Główne źródła błędu pomiaru w testach osiągnięć szkolnych • Arbitralność doboru zadań testowych • Niedostatki standaryzacji procedury testowej • Zgadywanie w zadaniach zamkniętych • Ocena wykonania zadań otwartych • Ściąganie • Losowe wahania dyspozycji intelektualnych ucznia • Błędy systematyczne: stronniczość testu

Metody ilościowego określania rzetelności wyniku testu • Dwukrotne testowanie • Korelacja między wynikami dwóch testów • Metoda połówkowa • Korelacja między wynikami dwóch połówek testu • Wewnętrzna spójność testu • Współczynnik rzetelności Alfa Cronbacha

Współczynnik rzetelności Alfa Cronbacha Rzetelność jest to stosunek zróżnicowania wyniku prawdziwego do zróżnicowania wyniku uzyskanego na podstawie testowania (będącego sumą zróżnicowania wyniku prawdziwego oraz zróżnicowania błędu pomiaru)

Intertretacja ws. Alfa Cronbacha

Wykorzystanie wsp. rzetelności w interpretacji wyniku testu Przykładowa informacja o wyniku ucznia dla rodziców, Massachusets, MCSA 2002 Prawdopodobieństwo że wynik ucznia znajduje się w przedziale wyznaczonym przez oddcinek wynosi 95%

Idea szacowania przedziału ufności Wynik ucznia w teście Uczeń Wysokie Niskie Wyniki

Idea szacowania przedziału ufności Uczeń Wysokie Niskie Wyniki

Idea szacowania przedziału ufności Przedział ufności Uczeń Wysokie Niskie Wyniki

Idea szacowania przedziału ufności Funkcja prawdopodobieństwa Wynik mało prawdopodobny (2,5%) Wynik mało prawdopodobny (2,5%) Wyniki Wysokie Niskie Wynik prawdopodobny (95%) Rzetelność testu Wynik ucznia

Rzetelność oceny zadań otwartych – opis eksperymentuNa podstawie: R. Dolata, E. Putkiewicz, A. Wiłkomirska Reforma egzaminu maturalnego: oceny i rekomendacjeInstytut Spraw Publicznych, badanie sfinansowane przez MENiS

Analiza rzetelności systemów punktacji • Przedmiotem analiz były systemy punktacji przygotowane na maturę 2002: • Język polski - wypracowania (arkusz I i III), rozumienie czytanego tekstu (arkusz II). • Historia – test i interpretacja źródeł (arkusz I i II). • Matematyka – poziom podstawowy i rozszerzony (arkusz I i II).

Procedura badania rzetelności • Dobór prac. • Przygotowanie prac do ponownego sprawdzania. • Dobór egzaminatorów.

Problem trafności ekologicznej eksperymentu • Czynniki mogące zawyżać oszacowanie rzetelności: - dobór egzaminatorów (posługiwanie się dobrze znanym schematem punktacji), - pominięcie opcji (polski, historia). • Czynniki mogące zaniżać oszacowanie rzetelności: - upływ czasu, - brak procedur oceniania grupowego

Metoda badania rzetelności systemów punktacji • Każda praca była niezależnie sprawdzana przez ośmiu egzaminatorów. Problem wielkości próbki. • Zbiór danych (dla każdego kryterium):

Model analizy statystycznej

Wyniki analizy rzetelności punktacji dla wypracowania, arkusz III Efekt jakości pracy Prosty efekt egzaminatora Interakcyjny efekt egzaminatora

E lementy teorii testów osiągnięć szkolnych

E lementy teorii testów osiągnięć szkolnych

Presentation Transcript

Astronomia w programach szkolnych

Organizacja wycieczek szkolnych

ROZWÓJ TEORII LIBERALNEJ W XIX w.

Wymagania dotyczące mebli szkolnych

AUDYTY ENERGETYCZNE W BUDYNKACH SZKOLNYCH

OSI

GNI

PODSTAWY TEORII KULTURY

Neutrina, co nowego w teorii?

WYKŁAD 5 Zastosowanie teorii grup w analizie widm oscylacyjnych

OSI

Zmiany w ofercie Szkolnych Kas Oszczędności

Programowanie liniowe w teorii gier

Święto Bibliotek Szkolnych !

Wspomnienia ze szkolnych lat…

Próby weryfikacji teorii R.Agnew w Polsce

Zastosowanie neoklasycznej teorii handlu w badaniu determinant handlu międzynarodowego

W--------E

Modele biznesowe wyszukiwarek internetowych w teorii i praktyce

Przegląd teorii elektromagnetyzmu

Nemzeti számlák, GDP, GNI

Podstawy Teorii Sportu, treningu sportowego i treningu w rekreacji