890 likes | 1.13k Views
Testování a hodnocení. Martina Hulešová (AJAT) 16. května 2014. Téma 1: Základní pojmy a principy jazykového testování (validita, reliabilita, spravedlivost) Téma 2: Vývoj testu Účel; význam a smysl specifikace, specifikační tabulka Téma 3 :
E N D
Testování a hodnocení Martina Hulešová (AJAT) 16. května 2014
Téma 1: Základní pojmy a principy jazykového testování (validita, reliabilita, spravedlivost) Téma 2: Vývoj testu Účel; význam a smysl specifikace, specifikační tabulka Téma 3: Referenční úrovně A1, A2, B1 dle SERRJ Téma 4: Tvorba úloh a sestavení testu Tvorba úloh obecně; typy úloh a doporučení pro jejich tvorbu Téma 5: Administrace, bezpečnost Téma 6: Skórování, vyhodnocení, interpretace výsledků Téma 7: Monitorování a revize
Cíle vs. omezení • Co zvládneme: • Ukázat kroky, které vedou k vývoji testu, se kterým budou uživatelé spokojeni • Ukázat základní zásady platné pro tvorbu a revizi úloh • Naznačit, jak lze/je třeba sestavit test • Co se nestihne do hloubky, ačkoli je třeba vědět/dodržet: • Dodat hlubší teoretický vhled do tématu „kvality“ testů • Dát podrobnou zpětnou vazbu k úlohám a testu z pohledu revidenta • Zabývat se teoreticky validitou, spolehlivostí, opakovatelností, spravedlivostí evaluačního nástroje - testu
Reliabilita Souvisí s přesností, důvěryhodností a konzistentností Také se spravedlivostí skórů Je mých 35 bodů v maturitě z ČJ stejných jako tvých 35 bodů? Dnes jsem dostala z testu 20 bodů, předevčírem 30 ze stejného testu. Možné ovlivňující faktory: - Studenti Hodnotitelé Administrace Test sám - podvádění, motivace, hádání, únava, stres, nepohodlí - Inter- a intra-rater reliabilita; nezájem; záměr, nevhodná kritéria… - Nedostatečně vyškolený personál, nestejné podmínky, nevhodné prostory, kopírování… - Neznámý obsah, formulace úloh, konstruktově irelevantní nebo nerezprezentativní, čas…
Validita (interní a externí) Není vlastností testu nebo úloh, nýbrž se vztahuje ke smysluplné interpretaci výsledků Měřím skutečně (a jen) to, co chci měřit? Mohu na základě skórů učinit smysluplná a spravedlivá rozhodnutí?
Validita (interní a externí) Konstruktová(int.) Test je podložen teorií nebo existuje definovaný konstrukt měření (důkazy) Obsahová(int.) Reprezentativnost a relevance obsahu vzhledem k účelu testování, testovaní dělají skutečně to, co je předmětem měření Validitaodpovědí (int.) – do jaké míry testovaní odpovídají dle očekávání Souběžná validita(ext.) – korelace skórů s jiným testem (shoda konstruktů) Predikčnívalidita(ext.) – do jaké míry skóry v testu predikují schopnost testovaného dělat/konat…. V jiné oblasti (př. OSP) Face validita(int./ext.) – do jaké míry se „zdá“ test jako adekvátní danému účelu, použití, obsahu…
Autenticita Přirozenost/Propojenost s mimotestovou situací Tematická relevance a smysluplnost úkolů Situační autenticita Interakční autenticita (testová úloha – strategie – dovednosti – znalosti – úkol…) Washback Vliv testu na výuku, přípravu, společnost…
Praktičnost Nároky Finanční Lidské zdroje (kolik, dostupnost…) Časové (vývoj, realizace – logistika, hodnocení, sdělování výsledků) Využitelnost Udržitelnost Hodnota zjištěných informací Spravedlivost Součástí validity Společenské (žádoucí i nežádoucí) dopady testu Změny priorit, výuky, učení se… CodeofEthics, GoodPractice…
Některé faktory ovlivňující validitu, reliabilitu… Kvalita a počet úloh Obtížnost a diskriminační schopnost úloh Použité testovací techniky a jejich počet Čas Kvalita instrukcí Použití testu Definice a výběr obsahu Definice a uchopení konstruktu Obeznámenost testovaných s použitými test. Technikami Úroveň dovedností testovaných Postoj k testu (motivace, zájem, duševní rozpoložení Postoj k hádání
Některé faktory ovlivňující validitu, reliabilitu… Konzistentnost při administraci Kvalita pokynů pro zadavatele Míra interakce mezi zadavateli a testovanými Načasování administrace Prostředí a vybavení pro testování Přesnost a úplnost klíče inter- a intra-rater reliabilita OMR nebo ruční vytěžování ZA
Téma 2: Vývoj testu Účel; význam a smysl specifikace, specifikační tabulka
Účel testu • Každý test musí mít jasně stanovený účel – nemá smysl testovat „bezúčelně“.
1. Druhy testů podle účelu a způsobu využití výsledků http://www.teachers-corner.co.uk/four-types-of-tests/ Placement – Rozřazovací Pro zařazení do skupiny, třídy podle úrovně Obsah testu = potřeby nebo obsah výuky Mohou, ale nemusí být postaveny na základě sylabů Klíčové jevy následné výuky Interpretace výsledků: • podle ranku (percentilu) – př. nejlepších 10 % dostane, zařadí se… , • podle dosažené úrovně v jednotlivých dovednostech (různé kurzy) - body http://jalt.org/pansig/2007/HTML/Nakamura.htm Diagnostic – Diagnostické Silné a slabé stránky, oblasti, kde je problém Různá míra podrobnosti (Která ze čtyř dovedností je nejslabší /Co z mluvení dělá problémy? Obecně za třídu vs. Jednotlivci…) - Test musí obsahovat dostatečný počet položek na pozorovaný jev – „nepraktické“ - jen málo testů je čistě diagnostických - vyžaduje vysokou míru specificity, což ohrožuje validitu interpretace výsledků
2. Druhy testů podle účelu a způsobu využití výsledků Proficiency– test schopností, zjišťování úrovně výkonu bez vazby na konkrétní výukový program/sylabus; často založeny na analýze potřeb (LSP testy, EAP, testy FCE); lze využít pro diagnostiku Orientován na predikci, výkon mimo test – kritérium Achievement– měření úrovně výkonu; Vázány na vzdělávací proces na konci vzdělávacího cyklu (maturita) nebo v průběhu (progresstests portfolio assessment, observation); lze využít též pro diagnostiku a formativní hodnocení Různé přístupy ke kritériu: • Obsah založen pouze na sylabu, na obsahu kurzu • Postaven na vzdělávacích cílech, očekávaných výstupech Maturita ? PET,FCE cíle vzdělávání (a) obecné, využívají can do statementszeSERRJ (b), zároveň sylabus je vázán na externí standard a ten na mimotestové situace, není tedy možné říci, zda proficiency, či achievement. Je ALE rozdíl ve formě/formátu, v administraci, vyhodnocení, vážení, skórování, interpretaci. Jak porovnat skóry?
3. Druhy testů podle způsobu administrace Papír-tužka Computer-based Computer-adaptive Školní vs. standardizované Časově ne/omezené
4. Druhy testů podle využití procesu testování Formativní – ověření pokroku, stupně zvládnutí a vyvození důsledků pro další vzdělávací kroky Sumativní – výstupní zhodnocení dosažených výstupů, i to lze využít jako formativní Test minimální úrovně – negativa: náhodnost v tom, co je minimum a jak stanovit cutscore. Sebehodnocení Alternativní metody– portfolio, hodnocení v páru, rozhovory, pozorování (v podstatě další z forem achievement testů)
5. Druhy testů podle metody testování Přímé – obvykle pro psaní, mluvení +: přímočaré, snáze se vytvoří podmínky pro ověření dovednosti Přímočaré hodnocení, nácvik na test = nácvik dovedností -: čas, zdroje, rozsah možných úloh a situací Nepřímé – obvykle pro čtení, poslech, lze i psaní, výslovnost apod. (př. Correction, pairing…) -: obtížný výběr reprezentativních úloh zastupujících dobře ověřovanou dovednost, testových formátů -: obtížný transfer z nepřímého ověřování na skutečný výkon mimo testovou situaci +: čas, zdroje, standardizace, objektivita, variabilita
6. Druhy testů podle skórování a typů úloh Objektivně skórované Subjektivně skórované Jednotlivé úlohy Integrované úlohy kombinující více dovedností
7. Druhy testů podle dopadu na testovaného Podle míry, do jaké výsledky testů ovlivní „život“ testovaných High-stakestests Low-stakestests
8. Druhy testů podle způsobu interpretace NRCR Bez hodnoticích prvků – prostý střed Odlišnosti v obsahu, v hloubce, v interpretaci výkonu, v obtížnosti úloh a v očekávaném výkonu U stejného testu: Vliv kohorty (NR) - Porovnatelné výsledky (CR)
SPECIFIKACE testu a její zásadní význam • explicitní popis testu • Proč • Co • Jak • K čemu • Informace pro všechny uživatele výsledků testů • Základ pro vývoj paralelních forem testů • Podklad pro validaci testů a s nimi souvisejících procesů
Specifikace testu • Stanovují společný standard pro všechny verze zkoušky, případně podklad pro porovnání výsledků, pokud se zkouška změní • Řídí vývoj testu a interpretaci výsledků • Popisují, jak má být test použit /pro koho, kdy a proč) a jak mají být interpretovány jeho výsledky • Jsou užitečné pro „validátory“ testu – externí posuzovatele • Ředitelé škol mohou využívat informace, pokud budou na základě testů činěna rozhodnutí • Čím přesnější, tím méně prostoru pro nežádoucí kreativitu
Co má specifikace testu obsahovat Specifikace + spec. tabulka Informace o testu, jeho účelu, použití a interpretaci výsledků Různá míra podrobnosti (často interní, pro autory a hodnotitelům) Komu je specifikace určena Zjednodušený dokument pro učitele, žáky, rodiče Dokument pro uživatele výsledků zkoušek Odborný materiál dokumentující zkoušku (výzkumníci) Specifikační tabulka pro autory přípravných materiálů apod. Ne vždy veřejný materiál!
Charakteristika testovaných Nutně ovlivňuje obsah, formu a další charakteristiky testu • Věk • Pohlaví • Stávající úroveň znalostí a dovedností • Relevantní demografické údaje, sociální statut, předchozí vzdělání • Proč se testování účastní • Zájmy apod., Otázka: Jaká je populace u vašich zkoušek? Jaká je např. populace maturantů? Pozn.: Do budoucna: etnický a jazykový původ, SVP apod.
Konstrukt testu Vymezení toho, co je přesně testem ověřováno • Úroveň • Obsah • Teoretické vydefinování • Intepretace výsledků Př. Konstrukt : Test ověřuje psaní na úrovni B1, což je úroveň, které má žák dosáhnout v prvním cizím jazyce na SOŠ. Měl by umět… Podle dosaženého skóre bude… Skór 65 % je dolní hranicí B1 úrovně v tomto testu.
Struktura, obsah a administrace testu • Zastoupené dovednosti (+úroveň, očekávané operace, komunikační situace, témata, typy a rozsah textů) • Jejich váha • Počet částí • Formáty úloh • Jazyk instrukcí a pokynů • Typy a zdroje textů, jejich délka • Bodování – body za úlohu, za část; jak probíhá vyhodnocení • Čas vymezený na řešení • Způsob administrace
Hodnocení testu • Hraniční skóre či popis použité škály, očekávaný výkon • Hodnotitelé a požadavky na ně kladené • Ukázky testů • Ukázky výkonů • Ukázky hodnocení
Pretesty (školní test) • Kolegové Klíč Nejasnosti Instrukce… • Skupina žáků s podobnými charakteristikami administrace čas, instrukce, jazyk přesnost a úplnost klíče funkčnost hodnoticí škály Nelze odhadovat obtížnost testu a položek!
Tvorba paralelních verzí • Postavena na základě shodné specifikace • Obsahová analýza • Stejný průměr, SD, rozptyl, chyba… • Pretest na stejných studentech • Kotvicí úlohy a IRT analýzy • Banka úloh
Téma 4: Vlastní tvorba testu/úloh Tvorba testu vs. tvorba úloh Celek je víc než součet částí Tvorba a moderace úloh Specifikace testu – a specifikační tabulka Proč a k čemu je test potřebný? Školní běžné testy vs. přijímačky, srovnávací a výstupní testy… Try-out a pretest Školení hodnotitelů Analýza úloh a testu a zpětná vazba Informační a podpůrné materiály
Jak budu úlohy a celý test hodnotit? • Co vyjadřuje bodování úloh? • Jaký má význam různé bodové ohodnocení úloh? • Úloha vs. test? • Je každá úloha „novým startem“?
Jak by měla vypadat testová úloha? • Instrukce • Výchozí text • je-li nutný pro řešení • Kmen úlohy (otázka, tvrzení, nedokončené tvrzení) • relevantní informace, jednoduchý jazyk • Alternativy (správná odpověď a distraktory) • struktura, uspořádání, vnitřní jednota, smysluplnost, atraktivita pro skupiny žáků • Správné řešení, klíč Standardizace, pretest, posouzení ostatními…
Dichotomické úlohy Kmenem úlohy je tvrzení, které žák (zpravidla na základě přečteného textu) posuzuje ze 2 hledisek (pravda – nepravda) • úlohy by měly mířit ke stejnému specifickému cíli • Neměly by to být „falešné“ mutiple-choice úlohy Riziko 50% uhádnutí správné odpovědi Jejich tvorba je rychlá a snadná jen zdánlivě!
Dichotomické úlohy - bodování Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0… Svazek 3 podúloh: 2-0; 2-1-0; 1-0… Nebo samostatné úlohy 10 úloh v části: 1 úloha = 1 bod (všechny úlohy po 1 bodu)
Dichotomické úlohy 1. Děti s vysokým IQ mají vždy ve škole lepší známky. • vždy, nikdy, všichni, (pouze) – tendence být NEPRAVDA • odhadnutelnost odpovědí 2. Pokud letadlo spadne na mexicko-americké hranici, polovina pozůstalých bude pohřbena v M, polovina v USA. • Tricky, možná kritické čtení, ne test 3. Petr neříká, že nemá peníze. Kdo nepřijde včas, nedostane výplatu. • Mnoho negací, zajícova smrt. 4. Paní R. tvrdí, že dosud nepoznala člověka, se kterým by si upřímně popovídala. • Snad ok, pokud s textem. 5. Děti by měly chodit do školy včas. • Názor nebo fakt? 6. Testování se začalo rozvíjet po roce 1960 v USA a v současné době se od něj ustupuje. • Mnoho informací, mnoho zajíců. A kdo to tvrdí? 7. Září má v přestupném roce jeden den navíc. Varianta (dopsat správnou infoÚnor nebo odkázat na text)
Přiřazovací úlohy • Přiřazovací úlohy jsou tvořeny 2 skupinami jevů/textů: úlohami (X) a alternativami (Y). • Přiřazujeme Y k X, přičemž Y je o ?? více než X. • 5:7; 4:5; 3:4; 6:8 • Bodování? • Srovnatelnost? • Přiřazujeme-li Y několikrát k X = úlohy s vícenásobným přiřazením (multiple-matching: 12 úloh:5 textů; alternativ je méně než úloh)
Přiřazovací úlohy - bodování Při počtu 5:7; 4:5; 3:4; 6:8 • Bodování: (n)_n-1_n-2_n-3… Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0… Svazek 3 podúloh: 2-0; 2-1-0; 1-0… • 6:8; 5:7; 5:12; úloha = 1 bod (všechny úlohy po 1 bodu) Problém vzájemné podmíněnosti řešení u přiřazovacích úloh?
Přiřazovací úlohy – co je špatně? • Prezident ve 20. století • Vynalezl telefon. • Vyhlásil zrušení otroctví. • Poslední prezident, který rezignoval na svůj úřad. • Bojovník za lidská práva. • Vynalezl čističku bavlny. • Náš první prezident. • Jediný prezident zvolený pro více než dvě období. Přiřaď A a B: 1. Lincoln 2. Nixon 3. Whitney 4. Ford 5. Bell 6. King 7. Washington 8. Roosevelt
Přiřazovací úlohy – co je špatně? • Porušená homogenita (snazší eliminace, jiné než požadované dovednosti a strategie řešení: prezidenti, vynálezci, bojovník…) • Prohozené sloupce (ztráta času) • Snadné hádání (8:8; 3 navíc – 1:4 nebo vícenásobné přiřazení) • Instrukce nicneříkající (Sloupec A obsahuje…, sloupec B obsahuje…. Přiřaďte k .x. .y. tak, že napíšete/spojíte…) • Více správných řešení: a) = Nixon, Ford (Gerald), Roosevelt • Dvojznačné seznamy: Franklin nebo Teddy Roosevelt? Henry nebo Gerald Ford?
Uspořádací úlohy • Úkolem žáka je uspořádat rozdělený text, fakta, informace, pojmy podle explicitně řečeného pravidla. • Musí existovat právě jedna správná možnost uspořádání. • Doporučení pro tvorbu jsou v podstatě stejná jako u předchozích formátů úloh. Nevýhoda pro některé oblasti - náročné na analytické vyhodnocení, pokud nás zajímá vztah dvojic, trojic, první a poslední pozice apod.
Uspořádací úlohy - bodování • 5:7; 4:5; 3:4; 6:8 • Bodování: (n)_n-1_n-2_n-3… Svazek 4 podúloh: 3-2-1-0; 3-2-0; 2-1-0… Svazek 3 podúloh: 2-0; 2-1-0; 1-0… Problém vzájemné podmíněnosti řešení uspořádacích úloh
Úlohy s výběrem odpovědi • Počet alternativ se pohybuje od 3 do 5. • Dle některých výzkumů je učitelé často hodnotí jako obtížnější, než jak je ve skutečnosti řeší (jejich) studenti.