310 likes | 458 Views
Vurdering av statistiske analysemetoder brukt i Læringslaben s undersøkelser i videregående skole i Rogaland. Oppdragsgiver for prosjektet: Rogaland Fylkeskommune Bakgrunn: støy omkring Læringslaben (LL) sine arbeider. Bjørn Henrik Auestad Førsteamanuensis i statistikk
E N D
Vurdering av statistiske analysemetoder brukt i Læringslabens undersøkelser i videregående skole i Rogaland
Oppdragsgiver for prosjektet: Rogaland Fylkeskommune Bakgrunn: støy omkring Læringslaben (LL) sine arbeider
Bjørn Henrik Auestad Førsteamanuensis i statistikk Universitetet i Stavanger Hovedfag i statistikk (UiB, 1988) Dr.grad i statistikk (UiB 1991), Lang erfaring med bruk av statistiske metoder; forskning og undervisning
Arbeidsform i prosjektet • utgangspunkt i ”Grunnlagsrapport 2007”; også arbeid LL har gjort tidligere for Rogaland fylk. • dialog med LL; bl.a. møte i Stavanger den 15. mars; nyttig kontakt • Metodene som beskrives i grunnlagsrapporten er de samme som brukes i rapport til Rog. fylk. for 2007
Grunnlagsrapport 2007 • Pedagogisk teori, vurderinger og analyser • Vitenskapsteori (!) • Statistiske analyser • enkle beskrivende • avanserte (korrespondanse, prinsipal komponent, faktor, ...) • sammensatte, ikke-standard-metoder
Grunnlagsrapport 2007 korrespondanseanalyse, prinsipal komponent analyse, faktoranalyse, ... • Det er flott å kunne håndtere slike avanserte metoder! • Utfordring ved formidling? • Unødvendig komplisert? Kunne det vært gjort enklere?
Statistisk usikkerhet Når vi skal trekke konklusjoner på bakgrunn av statistiske data, må vi ta høyde for det vi kaller statistisk usikkerhet i resultatene våre. Skoledataene er data med statistisk usikkerhet. Dette må forstås og håndteres ordentlig!
Statistisk usikkerhet Eksempel: Skolegjennomsnittene for variabelen ”motiverende lærer”:
Statistisk usikkerhet Eksempel: Skolegjennomsnittene for variabelen ”motiverende lærer”: Figur viser skolesnittene og grenser. Statistisk usikkerhet?
Statistisk usikkerhet Modell for statistisk usikkerhet; s. 62 i gr.rapp.:observert skåre = valid skåre + systematisk feil + tilfeldige feil BRA! Beskrivelsen av leddet tilfeldige feil mangler individuell variasjon.
Statistisk usikkerhet Individuelle variasjoner (Ulike elever opplever skolens/skolesystemets egenskaper ulikt. Neste kull sine svar på de aktuelle spørsmålene vil neppe gi eksakt samme fordeling.)Omfanget av denne variasjonen dominerer de tilfeldige feilene.Omfanget av tilfeldige feil totalt kommer til uttrykk i spredningen i svarene som vi ser i figurene Motiv. lærer for en skole i Rog.
Statistisk usikkerhet Omfang av tilfeldig variasjon kan simuleres:
Statistisk usikkerhet Omfang av statistisk usikkerhet i skolesnittene:
Statistisk usikkerhet • Det er ikke tatt hensyn til denne usikkerheten i forbindelse med "Kriteriebasert vurdering" • F.eks. vil skolesnittene ha en viss spredning utelukkende forårsaket av individvariasjonen, mens LL nærmest forutsetter virkelige forskjeller. • (ANOVA-liknende metode aktuell)
Statistiske tester Det brukes t-tester, effektstørrelse og ki-kvadrat-tester i forbindelse med "Kriteriebasert vurdering" t-test: sammenligning av to gjennomsnitt der man tar hensyn til foreliggende statistisk usikkerhet (”statistisk signifikant forskjell”) effektstørrelse: mål på praktisk interessant forskjell. KUN DERSOM DET ER STATISTISK FORSKJELL!!!
Statistiske tester • t-tester og effektstørrelse brukes feil i forbindelse med grenseverdiene, kp. 10.4, ... (f.eks. s 273)
Statistiske tester • Ki-kvadrat-tester; i forbindelse med grensene • feil bruk
Statistiske tester • Ki-kvadrat-tester; i forbindelse med grensene • feil bruk, 2
Statistiske tester • Videre brukes effektstørrelse i feil (for å teste statistisk forskjell) i kp. 8.2, 9.2
Kriteriebasert vurdering Bra å komme bort fra rangeringen av skolegjennomsnittene! En del har sikkert opplevd analysene fra LL som gode beskrivelser som har vært til hjelp – konklusjonene synes å stemme. Det er svært mange konklusjoner i en typisk fylkesrapport. Mange av dem stemmer nok!
Statistiske tester • Generelt problem med at det gjøres mange statistiske tester (sammenligninger): • forventet forekomst av feile konklusjoner øker!!! • Flere metoder for å gjøre noe med dette finnes. LL har ikke berørt problemet i det hele tatt.
Frafall/representativitet • Personalundersøkelsen, Rogaland 2006, kp. 2: • ca. 1550 deltar av ca.3300 • er utvalget representativt?? • Hvem er de som ikke svarte? • Kan det tenkes noe mønster i holdninger? • Dette er ikke berørt i det hele tatt i rapporten.
Regresjonsanalyser • I kp. 8.4, 9.4 og 10.3 (miljø- og motivasjonsvariablene) • Eksempel på regresjonsanalyse:
Regresjonsanalyser • Forutsetninger for bruk • ..... • ”Residualene” bør se noenlunde slik ut:
Regresjonsanalyser • Residualene for modell beskrevet på s. 261:
Spurv med kanon?!?! • Hensikt med analysene: grunnlag for kvalitetsutvikling av skolesystemene • Viktig: grunnlaget må være udiskutabelt • Enkle analyser er en stor fordel og brukes klart mest! • kan tenkes å være tilstrekkelig til de viktigste formålene • grunnlag for eierskap og engasjement • komplekse og omfattende analyser er resurskrevende • Skeptisk til bruk av de avanserte metodene på denne bakgrunn
Avslutning • Ikke enkelt å finne ut hvilke metoder som har vært brukt og hvordan de har vært brukt. • Den delen har vært dårlig dokumentert, etter min mening. • Hva konsekvenser feil eller dårlig bruk av statistiske metoder har i disse arbeidene, er uoversiktlig. • kvalitetssikringsarbeid trenges, etter min mening.