340 likes | 446 Views
Signifikanstesting. Ronny Klæboe Transportøkonomisk institutt. Hva vi går igjennom. Diskrete og kontinuerlige ssh fordelinger Litt om enkle binomiske forsøk Deretter mer formalisert om: Type I og Type II feil Signifikansnivå Effektstørrelse – Bare såvidt Teststyrke – Bare såvidt
E N D
Signifikanstesting Ronny Klæboe Transportøkonomisk institutt
Hva vi går igjennom Diskrete og kontinuerlige ssh fordelinger Litt om enkle binomiske forsøk Deretter mer formalisert om: Type I og Type II feil Signifikansnivå Effektstørrelse – Bare såvidt Teststyrke – Bare såvidt Ensidig/tosidig test Regneark for p-test, t-test og homogenitetstest
Sannsynlighet • Sannsynlighet – tall mellom 0 og 1 • Diskret fordeling: • Et antall mulige alternativer: m • Et antall av disse er gunstige: g • Alle valg like sannsynlige: • Sannsynligheten for å velge riktig p = g/m • Sannsynligheten for å ”misse” er 1 – p = 1 – g/m siden sannsynligheten av alle begivenheter 1
Kast med mynt og kron – Ulike kombinasjoner Metodekurs utvalgsteori 13. mai 2011
Sannsynligheten for en spesifikk sekvens La oss si det ikke er akkurat 50-50 men K=0.55 M=0.45 Da er sjansen for først å få 3 mynt og deretter 3 kron som følger: 0.45x0.45x0.45x0.55x0.55x0.55=0.453x0.553=0.01516 Sjansen for først å få 3 kron og deretter 3 mynt tilsvarende: 0.55x0.55x0.55x0.45x0.45x0.45=0.553x0.453=0.01516 Metodekurs utvalgsteori 13. mai 2011
Kast med mynt og kron – antall kombinasjoner Metodekurs utvalgsteori 13. mai 2011
Diskrete fordelinger Binomisk fordeling (ett av to utfall) Forventet gjennomsnitt = n x p
Miljø og Klima: Sabatt Tolfa September 15-18 Metodekurs utvalgsteori 13. mai 2011
Kontinuerlige ssh-fordelinger • Integralet må være = 1 • Mest kjente bygger på Normalfordelingen • Normalfordelingen • Sum av normalfordelte er selv normalfordelt • Gjennomsnitt dermed normalfordelt • Differenser: X2-X1 normalfordelt • Kji-kvadratfordeling • T-fordeling (Students t) • Fisherfordeling • Logitfordeling, probit, ekstremverdi (Gumbel), negativ binomialfordeling, rektangulærfordeling ...
Sentralgrenseteoremet Metodekurs utvalgsteori 13. mai 2011
t-test • A common situation in psychology is when an experimenter randomly assigns people to an “experimental” group or a “control” group to study the effect of the manipulation on a continuous outcome. • In this situation, we are interested in the mean difference between the two conditions. • The significance test used in this kind of scenario is called a t-test. A t-test is used to determine whether the observed mean difference is notwithin the range that would be expected if the null hypothesis were true.
t-test example • We are interested in whether caffeine consumption improves people’s happiness. • We randomly assign 25 people to drink decaf and 25 people to drink regular coffee. • Subsequently we measure how happy people are. • Note: The independent variable is categorical (you’re in one group or the other), and there are only two groups. • The dependent variable is continuous—we measure how happy people are on a continuous metric.
Neyman & Pearson • Vi skal ta en avgjørelse i valget mellom to konkurrerende hypoteser • H0 Nullhypotesen og • H1 Den alternative hypotesen (at noe ”virker”) • Enten: Vi kan ikke forkaste H0 • Eller: Vi forkaster H0
Feiltyper Vi forkaster ikke H0 | H0 gjelder (1- ) Vi forkaster H0 | H0 gjelder () Type I feil (falsk positiv) Vi forkaster ikke |H1 gjelder Type II feil (gir ikke beh) Vi forkaster H0 | H1 gjelder (1- ) (ekte positiv)
Statistisk teststyrke (power) Sjansen for å Forkaste H0 | H1 gjelder = (1- ) Kan beregnes på forhånd når en kjenner utvalgsstørrelsen, valgt og størrelsen på effekten en vil teste (fra tidligere undersøkelser eller fra teori)
Betydning av n for samplingfordeling Metodekurs utvalgsteori 13. mai 2011
t-test example • Let’s say we find that the control group has a mean score of 3 (SD =1) and the experimental group has a mean score of 3.5 (SD = .9). • Thus, there is a .50 difference between the two groups. [3.5 – 3.0 = .5] • Two possibilities • The .5 difference between groups is due to sampling error, not a real effect of caffeine. In other words, the two samples are drawn from populations with identical means and variances. • The .5 difference between groups is due to the effect of caffeine, not sampling error. In other words, the two samples are drawn from populations with different means (and maybe different variances).
t-test example • As before, then, we need to specify (a) the mean of the sampling distribution and (b) the SD of the sampling distribution (SE).
Enkelttester kontra mange • Bonferroni Gitt y uavhengige tester hvor hver test har signifikansnivå x og hvor vi vil ha en garanti på 5% for ikke H1 ikke velges i noen av testene (gitt at H0 gjelder). x må da velges=
Meta-analysePublikasjonsskjevhet SENSURERT
Kritiske kommentarer til opprinnelig formulering av signfikanstester