732G71 Statistik B

732G71 Statistik B Denna presentation har uppdaterats något. Nya versionen har ersatt den gamla på hemsidan. • Institution: IDA, avd. för statistik • Kursansvarig: Anders Nordgaard, ANd • Anders.Nordgaard@liu.se • 013-281974 • B-huset, ing. 27, 1 tr, korridor E (ovanför Café Java) • Arbetar deltid ( främst tor, fre) • Övriga lärare: • Andreas Månsson-Vogel (AMV) • Staffan Holmbom (SH) • Josefine Johansson (JJ) • Rickard Alling (RA)

Kurshemsida: www.ida.liu.se/~732G71 • Kurslitteratur: • Andersson G, Jorner U, Ågren A: Regressions- och tidsserieanalys. 3:e uppl.Studentlitteratur Bokakademin • Nordgaard: Något om index Hemsidan • Extra övningsuppgifter Hemsidan • (Formelsamling) Kommer att finnas på hemsidan

Undervisning: • 9 föreläsningar (ANd, Teori och exempel) • 6 lektioner (AMV, RA, ANd, Genomgång av övningsuppgifter, alla studerande förväntas ta aktiv del i diskussionen av lösningar) • 5 räknestugor (AMV, JJ, eget räknande med tillgång till handledning) • 7 datorlaborationer (SH, RA, ANd viktiga övningar i att använda dator (Minitab) för regressions- och tidsserieanalys • Rekommenderade övningar till lektioner och räknestugor: Se undervisningsplanen på hemsidan. • Instruktioner till datorövningar: Finns löpande på hemsidan.

Examination: • Projektarbete i grupp, 2.5 p • Tentamen, 5.5 p • Slutbetyg: • Väl Godkänd, Godkänd eller Underkänd • För Godkänd krävs att bägge examinationsmomenten är godkända • För Väl Godkänd krävs att bägge examinationsmomenten är godkända samt betyget Väl Godkänd på tentamen.

Projektmomentet bedöms med något av betygen Godkänd eller Underkänd. För de flesta blir den praktiska betygsskalan Godkänd eller Komplettering. • Tentamen: 4-5 uppgifter. Till den första uppgiften skall fullständig lösning inlämnas, till övriga ges svar på svarsblankett enl. ”multiple choice”-modellen. Formelsamling och tabeller kommer att finnas fasthäftade i tentan.

Projektarbete • Grupparbete i grupp om max 4 personer. Gruppindelningen skall vara klar och meddelad senast 12 november . • Inlämningsuppgiften handlar om tidsserieanalys och bygger på Datorövning 6 och 7. • Uppgiften skall inlämnas skriftligt till kursansvarig senast 8 december . Mer information kommer att finnas på hemsidan.

Återkoppling till närmast tidigare kursvärdering och kursdefinition: • Kursen Statistik B är ny för i år, men dess föregångare Regressions- och tidsserieanalys som gavs sista gången 2007 hade i princip samma innehåll. • Genomgående i kursvärderingarna från denna föregångare var att det som fick sämst betyg var kurslitteraturen. Övrigt var helt nöjaktigt. • För att tillmötesgå denna upprepade kritik har kursansvarig i denna kurs bytt från den tidigare engelskspråkiga boken till en svensk bok (Andersson, Jorner, Ågren [AJÅ]) • Den svenska boken täcker emellertid inte helt upp vad kursplanen förespråkar om innehållet. • Kursen Statistik B definieras utifrån kurslitteraturen och föreläsningarna Föreläsningsunderlag kommer alltid att hållas tillgängligt på kurshemsidan

Litet om vad kursen handlar om • Enkel linjär regressionsanalys • Exempel: Försäljning av pizza relaterat till antalet studenter i restaurangens omgivning för 10 slumpmässigt valda restauranger

Kan man tänka sig att försäljningen ökar linjärt med antal studenter i omgivningen? Förmodligen! Hur tillförlitlig är den framräknade ekvationen för linjen: y =5x + 60 ? Hur kan vi tolka värdena 5 och 60 i ekvationen? Om vi har en “ny” restaurang med 15000 studenter i omgivningen, vad kan vi förvänta oss att kvartalsförsäljningen blir?

Multipel linjär regressionsanalys • Exempel: Restider för ett transportföretag relaterade till transportavstånd och antal leveranser för 10 slumpmässigt valda transporter Kan vi kombinera till “ett” samband?

Framräknat matematiskt samband: • Restid = - 0.869 + 0.0611 Transp.avstånd + 0.923 Leveranser • Tillförlitligt? • Tolkningar? • Prognoser?

Index • Exempel: fastighetsprisindex, fritidshus, Stockholms län 1975-2005 • Hur har värdena på y-axeln räknats fram? • Hur kan indexserien användas?

Exponentiella modeller och elasticitetssamband • Exempel: Befolkningsutveckling i Göteborgs och Bohus län 1805-2000 • Är det rimligt med ett linjärt samband här? • Hur kan vi räkna fram ett icke-linjärt samband?

Exempel: Efterfrågad volym av en viss varugrupp i förhållande till pris • Hur kan vi avgöra om varan är priskänslig? • Hur kan vi relatera Nationalekonomins modeller till statistiska modeller?

Tidsserier • Exempel: Antal på arbetsmarknaden sysselsatta kvinnor januari 1995 – mars 2005 • Vad för slags variation består data av? Trend? Säsongsmönster? Konjunkturmönster? • Hur kan vi prognosticera? 2 år framåt? 10 år framåt?

Enkel linjär regressionsanalys Exempel: En pizzakedja har undersökt försäljningen vid restauranger som ligger i anslutning till högskolecampus. Följande data har sammanställts in från 10 slumpmässigt valda restauranger: Restaurang Försäljning senaste kvartal Antal studenter vid (i 1000-tals € ) campus (i 1000-tal) 1 58 2 2 105 6 3 88 8 4 118 8 5 117 12 6 137 16 7 157 20 8 169 20 9 149 22 10 202 26

Vi plottar kvartalsförsäljningen mot Antal studenter Försäljningen tycks ha ett positivt samband med Antal studenter

Kan sambandet vara linjärt?

Den räta linjen? • Betyder alla punkter lika mycket? • Drar alla som tittar på plotten ungefär samma linje? • Försöker man få så många punkter som möjligt att ansluta till linjen? • Finns det någon sann linje? • Räta linjens ekvation: Kan den utnyttjas här på lämpligt sätt?

Blå linje: Bygger enbart på punkten längst t.v. och punkten längs t.h. Grön linje linje: Bygger på alla punkter utom den längst t.v. och den längst t.h. Rosa linje: Bygger på de fem punkterna längst t.v.

Målsättning: Att anpassa en linje till punkterna så att avstånden mellan punkterna och linjen blir så små som möjligt enligt något gemensamt (globalt) mått. Låt y=b0+b1·x vara det matematiska uttrycket för den linje som skall anpassas. b0=skärningspunkten på y-axeln (interceptet) och b1=lutningskoefficienten (lutningsparametern) y står alltså för kvartalsförsäljning och x står för antalet studenter (Observera att vi frångår beteckningssättet y=k·x+m.) Kursboken (AJÅ) skriver y=a+b·x , men i föreläsningsunderlagen används genomgående b0 i stället för a (av internationella skäl) Problemet att lösa är hur vi skall bestämma b0 och b1 i det matematiska uttrycket

Betrakta avstånden mellan punkterna och den dragna linjen. (Gröna klamrar) Dessa är såväl positiva som negativa

Avståndet mellan en punkt (restaurang) med koordinaterna (xi , yi) och linjen kan skrivas: yistår alltså för kvartalsförsäljningen och xiför antalet studenter för restaurang i Summan av alla avstånd blir men denna summa blir 0 så fort de negativa avstånden ”tar ut” de positiva även om de faktiska avstånden (absolutavvikelserna) skulle vara mycket stora. Det är alltså inte särskilt vettigt att använda sig av positiva och negativa avstånd.

För att förtydliga det här med summatecknet: Det är ganska enkelt att hitta värden på b0 och b1 så att detta blir =0, dvs. Så att de positiva och negativa avstånden tar ut varandra.

Hur vore det då att utnyttja absolutavvikelserna: ? (Absolutbeloppet | · | är sådant att t ex |2|=2 och |2|=2 ) Vi borde då välja b0 och b1 så att summan av alla absolutavvikelser blir så liten som möjligt. Fullt tänkbart och vettigt för vissa datamaterial men matematiskt svårt.

Matematiskt enklare blir att välja b0 och b1 så att följande summa minimeras: De resulterande värdena på b0 och b1 kalla Minsta Kvadrat – skattningarna av linjens parametrar (se längre fram) Hur går detta till?

Låt Dvs. Q är en matematisk funktion av b0 och b1. För att minimera denna krävs att vi deriverar Q med avseende på såväl b0som b1 , sätter dessa derivator till 0 och löser ut b0 och b1 ur det ekvationssystem som då bildas. 

Vi behöver alltså beräkna  xy ,  x2 samt medeltalen för x och y ur vårt datamaterial: x y x2 x·y 2 58 4 116 6 105 36 630 8 88 64 704 8 118 64 944 12 117 144 1404 16 137 256 2192 20 157 400 3140 20 169 400 3380 22 149 484 3278 26 202 676 5252  140 1300 2528 21040 Medel 14 130

 Den resulterande linjen blir alltså y=60+5·x

60 y x

Om alla dessa summor Ur beräknings- och skrivmässig synvinkel är det bra att använda snabbformler och dessutom ha bra beteckningar på ingående summor Vänj er därför vid följande:

Notera dock att kursboken (AJÅ) använder sig av ytterligare en formelvariant för b1 (som skrivs b i AJÅ): Alla formler ger samma värde, men AJÅ motiverar denna formel med att den är enklare beräkningsmässigt. Samma argument kan användas för följande fjärde variant av formeln: Alla formler är helt ekvivalenta. Det handlar egentligen bara om var man placerar n:et

Om sambandet mellan y och x är linjärt, dvs. följer en rät linje, gäller detta överallt? Svar: Nej! Endast i det område där vi har observationer.

Vad har detta med statistik att göra? Om det finns ett generellt linjärt samband mellan y och x  Vi kan knappast ha sådan tur att vi prickar in detta exakt med de 10 observationer vi har. Data utgörs av ett urval. Nytt urval Nya punkter  Annan anpassad rät linje y=60+5·x skall ses som en skattning av det bakomliggande generella sambandet, den teoretiska räta linjen

Modell: Låt y och x ha ett teoretiskt samband enligt: E (y )=μy|x =0+  1· x Dvs. väntevärdet hos y (eller det genomsnittliga värdet hos y ) beror linjärt av det aktuella värdet hos x .

För varje värde på x tänker vi oss att det finns en (del)population av möjliga värden på y sådan att sambandet stämmer, dvs. att väntevärdet av y är lika med y-värdet i den punkt på linjen som motsvarar x-värdet. Det inses att en anpassad linje b0+b1·x kan få många olika utseenden beroende på vilka punkter som fås i urvalet.

Korrelation I vardagligt tal hör man ofta resonemang som talar om huruvida två företeelser är korrelerade. Detta sätt att uttrycka sig är något missvidande. Två företeelser kan ha ett sambandmen att de är korrelerade innebär att detta samband är till stor del linjärt. Ett perfekt linjärt samband mellan två variabler är det starkaste samband som finns. För två sådana variabler y och x betyder det att känner man till den ena så känner man automatiskt till den andra. För ett datamaterial av det slag vi hittills har tagit upp (dvs. n parvisa observationer av två variabler y och x ) mäts graden av linjärt samband med den s.k. korrelationskoefficienten: r antar endast värden mellan –1 och 1. Om r=0 kan inget linjärt samband sägas finnas (okorrelerade variabler) och om r = +1 eller –1 råder perfekt linjärt samband.

Även här finns beräkningstekniskt sett ”enklare” formler för r : Notera likheten mellan b och r, men märk väl att det är två skilda storheter! r mäter alltså graden av linjärt samband medan b anger hur det innehållande linjära sambandet ser ut

I vårt exempel blir Jämför detta med b = 5 som ju är ett helt annat värde. Värdet r = 0.95anger att graden av linjärt samband är mycket hög, näst intill perfekt. Vidare är sambandet positivt, dvs. höga värden hos den ena variabeln åtföljs som regel av höga värden hos den andra och motsvarande för låga värden. Ett negativt värde på r anger ett negativt samband, dvs. höga värden hos den ena variabeln åtföljs som regel av låga värden hos den andra och vice versa.

En modell som beskriver sambandet mellan ett enskilt värde yi och ett enskilt värde xi kan nu skrivas yi= 0+ 1· xi+i (1) där iär en slumpvariabel med väntevärde 0. Vanligast är att anta att i är fördelad N (0, ) 0 + 1· xiär då det betingade väntevärdet av yigivet att x=xi.  kan också skrivas eeller bara kort  . Med modellen (1) kan vi förklara varför observationerna inte ligger samlade på en rät linje, medan deras genomsnittliga värden gör det.

Man kan visa att statistiskt har då punktskattningarna b0 och b1 följande egenskaper (stickprovsfördelningar): där i detta exempel n=10. Räknar vi ut termerna innehållande x-värden får vi

Skattning av  : I ett ”vanligt” stickprov med observationer y1 , y2,…, ynskattar vi populationsvariansen, 2 med Här måste vi ersätta med något som följer genomsnittsvärdet hos y då x ändras. Bäst är att sätta in uttrycket för den skattade linjen: Observera att vi här dividerar med n – 2 i stället för n – 1. Orsaken är att vi annars underskattar 2 (Samma skäl som till varför vi tidigare dividerade med n – 1 och inte med n. )

Eftersom vi egentligen skattar en linje och inte använder den teoretiska linjen är det mer korrekt att skriva ekvationen för denna som Det blir då naturligt att förkorta skrivsättet för se2 enligt Termen brukar betecknas ei och kallas residual. Denna är alltså avvikelsen mellan observerat värde och anpassat värde och kan vara såväl positiv som negativ. se kallas därför ofta residualspridningen och se2residualvariansen

x y ŷiyi - ŷi(yi – ŷi)2 2 58 70 –12 144 6 105 90 15 225 8 88 100 –12 144 8 118 100 18 324 12 117 120 –3 9 16 137 140 –3 9 20 157 160 –3 9 20 169 160 9 81 22 149 170 –21 441 26 202 190 12 144  140 1300 1300 0 1530 

De gröna klamrarna visar residualerna e1, e2, …, e10 Och det är standardav-vikelsen hos dessa som beräknas till se=13.83

Mer terminologi och beräkningsteknik: se2 har en mer internationell beteckning. Vanligt är att beteckna Square Sum of Errors. På svenska säger man residualkvadratsumman. (Residual översätts ibland till Error) se2 blir då SSE/(n–2) och denna brukar internationellt även betecknas MSE (Mean Square sum of Errors) Vanligen skriver man också s och s2 och utelämnar alltså ”e” i beteckningen.

För att beräkna SSE behöver man inte gå den ”långa” vägen som vi gjorde tidigare. Man kan visa att De ingående summorna skrivs (enligt ovan) enklare som och sätts in i formeln

Med värden i exemplet erhålls: eller

Vi understryker att summorna har beräkningstekniskt enklare former. Alla dessa kommer att stå i formelsamlingen. Använd dem och inte den mer tidsödande metoden att beräkna samtliga differenser, kvadrater och/eller produkter innan de summeras. De flesta räknedosor har funktioner att summera ett stickprov och beräkna  yi2 ,  yi , och s. Flera räknedosor har funktioner att summera par av värden (xi , yi) och beräkna summor som kan användas enligt ovan samt medelvärden och standardavvikelser. Det finns ingen fördel att ha sådana på tentamen, men för praktiskt bruk kan man ha nytta av dem.

“Vanliga” fel: Låt t.ex. n = 3 och x1 = 1 , x2 = 2 , x3 = 3 samt y1 = 2 , y2 = 4 , y3 = 5 Testa och upptäck att ovanstående stämmer!

732G71 Statistik B

732G71 Statistik B

Presentation Transcript

Statistik

Statistik

Statistik

Statistik

STATISTIK

STATISTIK

Statistik

STATISTIK

STATISTIK

Statistik

Statistik

STATISTIK

STATISTIK

Statistik

732G71 Statistik B 8 hp

statistik

Statistik

732G71 Statistik B

Statistik

Statistik

Statistik

Statistik