260 likes | 436 Views
Agenda. Informationer Status Spørgeskema Grupper Undtagelser i pensum Opsamling fra sidst Normalfordelingen Dagens øvelser: Forberedelse af kritik i grupper. Status på ”Inferential Methods” Sandsynlighedsregning: √ Diskret ssh.fordel. (binomial): √
E N D
Agenda • Informationer • Status • Spørgeskema • Grupper • Undtagelser i pensum • Opsamling fra sidst • Normalfordelingen • Dagens øvelser: Forberedelse af kritik i grupper. Status på ”Inferential Methods” • Sandsynlighedsregning: √ • Diskret ssh.fordel. (binomial): √ • Kontinuert ssh.fordel. (normalfordelingen): I dag • Konfidensintervaller: Næste gang • Signifikanstest (=hypotesetest): Næste, næste gang.
Opsamling: Diskrete sandsynlighedsfordelinger μ= 0(0.23) + 1(0.38) + 2(0.22) + 3(0.13) + 4(0.03) + 5(0.01) = 1.38 The standard deviation of a probability distribution, σ, measures its spread.
Learning Objective 3:Probabilities for a Binomial Distribution • Excel har funktionen BINOMIAL.FORDELING • Man indtaster • Antal gunstige, f.eks. antal gange en mønt viser krone • Det samlede antal forsøg (antal kast) • Sandsynligheden for et gunstigt udfald, f.eks. 0,5 • 0 (for at få en punktsandsynlighed)
Kast med en mønt, P(krone)=0,5; n=12 • Symmetri • Position • Spredning
Learning Objectives • Normal Distribution • Using Excel to find probabilities • 68 – 95 – 99,7 Rule for normal distributions • Z-Scores and the Standard Normal Distribution • Using Excel to find probabilities for z-scores
For alle normalfordelinger gælder følgende Normalfordelingen er symmetrisk (og klokkeformet) Normalfordelingen beskrives fuldstændigt ved μ og σ. X ~N (μ, σ) μ angiver placeringen på x-aksen. Jo større μ, des længere til højre ligger fordelingen, jf. fordeling lilla vs rød. σ angiver spredningen omkring μ. Jo større σ er, des større spredning. jf. blå fordeling vs. rød. Arealet under kurven er 1. Ssh. for at Y er mindre end en given værdi, a, P(a<Y), svarer til arealet under normalfordelingens kurve fra -∞ til a (se figur). Ssh. for at Y er mindre end en given værdi, a, P(a<Y) findes i Excel.
Eksempel på brug af normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder. Hvad er sandsynligheden for at tilfældig besøgende højest bruger 365 sekunder på forsiden? X = 365, μ = 300, σ = 50, Hvad er P(365<X)? Svaret er 0,903199451.
Sandsynligheder i normalfordelingen De besøgende på en hjemmeside bruger i gns. 300 sekunder på forsiden, før de klikker videre til en underside. Besøgstiden er normalfordelt med en standardafvigelse på 50 sekunder. X er en random variabel som angiver tiden før der klikkes videre fra forsiden til en underside. X ~N (μ, σ) = X ~ N (300, 50) Hvad er sandsynligheden for at en tilfældig besøgende højest bruger 240 sekunder på forsiden? P(240<X) = 0,12 330 sekunder på forsiden? P(330<X) = ... Hvad er sandsynligheden for at en tilfældig besøgende bruger mere end 240 sekunder på forsiden? P(240>X) = 1 - P(240<X) = 1 - 0,12 = 0,88 380 sekunder på forsiden? P(380>X) = Hvad er sandsynligheden for at en tilfældig besøgende bruger mellem 300 og 330 sekunder på forsiden? P(300<X<330) P(330<X) = 0,73 P(300<X) = 0,... P(300<X<330) = 0,73 - ? = 0,2...
Normal Distribution • Within what interval do almost all of the men’s heights fall? Women’s height?
68 – 95 – 99,7% Rule • 68% of the observations fall within one standard deviation of the mean • 95% of the observations fall within two standard deviations of the mean • 99.7% of the observations fall within three standard deviations of the mean
Example: 68-95-99.7% Rule • Heights of adult women • can be approximated by a normal distribution • =65 inches; =3.5 inches • 68-95-99.7 Rule for women’s heights • 68% are between 61.5 and 68.5 inches [ µ = 65 3.5 ] • 95% are between 58 and 72 inches [ µ 2 = 65 2(3.5) = 65 7 ] • 99.7% are between 54.5 and 75.5 inches [ µ 3 = 65 3(3.5) = 65 10.5 ]
z-score X’s z-score angiver hvor mange (antal) standardafvigelser, X ligger fra μ Eksempel: X angiver tiden før der klikkes videre fra forsiden til en underside. X er normalfordelt med μ = 300 og σ = 50. X ~ N (300, 50). Hvad betyder z-scoren, hvis X=400 eller X=150? Hvad er sandsynligheden for at en tilfældig besøgende bruger mindre end 240 sekunder på forsiden? z = (X – μ) / σ = (240 – 300) / 50 = -60 / 50 = -1,2 P(-1,2<z) = 0,1151. Hvad er sandsynligheden for at en tilfældig besøgende bruger mere end 380 sek. på forsiden? z = (X – μ) / σ = (380 – 300) / 50 = 1,6 P(z>1,6) = 1 - P(z<1,6) P(z<1,6) = 0,95. P(z>1,6) = 1 - 0,95 = 0,05.
Opgaver Tegn en standard normalfordeling og find ssh. for at z er ... Mindre end -1.42 Større end 1.42 Mindre end 1.25 mellem -1.42 and 1.25
P(X<x) • Tidsforbruget på en nyudviklet app er normalfordelt med µ = 120 sek. og σ = 20 sek. • Hvor stor en procentandel har et tidsforbrug under 100 sek? • P(X<100) = • Tjek i Excel • 15,9% af brugerne har et tidsforbrug under 100 sek
Finding Probabilities • Draw a picture to show the desired probability under the standard normal curve • State the problem in terms of the observed random variable X, i.e., P(X<x) • Standardize X to restate the problem in terms of a standard normal variable Z • Find the area under the standard normal curve using Excel
P(X>x) • Tidsforbruget på en nyudviklet app er normalfordelt med µ = 120 sek. og σ = 20 sek. • Hvor stor en procentandel har et tidsforbrug over 100 sek? • P(X>100) = 1 – P(X<100) • P(X>100)= 1-.1587=.8413 • Tjek i Excel • 84.1% af brugerne har et tidsforbrug på mere end 100 sek
P(X>x) • Tidsforbruget på en nyudviklet app er normalfordelt med µ = 120 sek. og σ = 20 sek. • Hvor stor en procentandel har et tidsforbrug over 133 sek? • P(X>133) = 1 – P(X<133) • P(X>133)= 1-0,... = 0,2... • ? af brugerne har et tidsforbrug over 133 sek.
P(a<X<b) • Tidsforbruget på en nyudviklet app er normalfordelt med µ = 120 sek. og σ = 20 sek. • Hvor stor en procentandel har et tidsforbrug 100 og 133 sek? • P(100<X<133) = P(X<133)-P(X<100) • Tjek i Excel • 58% af brugerne har et tidsforbrug mellem 100 og 133 sek.
Find en X værdi givet en sandsynlighed • Tidsforbruget på en nyudviklet app er normalfordelt med µ = 120 sek. og σ = 20 sek. • 10% af brugerne har et tidsforbrug, som er højere end hvad? • P(X>x) = 0,10, find x. • P(X>x)=1-P(X<x) • Excel bruges til at finde z for P=1-0,1=0,9. Det giver z = 1,28 • Løs ligningen for at finde x : • Check: • P(X>145,6) = P(Z>1,28) = 0,10
Approximating the Binomial Distribution with the Normal Distribution • The binomial distribution can be well approximated by the normal distribution when the expected number of successes, np, and the expected number of failures, n(1-p) are both at least 15.
Example: Racial Profiling? • 262 police car stops in Philadelphia in 1997. • 207 of the drivers stopped were African-American. • In 1997, Philadelphia’s population was 42.2% African-American. • Does the number of African-Americans stopped suggest possible bias, being higher than we would expect (other things being equal, such as the rate of violating traffic laws)? • Løs opgaven ved et opslag i Excel
Binomial Mean and Standard Deviation • The binomial probability distribution for n trials with probability p of success on each trial has mean µ and standard deviation σ given by:
Example: Racial Profiling? • Assume: • 262 car stops represent n = 262 trials. • Successive police car stops are independent. • P(driver is African-American) is p = 0.422. • Calculate the mean and standard deviation of this binomial distribution:
Example: Racial Profiling? • Recall: Empirical Rule • When a distribution is bell-shaped, close to 100% of the observations fall within 3 standard deviations of the mean.
Example: Racial Profiling? • If there is no racial profiling, we would not be surprised if between about 87 and 135 of the 262 drivers stopped were African-American. • The actual number stopped (207) is well above these values. • The number of African-Americans stopped is too high, even taking into account random variation. Limitation of the analysis: Different people do different amounts of driving, so we don’t really know that 42.2% of the potential stops were African-American.