380 likes | 762 Views
統計與生活. 第 九 單元:機率模型 授課教師:國立臺灣大學公共衛生學系 蕭 朱 杏 教授. 【 本著作除另有註明外,採取 創用 CC 「姓名標示-非商業性-相同方式分享 」臺灣 3.0 版 授權釋出 】. 隨機變數 Random variable; 機率的規則 Probability rules 常見機率模式 Bernoulli distribution; Binomial dist.; Normal dist. 抽樣分配 Sampling distribution.
E N D
統計與生活 第九單元:機率模型 授課教師:國立臺灣大學公共衛生學系 蕭朱杏教授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」臺灣3.0版授權釋出】
隨機變數Random variable; 機率的規則Probability rules 常見機率模式Bernoulli distribution; Binomial dist.; Normal dist. 抽樣分配Sampling distribution
隨機變數Random Variable & 機率模式Probability Model (1/2) 利用X代表隨機現象的隨機變數, (亦即將隨機事件realization),則描述X之機率的模式就叫機率模式 (1)如X代表丟骰子的結果,則X=1表示出現一點,X=2表示出 現兩點,…; P(X=i)=1/6, for i=1,2,…,6 畫圖? (2)X也可以不只一個值:XA代表出現A事件的所有X的值 如A=骰子出現偶數點, X ∈ A={2,4,6}
機率模式Probability Model (2/2) 全班成績的分級共分三級A,B,C,其中80%為A級,15%為B級,5%為C級; 令X=1代表A級;X=2表B級;X=3表C級 則P(X=1)=0.8;P(X=2)=0.15;P(X=3)=0.05 這是全班成績級數的分佈, 也是全班成績級數的機率模式 畫個圖?
機率的規則Rules for Probability(1/2) 任何機率值介於0和1之間 所有可能的結果(outcome)機率總和為1 互為補集的A, Ac之機率為P(A)+P(Ac)=1 如果 AB=,(mutually exclusive),則P(AB)=P(A)+P(B) 注意機率不可互相矛盾
機率的規則Rules for Probability(2/2) 注意機率不可互相矛盾 男同學佔全班40%;有女朋友的男同學佔全班60%(if A<B, P(A)<P(B)) 全班作業都超過90分;A實習班只有50%的人作業超過90分 基本人權應受到百分百尊重;殺人犯的基本人權尊重百分之五十就好
伯努利分配Bernoulli Distribution (1/5)definition & pdf 丟一次銅板: Pr(Y=1)=p; Pr(Y=0)=1-pY: random variable (隨機變數), here a binary coding Pr(Y) is called a density function, probability density (mass) function,機率密度函數, pdf, pmf Events: {正面},{反面},{正或反面},{紅色面}; {Y=1},{Y=0},{Y=0 or 1},{Y≠0,1} This is Bernoulli distribution伯努利分配 畫圖?
伯努利分配Bernoulli Distribution (2/5)expected value and variance 丟一次銅板(continued)Pr(Y=1)=p; Pr(Y=0)=1-p=qExpected value of Y: E(Y)=1×p+0×q=pExpectation of Y; “weighted” averageVariance of Y: Var(Y)E[(Y- E(Y) )2]=E[(Y-p)2]Var(Y)= (1-p)2×p+(0-p)2×q=pq
Some Properties of Mean 期望值, expectation, expected value, mean, population mean 例:丟一個公正骰子獲得等同於點數的錢,令X=點數,則X是隨機變數;E(X)=?E(X)=11/6+2×1/6+…+6×1/6=E(X2)=12×1/6+22×1/6+…+62×1/6= E(aX) =a×E(X)例:丟一個公正骰子獲得等同於五倍點數的錢,令U=錢數,則E(5X)=E(U),且E(U)=5×1/6+10×1/6+…+30×1/6=5×E(X) E(c)=c
Some Properties of Variance (1/3) Var(Y)E[(Y-)2]=E(Y2-2𝜇Y+𝜇2) =E(Y2)+E(-2𝜇Y)+E(𝜇2) =E(Y2)+(-2𝜇)E(Y)+𝜇2=E(Y2)-𝜇2 例:Y=0/1各pr=0.5,故Var(Y)=[020.5+12×0.5]-0.52=0.5×0.5 例:Y~Bernoulli(p)故Var(Y)=[12×p+02×q]-p2=p-p2=pq
Some Properties of Variance (2/3) Var(Y)=E(Y2)-𝜇2 Var(aY)=E(a2Y2)-[E(aY)]2 =a2E(Y2)-[aE(Y)]2= a2Var(Y) Ex: Var(5Y)=25Var(Y) Ex: Var(-Y)=Var(Y)
Some Properties of Variance (3/3) Var(X+Y)=Var(X)+Var(Y); 若X&Y獨立何謂獨立? 若P(AB)=P(A)P(B),則A,B兩事件獨立同理若P(X, Y)=P(X)×P(Y),則X&Y獨立例:P(甲丟出1,乙丟出0)=P(甲丟出1)×P(乙丟出0)例:P(甲病,乙病)=P(甲病)×P(乙病) 延伸, 若X, Y, Z獨立, 則 Var(X+Y+Z)=Var(X)+Var(Y)+Var(Z)
同時有不只一個伯努利分配Bernoulli Distribution (3/5) – application (sum) 連丟銅板兩次的結果總和(sum of 2 Bernoullis)Y: 丟兩次中的正面數的和,(隨機變數), Y=0,1,2 Pr(Y=2)=p×p; Pr(Y=0)=(1-p)(1-p); P(Y=1)=2pq (此處Y=X1+X2; X1,X2是Bernoulli) Events: {兩正面},{兩反面},{一正一反},{三正面}; {Y=2},{Y=0},{Y=1},{Y=3} 例:中老年人得血壓的機率0.4,3位中老年人中3位都有病的機率?但是,統計的情況通常是p未知,那麼如何估計?
很多伯努利分配的資料來估計pBernoulli Distribution (4/5) – estimate p 估計p? 隨機抽樣 100位中老年人,得64 1’s有病, 這其實是(1+1+…+0+…+0)/100 這估計值好嗎?穩定嗎?
Aside: Variance of sample mean 樣本數n大則p的估計穩! 將之開根號稱為標準誤 “standard error” (se) Ex: 正面出現 498次/1000次, se=? Ex: 估計得病率=64/100, se2=(0.64)(0.36)/100, se=?
伯努利分配Bernoulli Distribution (5/5) ---summary 知道Bernoulli分配, 也知道利用多個Bernoulli的觀察值來求p的估計值之後, 接下來問, Bernoulli的和又是什麼樣的(隨機)變數呢?
二項式分配Binomial distribution (1/4) - pdf 若Y是n個Bernoulli的結果的和,則Y=0,1,…,n 這是有相同p的n個獨立Bernoulli相加而來 稱為二項式分配(Binomial distribution) Y~Bin(n,p), E(Y)=np; Var(Y)=npq (n 個 Bernoulli’s) Compute P(Y)=?
二項式分配Binomial distribution (2/4) - probability Y=100人中吳小姐的得票數 Y 是Binomial (100,p) Pr(Y=80)= Pr(Y≥80)=? Bernoulli and Binomial Bernoulli是指只丟一次銅板 Binomial是指丟n個銅板的結果總和
二項式分配Binomial distribution (3/4)--- computation when n is really large Y=200萬人中吳小姐的得票數 Y~Binomial(n=2,000,000, p) Pr(Y=999)= Compute? Use normal distribution常態分配 另外有人發現當p很小,n很大,np時,可用布阿松(Poisson)分配來逼近二項式分配(such as rare disease, horse kick)
常態分布Normal distribution (1/6) - pdf Blood pressure Y~N(110,100) 期望值, 變異數 standard deviation 1 standard dev.(.68) 2 stddev(.95) 3 stddev(.99) P(Y≥110)=?(.5) P(120≥Y≥100)=?(.68)
常態分布Normal distribution (2/6) - probability 算血壓比110高的比例 P(Y>110)? (1) 因機率總和(總積分)為1,故此處是area under pdf after 110 (2) beyond 1 stddev = (1-0.68)/2 (3) via standard normal distribution, Z , then
常態分布Normal distribution (3/6)- density of standard normal, Z
常態分布Normal distribution (4/6) - Table Table B:(畫圖?) z: 標準計分的值 cdf: 累計的機率 Pr(Z≤-1.8)=0.0359 Pr(Z≤-1)=0.1587 因對稱Pr(Z≤-1)=Pr(Z≥1)Pr(Z≤1)=1-Pr(Z≥1)=1- Pr(Z≤-1)=0.8413
常態分布Normal distribution (5/6) - examples Use standard normal to compute probability: What if μ (全體民眾的血壓期望值)and σ (母體變異數) are unknown? Estimate!
常態分布Normal distribution (6/6) - examples 利用樣本平均數及樣本變異數估計:
(回來)如何利用常態分布來逼近二項式分配 Y=200萬人中吳小姐的得票數 Y~Binomial(n=2,000,000, p) 當n很大,p不會太極端時,由Y分佈圖看來像常態N(np, npq) =N(1e6, 5e5), if p=0.5 Pr(拿到七成以上)=?𝑃(𝑌<0.7×2×〖10〗^6 )=𝑃(𝑌<1.4×〖10〗^6 |𝑌~𝑁(𝑛𝑝,𝑛𝑝𝑞)) 接下來再進行Y標準化的動作就可求機率值了
抽樣分布Sampling Distribution (1/4) Sampling distribution of statisticsStatisticsare functions of data,統計量是資料的函數, 如sample mean, sample variance, sample median, sample range如TVAB民意調查中心抽得的20人的y值,y/20,如蓋普普中心抽得的50人的平均血壓這個平均值會因不同的50人而不同,why?這個平均值會因不同的50人而不同,但值應該類似
抽樣分布Sampling Distribution (2/4) often this density curve is a normal curve can use “68-95-99.7 rule” or get probabilities from Table If n is large, then 只要樣本數夠大,這抽樣分配就會像常態分配,不管原來的母體是否是常態分配 (CLT)
抽樣分布Sampling Distribution (3/4) Ex: X={1,2,3,4,5}, plot sample means (each of size n) Central Limit Theorem (CLT)
抽樣分布Sampling Distribution (4/4) 派出1000個調查員,各自進行民意調查100人,得各自的平均值 ,則這1000個值畫長條圖會像常態分配N(p, pq/100)
自我作業 (1/2) 1. 利用EXCEL的功能生成1000個N(100,49)的隨機數值,稱之為x1,…,x1000畫長條分配圖;再生成另外1000個N(0,1)的隨機數值,稱之為y1,…,y1000畫長條分配圖;再計算z=(x-100)/7 ,畫z的長條分配圖;比較三個圖你發現什麼? 2. 先利用EXCEL畫Binomial(15,0.4)的分佈圖,再從此分配中生成10個隨機數值並求其平均,重複此動作100次之後,畫這100個平均值的分佈圖,你發現什麼? 3. 根據統計,在臺灣年齡超過四十歲以上的人當中,約百分之二十罹患高血壓, (1) 王先生48歲,請問他是否有高血壓的機率模式為何 (2) 小白在臺大校門口隨機抓到5位四十歲以上的中年人,請問其中有高血壓的人數服從什麼機率模式? (3) 請問小白的樣本中至少3人有高血壓的機率為何? (4) 如果小白很努力的抽樣,得到180位四十歲以上的中年人的血壓值,請估計其中有高血壓的人數?
自我作業 (2/2) (5) 根據4/28/2008的統計,台北市大安區大學里超過四十歲以上的人有4568人,請問其中罹患高血壓的人數的機率模式為何? 期望會有多少人罹患高血壓? (6) 根據4/28/2008的統計,大安區96年4月份人口統計四十歲以上有161795人,請估計其中罹患高血壓的人數超過十萬的機率? (7) 如果派遣50位公衛護士,每位隨機抽取100位四十歲以上的大安區居民,檢查其中高血壓的罹患比例,請問其中約有多少位公衛護士會得到0.25以上的罹患率?