1 / 46

課程五

課程五. 機率. 機率. 機率是長期觀察隨機變數之後,事件發生的比例 樣本空間:所有事件的集合 事件:樣本空間的子集合 離散 連續. 機率規則. P(~A)=1-P(A) P(A∪B)=P(A)+P(B) if P(A∩B)=0 聯合 (joint) 機率: P(A∩B) 邊際 (marginal) 機率: P(A∩B1)+P(A∩B2)+… 條件機率: P(A|B) = P(A∩B)/P(B) P(B) ×P(A|B)= P(A∩B) 如果是獨立事件 P(A ∩ B)=P(A) ×P(B). 例. 各種機率.

Download Presentation

課程五

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 課程五 機率

  2. 機率 • 機率是長期觀察隨機變數之後,事件發生的比例 • 樣本空間:所有事件的集合 • 事件:樣本空間的子集合 • 離散 • 連續

  3. 機率規則 • P(~A)=1-P(A) • P(A∪B)=P(A)+P(B) if P(A∩B)=0 • 聯合(joint)機率:P(A∩B) • 邊際(marginal)機率: P(A∩B1)+P(A∩B2)+… • 條件機率:P(A|B)=P(A∩B)/P(B) P(B) ×P(A|B)= P(A∩B) • 如果是獨立事件P(A∩B)=P(A) ×P(B)

  4. 各種機率 • 上午上課且帶筆電的(聯合)機率為:P(A1∩B1)=31/100=0.31 • 上午上課的(邊際)機率為: P(A1∩B1)+ P(A1∩B2)=0.31+0.19=0.5 • 帶筆電的(邊際)機率為: P(B1∩A1)+ P(B1∩A2)=0.31+0.23=0.54 • 已知某同學上午上課,他帶筆電的(條件)機率: P(A1∩B1)/ P(A1)=0.31/0.5

  5. • 假設在中國的26名省市委書記中,具有博士學位黨職的有8人,出生在「50後」有14人,有博士學位且出生在「50後」的有5人。則有博士學位或是出生在「50後」的機率為? • P(A)=18/26=0.3. P(B)=14/26=0.53. P(A∩B)=5/26=0.19. P(A)+P(B)- P(A∩B)=0.64

  6. 機率分佈(Probability distribution) • 在長時間重複觀察之後,特定事件發生的比例可以函數或是類似直方圖的方式表示 • 0≦P(y)≦1

  7. 離散變數的機率 • 給變數y的每一個值一個機率 • 計算觀察到每個值發生的次數再除以總次數。 • 機率分佈用直方圖表示,或稱為probability mass function (pmf)。 • 平均值:Σy×P(y)

  8. 連續變數的機率 • 連續變數可表示某一變數值或是區間所發生的機率。 • 函數下的面積應為1 • 機率分佈的參數為平均值μ及標準差σ • 最常見的是常態分佈 • P(-σ < y < σ) = 0.68, 0.95 for 2σ(A&F圖4.3)

  9. 常態分佈的表示方式

  10. 常態分佈函數

  11. 標準化常態分佈的表示方式

  12. Z值 • 表示y的某個值與其平均值相差有多少標準差,也是一種標準化過程。

  13. Z值及機率分布1 • Z值與機率之間可以互相對照,代表函數底下的面積,或者是累積機率,也是一種分位數。 • 例:在標準常態分佈下(μ=0,σ=1),平均值+1個標準差也就是Z=1,累積機率為0.84,也就是右尾累積機率約為0.158 • 例:95%的機率是1.644,查表可知當右尾機率為0.0505,Z值為1.64

  14. Z值及機率分布 • 當Z=0,對應為0.5的機率 • 當Z=1.0,對應的右尾累積機率為0.1587,也就是說平均值加1個標準差的累積機率為0.5-0.1587=0.3413,因此平均值正負1個標準差的機率則為0.6826,或者是68%。 • 當Z=2.0,對應的右尾累積機率為0.0228,因此平均值正負2個標準差的機率則為1-2*0.0228=0.9544,或者是95%、0.95。

  15. • 當平均值是100、標準差為16時, 常態分佈下的99%的IQ代表幾分? • 因為累積機率為99%或者是右尾剩餘機率為1%,以標準常態分布而言,對應的Z值為2.32,所以y=100+2.32*16=137.2 • 換句話說,當平均值是100、標準差為16時, 在常態分佈下有99%的人不到137.2

  16. • 美國人身高平均值為70.2吋,標準差為2.89吋,那麼不到6呎的機率為? • Z=(72-70.2)/2.89=0.62。查表可知右尾機率為0.2676。故1-0.2676=0.73=73% • 那麼身高介於70.2吋與6呎之間的機率為? • 73%-50%=23%

  17. 抽樣分佈 • 抽樣分佈(sampling distributions)指的是根據母體所得到的樣本統計資料,所呈現的分佈。 • 機率分佈(probability distributions)則是列出變數的所有可能發生事件。瞭解機率分佈可幫助我們瞭解從樣本推論到母體。 • 實際上,我們最多知道樣本分佈。

  18. 例—投票選擇(二元) • 民調顯示56.5%的民眾投給阿諾。 • 假設已知母體(加州州民)有50%的民眾投給阿諾。(μ=0.5)。 • 0.565是許多樣本統計的其中之一,每一「個」樣本可視為許多觀察值的總合。 • 樣本分佈則是把許多樣本以其樣本統計值為X軸、次數為Y軸列成直方圖。

  19. 例—投票選擇(二元)續 • 仿民意調查,我們隨機抽2705人,抽3000次。已知母體支持阿諾的機率為0.5。 • 經由常態分佈的模擬,可得到以下的樣本比例: 0.497, 0.515, 0.505, 0.489, 0.500, 0.504, 0.509, 0.507, 0.505, 0.508,…. • 畫成直方圖表示樣本分佈,大多數集中在0.5

  20. 例—投票選擇(二元)續 • 或者模擬樣本數為4—統計值較少 • 最小值為: 0, 最大值為: 1, 平均值為: 0.5 • 可先建立樣本分配(sampling distribution) • 或是畫圖表示

  21. 平均值y-bar的抽樣分佈 • 前述的投票選擇屬於二元的變數,稱為樣本比例(sample proportion),但是我們更關心連續變數y的平均數(y-bar) • 不同樣本有不同y-bar,許多的y-bar可成為一個抽樣分佈。 • 眾多y-bar的平均值以及離散程度即這個y-bar抽樣分佈的重要參數。

  22. 平均數與標準誤

  23. • 從任何一個母體分佈抽出若干樣本,樣本數越大,抽樣分佈應該有越小的離散程度,而其平均值應該越接近母體。 • 假設有一個單一分佈的母體(N=100,000, μ=95.04, σ=20.2)

  24. , σ-y-bar • 抽出100個樣本,抽100次之後,平均值為95.28, σ-y-bar=20.2/10=2.02(實際:2.09) • 抽出400個樣本抽100次之後,平均值為94.97, σ-y-bar=20.2/20=1.01(實際:0.94) • 抽出1000個樣本抽100次之後,平均值為95.17,σ-y-bar=20.2/31=0.63(實際:0.59)

  25. 小結 • 因為實際上我們不可能知道σ,所以σ-y-bar只是估計,但是可以看到它跟實際的抽樣分佈的離散程度相當接近。 • 而當樣本數n越大,標準誤越小,因此抽樣分佈越集中在母體的平均值附近。

  26. 樣本比例 • 如果y是二元變數,母體的平均數為p。 • 變異數則是p(1-p) • 但是許多的平均數所形成的抽樣分佈,標準誤為σ-y-bar。 • 當p=0.5, σ-y-bar=0.5/√n

  27. • 母體的平均值為0.5,那麼σ-y-bar=0.5/√2705=0.01。 • 因此,如果有56.5%的民眾投給阿諾,0.565與母體平均值差距=6.5個標準誤。遠超過三個標準誤[0.47, 0.53]。 • 我們不知道σ,但是,不管母體是什麼分佈,n越大、抽樣分佈的標準誤越小,而且呈常態分佈。

  28. 抽樣誤差 • 根據抽樣分佈的標準誤,可以反推需要多少樣本。 • 假設母體比例為0.559, σ-y-bar=0.497/√2705=0.01 • 當n=400, 且μ=0.559,σ=0.497,σ-y-bar=0.497/√400=0.025。因此,樣本越大,μ相同的情況下,y-bar越集中,抽樣誤差(sampling error)越小

  29. 中央極限定理 • 不論母體的機率分佈為何,平均值的抽樣分佈隨著樣本變大,越來越接近常態分佈。 • 而根據經驗法則,幾乎所有平均值會落在平均值加減3個標準誤的區間。 • 理論上我們不知道σ,需要用樣本的s估計。如果樣本數越接近母體,抽樣誤差越小,樣本平均值也越接近母體平均值。

  30. • 假設有一連續變數,其分佈往左偏。 • 可以觀察當抽出30個樣本、100個樣本,抽樣分佈接近常態分佈。

  31. 總結 • 瞭解機率的基本原則 • 瞭解機率分佈的意義 • 瞭解標準常態分佈z值之意義 • 瞭解何謂抽樣分佈

More Related