490 likes | 763 Views
統計學 : 應用與進階 第 11 章 : 點估計. 點估計 類比原則 最大概似法 不偏性 有效性 一致性. 定義重要觀念. 估計式 (estimator) 估計值 (estimate) 參數空間 (parameter space) 假設隨機樣本 X 1 , X 2 , . . . , X n 係抽樣自機率密度函數為 f (x; θ ) 的母體 , 其中 為我們所關心的母體未知參數. 參數空間 (parameter space).
E N D
統計學: 應用與進階 第11 章: 點估計
點估計 • 類比原則 • 最大概似法 • 不偏性 • 有效性 • 一致性
定義重要觀念 • 估計式(estimator) • 估計值(estimate) • 參數空間(parameter space) • 假設隨機樣本X1, X2, . . . , Xn係抽樣自機率密度函數為f (x; θ) 的母體, 其中 為我們所關心的母體未知參數
參數空間(parameter space) • 所謂的參數空間係指一個參數所有可能數值所形成的集合。我們以大寫的希臘字母 (同樣讀作theta) 來表示這個集合 • 舉例來說, 如果給定一個指數分配為 • 根據之前所學, 我們知道E(X) = θ (平均等候時間), 因此, 所有可能的 值不會小於零 • 則其參數空間 為 θ ≡ { θ: 0 < θ < ∞}
估計式與估計值 • 如果我們以 代表估計母體參數 θ 的一個估計式, 則估計式(estimator) 就是以隨機樣本X1, X2, . . . , Xn所形成的函數 • 換句話說, 就是利用隨機樣本X1, X2, . . . , Xn所形成的一個統計量(statistic): = t(X1, X2, . . . , Xn) • 如果我們將隨機樣本的實現值x1, x2, . . . , xn帶入t(·), 則t(x1, x2, . . . , xn) 就被稱作估計值(estimate)統計
估計式與估計值 • 習慣上, 我們在 θ上面戴一頂小帽子(hat), 以 (讀作theta hat) 代表 θ的估計式
估計方式 • 接下來, 我們將會介紹兩種重要的估計方式: • 類比原則(動差法) • 最大概似法
類比原則(analogy principle) • 這是最具直覺的一種估計方法 • 原則為: 你對於母體的任何特徵有興趣(例如母體平均數, 母體變異數, 母體各階動差等), 我們就用樣本相對應的特徵(樣本平均數, 樣本變異數, 樣本各階動差等) 來估計 • 透過類比原則所得到的估計式, 就稱作類比估計式(analog estimator)
類比原則的應用 • 利用樣本動差估計母體動差 • 譬如說, 我們用樣本平均數 估計母體均數μ (一階動差) • 以樣本變異數 估計母體變異數σ²(二階中央動差)
類比原則的應用 • 對於母體動差的函數則以相對應樣本動差的函數來估計。譬如說, 以來估計 • 欲估計機率P(X < c), 就用樣本中具備X < c 性質的比例予以估計。譬如說, 想知道任選一名台大學生, 其身高低於166 公分的機率。我們可以隨機抽樣100 名台大學生, 計算樣本中, 身高低於166 公分的學生佔樣本多大的比例, 然後就用此比例估計 P(X < 166) • 樣本中位數估計母體中位數 • 樣本極大值(極小值) 估計母體極大值(極小值)
最大概似法(method of maximum likelihood) • 當我們應用類比估計法時, 並不需要知道母體分配。在本節中, 我們介紹另一種假設母體分配已知的估計法:最大概似法
最大概似法 • 假設 為來自母體分配f (x, θ) 的隨機樣本, 其中函數f (·) 已知, 但 θ 為未知的母體參數 • 由於X1, . . . , Xn為隨機樣本, 其聯合機率分配可以寫成: (為什麼?)
最大概似法 • 對於上式, 我們過去習慣解讀成給定 下,x1, . . . , xn的函數 • 然而, 我們也可以解讀為給定x1, . . . , xn下, 的函數
最大概似法 • 在第二種解讀下, 我們把這樣的函數稱作的概似函數(likelihood function): 亦即這組隨機樣本出現的可能性
最大概似估計式(maximum likelihood estimator,MLE) • 最大概似估計式就是要找到一個參數值 使得概似函數極大: • 其中, 為參數空間 • 用白話解釋就是說,我們要找出一個參數值 = 使得該組樣本出現的可能性最大。
最大概似估計式 • 亦即, 給定某組樣本 , 如果參數值 相對於 能夠讓我們更有可能(more likely) 觀察到這組樣本, 則毫無疑問地會是一個優於 的估計式 • 而最大概似法就是要在參數空間中找出能夠讓我們最有可能(most likely) 觀察到這組樣本的參數。
例子 • 一個箱子裏放置五顆球, 分別為藍球與綠球。令p 代表箱中藍球比例, 而p 為一未知參數, 亦即,我們不知道箱子裏藍球與綠球的確切個數 • 為了估計p, 我們以抽出放回的方式隨機選取10 顆球。亦即, 我們得到一組隨機樣本{X1, X2, . . . ,X10} • 令 抽出藍球, 抽出綠球.
例子 • 根據這個例子, 我們知道Xi ∼ Bernoulli(p), 而p 就是箱中藍球比例 • 同時, 我們令 代表10 顆球中, 藍球的個數, 則 ∼ Binomial(10, p) • 討論以下兩組可能的樣本
最大概似估計式 • 以上兩組樣本是已實現的樣本值, 對於未實現的隨機樣本, 如果 是可微的, 則MLE 就是以下方程式之解: • 由於任何極大化 的參數值 θ 也同時極大化對數概似函數ln, 因此, 為了計算上的方便, 我們有時會轉而求取 的極大值
例子 • 假設 為來自母體分配Bernoulli(p) 的隨機樣本, 試找出p 的MLE • 由於 概似函數為 • 則對數概似函數為
FOC 因此, • 當然我們可以用SOC 驗證該極值確實為極大值
點估計式的評價準則 • 不偏性(unbiased) • 有效性(efficient) • 一致性(consistent)
不偏性 • 一個估計式 的期望值等於母體參數 θ 我們稱該估計式 為一不偏估計式 • 簡單地說, 就是當你用 來猜 θ, “平均而言”會猜對
偏誤 • 如果一個估計式沒有具備不偏性, 則其偏誤(bias) 可以定義成:
偏誤 • 若 令 • 則
亦即, 與 分別為 與 的不偏估計式; 則 為的偏誤估計式
幾點想法 • 我們一再強調估計式是一個由隨機樣本組成的公式, 是一個統計量, 同時也是一個隨機變數 • 因此, 每個估計式會有其抽樣分配, 也就能算出期望值E(), 變異數Var ().... 等等。而估計式的性質就是立基在其分配之上 • 估計式的性質都是在樣本實現(realize) 之前才有意義, 也就是說, 這些好性質都是事前的(exante)
幾點想法 • 然而, 一旦我們抽出某特定樣本(樣本實現之後), 所得到的就不再是估計式, 而是估計值。估計值本身是一個常數, 並無任何隨機性質可以討論 • 假設我們抽樣100 個台大學生並算出樣本平均身高 = 166。此時, E(166) 不一定等於母體平均 μ: 當你運氣好, μ = 166 時,E(166) = 166 = μ; 當你運氣不好, μ ≠ 166 時,E(166) = 166 ≠ μ
幾點想法 • Question: 照這麼說, 一旦樣本實現之後, 166 這個值本身不就沒有任何意義了? • Answer: 166 這個值有沒有意義, 值不值得作為參考, 端視將166 這個值「製造出來」的估計式有沒有具備良好性質 • 想像估計式為一部機器的製造過程, 而估計值為這部機器所製造出來的產品。假設我們無法判斷製造出來的產品品質優劣, 但重要的是, 如果我們知道製造該產品的製造過程具有良好品質, 自然較能肯定產品具有良好品質
有效性 • 我們之所以認為不偏性是估計式一個好的性質,就在於不偏估計式給我們一個「平均而言猜得準」的估計公式 • 然而, 一如之前所述, 估計式有其自己的抽樣分配, 我們不但關心估計式的期望值, 也應該要關心其變異程度(亦即其精確度)
有效性 • 舉例來說, 估計台大學生的平均身高 μ 的估計式 • 樣本平均身高 • 任選兩個樣本點X1, X100算出另一個估計式 • 與 都是不偏估計式 • 但是 亦即, 當n > 2 時, 的變異數大於 的變異數, 其精確度自然不及
有效性 • 如果兩個估計式都具不偏性, 我們把變異數較小的不偏估計式稱作有效估計式 • 相對有效性(relative efficiency) • 絕對有效性(absolute efficiency)
相對有效性 • 兩個不偏估計式中, 具有較小變異者, 較有效率 • 相對有效性可用以下指標衡量: 有效性
絕對有效性 • 為所有不偏估計式中, 變異數最小的不偏估計式, 則我們稱 具絕對有效性 • 亦即, 當 就是一個絕對有效估計式
我們以上所介紹的「有效性」的概念, 是應用在比較兩個不偏估計式 • 如果我有兩個估計式, 一個是不偏估計式, 另一個則是偏誤的估計式, 試問, 我該如何比較這兩個估計式? • 把「有效性」的概念從「較小變異」推廣到「較小均方誤」
什麼是均方誤(mean squared error) • 均方誤(mean squared error) 一般簡稱為MSE,其定義為 • 均方誤就是將估計式與母體參數之間的差距(估計誤差) 取平方後, 再取期望值, 也就是以平方衡量的平均估計誤差 • 具有較小均方誤的估計式就是一個較有效的估計式, 無論該估計式為偏誤或是不偏
均方誤的有效性 • 均方誤的有效性立基於估計式的變異數與偏誤,因此, 變異數越小, 或是偏誤越小的估計式越具備有效性 • 如果兩個估計式均為不偏, 則均方誤的第二項都為零, 比較哪個估計式的均方誤較小, 就等同於比較哪個估計式的變異數較小
例子 • 假設 • 令 以及 • 我們可計算出 • 亦即, 相對於 而言, 有較小的均方誤, 換句話說, 比 有效
一致性(consistent) • 以上討論的估計式性質(不偏性與有效性) 均為固定樣本數n 下所具備的性質, 因此, 又被稱作小樣本性質 • 在本小節, 我們將進一步討論估計式的大樣本性質, 或是說, 估計式的極限性質 • 在某些情況下, 即使估計式在小樣本時, 不具備不偏或有效等良好性質, 如果當樣本數n 增加時, 該估計式具有優良的大樣本性質, 我們仍然會將之視為一個不錯的估計式 • 一個重要的大樣本性質就是一致性
一致性 • 在此, 我們將會把估計式 寫成 用以提醒讀者估計式為樣本n 所決定, 而n 會變動, 不再是固定常數 • 如果 則稱 為 的一致估計式 • 換句話說, 如果 為 的一致估計式, 則 機率收斂到 , 亦即, 當樣本數越來越大時, 點估計式的值與母體參數靠近的可能性越來越大, 其機率值趨近於一
例子 • 若 則 • 為母體均數 μ 的一致估計式(by WLLN) • 與 均為的一致估計式(by WLLN andCMT)
一致性 • 一般來說, 要證明一致性有以下幾種方法: • 如果估計式具樣本均數之形式(滿足WLLN 所需條件), 或是其函數, 則可利用WLLN 以及CMT 如之前兩個例子所示。 • 從機率收斂的定義著手。 • 然而, 由機率收斂的定義去做有時相當複雜。在此, 我們介紹幾個定理幫助大家能夠較為簡單地證明估計式的一致性 • 介紹兩個新觀念: MSE 一致性(MSEconsistent), 與漸近不偏性(asymptoticallyunbiased)
MSE一致性 • 當 我們稱 為 的一個MSE 一致估計式, 並以 • 如下符號表示
漸近不偏 • 當 • 則 為漸近不偏 • 若 為不偏, 則 亦為漸近不偏
MSE一致性的充要條件 • 若且唯若(if and only if) 且
一致性的充分條件 • 若 則 • 亦即, 估計式為一致的充分條件為MSE 一致 • 根據以上定理, 簡單地說, 驗証一致性的條件為: 以及 只要以上兩個條件均符合, 則 就是 的一致估計式
總結: 驗証一致性的方法 • WLLN 與CMT • 機率收斂定義 • MSE 一致性
例子: WLLN 的另一種證明 • 我們知道 為μ 的不偏估計式E() = μ, 則 亦為 μ 的漸近不偏估計式 • 此外, 則 • 因此 為MSE 一致, 是故 為一致估計式,