230 likes | 551 Views
Logistic Regression. 教學研究部 生統小組 張秀英 97.10.17. 在統計學上,許多學者認為 Logistic Regression 的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比 (Odds Ratio) ,它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點 . Linear Regression vs Logistic Regression. Logistic 模型估計的假設條件 -1. 資料必須來自於隨機樣本 . 二 . 因變數 Yi 被假設為 K 個自變數的函 數 .
E N D
Logistic Regression 教學研究部 生統小組 張秀英 97.10.17
在統計學上,許多學者認為Logistic Regression的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比(Odds Ratio),它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點
Logistic 模型估計的假設條件-1 • 資料必須來自於隨機樣本. • 二. 因變數Yi被假設為K個自變數的函 • 數. • 三. 也對多元共線性(multicollinearity) • 敏感.
Logistic 模型估計的假設條件-2 三. 二元Logistic 迴歸的因變數yi是二分變數, 這個變數只能取值0或1. 四. Logistic迴歸中因變數和各自變數之間的 關係是非線性的.
Logistic 模型估計的假設條件-3 五. Logistic迴歸沒有關於自變數分布的假設條件. 各自變數可以是連續變數,也可以是離散變數,甚至可以是虛擬變數.並且也不需要假設自變數之間存在多元常態分布.但是自變數之間如果存在多元常態關係將能夠增加模型的功效(power),也能夠提高求解的穩定性.
模型估計的樣本規模-1 目前仍無明確的答案指出,多大的樣本數時可以使用logistic迴歸.一般來說,樣本的規模依賴於模型和資料的特點: 1.如果模型中有很多參數要作估計時,就需 要較多的觀測值. 2.如果自變數之間有高度共線性,或因變數的變化太小(如有太多的案例反應都相同),就需要較大的樣本.
模型估計的樣本規模-2 3.模型的反應變數中有更多分類時(分類大於2) 也需要更多的觀測案例. 4.一般認為,在中等規模樣本數(n=100)的條件之下即能接受.
篩選自變數 • 若一自變數在其簡單模式中達到P<0.25時,都應該 • 考慮與其他重要自變數一起作為多元模型的候選變數。 • 模型的選擇 • enter / forward • backward / stepwise • 當候選自變數的數量很多時,需要更多的觀測案例。
Goodness of fit • Hosmer-Lemeshow擬合指標-- • 模型擬合資料良好。 • 訊息量測指標 AIC值--較小的AIC值表示模型擬合 • 較好,可用於非巢狀模型之間的比較。 • 預測準確性 • Analogous (類 指標)-- 0<LRI<1/屬於無單位量 • 值。 模型評價
模型診斷-1 • 常出現的問題: • 過離散(Overdispersion) • 原因: 樣本數過小 / 資料中存在特異值 • 影響: 過度樂觀估計參數顯著性 • 空單元 (Zero Cell Count) • 影響: 模式無法收斂 / 估計係數與標準誤過大 • 完全分離(Complete Separation) • 反應變數的2種結果在x取值上並無任何重疊 • 影響: 估計係數與標準誤過大 • 在小樣本又有很多自變數的時候發生機會比較高
模型診斷-2 • 多元共線性 (Multicollinearity) • 自變數之間的簡單相關或多元相關都產生多元共線性。 • 自變數之間的相關矩陣可以用於診斷多元共線性, • 如果任何2個自變數之間有較高的相關,便可能產生多元 • 共線性。 • 也會產生很大的係數估計標準誤差 • 如果tolerance<0.2或 VIF>5則有可能存在多元共線性 • 若tolerance=0則模型無法估計。
多元共線性的解決辦法 • 多元共線性很容易發現 ,卻很難解決! • 增加樣本規模 • 降低標準誤差,可以抵銷較輕微的多元共線性的 • 影響。 • 刪除某些自變數 • 必須小心決定刪除哪些變數,若刪除理論上有重要 • 意義的自變數,將造成模型誤設,產生有偏的估計。
類似線性迴歸係數,logistic迴歸係數也可以被解釋為類似線性迴歸係數,logistic迴歸係數也可以被解釋為 • 對應自變數一個單位的變化所導致的因變數上的變化。 • 迴歸係數估計值具有對稱性(0)。 • 例如: 對於 Y :肺癌 • 性別 1:男 • 0:女 ,性別估計值為0.69,男性比女性有較 • 高的發生機會。 • 若 1:女 • 0:男,性別估計值為-0.69。 Logistic迴歸係數解釋
2個機率組之間的比較。 • Odds ratio=1表示變數對事件機率無作用 。 • 不具有類似回歸係數的對稱性,解釋時請注意描述參考組。 • 例如: 對於 Y :肺癌 • 性別 1:男 • 0:女 ,Odds ratio=4,表示男性罹患肺癌的風險 • 比女性高出4倍。 • 多元自變數時,可自行選擇基準組。 • 選擇不同對比方式對該自變數整體的顯著性檢驗沒有影響。 Odds ratio
Logistic Regression C1的odds ratio代表“每增加一單位C1,有病的可能性即增加1.111之機會
Thank You For Your Attention !