1 / 23

Logistic Regression

Logistic Regression. 教學研究部 生統小組 張秀英 97.10.17. 在統計學上,許多學者認為 Logistic Regression 的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比 (Odds Ratio) ,它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點 . Linear Regression vs Logistic Regression. Logistic 模型估計的假設條件 -1. 資料必須來自於隨機樣本 . 二 . 因變數 Yi 被假設為 K 個自變數的函 數 .

elke
Download Presentation

Logistic Regression

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Logistic Regression 教學研究部 生統小組 張秀英 97.10.17

  2. 在統計學上,許多學者認為Logistic Regression的優點,主要是能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比(Odds Ratio),它可以解決傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點

  3. Linear Regression vs Logistic Regression

  4. Logistic 模型估計的假設條件-1 • 資料必須來自於隨機樣本. • 二. 因變數Yi被假設為K個自變數的函 • 數. • 三. 也對多元共線性(multicollinearity) • 敏感.

  5. Logistic 模型估計的假設條件-2 三. 二元Logistic 迴歸的因變數yi是二分變數, 這個變數只能取值0或1. 四. Logistic迴歸中因變數和各自變數之間的 關係是非線性的.

  6. Logistic 模型估計的假設條件-3 五. Logistic迴歸沒有關於自變數分布的假設條件. 各自變數可以是連續變數,也可以是離散變數,甚至可以是虛擬變數.並且也不需要假設自變數之間存在多元常態分布.但是自變數之間如果存在多元常態關係將能夠增加模型的功效(power),也能夠提高求解的穩定性.

  7. 模型估計的樣本規模-1 目前仍無明確的答案指出,多大的樣本數時可以使用logistic迴歸.一般來說,樣本的規模依賴於模型和資料的特點: 1.如果模型中有很多參數要作估計時,就需 要較多的觀測值. 2.如果自變數之間有高度共線性,或因變數的變化太小(如有太多的案例反應都相同),就需要較大的樣本.

  8. 模型估計的樣本規模-2 3.模型的反應變數中有更多分類時(分類大於2) 也需要更多的觀測案例. 4.一般認為,在中等規模樣本數(n=100)的條件之下即能接受.

  9. 篩選自變數 • 若一自變數在其簡單模式中達到P<0.25時,都應該 • 考慮與其他重要自變數一起作為多元模型的候選變數。 • 模型的選擇 • enter / forward • backward / stepwise • 當候選自變數的數量很多時,需要更多的觀測案例。

  10. Goodness of fit • Hosmer-Lemeshow擬合指標-- • 模型擬合資料良好。 • 訊息量測指標 AIC值--較小的AIC值表示模型擬合 • 較好,可用於非巢狀模型之間的比較。 • 預測準確性 • Analogous (類 指標)-- 0<LRI<1/屬於無單位量 • 值。 模型評價

  11. 模型診斷-1 • 常出現的問題: • 過離散(Overdispersion) • 原因: 樣本數過小 / 資料中存在特異值 • 影響: 過度樂觀估計參數顯著性 • 空單元 (Zero Cell Count) • 影響: 模式無法收斂 / 估計係數與標準誤過大 • 完全分離(Complete Separation) • 反應變數的2種結果在x取值上並無任何重疊 • 影響: 估計係數與標準誤過大 • 在小樣本又有很多自變數的時候發生機會比較高

  12. 模型診斷-2 • 多元共線性 (Multicollinearity) • 自變數之間的簡單相關或多元相關都產生多元共線性。 • 自變數之間的相關矩陣可以用於診斷多元共線性, • 如果任何2個自變數之間有較高的相關,便可能產生多元 • 共線性。 • 也會產生很大的係數估計標準誤差 • 如果tolerance<0.2或 VIF>5則有可能存在多元共線性 • 若tolerance=0則模型無法估計。

  13. 多元共線性的解決辦法 • 多元共線性很容易發現 ,卻很難解決! • 增加樣本規模 • 降低標準誤差,可以抵銷較輕微的多元共線性的 • 影響。 • 刪除某些自變數 • 必須小心決定刪除哪些變數,若刪除理論上有重要 • 意義的自變數,將造成模型誤設,產生有偏的估計。

  14. 類似線性迴歸係數,logistic迴歸係數也可以被解釋為類似線性迴歸係數,logistic迴歸係數也可以被解釋為 • 對應自變數一個單位的變化所導致的因變數上的變化。 • 迴歸係數估計值具有對稱性(0)。 • 例如: 對於 Y :肺癌 • 性別 1:男 • 0:女 ,性別估計值為0.69,男性比女性有較 • 高的發生機會。 • 若 1:女 • 0:男,性別估計值為-0.69。 Logistic迴歸係數解釋

  15. 2個機率組之間的比較。 • Odds ratio=1表示變數對事件機率無作用 。 • 不具有類似回歸係數的對稱性,解釋時請注意描述參考組。 • 例如: 對於 Y :肺癌 • 性別 1:男 • 0:女 ,Odds ratio=4,表示男性罹患肺癌的風險 • 比女性高出4倍。 • 多元自變數時,可自行選擇基準組。 • 選擇不同對比方式對該自變數整體的顯著性檢驗沒有影響。 Odds ratio

  16. Logistic Regression

  17. Logistic Regression

  18. Logistic Regression

  19. Logistic Regression

  20. Logistic Regression

  21. Logistic Regression C1的odds ratio代表“每增加一單位C1,有病的可能性即增加1.111之機會

  22. Logistic Regression

  23. Thank You For Your Attention !

More Related