1 / 90

対数線形モデルによる 分割表データの分析

対数線形モデルによる 分割表データの分析. 行動計量学研究分野 B4 町田 透 machida@koko15.hus.osaka-u.ac.jp. Agenda. χ 2 検定の限界 対数線形モデルの導入 p × q 分割表の分析 (10/16) 多次元分割表への拡張 (10/23) シンプソンのパラドックス SAS による分析例 PROC CATMOD. 1 . χ 2 検定とその限界について - Chi-square test for Contingency tables -. χ 2 検定の復習 χ 2 検定とは p × q 分割表による具体例

deandra
Download Presentation

対数線形モデルによる 分割表データの分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 対数線形モデルによる分割表データの分析 行動計量学研究分野B4 町田 透 machida@koko15.hus.osaka-u.ac.jp

  2. Agenda • χ2検定の限界 • 対数線形モデルの導入 • p×q分割表の分析 (10/16) • 多次元分割表への拡張 (10/23) • シンプソンのパラドックス • SASによる分析例 • PROC CATMOD

  3. 1.χ2検定とその限界について- Chi-square test for Contingency tables - • χ2検定の復習 • χ2検定とは • p×q分割表による具体例 • χ2検定の限界

  4. Q. 「χ2検定」って何ですか? A. カテゴリカルな変数間の関連の有無を検討するための手法(心理学者) • 「性別」と「色の好み」との関連etc • 分割表の分析手法としては“定番” • FREQプロシージャ & CHISQオプション(SAS) A. χ2統計量を検定統計量として用いる検定の一般的な呼称(統計学者)

  5. p×q 分割表による具体例 • 就職への関心についての調査(大学生) • 性格の自己評価×就職への関心 • χ2 = 6.37, df = 2, p < .05  ⇒(5%水準で)関連あり

  6. χ2検定は有意だが・・・ • χ2検定で有意⇒変数間は独立ではない • p×q分割表 • どのセルが有意性に“貢献”したのか不明 • 残差分析により対処可能 • 多次元分割表(3変数以上) • どの変数間に関連があるのか不明 • H0:「3変数A,B,Cはすべて互いに独立」 ⇒ “H1 : H0 is NOT true.” では情報として不十分

  7. χ2検定の限界 • χ2検定は “overall” な検定 • 得られる情報は分割表の全体的な傾向のみ • セルや変数の増加に伴い無力化 where? A B where? related? where? C

  8. χ2検定のモデルを再考 • χ2検定⇒“積”のモデルを仮定 • 独立からの“偏り”をモデル化 A,Bが独立でない ことによって 生じる効果

  9. We developed another model. • 対数をとると“積”が“和”になり,分散分析と類似したアプローチが可能に  ⇒“対数”線形モデル!!

  10. 2.対数線形モデルの紹介- Log-Linear Models for Contingency tables - • 2変数-対数線形モデルの導入 • p×q 分割表の再分析 • SASによる分析例―PROC CATMOD

  11. 2次元分割表の一般形 • 期待度数 mij を Fij と表すこともある

  12. 対数線形モデルとは • 各セル度数の“対数値”がいくつかの要因効果に分解されると仮定したモデル • モデル式は分散分析と“酷似” • 質的データの分散分析 • カテゴリカルデータの分析には“必須” ※文献によっては,各セルの“確率”の対数値に線形モデルを当てはめていることもある • (大局的には)アプローチによる差はない

  13. 2変数-対数線形モデルの導入 • 2変数の独立性を仮定したモデル 

  14. 独立でない場合のモデル (i, j) セルの組み合わせによる効果 • 2次元分割表で考えられる全ての効果を含む ⇒(2変数の)「飽和モデル」(saturated model)

  15. 「主効果」を“直感的に”理解 • Aの主効果が存在 ⇒Aのカテゴリによってセル度数が異なる • Bは考慮に入れない (Aのみで集計)

  16. 「主効果」をより正確に理解 • Aの主効果が存在 ⇒Aのカテゴリによって対数セル度数の平均が異なる • Bのカテゴリは考慮に入れない

  17. 「交互作用」を“直感的に”理解 • 交互作用A×Bが存在 ⇒Bのカテゴリによって,Aの主効果が異なる ⇒Aのカテゴリによって,Bの主効果が異なる

  18. 「交互作用」をより正確に理解 • 交互作用A×Bが存在 ⇒Bのカテゴリによって,Aのカテゴリ間における対数セル度数の変動の様子が異なる • LLMでは対数セル度数のプロットが有効

  19. LLMにおける「交互作用」の意味 • 交互作用A×Bが存在 • AのカテゴリによってBの効果が異なる • 「性格」によって「就職への関心」が異なる • AとBの間に関連性が存在 • Aのカテゴリを知ることで,Bの度数の変動が説明可能 • 「性格」についての“情報”が,「就職への関心」を知るための“手がかり”となる

  20. 関西出身・・・ たこ焼き器あり!! 関西出身・・・? たこ焼き器あり ・・・?? A,Bの関連が(極端に)強い場合 A,Bが完全に独立の場合

  21. DATA loglin2; DO person = 1 TO 2; DO concern = 1 TO 3; INPUT num @@; OUTPUT; END; END; /* DOとENDの個数は必ず同じ */ CARDS; 31 35 7 19 42 15 ; RUN; (Continued on PROC step) SASプログラム 2-1 (DATAステップ) person = 1は(性格が)外向的,2は内向的 concern = 1は(就職への関心が)強い, 2は一応,3はあまりない

  22. 度数ゼロのセルを含む場合 •          ⇒明らかにまずい • ゼロに近い正の数に置き換える • (可能な限りは)サンプル数の増加が無難 … INPUT num @@; IF num = 0 THEN num = 0.5; /* num = 0 のときは 0.5 に置き換える */ OUTPUT; …

  23. (Continued from DATA step) PROC PRINT DATA = loglin2; RUN; /* 変数の割り当てをCheck */ PROC CATMOD DATA = loglin2; WEIGHT num; /* numが度数であることを明示 */ MODEL person * concern = _RESPONSE_; /* _RESPONSE_により対数線形モデルを指定 */ LOGLIN person | concern; /* モデルに投入する要因効果を指定 */ /* A | B = A B A*B */ RUN; SASプログラム 2-1 (PROCステップ)

  24. 各変数の主効果・交互作用について有意性を検討各変数の主効果・交互作用について有意性を検討 MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE Source DF Chi-Square Prob -------------------------------------------------- PERSON 1 0.60 0.4398 CONCERN 2 27.77 0.0000 PERSON*CONCERN 2 6.18 0.0455 LIKELIHOOD RATIO 0 . . 飽和モデル(すべての変数を含めたモデル)では,LIKELIHOOD RATIOは無視してよい

  25. 「飽和モデル」以外のモデルとは? • 交互作用や主効果を“0”とおいたもの • 「飽和モデル」に対し,「不飽和モデル」という

  26. モデルのルール • 階層の原則 (Hierarchy Principal) • モデルが高次の交互作用を含むときは,そのなかの変数による低次の効果も“必ず”含む •     を含める ⇒     も“必ず”含める

  27. 不飽和モデルの検討方法 Source DF Chi-Square Prob -------------------------------------------------- LIKELIHOOD RATIO 2 6.46 0.0395 • 尤度比カイ2乗統計量G2 は         小さいほど良い • モデルの当てはまりの“悪さ” ⇔ p が大きいほど良い • モデルが正しいときに,観測されたデータが発生する可能性(0.10以上が望ましい) 2変数間に 独立性を仮定

  28. 不飽和モデルの適合度 • 「階層の原則」に従い,高次の項から順に 0 とおいてみる • 不飽和モデルはどれも適合が悪い

  29. 出力結果の続き(飽和モデル) ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob ---------------------------------------------------------------- PERSON 1 -0.0758 0.0981 0.60 0.4398 CONCERN 2 0.1350 0.1293 1.09 0.2964 3 0.5923 0.1183 25.06 0.0000 PERSON*CONCERN 4 0.3206 0.1293 6.15 0.0131 5 -0.0153 0.1183 0.02 0.8968 • パラメータの推定値と標準誤差,χ2値と p値が出力 • χ2値は標準効果(=推定値/標準誤差)を2乗したもの • 出力結果は不十分 ⇒ 残りのパラメータは?

  30. Birchの制約式(2変数) • 各効果におけるパラメータの総和は“0” • CATMODプロシージャ では,パラメータは辞書順に出力 • 番号の小さい順 • アルファベット順 • 最後の項は出力されない 0 0 0 0

  31. 分析結果(まとめ) • 残りのパラメータは  のようにして求める

  32. (  )内はパラメータの推定値 •     部分のセルは未検定(=n.s.とは限らない) • (SASでは)変数を辞書順に読み込むため • Birchの制約式 or 数値の割り当て方を変更し再び“RUN” (例)① 外向的→2,内向的→1,② 強い→3,あまりない→1,③ ①+②

  33. 主効果の推定値の解釈 • 一様性からのセル度数の偏りを反映 • 属性間や条件間の度数の違いを表す +⇒more frequency-⇒less frequency

  34. 交互作用の推定値の解釈 • 独立モデルからのセル度数の偏りを反映 • 実際のセル度数の大小を表すとは限らない +⇒positive association-⇒negative association

  35. カテゴリ別にセル度数を比較

  36. How to Interpret • 飽和モデル採用の場合 • 2変数間に関連あり ⇒ 交互作用を解釈 • 主効果の解釈にはあまり関心がない • 属性間・条件間の度数の違いを表すのみ • パラメータの有意性と符号をCheck • 不飽和モデル採用の場合 • 採用したモデルを解釈

  37. 【参考】 実際のセル度数の比較 Case①複数標本×複数カテゴリの回答 • 各標本について一様性の検定 ⇒ 1変数LLM • ANOVAでの「単純主効果の分散分析」に対応 • ただし標本間における度数の比較は無意味 Case②それ以外の場合 • 比較への興味・比較を行う意味による • χ2検定,LLM ⇒ 変数間の関連に主眼 • 特定の行(列)に着目する意味を考慮

  38. 2変数LLMのまとめ • p×q分割表にLLMを用いるメリット • 独立からの“偏り”をモデリング ⇒独立性から関連性に導いたセルを同定可能 • 「χ2検定+残差分析」とほぼ同様の分析結果 • 独立性以外のさまざまなモデルを検証可能 • SAS vs. SPSS • 対数線形モデル ⇒ SAS • χ2検定+残差分析 ⇒ SPSS

  39. FAQ about LLM > χ2検定で,残差分析をして,「どこが有意であることに > 貢献したか?」ということをみるという手法の弱点は, > どのようなものなのでしょうか? 「χ2検定 ⇒ 残差分析」という流れには, 特に問題はないと思います. ただ,対数線形モデルを用いると,2次元分割表で セルの数が増えたとき(2×3以上の場合)だけでなく, 変数の数が増えたとき(3変数以上の場合)にも 柔軟に対応できる,というのが強みですね.

  40. 3.多次元分割表への拡張- The analysis of Multidimensional tables - • シンプソンのパラドックス • 3変数-対数線形モデルの導入 • 3次元分割表の分析

  41. 教科書的な例平成14年度大学院入試問題から • 携帯電話の有無×男女別姓への意見 • χ2 = 53.02, df = 1, p < .001 ⇒ 高度に有意 • 携帯電話をもつと男女別姓に賛成?

  42. Not so !! • 年齢により層別し再分析 • χ2検定はどちらも非有意 • That’s strange !!

  43. ・・・???

  44. Graphical Display

  45. 正しい解釈 ①年齢による意見の違い • 若年層は男女別姓に肯定的 ⇒ 80%が賛成 • 中高年層は否定的 ⇒ 80%が反対 ②年齢による携帯所有率の違い • 若年層は携帯所有率が高い ⇒ 約91% が所有 • 中高年層は低い ⇒ 約91%が所有せず 「携帯あり(なし)⇒別姓賛成(反対)」 という傾向は,「年齢層」という第三変数によって 見かけ上表れたものに過ぎない!!

  46. Simpson’s Paradox • 多次元分割表で,変数をむやみに“つぶす” (collapse)のは危険!! • 層別にみると“関連なし”⇔全体では“関連あり” • 層別にみると“関連あり”⇔全体では“関連なし”  ・・・??? • 多次元分割表は,あくまで多次元のままで分析するのが基本!! ⇒対数線形モデルによるアプローチが有効

  47. 「χ2検定+残差分析」の繰り返し C1とC2で結果を比較 p×q×r分割表  ⇒ pq×r分割表 従来の対処方法どちらも第三変数の関わりを検証できない

  48. 調査データの分析例大学生の時間的展望 • 目標があれば未来は明るいか? • 将来の見通し×未来イメージ(SD法) • 将来目標への欲求の強さを考慮

  49. Simpson’s Paradox !!

  50. 3変数-対数線形モデルの導入 (i, j, k) セルの 組み合わせ による効果 • 3変数の飽和モデル

More Related