文献紹介と題して

文献紹介と題して B4 KANEKIYO Michiwo

卒論の「ウリ」 • 心理学にMixed Modelを紹介＆適用 • 今までのはね、代用策なのですよ • 特に変量効果を含むモデルにおいて • 昨今のコンピュータの発達により、正しいモデルにおいて分析が可能に • パッケージにもなりました♪ • 他にもいろいろ出来ますよ♪ • だから今こそＧＬＭ⇒ＭＩＸＥＤ

基礎 Mixed Modelとは Mixed Modelにおけるパラメータ推定・推測欠測とMixed Model 歴史？ミニ卒第２章難しい・・・・応用反復測定分析乱塊法・分割法経時データに対する分析二段抽出モデルの分析欠測値に対する分析何らかのデータは取るべきかも～卒論でまとめたいこと

今回の文献（論文）は ここに焦点をあてることにしました • 卒論⇒応用⇒反復測定分析 • 論文 • Comparing the SAS® GLM and MIXED Procedures for Repeated Measures • Russ Wolfinger and Ming Chang (1995) • SAS Institute Inc., Cary, NC • SUGI Proceedings

Today’s Contents • 反復測定分析とは • データを紹介 • 分析例を交えての分析方法の比較 • PROC GLM（現在）とPROC MIXED（近い将来） • まとめ • Additional Analyses

反復測定分析とは • subjectと呼ばれる各個体に対し、複数回測定を行ったデータにおける分析 • 反復測定データ、経時データの分析 • 分割法や乱塊法もこれにあたる • 反復測定において • ある個体における各測定値は相関があり、また、異なった分散を持つだろう • 普通のＧＬＭでは無相関、定分散を仮定⇒反復測定に適した分析を行うべき

反復測定分析を行うには • SAS • PROC GLM REPEATEDステートメント • PROC MIXED REPEATEDステートメント • SASだけではなくSPSSでも可能 • 分析(A)⇒一般線型モデル(G)⇒反復測定(R) • 分析(A)⇒複合モデル⇒線型(L) • ＲにもＳにもあるだろう

データの紹介 • Potthoff and Roy(1964) • 下垂体から上顎骨の長さ • 少女（１１人）少年（１６人） • 人数：アンバランス • ８，１０，１２，１４歳時 • ここが反復測定 • 付録参照

データをグラフで表現

男女別

分析方法概観＆比較GLM v.s. MIXED

分析方法(PROC GLM) 個体を特定、欠測有は無視被験者間効果？被験者内効果？変数の変形を選択被験者間被験者内被験者間効果検定球面性仮定採択棄却被験者内効果多変量or調整一変量検定被験者内効果一変量検定固定効果推測

個体特定 固定効果選択共分散構造選択モデルチェンジモデルチェンジ共分散パラメータ検定固定効果検定固定効果推測分析方法(PROC MIXED)

PROC MIXEDの利点 • 欠測値のあるオブザベーションも利用できる • ただしMARを仮定する • ex.５人が欠測１回 NOTE: Observations with missing values will not be included in this analysis. Thus, only 22 observations can be used in this analysis. GLM MIXED

PROC MIXEDの利点 • 平均構造（固定効果）を柔軟に指定 • 被験者間要因と被験者内要因の交互作用を取り除いた分析が可能 • gender*ageという交互作用を取り除ける • 被験者内効果に連続変数を指定できる • ageを連続変数とすることが可能 • PROC GLMでは分類変数となってしまう • Additional Analysesも参照

PROC MIXEDの利点 • 被験者内の共分散構造を柔軟に指定 • 測定値間の関係をいろいろ指定可能 • さらに共分散構造を考慮した固定効果の検定可能

分析例を交えてGLM v.s. MIXD

PROC GLM analysis MODELステートメントに被験者間要因REPEATEDステートメントに被験者内要因 • 以下のようにプログラム • ageは分類変数となる • genderとの交互作用も勝手に作ってくれる • age8,age10,age12とage14とを比較 • polynomial transformationをすることでageを連続変数っぽく扱うことが可能⇒後述 PROC GLM DATA=my.forglm; CLASS gender; MODEL y1-y4 = gender / nouni; REPEATED age 4 (8 10 12 14) / printe; RUN;

Sphericity（球面性：球形）？ • 被験者内要因の水準間には相関関係有⇒効果の有無を検定するＦ比が、帰無仮説のもとで必ずしも正確なＦ分布に従うとは限らない • Ｆ分布に従う必要十分条件として「球面性仮定」があげられる

Sphericity • 対称性仮定⇒Ｓ型行列 • σ21=σ22=・・・=σ2p • σ21=σ31=・・・=σp,p-1 • 定分散、定相関 • 循環性仮定⇒Ｈ型行列 • V(Yi-Yi’)=σ2i+σ2i’-2σii’=const, i≠I’ • ある被験者における各測定値の差の分散は一定 • V(C’ y)=C’ V(y)C=Ｃ’ΣＣ =c2Im • 変換した反復測定値は定分散、無相関ある被験者内の分散共分散行列差を見る→被験者効果が落ちる

循環性仮定詳細 • V(My)=MV(y)M’=MΣM’=c2Imとも書く • Mはm×pの直交正規対比行列 • MM’=Im（直交）、Mの各行の要素の和は0（対比） • Ｍ’=C

Mauchlyの等方性検定 • p次元多変量正規分布Np(μ,Σ)からの無作為標本を元に「H0:Σ=σ2Ip」を検定するもの • 反復測定分析では、直交対比行列によって変換した測定値に対して、これを使用する

Output:球面性仮定の検定 • Orthogonal～の結果を見る • 非有意⇒球面性仮定○⇒一変量 • 被験者内の検定は一変量の部分を見る • 有意⇒球面性×⇒Ｆ分布歪む⇒修正一変量 • 高度に有意(p<0.0001)⇒同上⇒多変量 Sphericity Tests Mauchly's Variables DF Criterion Chi-Square Pr > ChiSq Transformed Variates 5 0.4998695 16.449181 0.0057 Orthogonal Components 5 0.7353334 7.2929515 0.1997

Output:一変量検定結果（被験者内） • 年齢のみ５％水準で有意 • 球面性仮定が棄却された場合、Ｆ分布を修正したG-G、H-Fの部分を見る（小サンプル時H-Fに比べG-Gは保守的） Source DF Type III SS Mean Square F Value Pr > F age 3 209.4369739 69.8123246 35.35 <.0001 age*gender 3 13.9925295 4.6641765 2.36 0.0781 Error(age) 75 148.1278409 1.9750379 Adj Pr > F Source G - G H - F age <.0001 <.0001 age*gender 0.0878 0.0781 Error(age) Greenhouse-Geisser Epsilon 0.8672 Huynh-Feldt Epsilon 1.0156

Output:多変量検定結果（被験者内） • 上：age、下：gender*age • 球面性の仮定が大幅にダメ(p<.0001)なときに見る Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.19479424 31.69 3 23 <.0001 Pillai's Trace 0.80520576 31.69 3 23 <.0001 Hotelling-Lawley Trace 4.13362211 31.69 3 23 <.0001 Roy's Greatest Root 4.13362211 31.69 3 23 <.0001 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.73988739 2.70 3 23 0.0696 Pillai's Trace 0.26011261 2.70 3 23 0.0696 Hotelling-Lawley Trace 0.35155702 2.70 3 23 0.0696 Roy's Greatest Root 0.35155702 2.70 3 23 0.0696

Output:被験者間要因の検定 • １％水準で有意 • 男女差がある • 体型によるものだと考えられる • 被験者内測定値間の関係に依存しない • 球面性仮定とは関係なし Source DF Type III SS Mean Square F Value Pr > F gender 1 140.4648569 140.4648569 9.29 0.0054 Error 25 377.9147727 15.1165909

分析例を交えてGLM v.s. MIXD次はPROC MIXED

PROC MIXED analysis さらにTYPE=HFとTYPE=UNを指定 • 以下 • CLASSステートメントから“age”取り除くと • ageを連続変数とみなす • 今回はPROC GLMとの比較のため残す • 被験者間＆内効果、全てMODELステートメント • gender*ageを取り除くということも可能 PROC MIXED DATA=my.formixed; CLASS gender age person; MODEL y = gender | age; /* もしくはgender age gender*age */ REPEATED / TYPE = CS SUB=person; /* TYPE=(共分散構造指定) */ RUN;

なぜCS,HF,UNを撰んだのか？ • GLMとの対応を考えてみよう • CS • 普通の分割法 • HF • 球面性仮定が成り立つとき、測定値間の構造は少なくともこれになる • UN • MANOVAの分析はこれにあたる

TYPE=CS Covariance Parameter Estimates Cov Parm Subject Estimate CS person 3.2854 Residual 1.9750 Ｓ型行列

TYPE=HF Covariance Parameter Estimates Cov Parm Subject Estimate Var(1) person 5.0264 Var(2) person 4.3951 Var(3) person 6.1739 Var(4) person 5.2848 HF person 1.9750 Ｈ型行列

TYPE=UN Covariance Parameter Estimates Cov Parm Subject Estimate UN(1,1) person 5.4155 UN(2,1) person 2.7168 UN(2,2) person 4.1848 UN(3,1) person 3.9102 UN(3,2) person 2.9272 UN(3,3) person 6.4557 UN(4,1) person 2.7102 UN(4,2) person 3.3172 UN(4,3) person 4.1307 UN(4,4) person 4.9857

共分散構造の選択 • 情報量基準や尤度比検定 • HF v.s. UN LRtest • LR=7.6858 df=5 p>.1⇒HFを選択 • CS v.s. HF LRtest • LR=1.6879 df=3 p>.1⇒CSを選択

測定値間の関係（共分散構造） • Q.共分散構造は、あらかじめ決めておくものなのか？それともデータから考えるものなのか？ • つまり、検証的or探索的？ということ • A.どちらでもあると考える • 測定値間にどのような関係があるか、前もって考慮することには意味があるだろう • ただしそれが正しいとは限らない＆修正も必要である • どちらにしてもその結果に対する考察が必要と考える

Output:固定効果の検定 Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr > F gender 1 25 9.29 0.0054 age 3 75 35.35 <.0001 gender*age 3 75 2.36 0.0781 • CS • HF • UN Num Den Effect DF DF F Value Pr > F gender 1 25 9.39 0.0052 age 3 75 35.35 <.0001 gender*age 3 75 2.36 0.0781 Num Den Effect DF DF F Value Pr > F gender 1 25 9.29 0.0054 age 3 25 34.45 <.0001 gender*age 3 25 2.93 0.0532

被験者間効果の検定 • genderの効果の検定 • 全て同じ（PROC GLMみたく）であってほしい • 被験者内共分散構造は関係ないから • HFだけ違う⇒Mixed ModelのＦ値の計算方法が原因 • ただし、どうしてそうなのかは不明

被験者内効果の検定 • age、gender*ageの効果の検定 • CS、HFが未修正一変量検定の結果と一致 • 「球面性仮定」採択から適切 • UNの結果が違う！！ • 小サンプルではTYPE=UNの検定結果⇒革新的 • 「HLPS」「HLM」←修正オプション • バランスデータのMANOVAと同じ結果となる • アンバランスの時は？→まだ研究されていない

Mixed Model TYPE=UNについて • HLPSオプション • Hotelling-Lawley-Pillai-Samsonの略 • このHLPS統計量はHotelling-Lawley Trace統計量と同じである • HLMオプション • Hotelling-Lawley-McKeonの略 • HLPS統計量よりわずかにＦ近似がよい SASマニュアル→PROC MIXED→REPEATEDステートメントの部分より

Mixed Modelのdisadvantage • 効果のＦ検定における分母自由度は算出しにくい • 線型結合の分散にどれだけの情報を使用したかが分かりづらい • GLMの場合はわかる • 分散分析表を見たら一発です • SASでは近似計算を用いている • オプションで指定する • 帰無仮説が複雑でなければ大体デフォルトでいける

自由度の近似計算法 • MODELステートメント、ddfm=オプションで指定 • ddfm=residual • 残差自由度で近似、あまりよくない • ddfm=betwithin • 被験者間と被験者内の自由度に分ける • REPEATEDステートメントでのデフォルト • ddfm=containment • 固定×変量の交互作用の自由度を使用 • RANDOMステートメントでのデフォルト • ddfm=satterth • サタースウェイトの方法 • これが一番近似できると考える

まとめ • Mixed Model(PROC MIXED)の利点 • 欠測が扱える（→扱えるが正しいのか？） • いつかデモンストレーションしよう • 被験者内共分散構造の柔軟な指定 • GLMは今回ので手一杯 MIXEDはまだまだ余裕 • TYPE=UNでの分析は構造指定の手助けとなる • 固定効果に対しても柔軟な指定 • 今回のgender*ageの交互作用とか • 多要因になると重宝すること間違いなし

Additional Analyses

「AGE」は連続変数だろう • 今回のデータ年齢毎に平均が違うっ！８歳と１２歳の平均に差があるっ！とかが言いたいようには思えません • むしろ年をとると距離はどのように変化するのか直線的？二次関数っぽく？などが興味あるところだろう

PROC GLMではどうする？ • Orthogonal Polynomial Contrast • 直交多項対比（？）によって測定値を変換 • １次項、２次項、３次項として検定 • プログラムは以下 SS3よりSS1が適切 PROC GLM DATA=my.forglm; CLASS gender; MODEL y1-y4 = gender / nouni ss1; REPEATED age 4 (8 10 12 14) polynomial / summary printM ; RUN;

なぜＳＳ３よりＳＳ１ • SS1は逐次平方和 • sequential sums of squares • 詳細はいつか・・・・

測定値をどう変換するのか？ • 変換行列一行目＊測定値は平均を表す • という風に・・・

１次の項 • 傾きはSxy/Sxxと表される • 想起・回帰直線 = 0 yiの重み付け平均みたく考えられる

１次の項 • よって、このように書ける（Sxx =Σ(xi-x)2=20） • １次項=１次傾き=0の検定を行う

以下、２次３次に変換、検定 １次の項については有意である • Output(summaryオプション) age_N represents the nth degree polynomial contrast for age Contrast Variable: age_1 Source DF Type I SS Mean Square F Value Pr > F Mean 1 235.3560185 235.3560185 99.45 <.0001 gender 1 12.1141519 12.1141519 5.12 0.0326 Error 25 59.1673295 2.3666932 Contrast Variable: age_2 Source DF Type I SS Mean Square F Value Pr > F Mean 1 1.44675926 1.44675926 1.39 0.2497 gender 1 1.19954756 1.19954756 1.15 0.2935 Error 25 26.04119318 1.04164773 Contrast Variable: age_3 Source DF Type I SS Mean Square F Value Pr > F Mean 1 0.38935185 0.38935185 0.15 0.6974 gender 1 0.67882997 0.67882997 0.27 0.6081 Error 25 62.91931818 2.51677273 ２次、３次は非有意

PROC GLM：結果より • 年齢による変化は直線的であろう • さらに性別で傾きが違う • じゃあ、係数は？⇒ちょっと調べ辛い • また、本当の変換行列は３行４列 • 平均を表す行(1 1 1 1)はない • printMオプションで表示される • 計算簡単のためさらに定数倍されていることがある • 各要素の比率は同じ

文献紹介と題して

文献紹介と題して

Presentation Transcript

Using SAS PROC MIXED to Fit Multilevel Model

7.Inference for the Random Effects

smoothing and mixed models