710 likes | 1.05k Views
文献紹介と題して. B4 KANEKIYO Michiwo. 卒論の「ウリ」. 心理学に Mixed Model を紹介&適用 今までのはね、代用策なのですよ 特に変量効果を含むモデルにおいて 昨今のコンピュータの発達により、 正しいモデルにおいて分析が可能に パッケージにもなりました♪ 他にもいろいろ出来ますよ♪ だから今こそGLM⇒MIXED. 基礎 Mixed Model とは Mixed Model におけるパラメータ推定・推測 欠測と Mixed Model 歴史? ミニ卒第2章 難しい・・・・. 応用 反復測定分析 乱塊法・分割法
E N D
文献紹介と題して B4 KANEKIYO Michiwo
卒論の「ウリ」 • 心理学にMixed Modelを紹介&適用 • 今までのはね、代用策なのですよ • 特に変量効果を含むモデルにおいて • 昨今のコンピュータの発達により、正しいモデルにおいて分析が可能に • パッケージにもなりました♪ • 他にもいろいろ出来ますよ♪ • だから今こそGLM⇒MIXED
基礎 Mixed Modelとは Mixed Modelにおけるパラメータ推定・推測 欠測とMixed Model 歴史? ミニ卒第2章 難しい・・・・ 応用 反復測定分析 乱塊法・分割法 経時データに対する分析 二段抽出モデルの分析 欠測値に対する分析 何らかのデータは取るべきかも~ 卒論でまとめたいこと
今回の文献(論文)は ここに焦点をあてることにしました • 卒論⇒応用⇒反復測定分析 • 論文 • Comparing the SAS® GLM and MIXED Procedures for Repeated Measures • Russ Wolfinger and Ming Chang (1995) • SAS Institute Inc., Cary, NC • SUGI Proceedings
Today’s Contents • 反復測定分析とは • データを紹介 • 分析例を交えての分析方法の比較 • PROC GLM(現在)とPROC MIXED(近い将来) • まとめ • Additional Analyses
反復測定分析とは • subjectと呼ばれる各個体に対し、複数回測定を行ったデータにおける分析 • 反復測定データ、経時データの分析 • 分割法や乱塊法もこれにあたる • 反復測定において • ある個体における各測定値は相関があり、また、異なった分散を持つだろう • 普通のGLMでは無相関、定分散を仮定⇒反復測定に適した分析を行うべき
反復測定分析を行うには • SAS • PROC GLM REPEATEDステートメント • PROC MIXED REPEATEDステートメント • SASだけではなくSPSSでも可能 • 分析(A)⇒一般線型モデル(G)⇒反復測定(R) • 分析(A)⇒複合モデル⇒線型(L) • RにもSにもあるだろう
データの紹介 • Potthoff and Roy(1964) • 下垂体から上顎骨の長さ • 少女(11人)少年(16人) • 人数:アンバランス • 8,10,12,14歳時 • ここが反復測定 • 付録参照
分析方法(PROC GLM) 個体を特定、欠測有は無視 被験者間効果?被験者内効果?変数の変形を選択 被験者間 被験者内 被験者間効果検定 球面性仮定 採択 棄却 被験者内効果 多変量or調整一変量検定 被験者内効果 一変量検定 固定効果推測
個体特定 固定効果選択 共分散構造選択 モデルチェンジ モデルチェンジ 共分散パラメータ検定 固定効果検定 固定効果推測 分析方法(PROC MIXED)
PROC MIXEDの利点 • 欠測値のあるオブザベーションも利用できる • ただしMARを仮定する • ex.5人が欠測1回 NOTE: Observations with missing values will not be included in this analysis. Thus, only 22 observations can be used in this analysis. GLM MIXED
PROC MIXEDの利点 • 平均構造(固定効果)を柔軟に指定 • 被験者間要因と被験者内要因の交互作用を取り除いた分析が可能 • gender*ageという交互作用を取り除ける • 被験者内効果に連続変数を指定できる • ageを連続変数とすることが可能 • PROC GLMでは分類変数となってしまう • Additional Analysesも参照
PROC MIXEDの利点 • 被験者内の共分散構造を柔軟に指定 • 測定値間の関係をいろいろ指定可能 • さらに共分散構造を考慮した固定効果の検定可能
PROC GLM analysis MODELステートメントに被験者間要因REPEATEDステートメントに被験者内要因 • 以下のようにプログラム • ageは分類変数となる • genderとの交互作用も勝手に作ってくれる • age8,age10,age12とage14とを比較 • polynomial transformationをすることでageを連続変数っぽく扱うことが可能⇒後述 PROC GLM DATA=my.forglm; CLASS gender; MODEL y1-y4 = gender / nouni; REPEATED age 4 (8 10 12 14) / printe; RUN;
Sphericity(球面性:球形)? • 被験者内要因の水準間には相関関係有⇒効果の有無を検定するF比が、帰無仮説のもとで必ずしも正確なF分布に従うとは限らない • F分布に従う必要十分条件として「球面性仮定」があげられる
Sphericity • 対称性仮定⇒S型行列 • σ21=σ22=・・・=σ2p • σ21=σ31=・・・=σp,p-1 • 定分散、定相関 • 循環性仮定⇒H型行列 • V(Yi-Yi’)=σ2i+σ2i’-2σii’=const, i≠I’ • ある被験者における各測定値の差の分散は一定 • V(C’ y)=C’ V(y)C=C’ΣC =c2Im • 変換した反復測定値は定分散、無相関 ある被験者内の分散共分散行列 差を見る→被験者効果が落ちる
循環性仮定詳細 • V(My)=MV(y)M’=MΣM’=c2Imとも書く • Mはm×pの直交正規対比行列 • MM’=Im(直交)、Mの各行の要素の和は0(対比) • M’=C
Mauchlyの等方性検定 • p次元多変量正規分布Np(μ,Σ)からの無作為標本を元に「H0:Σ=σ2Ip」を検定するもの • 反復測定分析では、直交対比行列によって変換した測定値に対して、これを使用する
Output:球面性仮定の検定 • Orthogonal~の結果を見る • 非有意⇒球面性仮定○⇒一変量 • 被験者内の検定は一変量の部分を見る • 有意⇒球面性×⇒F分布歪む⇒修正一変量 • 高度に有意(p<0.0001)⇒同上⇒多変量 Sphericity Tests Mauchly's Variables DF Criterion Chi-Square Pr > ChiSq Transformed Variates 5 0.4998695 16.449181 0.0057 Orthogonal Components 5 0.7353334 7.2929515 0.1997
Output:一変量検定結果(被験者内) • 年齢のみ5%水準で有意 • 球面性仮定が棄却された場合、F分布を修正したG-G、H-Fの部分を見る(小サンプル時H-Fに比べG-Gは保守的) Source DF Type III SS Mean Square F Value Pr > F age 3 209.4369739 69.8123246 35.35 <.0001 age*gender 3 13.9925295 4.6641765 2.36 0.0781 Error(age) 75 148.1278409 1.9750379 Adj Pr > F Source G - G H - F age <.0001 <.0001 age*gender 0.0878 0.0781 Error(age) Greenhouse-Geisser Epsilon 0.8672 Huynh-Feldt Epsilon 1.0156
Output:多変量検定結果(被験者内) • 上:age、下:gender*age • 球面性の仮定が大幅にダメ(p<.0001)なときに見る Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.19479424 31.69 3 23 <.0001 Pillai's Trace 0.80520576 31.69 3 23 <.0001 Hotelling-Lawley Trace 4.13362211 31.69 3 23 <.0001 Roy's Greatest Root 4.13362211 31.69 3 23 <.0001 Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.73988739 2.70 3 23 0.0696 Pillai's Trace 0.26011261 2.70 3 23 0.0696 Hotelling-Lawley Trace 0.35155702 2.70 3 23 0.0696 Roy's Greatest Root 0.35155702 2.70 3 23 0.0696
Output:被験者間要因の検定 • 1%水準で有意 • 男女差がある • 体型によるものだと考えられる • 被験者内測定値間の関係に依存しない • 球面性仮定とは関係なし Source DF Type III SS Mean Square F Value Pr > F gender 1 140.4648569 140.4648569 9.29 0.0054 Error 25 377.9147727 15.1165909
PROC MIXED analysis さらにTYPE=HFとTYPE=UNを指定 • 以下 • CLASSステートメントから“age”取り除くと • ageを連続変数とみなす • 今回はPROC GLMとの比較のため残す • 被験者間&内効果、全てMODELステートメント • gender*ageを取り除くということも可能 PROC MIXED DATA=my.formixed; CLASS gender age person; MODEL y = gender | age; /* もしくはgender age gender*age */ REPEATED / TYPE = CS SUB=person; /* TYPE=(共分散構造指定) */ RUN;
なぜCS,HF,UNを撰んだのか? • GLMとの対応を考えてみよう • CS • 普通の分割法 • HF • 球面性仮定が成り立つとき、測定値間の構造は少なくともこれになる • UN • MANOVAの分析はこれにあたる
TYPE=CS Covariance Parameter Estimates Cov Parm Subject Estimate CS person 3.2854 Residual 1.9750 S型行列
TYPE=HF Covariance Parameter Estimates Cov Parm Subject Estimate Var(1) person 5.0264 Var(2) person 4.3951 Var(3) person 6.1739 Var(4) person 5.2848 HF person 1.9750 H型行列
TYPE=UN Covariance Parameter Estimates Cov Parm Subject Estimate UN(1,1) person 5.4155 UN(2,1) person 2.7168 UN(2,2) person 4.1848 UN(3,1) person 3.9102 UN(3,2) person 2.9272 UN(3,3) person 6.4557 UN(4,1) person 2.7102 UN(4,2) person 3.3172 UN(4,3) person 4.1307 UN(4,4) person 4.9857
共分散構造の選択 • 情報量基準や尤度比検定 • HF v.s. UN LRtest • LR=7.6858 df=5 p>.1⇒HFを選択 • CS v.s. HF LRtest • LR=1.6879 df=3 p>.1⇒CSを選択
測定値間の関係(共分散構造) • Q.共分散構造は、あらかじめ決めておくものなのか?それともデータから考えるものなのか? • つまり、検証的or探索的?ということ • A.どちらでもあると考える • 測定値間にどのような関係があるか、前もって考慮することには意味があるだろう • ただしそれが正しいとは限らない&修正も必要である • どちらにしてもその結果に対する考察が必要と考える
Output:固定効果の検定 Type 3 Tests of Fixed Effects Num Den Effect DF DF F Value Pr > F gender 1 25 9.29 0.0054 age 3 75 35.35 <.0001 gender*age 3 75 2.36 0.0781 • CS • HF • UN Num Den Effect DF DF F Value Pr > F gender 1 25 9.39 0.0052 age 3 75 35.35 <.0001 gender*age 3 75 2.36 0.0781 Num Den Effect DF DF F Value Pr > F gender 1 25 9.29 0.0054 age 3 25 34.45 <.0001 gender*age 3 25 2.93 0.0532
被験者間効果の検定 • genderの効果の検定 • 全て同じ(PROC GLMみたく)であってほしい • 被験者内共分散構造は関係ないから • HFだけ違う⇒Mixed ModelのF値の計算方法が原因 • ただし、どうしてそうなのかは不明
被験者内効果の検定 • age、gender*ageの効果の検定 • CS、HFが未修正一変量検定の結果と一致 • 「球面性仮定」採択から適切 • UNの結果が違う!! • 小サンプルではTYPE=UNの検定結果⇒革新的 • 「HLPS」「HLM」←修正オプション • バランスデータのMANOVAと同じ結果となる • アンバランスの時は?→まだ研究されていない
Mixed Model TYPE=UNについて • HLPSオプション • Hotelling-Lawley-Pillai-Samsonの略 • このHLPS統計量はHotelling-Lawley Trace統計量と同じである • HLMオプション • Hotelling-Lawley-McKeonの略 • HLPS統計量よりわずかにF近似がよい SASマニュアル→PROC MIXED→REPEATEDステートメントの部分より
Mixed Modelのdisadvantage • 効果のF検定における分母自由度は算出しにくい • 線型結合の分散にどれだけの情報を使用したかが分かりづらい • GLMの場合はわかる • 分散分析表を見たら一発です • SASでは近似計算を用いている • オプションで指定する • 帰無仮説が複雑でなければ大体デフォルトでいける
自由度の近似計算法 • MODELステートメント、ddfm=オプションで指定 • ddfm=residual • 残差自由度で近似、あまりよくない • ddfm=betwithin • 被験者間と被験者内の自由度に分ける • REPEATEDステートメントでのデフォルト • ddfm=containment • 固定×変量の交互作用の自由度を使用 • RANDOMステートメントでのデフォルト • ddfm=satterth • サタースウェイトの方法 • これが一番近似できると考える
まとめ • Mixed Model(PROC MIXED)の利点 • 欠測が扱える(→扱えるが正しいのか?) • いつかデモンストレーションしよう • 被験者内共分散構造の柔軟な指定 • GLMは今回ので手一杯 MIXEDはまだまだ余裕 • TYPE=UNでの分析は構造指定の手助けとなる • 固定効果に対しても柔軟な指定 • 今回のgender*ageの交互作用とか • 多要因になると重宝すること間違いなし
「AGE」は連続変数だろう • 今回のデータ年齢毎に平均が違うっ!8歳と12歳の平均に差があるっ!とかが言いたいようには思えません • むしろ年をとると距離はどのように変化するのか直線的?二次関数っぽく?などが興味あるところだろう
PROC GLMではどうする? • Orthogonal Polynomial Contrast • 直交多項対比(?)によって測定値を変換 • 1次項、2次項、3次項として検定 • プログラムは以下 SS3よりSS1が適切 PROC GLM DATA=my.forglm; CLASS gender; MODEL y1-y4 = gender / nouni ss1; REPEATED age 4 (8 10 12 14) polynomial / summary printM ; RUN;
なぜSS3よりSS1 • SS1は逐次平方和 • sequential sums of squares • 詳細はいつか・・・・
測定値をどう変換するのか? • 変換行列一行目*測定値は平均を表す • という風に・・・
1次の項 • 傾きはSxy/Sxxと表される • 想起・回帰直線 = 0 yiの重み付け平均みたく考えられる
1次の項 • よって、このように書ける(Sxx =Σ(xi-x)2=20) • 1次項=1次傾き=0の検定を行う
以下、2次3次に変換、検定 1次の項については有意である • Output(summaryオプション) age_N represents the nth degree polynomial contrast for age Contrast Variable: age_1 Source DF Type I SS Mean Square F Value Pr > F Mean 1 235.3560185 235.3560185 99.45 <.0001 gender 1 12.1141519 12.1141519 5.12 0.0326 Error 25 59.1673295 2.3666932 Contrast Variable: age_2 Source DF Type I SS Mean Square F Value Pr > F Mean 1 1.44675926 1.44675926 1.39 0.2497 gender 1 1.19954756 1.19954756 1.15 0.2935 Error 25 26.04119318 1.04164773 Contrast Variable: age_3 Source DF Type I SS Mean Square F Value Pr > F Mean 1 0.38935185 0.38935185 0.15 0.6974 gender 1 0.67882997 0.67882997 0.27 0.6081 Error 25 62.91931818 2.51677273 2次、3次は非有意
PROC GLM:結果より • 年齢による変化は直線的であろう • さらに性別で傾きが違う • じゃあ、係数は?⇒ちょっと調べ辛い • また、本当の変換行列は3行4列 • 平均を表す行(1 1 1 1)はない • printMオプションで表示される • 計算簡単のためさらに定数倍されていることがある • 各要素の比率は同じ