1.17k likes | 1.76k Views
因子数決定法,斜交回転法, 階層因子 分析. 香川大学経済学部 堀 啓造 2004.2.14 好み研 女子栄養大学 v.2. 因子分析の歴史. 1904 Spearman の論文 The proof and measurement of association between two things. American Journal of Psychology , 15, 72-101
E N D
因子数決定法,斜交回転法,階層因子分析 香川大学経済学部 堀 啓造 2004.2.14 好み研 女子栄養大学 v.2
因子分析の歴史 • 1904 Spearman の論文 • The proof and measurement of association between two things. American Journal of Psychology, 15, 72-101 • General intelligence, objectively determined and measured. American Journal of Psychology, 15, 201-293 • ->因子分析100年
1901Pearson 主成分分析(Burtによって言及,論文への言及は1947 Thurstone) 1904 Spearman 因子分析。一般因子(gは1914に命名)2因子(一般因子と独自因子) 四価差法で求める 1920s Burt Pearsonへの言及し,Spearman はたいしたことがない。 Thompson 数学 >>不定性 1920-50 知能に関する論争活発 1932Thurstone 多因子説,単純構造, 主軸法,共通性 1933, 35 Hotelling 主成分分析を精錬 1935 Thurstone “Vectors of mind”.セントロイド法 1937 Holzingerbi-factor モデル 1941 Holzinger & Harman "Factor analysis" Thurstone & Thurstone 斜交回転 電算機使用 1944 Thurstone 2次因子 1947 Thurstone "Multiple-factor analysis" 1949 Burt 階層因子説、1950 Vernon 階層因子説
1954 Guttman 因子数の下限(対角1 ,対角SMC) 1958 Kaiser Varimax 回転 1959 Guilford (秋重監訳)『精神測定法』 セントロイド法 1960 Harman "Modern factor analysis“ Kaiser 基準 1962 三好稔(編)『心理学と因子分析』 1963 Lawley & Maxwell 最尤法 1965 Horn 平行分析(因子数決定法) 1967 Joreskog 最尤法の計算 1969 Joreskog 確証的最尤法 1972 芝祐順 『因子分析法』東京大学出版会(1979 2版) Mulaik "The foundations of factor analysis" 1976 Burt(1883-1971)の知能データねつ造発覚 Harman "Modern factor analysis(3rd ed.)" 1983 Gorsuch "Factor analysis(2nd ed.)" (初版 1974) 1989 BollenSEM本
歴史文献 • Cowles, M. (2001). Statistics in psychology: An historical perspective.(2nd ed.). LEA. • Mulaik, S. A. (1987). A brief history of the philosophical foundations of exploratory factor analysis. Multivariate Behavioral Research, 22, 267-305. • ギリシャ時代の哲学から近代哲学までの因子分析的考え。Pearson からの因子分析に関する論争をまとめる。g因子,因子分析の不定性の問題など。 • Thurstone, L.L. (1940) Current issues in factor analysis. Psychological Bulletin, 37, 189-236. • Lovie
(2)因子分析の前に (a)サンプル数と相関係数の誤差 心理データの信頼性 0.6-0.7 人間の意識の場合200人以上必要 個人の信頼性は低いが構造は安定 ・・・SD法 (b)変数サンプリング Gorsuch ランダム、系統 偏りがあると問題 (c)因子当たりの項目数 5以上ある (d)因子分析をするのに適切であるか? 正規分布・歪み・外れ値 外れ値には敏感である必要がある。 極端な歪みがある場合も要注意->自尊心データ 順序尺度・間隔尺度・2値データ KaiserのMSA(KMO)Measuremsnt of Sampling Adequecy
自尊心データヒストグラム(n=207) 分布がゆがんでいる
(3)因子分析 (a)抽出法 (b)因子数を決めないと分析できない (c)回転 (d)階層因子分析・高次因子分析
(a)因子抽出法 • 共通性を反復推定しないときはおおきな問題だった。SMC、最大相関(絶対値) • 何を最小にするのか->適合度 • 主因子法(主軸法、主因子法) • 最小2乗法 • 最尤法
χ2値を求める前の距離(乖離度)つまり適合度関数(F)を Loehlin(1998)に従って示す。 Sは測定されたデータの相関行列(R)または共分散行列(S) ここではSCは推測されたモデルから再生された相関行列または共分散行列 Σ,Σ(θ^)などと表される。 適合度関数 F
復元相関行列 C • ここでは簡単のため相関行列で考える。因子分析の因子パタン行列をAとすると • 復元相関行列C=(AA’の対角に1を入れる) ……(2) • ('は転置を示す SPSSではT)
重みづけ V • 最小2乗法OLS のときは V=I…(3) • 重み付き最小2乗法GLS のときは V=S-1…(4) • 最尤法ML のときは V=C-1…(5)
(1)式により3つの方法を統一して理解できることを示している。S-Cつまり残差行列に重みをつける付け方が、OLS,GLS、mlによって違う。OLSは単位行列をかけているのでそのまま。そのtrace なので、残差行列の非対角要素の2乗和÷2つまり、下三角の非対角要素の2乗和となる。GLSは標本相関行列によって重みをつけている。(5)の方法はRLS(Reweighted Least Squares)と呼ばれている。MLの場合実際はF=ln|C|-ln|S|+trace(SV-1)…(6) • 。(1)式は独立モデルのときに使われる。また、(1)の式と(6)式は値は多少異なるが、比例関係にある。 • 適合度が変化しなくなれば収束したとする。
χ2値 • χ2=F*(N-1)…(7)N=サンプルサイズとしてχ2値が求められる。 • 共通性を代入してもF値が一定以上変化しなければ収束
各抽出法の特徴 • 最尤法ー統計学からみていい性質、いろんな適合度指標をもっている。多変量正規分布を仮定している。ただし、正規分布に関して多少頑健。不適解が起こりやすい。これは短所でもあり長所でもある。 • 最小2乗法ー正規分布の仮定がない。ゆがんだデータにもいいfit をする。収束が速い。 • 主因子法ー不適解になりにくい。収束が遅い。
抽出法の選択 狩野さんの発言を追いかければ (1)最尤法と最小2乗法をやってみる。 (2)同じ結果なら最尤法を採用 (3)気になるほど異なる結果なら最小2乗法を採用 (4)初心者は反復主因子解のほうがいいかもしれない。不適解が少ない。 (5)ただし,解が収束すれば,最小2乗法と反復主因子法とは同じ ((5)は日心での服部さんのfprワークショップ) ということになる。
(b)因子数決定 • 因子数を決めないと分析できない ・固有値1以上 基準がよく使われる。 ・スクリー法 ・寄与率 ・因子に有効な項目数2以上 ・MAP ・平行分析 PA 95% ・解釈可能性 1因子の決定が難しい。両極性問題 少なすぎる因子数、多すぎる因子数の問題
推奨する因子数決定法 • MAPを最小因子数、対角SMC平行分析95%(PA-SMC95)を最大因子数とし、解釈可能性を軸としながら因子数を決定する。 • Holzinger and Swineford(1939)の知能データ は両方とも4となり、4因子に確定する。 • Thurstone & Thurstone 60変数の知能データはMAP 8, PA-SMC95 10。8~10
固有値1以上の基準 • Kaiser 基準、Guttman-Kaiser 基準 • 相関行列の固有値が1以上となる数が因子数である。 • Guttman は「因子数の下限」 • Kaiser の1960,1970の論文などから広く用いられている。-> 因子分析の自動処理 • 主成分分析において、1変数分以上の寄与をする。信頼性との関連も語られている。
Kaiser 基準の問題(1) • 平行分析の論文 Horn(1965) • カイザー基準は母相関行列に対してあてはまるが、標本相関行列では誤差によって固有値が変動する。乱数の相関行列の固有値よりも大きくて、固有値としての意味をもつ。 • =>因子数を多目に推論してしまう。
Kaiser 基準の問題(2) • 平行分析への批判から • 一つ目の固有値に関しては意味のある結果がでているが、因子間に相関がある、第1固有値が大きいと第2固有値以降は小さくても意味のある因子である。 • =>因子数を少な目に推測してしまう。 • 両方あわせると、カイザー基準では因子数を多くも、少なくとも、正しくも推測することがある。 • =>カイザー基準は大雑把。
スクリー基準 • Cattell (1966) • 簡単にわかる • ->機械的処理への試み • SE-scree
共通性wide マイナー因子あり MacCallum et al. (1999)
平行分析(parallel analysis) Horn, J. L. (1965). A rationale and test of the number of factors in factor analysis. Psychometrika, 30, 179-185 • 同じ変数の数、同じサンプルの数の正規乱数行列の相関行列の固有値を推定し、対応する固有値を比較し、乱数データの相関行列の固有値のほうが大きくなる前の因子までをとることを提案した。 • 乱数の相関行列を多数生成し、それぞれの第1固有値の平均と、対象相関行列の第1固有値とを比較する。次に第2固有値、第3固有値と比較していく。Spss、SASのマクロや服部さんのプログラムがある。
Holzinger & Swineford(1939) data 平行分析の例1 対角1
平行分析2 • 対角SMCの相関行列の固有値を求める。 • 固有値の平均値の95%上限を採用する • Humphreys and Ilgen(1969)において、対角1のPAに加え、対角にSMC、最大相関を入れるPAと最尤法のχ2テストとの関係を調べている。最大相関のPAはよくない。対角SMCのPAの結果が最尤法のχ2の結果とよく一致することを示した。Humphreys and Montanelli(1975) では対角SMCのPA がMLのχ2よりも優れていることを示した。最尤法の基準だと、小サンプルで低共通性のときに必ず過小推定してしまう。サンプル数が増えるにつれ、過大推定をしてしまう。PA は共通性が広い範囲であっても、狭い範囲であっても正しく因子数を推定する。ただし、単一の心理データと単一のランダムデータから推定すると、過大、過小推定とも起こりうる。また、共通因子モデルがデータへの適合が貧弱な場合は、過大推定しやすい。
MAP(minimumaveragepartial) • Velicer, W. F. (1976). Determining the number of components from the matrix of partial correlations. Psychometrika, 41, 321-327. • 主成分を統制変数とする観測変数間の偏相関係数を求める.そして,その2 乗平均を最小とする主成分の数を抽出因子数とする.(服部, 2002)
主成分を統制したときの偏相関係数行列R∗は次式によって定義される.主成分を統制したときの偏相関係数行列R∗は次式によって定義される.
因子数決定法の評価 • Zwick and Velicer(1986)の人工データによる実験。 • MAP がよい。次に平行分析(PA-M) • MAP はごくまれに少なく推定することがある。 • 平行分析は多目に推定することがある。
最尤法のχ2テストーサンプルがある程度大きくなると過大因子数最尤法のχ2テストーサンプルがある程度大きくなると過大因子数 • AICーサンプルが大きくなると過大因子数。 • BICーサンプルが少ないと過小因子数。 • 最小2乗法での適合度指標は当てにならない。
(1) MAPは常に正しいか、少ない因子数を推定する。 (2) PA-SMC95 は正しいか、多い因子数を推定する。 (3) MAP、PA-SMC95は安定した推定数をだす(堀, 2003) 以上から、MAPとPA-SMC95の推定因子数の間に正しい因子数があると考える。
MAPがうまくいかない場合 • Thurstone & Thurstone(1941)の60変数データ、21変数データ