580 likes | 903 Views
因子数決定法の検討 Holzinger and Swineford(1939) の知能データをもとにして. 堀 啓造(香川大学経済学部) 2003 年 11 月 5 日 大阪大学 科学研究費シンポジウム 「数理統計学と計量心理学をつなぐ」. 服部 ( 2002 , 2003 ) の開発した因子数決定援助プログラム (FACCOM.EXE) は便利 堀 (2002) の「 忍者ハットリ君 」は excel から FACCOM.EXE を走らせ,出力を excel に取り込む。色分けや表示に関して工夫をしている。さらにスクリープロットなど追加機能がある。.
E N D
因子数決定法の検討Holzinger and Swineford(1939)の知能データをもとにして 堀 啓造(香川大学経済学部) 2003年11月5日 大阪大学 科学研究費シンポジウム 「数理統計学と計量心理学をつなぐ」
服部(2002,2003)の開発した因子数決定援助プログラム (FACCOM.EXE)は便利堀(2002)の「忍者ハットリ君 」はexcel からFACCOM.EXEを走らせ,出力をexcel に取り込む。色分けや表示に関して工夫をしている。さらにスクリープロットなど追加機能がある。
相関行列の色づけ • 変数名がついている。これを見ただけで因子推定可
因子パタン・因子構造の並べ替え • 因子の切れ目がわかる線つき
相関行列の並べ替え • 因子出現理由がよくわかる
Holzinger & Swineford(1939) data • Holzinger & Swineford(1939)に素データが掲載されている • Harman, H. H. (1976). Modern factor analysis. 3rd ed. Illinois; The University of Chicago. • Gorsuch, R. L. (1983). Factor analysis. 2nd ed. New Jersey; Erlbaum • など代表的因子分析の書籍に使われている。
論文にも多数使われている。 • Carroll, J .B. (1993). Human cognitive abilities; A survey of factor-analysis studies. Cambridge University Press. によると22の本・論文に使われている。 • 最近でも • Preacher and MacCallum(2003)UNDERSTANDING STATISTICS, 2(1), 13–43 • Browne(2001) Multivariate Behavioral Research, 36, 111–150. • において使われている。因子分析の基本データ。
項目(テスト) • 5因子を想定した24(~26)変数 • Spatial tests (空間) 1~4 • Verbal tests (言語) 5~9 • Speed tests (速度) 10~13 • Memory tests (記憶)14~19 • Mathematical ability tests (数学能力) 20~24 →これに問題あり • Additional spatial tests (追加空間テスト)テスト 25-26
被験者 • イリノイ州 • フォーレストパーク村のPasteur小学校 (Pasteur群) test 1-24使用 • シカゴのGrant-White小学校 (Grant-White群 ) test1-26使用 (一般に使われている 1-2, 5-26) • の7,8年生
使用テスト 除外テスト 被験者数 備考 1 Harman (1976) test 1,2, 5-26 test 3,4 を除外 145 Grant-White A の相関行列(値が少し違う) 2) Gorsuch (1983) test 1,2, 5-26 test 3,4 を除外 145 Grant-White A の相関行列(値が少し違う) 3) Grant-White A test 1,2, 5-26 test 3,4 を除外 145 素データ 4) Grant-White B test 1-24 test 25,26 を除外 145 素データ 5) Pasteur test 1-24 156 素データ 6) 全体 test 1-24 test 25,26 を除外 301 素データ データ 表1.使用データ
データに対する考え • (1)~(3)は同一データを処理したつもりのもの。入力データのミスまたは相関行列計算上のミスがある。 • (3)が正しいデータと考えられるが、元の校正ミスも考えられる。 • (1)~(3)のような多少の変動により、因子数が大きく変わることはあまり考えられない。2因子以上の違いはその指標が敏感すぎることを示唆する。探索的因子分析にしようするのに適さない。 • (1)はテスト25,26をテスト3,4の位置に入れている。
続き • データ(3)、(4)は同一被験者で、24テスト中2つのテストを入れ替えたものである。(3)のテスト25,26は(4)で使ったテスト3,4を簡単にしたものである。その他の22テストは同一データである。これらも同一の因子となっているものと期待される。 • (4)(5)は同一のテストを異なるサンプルに対して実施したものである。 • (6)は(4)(5)をあわせたものである。これら3つの因子が大きく異なることは考えにくい。(1)~(6)の分析において因子数が大きく異なるとは考えにくい。 • (1)~(5)のデータはサンプルサイズが小さい。Hu and Bentler(1999)では250以下を小さいサンプルサイズとしている。適合度の指標があまり信用できない。1000以上において安心サンプルサイズとなる。
サンプルサイズが小さい,一事例でしかないため極めて限定されたものであることを念頭においてほしい。サンプルサイズが小さい,一事例でしかないため極めて限定されたものであることを念頭においてほしい。
因子数 • Holzinger & Swineford(1939)では一般因子と5因子を想定していた。しかし、結果として一般因子と4因子を採用した。斜交因子として考えると4因子解を採用したことになる。Holzinger & Harman(1941)のセントロイド解は同じく4因子である。Harman(1976)は5因子解と4因子解を載せている。
因子決定指標 • 服部のfaccon.exeを使用して、各種因子決定指標を求める。
結果 • SE-SCREEは信用できない。 • PA-Eigen, SMC-Eigen も信用できない。特にSMC-Eigenは因子数が多すぎて実用とはならない。 • MAP,PA-Eigen-M,PA-SMC-95は安定した予測をしている。 • RAW-EIGEN,PA-SMC-Mは差が1となり,どちらともいえない。ただ, RAW-Eigen-Mは5と因子数が多くなることからみても使えない。
因子数 • 堀(2001)の薦めるMAPと PA-SMC95をみると両者とも4つの場合4因子を示している。 • 最小数、最大数とも4であるので、4因子解が適切であるということになる。
カイザー基準 • よく使われる Kaiser の基準のRAW-EIGENは全体が4でありその他が5である。比較的良好な推測をしている。
対角1の相関行列の平行分析 • Horn(1965)のオリジナルの形の平行分析(PA-EIG-M)はすべて4因子とよい予測をした。 • これの改良版として提出されたPA-EIG95はMAP よりも少ない因子数の推測もあり、しかも安定した推定をしない。Hornのオリジナルの平行分析よりもよくない。使用しないほうがよいだろう 。
対角にSMCを入れた相関行列 • 対角に SMC 入れた分析(SMC-EIGEN)の場合、ほかの推定法に比べ極端に多くの因子数を推測する。SMC平行分析よりもこれほど大きな差になることはそれほど多くないが、このデータにあるようにかなり多めの因子数を推定するので実用には使えない。
対角SMC平行分析 • 対角SMC平行分析(PA-SMC-M)は全体が5因子である以外は4因子である。良好な推測をしている。しかし、このデータではPA-SMC-95のほうがよい推測となっている。 • 可能な最大の因子数を推測するためのものであるので、今のところどちらがよいかの判断は難しい。 • 次のスクリープロットを見てみよう
図1.GrantーWhite 校 A の対角1スクリープロット
対角SMCの平行分析 • 図1~図8において、対角1のスクリープロット、平行分析、対SMCのスクリープロット、平行分析を示した。この図を観察すれば、対角SMCの平行分析がまさにスクリーを示していることがわかる。 • それに対して、対角1の平行分析はスクリーとは関係ない。このことから、対角SMCの平行分析が可能な最大因子数を表すことがわかる。
続き • それに対して、対角1の平行分析はSchweizer(1992), Turner(1998) が指摘するように、一般因子的なものがあると、過小推定してしまうという欠点をもつ。 • だが,PA-EIGEN-M に関して、今回のデータではそのようなことにならなかった • 堀(2001)において、人工データとThurstone & Thurstone(1941)において実際に過小推定することを示した。この欠点を持つため対角1を安定した指標と見なすわけにはいかない。対角SMC の平行分析はその点それ以上の因子をとってはいけないという指標となりうるのである。
対角SMCの平行分析 • 対角SMCのPA(平行分析)はスクリーを表しているように見える。 • 対角SMCのPAは想定した因子に適合した指標を集めて分析するときに向く。 • 欠点としてはマイナー因子も拾うことがあるので,まったく因子を想定しない項目群では多めの因子数を推定する。
情報量系 • 情報量指標間の関係は一貫しており、AIC>(=)BIC>=CAIC という順になっている。 • これは計算式から予測されることである。 • 4を指しているのはAICのGrant-White A、BIC、CAICは全体のみである。
サンプルサイズの小さいときはAICが比較的よい予想をし、サンプルサイズの小さいときはAICが比較的よい予想をし、 • サンプルサイズの大きいときはBICが比較的よい予想をする。 • どのようなときにサンプルサイズが大きくて、どのようなときにサンプルサイズが小さいかは難しい問題である。 • また、AICの結果からもわかるようにサンプルサイズが小さくてもよい推定をするわけではない。
以上のことからAICは因子数決定に使えない。 • BIC、CAICはサンプルサイズが小さいときは因子数を過小に推定する。サンプルサイズが大きいときの挙動はもっと多くのデータを分析してみないとわからない。
適合度統計系 • どのように評価するかは難しい。適合しているとする判断基準が統一されているとは言い難い。 • また、基準が確定したとしても、許容範囲にあるものをすべてよ しとするのか、最小因子数をよしとするのかによって違ってくる。 • 適合度の考え方からすると、許容範囲にあるものをすべてよしと考える方が無難であろう。 • こ こでは冒険的に最小因子数をもとにする。
使用した基準 • RMSEA<0.05 ,RMSEA>0.10 • GFI, AGFI, IFI, NFI, RGFI >0.9 • NNFI, CFI >0.96 • (a)TLI>0.96 ,(b) TLI>0.90 • (a)RMSR<0.06, (b)RMSR<0.10 • (a)Hu & Bentler, (b)他 • χ2 p>0.05 • MAP, AIC, BIC, CAIC 最小値 • PGFI 最大値
適合度指標として、比較的その許容範囲、拒否範囲を明確にしている RMSEAがすべての場合において4因子と推定している。
GFIと NFIはサンプルサイズの影響を受け、サンプルサイズが大きくなった全体の場合にのみ4因子と推定している。 • RGFI ,RMSR,CFIは一貫しているが、3因子と過小推定をしている。PGFI は2因子で一貫している。適合度指標の場合、上に述べた理由から、大きな問題ではない。 • NNFI (古くからある Tucker & Lewis 指標 TLIである)は0.90 基準を使うと比較的一貫して4因子としている。 • AGFIは小サンプルにおいて適合度基準まだ達しない。しかも全体においては6因子と4因子は適合していないとの推定である。これは使えない。