540 likes | 885 Views
多変量データ分析 B 第 7 回. 第 3 章:主成分分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.02. SFC5 限. 3.4 主成分分析の実際. 数学系成績 問題の概要:学生 88 名の数学系5教科の試験結果 ( 古典的例題 ) 力学,ベクトル,代数,解析,統計 注)出典: Mardia,K.V. 他 Multivariate Analysis,Academic,Press,1979. 典型的な主成分の例題. 目的:幾つかの合成指標を作成する ①総合的指標の作成
E N D
多変量データ分析B 第7回 第3章:主成分分析 林俊克&廣野元久「多変量データの活用術」:海文堂 廣野元久 2004.6.02. SFC5限 第3章 主成分分析 Ⅲ
3.4 主成分分析の実際 • 数学系成績 • 問題の概要:学生88名の数学系5教科の試験結果(古典的例題) 力学,ベクトル,代数,解析,統計 • 注)出典:Mardia,K.V.他 Multivariate Analysis,Academic,Press,1979 典型的な主成分の例題 目的:幾つかの合成指標を作成する ①総合的指標の作成 単なる合計点との違いを理解する ②対立概念の理解 88名の結果から5つの教科の対立する軸 -強みと弱みーを設定する ③2次元マップの作成 散布図により教科と生徒の分類を行う 第3章 主成分分析 Ⅲ
数学系成績 1/18 手順1.JMPを起動しメニューからファイル→開くをクリックする フォルダの選択 手順3.右のダイアログが 表示される ①ファイルの種類で EXCELを選ぶ ②主成分例題を クリック 第3章 主成分分析 Ⅲ
数学系成績 2/18 手順4.表示されたダイアログから,数学系成績のシートを選ぶ ②OKを押す ①選ぶ 手順5.数学系成績の データがJMPに 読み込まれた 第3章 主成分分析 Ⅲ
数学系成績 3/18 JMPでの事前分析:ヒストグラムの作成 目的:外れ値や分布状況の確認 手順1.メニューの分析から1変量の分布を選ぶ 手順2.ダイアログが表示される ②OKボタンを クリックする ②Y,列ボタンをクリックし リストに5科目が表示されている ことを確認する ①分析対象の変数を選ぶ ここでは5つの科目すべてを選ぶ 第3章 主成分分析 Ⅲ
数学系成績 4/18 ここの赤▼をクリックして,スケールの統一を選ぶ 全体的に5つの科目ともに,単峰形の分布をしていること を確認しておく. 第3章 主成分分析 Ⅲ
数学系成績 5/18 各教科の正規性のチェックを行う 教科名の前の赤▼から正規分位点プロットを選び正規性を調べる ここの赤▼をクリックして正規分位点プロットを選ぶ 正規分位点プロット データを小さい方から大きい方に 並べ替え,その順番が正規分布を 仮定したときの標準化得点(z得 点)と直線関係にあるかどうかを 検討する. プロットが蛇行したり,曲線傾向 にあると正規性が成り立っていな いと判断する 各教科ともにプロットが直線傾向にあり,正規性が成り立って いることを確認して欲しい 第3章 主成分分析 Ⅲ
数学系成績 6/18 合成指標の作成 代数と統計の合成指標を作る 最も自然な合成指標は,数学力1=代数+統計(合計点)である これには大きな問題がある 合計点とは,右のグラフの緑の 矢線にプロットから垂線を下ろし 原点(0,0)からの距離である. プロットの傾向 問題点 主成分とは 第3章 主成分分析 Ⅲ
数学系成績 7/18 散布図の見方 散布図では,平均線を追加することにより,データの布置を 明快につかむことができる 特に主成分分析を行う事前準備として重要である 平均50 第1主成分 分散が最大になる方向の 軸を探すこと =主成分からのずれ量が 最小となること =データのあてはまりが 最良である軸を決める 平均42 ①原点移動 第3章 主成分分析 Ⅲ
数学系成績 8/18 の制約とは何か 重心(平均ベクトル)からの 距離を変えないで軸を回転させる 回転の中心は重心 第1主成分:総合ぶり 第2主成分:得意-不得意 第3章 主成分分析 Ⅲ
数学系成績 9/18 P(x,y) y z1 θ z2 θ x 視点の変更:座標の回転 行列で書くと 第3章 主成分分析 Ⅲ
数学系成績 10/18 5つの変数で主成分分析を行う 手順1.メニューの分析から多変量→多変量の相関を選ぶとダイアログが表示される 上のダイアログから5つの変数を選びY,列ボタンをクリック 右のリストに追加されていることを確認し,OKボタンをクリック する 第3章 主成分分析 Ⅲ
数学系成績 11/18 散布図行列に平均線を追加 して描画した 縦横の目盛をクリックして 平均を入力して参照線を 追加させるとよい. また,目盛の最小値,最大値 を変更できるので 平均±3sの目盛にすると 標準化された散布図になり 確率楕円の様子がより比較し やすくなる 第3章 主成分分析 Ⅲ
数学系成績 12/18 手順2.多変量の赤▼から主成分分析→相関行列からを選ぶ 固有値,固有ベクトルが 表示される 累積寄与率から 第2主成分までを 採用しよう 因子負荷量は 固有値の平方根と 固有ベクトルの積 第3章 主成分分析 Ⅲ
数学系成績 13/18 手順3.スクリープロットの作成:固有値グラフ 固有ベクトルの表の上で右クリックし メニューのデータテーブルに出力を選ぶ 変数名を変更し 主成分の列と固有値,累積寄与率 の行を選択 メニューのテーブルから転置を選ぶ 第3章 主成分分析 Ⅲ
数学系成績 14/18 転置されたテーブルを使い メニューのグラフから 重ね合わせプロットを選ぶ 列名を変更しておく ②固有値と累積寄与率 を選択,Yボタンを クリック ③累積寄与率 を選択,下のボタンを クリック 矢印が逆→を確認 ①ラベルを選択xボタンをクリック 第3章 主成分分析 Ⅲ
数学系成績 15/18 第2主成分まででほぼ80%の累積寄与率がある. 固有値のプロット 線の傾きに着目: 解釈はせいぜい 第2主成分までか? 重ね合わせグラフでは,累積寄与率を折れ線に 固有値を垂線にするとわかりやすい 第3章 主成分分析 Ⅲ
数学系成績 16/18 手順4.因子負荷量の解釈 大切な因子負荷量行列 主成分の解釈に活用しよう 主成分/因子分析の赤▼をクリック 主成分の保存を選ぶ 因子負荷量 ダイアログで保存する主成分を 2つ指定する 主成分の解釈 メニューから多変量→多変量の 相関を選び,元の変量と主成分を 分析する変量に選ぶ 第3章 主成分分析 Ⅲ
数学系成績 17/18 主成分と変量との散布図行列を作成すると 主成分と変数の散布図の イメージ z2 代数 z1 主成分空間(多次元) z1 代数 多次元回転 代数 グラフの三次元プロットで確認してみよ!!! z1 第3章 主成分分析 Ⅲ
数学系成績 18/18 主成分得点の方向 主成分1と代数の散布図方向 PC2 代数 PC1 PC1 散布図は多次元(この場合には5次元)のデータを 対象となる2つの次元(例;代数と統計)の側から覗いている 多次元空間でばらつきの最も大きい側から覗いているのが 第1主成分 第3章 主成分分析 Ⅲ
宿題:株式収益率の分析 Excelファイルの主成分例題2004用の株式収益率のシートにある データを主成分分析してみよ.データの入力ミスが幾つかある このような外れ値は,その値を10で割って処理しなさい. 概要:ニューヨーク株式取引所で表にされた株式(連合化学,デュポン ユニオン・カーバイト,エキソン,テキサコ)の毎週の利益率が 1975.1月-1976.12月までの期間にわたりある. 利益率は,株式の分割と配当金に関して調整した上で ((今週金曜日の終値)-(先週金曜日の終値))/ (先週金曜日の終値) Q1.このデータから,一般的に言われるように 一般経済条件に応じて一緒に動くような株価の横断的成分 (一般株式市場成分)と産業構造間の対比成分(産業成分) を見出すことが可能であるか 連合化学,デュポン,ユニオン・カーバイト 化学株 エキソン,テキサコ 石油株 第3章 主成分分析 Ⅲ
3.4.1 従業員満足度 1/5 • データ概要 第3章 主成分分析 Ⅲ
図3.13 モザイク図の行列(レイアウトの関係で著者が編集した)図3.13 モザイク図の行列(レイアウトの関係で著者が編集した) 3.4.1 従業員満足度 2/5 • 変量間の関連を調べる • アンケートデータであるから • 散布図よりもモザイク図 グラフから関連性を読み取る 第3章 主成分分析 Ⅲ
図3.14 従業員満足度の散布図行列 3.4.1 従業員満足度 3/5 • 主成分分析の実行 ・相関行列からスタートする ・相関係数の値から業務指示がキー ・相関係数0.4以上を線で結ぶと 対話 指示 管理 雰囲気 内容 第3章 主成分分析 Ⅲ
図3.16 因子負荷量を追加した相関係数行列 図3.15 従業員満足度のPCAの出力 3.4.1 従業員満足度 4/5 • 因子負荷量を表示させる 第2主成分まで解釈しよう 第1主成分は全て 正相関で比較的 大きい値(総合力) 第2主成分は正負に 別れて対立概念 ・管理,内容(負) ・対話,雰囲気(正) 第3章 主成分分析 Ⅲ
図3.18 主成分(左)と因子の散布図 図3.17 バリマックス回転後の結果 3.4.1 従業員満足度 5/5 • 主成分得点の散布図で確認 うまく変量が 2分類できた しかも無相関!! 第3章 主成分分析 Ⅲ
3.4.2 理想の恋人の重要度 1/5 • 理想の恋人アンケート • 5段階評点尺度 どの項目に関連があるとおもうか? アンケートデータでは,項目を絞ると 設問間に弱い相関しか現れないことがある. 第3章 主成分分析 Ⅲ
図3.19 元の変量の相関と因子負荷量の行列 3.4.2 理想の恋人の重要度 2/5 • 1回目の主成分分析 いきなり主成分を行ってはいけない まずはモニタリングから 第一主成分 経済力,性格 VS 年齢 第二主成分 趣味,相性 VS 距離 この結果は本当か? 第3章 主成分分析 Ⅲ
3.4.2 理想の恋人の重要度 3/5 • 平均値を調べる,標準偏差を調べる この高い平均と 小さい標準偏差に着目 皆が共通して重要と答えたのでほとんどばらつかない 第3章 主成分分析 Ⅲ
3.4.2 理想の恋人の重要度 4/5 • 回答者のパターンの共通性を見たいなら,分析の行と列は逆である 禁じ手:データ行列の転置 テーブルメニューから転置を使う 第3章 主成分分析 Ⅲ
図3.20 転置後の主成分得点1&2の散布図 3.4.2 理想の恋人の重要度 5/5 重要項目 これ以降の固有値は0 実際は6次元しかない 解釈は 頑張っても 第2主成分まで!! ・元々行の個数が7しかない ・第1主成分以外はあてにならない 第3章 主成分分析 Ⅲ
3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 1/6 データの概要 ある研修施設の食堂のメニュー改善のために取った食事 アンケート(5段階評点:数値が大きいほど好きな食品)データである. 変数は,地域と年代,サンプルは食品 分析する上での注意点 食品のアンケートについて出身地域,年代に層別して 評点の平均が求まっている 変数間には強い相関があるであろう 知りたいこと 出身地域,年代で食品の好みが変わってくるか 第3章 主成分分析 Ⅲ
図3.21 食の好みのPCAの出力 3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 2/6 生データ 東日本20代~西日本40代 でそのまま主成分分析を行うと 慣例によれば,第1主成分だけまで 解釈すればよいことになる. 因子負荷量 第1主成分の意味は, 食品の年代によらない好みとなる これはつまらない結果である 第3章 主成分分析 Ⅲ
3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 3/6 そこで,行標準化というテクニックを使う 意味:年代と地域による好みの違いを調べるために全体的な好み効果を消す ① ② 第3章 主成分分析 Ⅲ
3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 4/6 図3.23 行標準化後の食の好みのPCAの出力 図3.22 行標準化後の散布図行列 行標準化したデータV8-V13(東日本20代~西日本40代)で主成分分析を行う. 一般に相関係数は生データのときより 小さくなる 第3章 主成分分析 Ⅲ
図3.24 主成分1&2の因子負荷量(左)と主成分得点(右)の散布図図3.24 主成分1&2の因子負荷量(左)と主成分得点(右)の散布図 図3.25 納豆を除外後のPCAの結果 3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 5/6 食品の納豆は明らかな外れ値である これを外して再分析してみよう 第3章 主成分分析 Ⅲ
3.4.3 食べ物の好みに関する調査 総合ぶりに興味がない場合は行標準化 6/6 図3.26 主成分1&2の因子負荷量(左)と主成分得点の散布図(右) 図3.27 主成分3&4の因子負荷量(左)と主成分得点の散布図(右) 第3章 主成分分析 Ⅲ
主成分平面から 外れた空間にあり 無意味な主成分を作る 外れ値B 全体の相関構造を 不当に歪める 外れ値A 第1主成分 第3主成分 第2主成分 図:主成分分析による多変量空間の外れ値分析のイメージ 主成分による外れ値分析 少数サンプルの場合の主成分分析では,外れ値に注意して主成分の解釈を行ってみよう 第3章 主成分分析 Ⅲ
図3.283元データを2元に再配置 3.4.4 選挙データから見た首相人気 1/7 • 2000年&2001年の比例区の選挙結果を分析する 森内閣の支持率が 激減し与党勢力が ピンチとなる 改革を旗印に 小泉氏が登場 国民の期待が膨らむ ・自民支持者のうち,リベラルな人々が右往左往した ・リベラルではなくて,世相追随者?? 第3章 主成分分析 Ⅲ
図3.29 各政党の得票数の都道府県別得票数(上:00年,下01年)図3.29 各政党の得票数の都道府県別得票数(上:00年,下01年) 3.4.4 選挙データから見た首相人気 2/7 • 選挙の得票数で分析すると ・都道府県の得票数分布は極めていびつ ・都道府県人口が大きく異なる 第3章 主成分分析 Ⅲ
図3.30 得票数の相関係数行列 図3.31 選挙データのPCAの出力 3.4.4 選挙データから見た首相人気 3/7 • どの政党にも正相関がある:本当か? • 何か変ではないか? • 一人,1政党しか選べないのに? • 与野党対決はないということ? 第3章 主成分分析 Ⅲ
01年 00年 図3.32 主成分1&2の因子負荷量(左),主成分得点(右) 3.4.4 選挙データから見た首相人気 4/7 都市部ほど 大きく シフトした? 第3章 主成分分析 Ⅲ
図3.33 得票率のPCAの出力 図3.34 主成分1&2の因子負荷量(左),主成分得点(右) 3.4.4 選挙データから見た首相人気 5/7 • 得票率にして再分析 得票率の推移状況が良く分る どの都道府県も,一様に与党 支持率が増えている 2001 2000 第3章 主成分分析 Ⅲ
図3.35 分散共分散行列から出発したPCA 図3.36 元の変量の相関と因子負荷量 3.4.4 選挙データから見た首相人気 6/7 分散共分散からスタート • 支持率でウエイトをつける 合計は分散の合計と一致 自民VS民主の対決 軸がはっきりとしている 社民の影響力が小さくなった 第3章 主成分分析 Ⅲ
図3.37 主成分1&2の因子負荷量(左),主成分得点(右)図3.37 主成分1&2の因子負荷量(左),主成分得点(右) 自民党 民主党 共産党 公明党 3.4.4 選挙データから見た首相人気 7/7 第3章 主成分分析 Ⅲ
活用術 主成分分析を活用して,さまざまな問題を要約・分類してみよう 主成分分析の目的 多次元空間のデータを縮約して,少ない次元で変数間の関係を要約する. 得られた空間は,主成分という元の変数の線形和で表され, 主成分は互いに無関係(無相関)である. また,サンプルの主観的な分類も主成分空間でなされる. データ分析の鉄則 鉄則1.少数サンプルの場合には外れ値の影響を排除する 鉄則2.主成分の方向は相関行列の非対角で決まる 鉄則3.多群の分析では群間と群内に注意を払う 鉄則4.行と列の取り扱いを考える 鉄則5.総合ぶりに興味がない場合は行標準化を行う 鉄則6.無意味な変数は分析に取り込まない 鉄則7.事前に変数変換を行う 第3章 主成分分析 Ⅲ
2組のn=200の散布図行列と相関係数(数値例) .420 .204 .120 .088 .042 .025 .145 -.288 .031 -.060 .780 .162 鉄則2.主成分の方向は相関行列の非対角で決まる 1/2 性質:2組の相関行列R,R*があるとき,Rの非対角要素が R*の定数倍になっている関係にあれば, 両者の固有ベクトルは一致することが知られている. 第3章 主成分分析 Ⅲ
鉄則2.主成分の方向は相関行列の非対角で決まる 2/2鉄則2.主成分の方向は相関行列の非対角で決まる 2/2 2つの組の固有値はあきらかに異なっているが, 固有ベクトルは,ほとんど同じ値である. 元の相関行列の非対角要素の比C/Dは4.8倍である. 固有値はちょうど の関係 1.175 (1.843+4.8-1)/4.8=1.176 になっている この結果から,主成分の解釈は,固有ベクトルに 主成分の強さ(固有値の平方根)を掛けた 因子負荷量で判断するのが自然である 第3章 主成分分析 Ⅲ
鉄則3.多群の分析では群間と群内に注意を払う 1/3鉄則3.多群の分析では群間と群内に注意を払う 1/3 データの概要:5つのコンパクトカメラのデザインの評価 ・デザイン評価を測定する項目 楽しい,新鮮な,オリジナリティ,目立つ,質感,高級感 丈夫そう,現代的な,親しみ,精密感,使い易さ,飽きのこない 小さくみえる,カメラらしい,好きな 3元データ 古典的なやり方 ・試料の平均値で主成分分析 ・個人ごとに主成分分析 ・試料ごとに主成分分析 ・評価項目ごとに主成分分析 n人の被験者 2元データへ A B C ・・・ P 目的 ・群間と群内の相関を分離して考える 理由 ・混在させると主成分の解釈が 結果的に困難である 感性評価 試料 形容詞対 評価項目 第3章 主成分分析 Ⅲ
鉄則3.多群の分析では群間と群内に注意を払う 2/3鉄則3.多群の分析では群間と群内に注意を払う 2/3 評価項目 1,2,・・・,p 1 2 ・ ・ ・ n カメラデザインA 評価者 1 2 ・ ・ ・ n カメラデザインB 評価者 ・・・ 1 2 ・ ・ ・ n カメラデザインG 評価者 コンパクトカメラのデザイン評価1994 第3章 主成分分析 Ⅲ