1 / 47

多変量解析 B  第 1 回

多変量解析 B  第 1 回. 第 1 章:データ分析と JMP 林俊克&廣野元久「多変量データの活用術」:海文堂 永田靖&棟近雅彦「多変量解析法入門」:サイエンス社 廣野元久 2004.4.14. SFC5 限. この授業での約束. 遅刻,早退はしない( 大幅減点 ) 授業中は携帯の電源を切る( 大幅減点 ) 単位取得申請をしたら あきらめないで最後まで授業に出続ける 授業中の討論には積極的に参加する( 加点 ) 課題は期日までに提出する( 救済措置は取りません ) メインのソフトはJMP V 5 を使用するが,細かい操作手順は紹介しないので自己学習する

anana
Download Presentation

多変量解析 B  第 1 回

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多変量解析B 第1回 第1章:データ分析とJMP 林俊克&廣野元久「多変量データの活用術」:海文堂 永田靖&棟近雅彦「多変量解析法入門」:サイエンス社 廣野元久 2004.4.14. SFC5限 第1章 データ分析とJMP

  2. この授業での約束 • 遅刻,早退はしない(大幅減点) • 授業中は携帯の電源を切る(大幅減点) • 単位取得申請をしたらあきらめないで最後まで授業に出続ける • 授業中の討論には積極的に参加する(加点) • 課題は期日までに提出する(救済措置は取りません) • メインのソフトはJMP V5を使用するが,細かい操作手順は紹介しないので自己学習する • 配布物は,そのとき限りとするので,やむを得ない事情で授業を欠席した場合には,各自,友人からコピーをすること • 配布物の部数には限り(前回の授業参加数分を用意します)があるので,各自1部以上受け取らないこと 以上,如何なる理由があろうと守ってください. 第1章 データ分析とJMP

  3. 評価について • 最終報告書(60) • 手法の活用度(20) • 手法を正しく使っていること(20) • 報告書の論点がぶれていないこと(10) • ストーリ展開の面白さ(10) • 授業態度(40) • 通常課題(30):1つの課題について評価の比率              は最終リポートと同じ • 積極的な質問や討論への参加(10) 第1章 データ分析とJMP

  4. 科学的データ分析 • 自分の考えや方法を相手に理解させ,実現するには ① 威圧:力つく(暴力に訴えて)で押し切る ② 情念:情念や想いでハートに訴えかける ③ 論理:具体的な命題を証明し,理屈で証明する ④ 逃避:議論を避け,自分の殻の中で夢想を続ける <現代のビジネスシーン> 世の中の具体的な現象を数量で代用し,   数量を論理的な段階を踏んで整理,分析することで      自身の提案の正しさを証明し,相手を説得する  データ分析は論理学である 第1章 データ分析とJMP

  5. 第1章 データ分析とJMP • 本日の内容 • 多変量解析法とは何か • どのような方法があるのか • どういう形式のデータに適用するのか • どのような目的で用いるのか • どのような結果が得られるのか 第1章 データ分析とJMP

  6. 多変量データの分析目的 • 5つの観点 • 現象や構造の縮約と単純化 • 主成分分析,因子分析や対応分析 • 分類や層別による差異 • クラスター分析や判別分析 • 予測 • 決定分析や重回帰分析 • 仮説の検証と検定 • グラフィカルモデリングや構造方程式モデル • 因果関係の把握と制御 • 実験計画法やコンジョイント分析 第1章 データ分析とJMP

  7. 本講座で扱うサンプルデータ 第1章 データ分析とJMP

  8. 道具としての統計的方法 • 統計解析の見方,考え方 • はじめに • 知りたいことは,調べてみないと分からない • 多くの知りたいことは,すべてを調べることはできない • 知りたい多くの事柄は変動している    • 主要な部分(共通性)に光をあてる     • ---金鉱から純金を分離する作業 • KKD(勘・経験・度胸)にたよらずに, •   科学的手順(作法)で •  ものの本質を解明する 第1章 データ分析とJMP

  9. 1.1 データの見方・考え方 • 知りたいことは調べて見ないと分からない • 現象を数値データや言語情報で代用する • 知りたいことの多くは,全てを調べることができない • 知りたい多くの事柄は変動している • 得られたデータは,時と場所,場合によって異なる • 得られたデータの1つ1つは異なる(ばらついている) • 得られたデータの代表値も標本ごとに異なる • 知りたいことの多くはばらつきを持っているものである • ばらつきに惑わされないで,ものの本質を理解する • ばらつきの中から主要な部分(共通性)に光をあてる • 金鉱から純金を分離する作業 • KKD(勘・経験・度胸)に頼らずに科学的手順(作法)で解明する • ばらつきの大きさを評価する 第1章 データ分析とJMP

  10. 1.1.1 事実から真実の推測 • 例としてVTRの録画可能時間を調べてみる • データ 測定したVTRテープの録画時間の余裕度の100個のデータは表1に示すとうりである.測定単位は(秒)である. 表1VTRテープ100本の余裕度のデータ  (単位:秒) 第1章 データ分析とJMP

  11. 1.1.1 事実から真実の推測 • 100個の測定データから共通性を見つけるのは難しいので,グラフにしたりデータを要約する 図1.1 録画時間の差(秒)の分布 第1章 データ分析とJMP

  12. 1.1.1 事実から真実の推測 • H氏は,ビデオテープの録画時間を調べるために100個のデータを測定した • 録画時間は表示より3分23秒長い 母集団 標本 標本で知りえたこと     (事実) 研究対象  本当に知りたいこと    (普遍性) 母集団でもあてはまるか       (真実) 第1章 データ分析とJMP

  13. 1.1.1 事実から真実の推測 標本で知りえたこと     (事実) 母集団 標本1 標本2 標本3 標本4 標本i 値は標本毎に  違っている   (変動) 研究対象  本当に知りたいこと    (普遍性) 母集団でもあてはまるか       (真実) 第1章 データ分析とJMP

  14. 1.1.1 事実から真実の推測 • 真実の探求 • 不確定要素の集まりによりものは変動する • 値が動くもの  変量(variable) と呼ぼう • 変動が確率的に考えられるもの • 確率変量(random variable) X,Y, 実現値(記号) 実際の値 概念 69  (kg) 167 (cm) 42(才) 男 第1章 データ分析とJMP

  15. 1.2JMPの分析メニュー • JMPウインドウ • コマンド:JMPの機能をコントロールする • メニュー:コマンドを目的別にまとめたもの • 分析プラットフォーム:分析のためのウインドウ メニュー JMPスタータ スタータを使えば,素早く目的の分析ができる 図1.2JMPの起動画面 第1章 データ分析とJMP

  16. 1.2JMPの分析メニュー • ファイルメニュー 図1.3 ファイルメニュー一覧 第1章 データ分析とJMP

  17. 1.2JMPの分析メニュー • 編集メニュー 図1.5 テーブルメニュー一覧 図1.4 編集メニュー一覧 第1章 データ分析とJMP

  18. 1.2JMPの分析メニュー • 行メニュー 図1.6 行メニュー一覧 第1章 データ分析とJMP

  19. 1.2JMPの分析メニュー • 列メニュー 図1.7 列メニュー一覧 第1章 データ分析とJMP

  20. 1.2JMPの分析メニュー • 分析メニュー 主成分分析 重回帰分析 図1.8 分析メニューの一覧 第1章 データ分析とJMP

  21. 1.2JMPの分析メニュー • その他のメニュー 図1.9 その他のメニューの一覧 第1章 データ分析とJMP

  22. 変量の役割 第1章 データ分析とJMP

  23. 1.2.2JMPの基本操作 –起動と終了– • JMPをインストールするとアイコンが画面に表示される • 起動:アイコンをダブルクリックする • データ読込:ファイルメニューから既存のデータファイ         ルを読み込む • 分析:目的に合わせた分析を分析メニューから選び実    行する • 保存:分析結果をジャーナルやスクリプトに保存する • 終了:ファイルメニューの終了をクリックして終わらせる 図1.10JMPのショートカット 第1章 データ分析とJMP

  24. 1.3 データ分析の活用指針 • データをコンピュータに入力すると,役に立つ結果が自動的に出てこない • 自動課題解決装置ではない • データ分析は考える人の筆記用具 • データが得られたら,まずグラフにして分析戦略を考える • データの中には,よい子もいれば,普通の子もいれば,悪い子もいる 第1章 データ分析とJMP

  25. 変量名 テーブルパネル データグリッド  行:個体(オブザベーション)  列:変量 個体番号 1.4 データと測定の尺度 • 分析するデータの形式 個体 1 2 3    ・    ・    ・ n 図1.12 ビッグクラスのデータ (個体)×(変量)の形式のデータを多変量データと呼ぶ 第1章 データ分析とJMP

  26. 1.4 データと測定の尺度 図1.13 変量の持つ尺度 第1章 データ分析とJMP

  27. 多変量データ 多変量解析はデータの統合化    合成指標の作成 合成指標=重み×生データの特性 第1章 データ分析とJMP

  28. 重回帰分析 中古マンションデータ 1)重みを計算する 2)誤差を調べる 3)モデル式の確定 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  29. 重回帰分析 1.データ:都内の中古マンションデータ(価格と広さと築年数)   ・予測や制御したい1個の変量がある   ・予測や制御に使う複数の変量がある 知りたいこと 1)価格は広さと築年数とによって予測できるか 2)予測できるとすれば,その精度はどのくらいか 3)同じ地区で広さ70m2,築10年のとき価格5800万円は妥当か 分かること 1)回帰式の推定                      により予測可能 2)自由度調整済寄与率0.933であり,精度は十分である 3)回帰式に           を代入すると         を得る     信頼率95%の予測区間(4210,5570)    相場より高い 第1章 データ分析とJMP

  30. 数量化1類 成績データ 1)ダミー変数を作る 2)重みを計算する 3)残差の検討,モデル式確定 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  31. 数量化1類 1.データ:大学卒業時の成績データ                (線形代数とサークル所属と総合成績)   ・予測や制御したい1個の変数がある   ・予測や制御に使う複数の変数がある 知りたいこと 1)総合成績は線形代数の成績とサークル所属の有無より予測できるか 2)予測できるとすれば,その精度はどのくらいか 3)線形代数が優でサークル無所属の学生の総合成績はどのように予測できるか 分かること 1)回帰式の推定                      により予測可能 2)自由度調整済寄与率0.727であり,精度はそこそこである 3)回帰式に線形代数が優=0,サークル無所属=1を代入する         を得る 第1章 データ分析とJMP

  32. 判別分析 健康診断データ 1)2群の相関比η2を最大に 2)判別率を調べる 判定 実 群 3)モデル式の確定とルール化 ここの符号(正負)で判定  値そのものに意味はない (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  33. 判別分析 1.データ:健康診断データ(健常/患者と検査値1と検査値2)   ・グループ分けに使いたい複数個の変数がある   ・グループを示す1個の質的変数がある 知りたいこと 1)疾患にかかっているか否かを2つの検査値から判別できるか 2)判別できるとすれば,その精度はどのくらいか 3)同じ健康診断で検査1=68,検査2=21.6は健常者か 分かること(テキストとは異なる) 1)判別関数の推定                      により予測可能 2)判別率9/10=0.9であり十分である 3)判別関数に           を代入すると       を得る     この場合,健常者は正値であるので健常者と予測できる 第1章 データ分析とJMP

  34. 数量化2類 健康診断データ 1)ダミー変数を作る 2)2群の相関比η2を最大に 3)モデル式の確定とルール化 ここの符号(正負)で判定  値そのものに意味はない (永田&棟近 多変量解析法入門,      サイエンス社,2000より引用) 第1章 データ分析とJMP

  35. 数量化2類 1.データ:健康診断データ(健常/患者と吐き気と頭痛)   ・グループ分けに使いたい複数個の変数がある   ・グループを示す1個の質的変数がある 知りたいこと 1)疾患にかかっているか否かを吐き気と頭痛から判別できるか 2)判別できるとすれば,その精度はどのくらいか 3)同じ健康診断で吐き気=無,頭痛=多は健常者か 吐き気 頭痛 分かること 1)判別関数の推定                      により予測可能 2)判別率10/10=0であり十分である 3)判別関数に吐き気=無,頭痛=多を代入すると       を    得る この場合,健常者は正値であるので患者と予測できる 第1章 データ分析とJMP

  36. 主成分分析 試験の成績データ 1)分散最大の合成変数を順次   作る 2)主成分軸の確定 3)主成分軸の解釈 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  37. 主成分分析 1.データ:学業成績データ(国語,英語,数学,理科)   ・合成指標を作る複数個の変数がある   ・変数の役割は全て同じ 知りたいこと 1)主成分の構成により低い次元でデータを解釈できないか 2)それぞれの主成分の説明力はどれくらいか 3)科目や生徒の特徴付け,分類をどのようにできるか 国語  英語  数学    理科 分かること 1)主要成分の推定                2)第2主成分までの累積寄与率は0.986であり十分である 3)係数の値より,第1主成分は総合力,第2主成分は文系,理     系の違い 第1章 データ分析とJMP

  38. 主成分分析 主成分得点 因子負荷量 第1章 データ分析とJMP

  39. 主成分分析の例 1994年 第1章 データ分析とJMP

  40. 正準判別分析の例 デジタルカメラのデザイン評価による布置 非流線 機能 期待 新規 伝統 精密 抵抗 2002:これは,正準判別と呼ばれる手法を使っています 第1章 データ分析とJMP

  41. 対応分析 児童の得意科目データ 1)行と列との相関が高くなるように並べ替える 2)データの頻度から合理的な得点を与える (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  42. 対応分析 1.データ:学童の好きな科目データ(国語,英語,数学,理科,等)   ・合成指標を作る複数個の質的な変数がある   ・変数の役割は全て同じ 知りたいこと 1)科目と児童に数量を与え,低い次元でデータを解釈できないか 2)そのような数量化によって説明力はどれくらいか 3)科目や児童の特徴付け,分類をどのようにできるか 分かること 1)科目に与える主要な数量として,成分1(-0.581,-0.840,・・・, -0.949)と成分2(-0.336,-0.335,・・・,1.000)を得る.児童に与える    数量として (0.167,1.120,・・・, -0.291)と成分2(-0.179,-397,    ・・・,-0.616)を得る.           2)第2成分までの累積寄与率は0.655でありほどほどの説明力 3)数量で散布図を描くと,科目や児童の特徴付けができる 第1章 データ分析とJMP

  43. 対応分析 JMP出力 クロス表のカテゴリ数が多い場合に,その詳細を検討する 第1章 データ分析とJMP

  44. クラスター分析 試験の成績データ 1)項目間(生徒)の距離を定義 2)データから距離を測定 3)集落(クラスター)の   作成と解釈 (永田&棟近 多変量解析法入門,サイエンス社,2000より引用) 第1章 データ分析とJMP

  45. クラスター分析 1.データ:学童の成績データ(国語,英語,数学,理科)   ・距離を作る複数個の量的な変数がある   ・変数の役割は全て同じ 知りたいこと 1)似た能力を持った生徒をグルーピングできないか 2)そのようなグループにはどのような特徴をもった生徒が多いか 分かること 1)距離2500で切ると{1,5,8}, {2,4,10} , {3,6,7,9}の3グループ  2) {1,5,8}は総合力が高く文系科目が得意, {2,4,10} は総合力   が高く理系科目が得意, {3,6,7,9}は総合的学力が低い 第1章 データ分析とJMP

  46. クラスター分析 JMP出力(ウォード法) クラスターは樹形図をみながら主観的に分割する 第1章 データ分析とJMP

  47. グラフィカルモデリング • 比較的新しい多変量解析の手法 • グラフ理論と多変量正規分布に基づく条件付独立性の変数選択が結び付いたもの • G-GM(ソフト)により解析する • 因果推論と内部要約の双方の分析が可能 • 解釈はグラフにより行う 上司に対する従業員満足度   (テクノメ研,グラフィカルモデリングの実際,日科技連1999) 第1章 データ分析とJMP

More Related