470 likes | 701 Views
STATWEB 統計セミナー. 2014 - 6-22 担当:若田 忠之. 本日の内容. なぜ “統計” が必要か / “統計”の重要性 “データ”の基礎 「4 つの 尺度 」 平均値・分散・標準偏差 ( 説明 ) 平均値・分散・標準偏差 ( 演習 ) t 検定 ( 説明 ) t 検定 ( 演習 ) 標準化・相関・回帰分析 ( 説明 ) 標準化・相関 ・回帰分析 ( 演習 ). 30 分 30 分 50 分 50 分. 休憩:適宜. なぜ“統計”が必要 か?.
E N D
STATWEB 統計セミナー 2014-6-22 担当:若田 忠之
本日の内容 • なぜ“統計”が必要か/ “統計”の重要性 • “データ”の基礎「4つの尺度」 • 平均値・分散・標準偏差(説明) • 平均値・分散・標準偏差(演習) • t検定(説明) • t検定(演習) • 標準化・相関・回帰分析(説明) • 標準化・相関・回帰分析(演習) • 30分 • 30分 • 50分 • 50分 休憩:適宜
なぜ“統計”が必要か? • 「何かの傾向を示すだけならわざわざ統計処理などしないで、アンケートの結果などで十分ではないか?」 • 例えば、この後紹介するt検定は平均値やそのデータのバラツキを使って、その差が意味のある差なのか、偶然見られている差なのかを検討する データの「科学的な裏付け」をとる役割が統計の目的の1つ
なぜ“統計”が必要か 統計学とは • 数量的比較を基礎として、多くの事実を統計的に観察し、処理する方法を研究する学問 統計とは • 集団における個々の要素の分布を調べ、その集団からの傾向・性質などを数量的に統一的に明らかにすること 広辞苑 第5版より
なぜ“統計”が必要か • 何かに差があると言いたいときには「証拠」が求められ、その裏付けとして統計学を使うことができる • 統計学のもう一つの重要な役割 「データを分かりやすくする」 • 平均値はデータの中心、標準偏差はデータのバラツキといったように、そのデータの性質や特徴をより簡潔に示すことができる • さらに、複雑な分析をすることで今までは見えていなかったような面を捉えることもできる 例えば、相関や回帰分析では、複数の事象の関連を数値 で表したり、予測したりすることができる
なぜ“統計”が必要か 統計学の役割 • 科学的な証拠「裏付け」をとる • データを分かりやすくし、ただの集計では見えなかった面を見えるようにする このセミナーでは、統計の数学的な背景よりも、「その分析が何の為の分析なのか」に焦点を当てます。自分で分析を行うときには分析の手順や内容を知っていないとできませんが、まず「何のための分析なのか」、「その結果は何を示すのか」を分かっていないと、どうしようもありません。 そこで、まずは「結果を読み取れる」といった部分をマスターしましょう。
データの “バラツキ” が異なる なぜ“統計”が必要か Q:2つのクラスに100点満点の学力テストを行った結 果、どちらのクラスも平均点が50点でした。 2つのクラスの理解度は同程度と言えるでしょうか? Aクラス 平均:50点 Bクラス 平均:50点
なぜ“統計”が必要か • 統計を料理に例えると、次のようなイメージです。
“データ”の基礎「4つの尺度」 「データ」とは • 何らかの意図をもって得られた数値 データの分類 • 量的変数・・・ 数値で表されたデータ (順位、間隔、比率) 5段階評価の得点、長さ、重さなど • 質的変数・・・ 数値であらわされていないデータ (名義) アンケートの自由回答、感想など
“データ”の基礎「4つの尺度」 名義尺度・・・ 名前を数字に置き換えたもの 「男性=1、女性=2」、「文学部 =101、医学部=201」など 数字の大きさに意味はなく、仮に「男性=20、女性=0」でも問題ない 順序尺度・・・ 順番に意味はあるが、その間隔に意味がない。マラソンの順位を決め るときに、1秒差でも10秒差でも1位と2位の関係は変わらない 間隔尺度・・・ 順序に加え、その間隔に意味があるもの。定義上の「0」が存在する が、「何もない」という意味の「0」ではない。温度は28度と27度の差 は「1度」、-5度と-4度の差も同じ「1度」 比率尺度・・・ 間隔にも意味があり、「0」が存在する。長さ「0m」、重さ「0g」は長さ も重さも「何もない」という意味での「0」が存在する。事実上での負の 値はない
“データ”の基礎「4つの尺度」 例:マラソン大会でのデータ 間隔尺度 名義尺度 順序尺度 比率尺度 ※好感度はそれぞれの選手の好感度を1~5段階評価して平均したもの。
平均値・分散・標準偏差 代表値 平均値・・・ データの総和をデータ数の総和で割ったもので、データの中心を示す 最も一般的な代表値 中央値・・・ データを最大値から最小値まで並べた中での一番中心の値 それぞれの値の間隔の大きさに関わらず、その順序に着目した値 中央値を境に上下半分ずつデータがあることを示す データが左右対称でない場合は平均値よりも中央値の方が優れている 最頻値・・・ 文字通り最も頻繁に出現する値のこと
平均値・分散・標準偏差 例: 15名の対象にある企業のイメージを5段階評価で評価してもらった 一つのデータでも、用いる代表値によって、値が変わってきます。 それぞれの代表値の特徴をとらえて、適切なものを用いましょう。
平均値・分散・標準偏差 散布度 • データのバラツキ具合を示す • 代表値ではデータの「見た目」を示すとすると、散布度はデータの「質、中身」を示した値といえる • 散布度を見ることで、それが実際にはどんなデータなのかを知ることができる重要な値
平均値・分散・標準偏差 偏差・・・ 平均と個々のデータの差 分散・・・ 偏差を二乗して合計し、データ数で割ったもの データのバラツキを示すが、算出した値が元のデータの範囲よりも大きい 場合があり、直感的にわかりずらい 標準偏差・・・ 分散の平方根。値の範囲を分散からもとのデータの範囲に戻したもの 平均値から±どれくらいの範囲にデータが散らばっているかを示す 標準偏差が大きいほどバラツキが大きく、小さいほどバラツキが少ない つまり、標準偏差が大きいデータの平均値はたまたまその値になっただけ の可能性が大きくて信用できない
平均値・分散・標準偏差 偏差 平均=53.6 分散=774 標準偏差=27.8 平均が「53.6」に対して、バラツキを見ようと思ったときに分散をみると「774」と値の範囲が元の単位と異なる為、分かりづらい。 そこで、標準編差を用いると「27.8」なので、このデータは平均の「53.6」を中心に「±27.8」の範囲に大体のデータが散らばっていることがわかる。
平均値・分散・標準偏差 演習 このデータの 平均、標準偏差を計算してみましょう
検定と分析 • まずは、検定と分析の違いについてです。t検定、χ2検定、分散分析、回帰分析、因子分析・・・など、統計の中では、「検定」と「分析」がある 大まかな違いとしては、 • 検定は「データの差を比較するもの」 • 分析は「データを使って、新しく何かを見るもの」 • 「検定は答えが1つ」、「分析は様々な答えがある」とも言える
検定 • 検定では、それぞれの「統計量」という値を算出して、それを「境界値(臨海値)」と比較することによって、それぞれのデータに「差があるかどうか」を検討し、データに「有意な差がある」という統計的な裏付けをとることが検定の役割 • 有意な差(有意差)とは、「統計的に意味のある差」を指す • 「有意差あり」となった場合は、「このデータの差は偶然ではなく、何かしらの要因に基づいてこういう差がある」と解釈する • 「有意差なし」となった場合は、「今回差があるように見えるのは偶然で、本来は差がない」という解釈となる
検定 帰無仮説と対立仮説(研究仮説) • 検定を行う上では「帰無仮説」と「対立仮説」が存在する。そしてそれは基本的にすべての検定に共通である • 帰無仮説は「無に帰る」仮説で、棄却することを前提とした「比べる群に有意な差はない」という意見を支持する仮説 • 対立仮説は、「比べる群に有意な差がある」という意見を支持する仮説 帰無仮説・・・ 有意差はない(今回偶然こういう結果になっただけ) 対立仮説・・・ 有意差がある(偶然ではなく、何かしらの要因によってこう いう結果になった)
検定 統計量 統計量とはt検定でいえば「t値」を指し、それぞれの検定で算出する独自の値のこと。 この値を次の境界値と比べることで、有意差の有無を検討する 境界値(臨界値) それぞれの検定で定められた有意差の有無を分ける境界の値のこと この値と統計量を比べることで、有意差の有無を判断する 第1種の誤り(Type1 error) 本当は差が有意ではないのに、有意であると誤認すること 有意水準(有意確率) 有意水準とは、どれくらいの確率で有意であるかを示す水準のことで、5%水準、1%水準などがある この水準は、上記の第1種の誤りを犯す確率と同義であり、一般的に5%以下で「差がある=有意である」と判断できる
検定 対応のあり・なし • 要因、水準と一緒にもう一つ重要なのが、対応のあり・なしでで、これは平たく言うと同じ人のデータを比べるのか、違う人のデータを比べるのかの違い • 男女や国籍の場合男と女は違う人、日本人、アメリカ人、イタリア人も違う人なので、対応なし • 10人の人に3種類のケーキを食べてもらって、それぞれケーキについて評価したものを比較する場合など、同じ人のデータを比べる場合には対応あり 対応の有無で分析の選択が異なる
t検定 • 2つのデータの平均値の差の検定 平均値に差がある場合に、有意意な差であるかを調べる 結果の記述 t(98) = 2.068, p < .05 [t(df)=t値,有意確率] 例 ある企業の支店間の年間50週の平均売り上げについて、支店Aは500、支店Bは460であった。2つの支店の平均値についてt検定を行った結果、5%水準で有意差がみとめられた(t(98) = 2.068, p < .05)。以上のことから支店Aのほうが平均的に成績が良いことが分かる
t検定の種類 • 得られた標本が既知の平均との差の検定・・・1標本のt検定① データの対応の有無で用いるt検定が異なる • 対応がある場合・・・対応のあるt検定② • 対応がない場合・・・2標本に対するt検定 等分散を仮定できる③ 等分散を仮定できない④ 等分散の仮定については、F検定を用いて確認をする
F検定 2つデータが等分散をなしているかを調べる 結果の記述 F(24,24) = 2.54, p < .05 [F(分子のdf,分母のdf) =F値,有意確率] 例 t検定を行うにあたり、実験群、統制群についてF検定を行ったところ、等分散は認められなかった(F(24,24) = 2.54, p < .05)。
t検定・F検定 演習 t検定、F検定を行ってみましょう
標準化 • どんなデータでも、平均を「0」、標準偏差を「1」にする • 平均と標準偏差を揃えることで、範囲が違うデータでも比べることができる • 例えば、身長と体重を比べる、ドルと円を比べるなど 例:同じケーキを片方は5段階評価、もう一方は7段階評 価で評価した結果を比較する
相関 • 2つのデータの関係の度合いを表す • 例えば、車の売り上げと景気のよさ、その日の気温と飲み物の販売数など • このような片方が上がるともう一方もつられて動くような関係は、あくまでも2つの関連をあらわす指標であって因果関係まではわからない(大まかに推測はできますが) • 車と景気を例にすると、景気が上がったから車が売れたとも、車が売れたから景気が上がったという場合もありえる • 実際には相互に関係している場合がほとんどなので、そういったあたりは状況考察や検定、分析などで明らかにする必要がある
相関 • 相関は相関係数という数値で表す。(記号は「r」) • 範囲は –1~1 正の相関(正の値) • 正の相関とは車の例のように一方が上がればもう一方も上がる、一方が下がればもう一方も下がるといったように、2つの変数が同じ動きをする関係を表す 負の相関(負の値) • 負の相関とは、正の相関とは逆に、一方が上がればもう一方が下がり、一方が下がればもう一方も上がるといった、逆の動きをする関係を表す 無相関(0に近い値) • 2つの変数の動き方に特徴がない関係を表す
相関 相関の強さ • 「0~±0.2」 ・・・ 無相関 • 「±0.2~0.39」 ・・・ 低い相関 • 「±0.4~0.69」 ・・・ 中程度の相関 • 「±0.7~1.0」 ・・・ 高い相関 相関係数が「r=0.9」の場合、「強い正の相関がある」と言える 反対に、「r=-0.5」の場合は「中程度の負の相関がある」となる
相関 • 例 アイスコーヒーの売り上げと関連する情報
相関※値は標準化してあります 正の相関 r=.96 負の相関 r=-.87 無相関 r=.06 正の相関 r=.96
相関 演習 相関係数を求めてみましょう
回帰分析 回帰分析の目的 • データ①とデータ②の関係を調べること • データ①からデータ②を予測する予測式を作ること • いづれも、「回帰式」と呼ばれる式を作って結果を見る 回帰式 • 回帰式①:Y = aX + b ・・・単回帰 • 回帰式②:Y = aX1 + bX2 + C ・・・重回帰
回帰分析 従属変数と独立変数 • 独立変数(X)・・・影響を与えるデータ(予測するための値) • 従属変数(Y)・・・影響を与えられるデータ(予測される値) 単回帰と重回帰 • 単回帰は予測するための値である独立変数が1つ • 重回帰は予測するための値である独立変数が2つ以上 偏回帰係数 • 分析結果で見るべき値は、「係数」と呼ばれる値で、回帰式では「a」 、「b」の部分にあたる。この部分が影響力を示す Y= 0.82X1 + -0.68X2 + 0.2 従属変数 独立変数 偏回帰係数
回帰分析 重決定係数「R2」 • 回帰式がどれくらい当てはまっているかを示す値 • 見方は相関と同じで「0~1」までの範囲で表される • 「1」に近いほど当てはまりがよく、「0」に近いほど当てはまりが悪い。 • ※Cの部分はあまり着目しません
回帰分析 • 単回帰:アイスの売り上げと気温の関係 • Y= 57.544 + 13.857X (R2 = .60)
回帰分析 • 単回帰:アイスの売り上げと気温の関係 Y = -48.004 + 4.449X1 + 458X2 (R2 = .837) Y =0.000 + 0.258X1 + 0.723X2 (R2 = .837)
回帰分析 演習 回帰分析を行ってみましょう
本日のまとめ なぜ統計が必要か? • 科学的な証拠「裏付け」をとる • データを分かりやすくし、ただの集計では見えなかった面を見えるようにする 4つの尺度
本日のまとめ 平均・標準偏差 • 平均値だけでなく、データのバラツキである標準偏差を見ることによって、データの質を理解する t検定 • 比較する平均値を差とみなしてよいのかを確かめる 相関 • 2つの変数の関係性を数値で表す 回帰分析 • 変数間の関係性を予測する式を構成することができる • 単回帰と重回帰があり、重回帰では説明する変数間の影響の度合いなどを比較することができる 統計学を用いることで多角的な視点で 物事をみることができるようになる