220 likes | 352 Views
20 1 0年度 統計学講義内容. 担当者 河田正樹 E-mail kawada@tokuyama-u.ac.jp. このスライドの内容. 統計学とはどのようなものか データの収集、分析をおこなう統計学は、学問として存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。 経済学と統計学 経済学部という文系の学部で、統計学という数学のようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。. 統計学とはどのようなものか.
E N D
2010年度統計学講義内容 担当者 河田正樹 E-mailkawada@tokuyama-u.ac.jp
このスライドの内容 • 統計学とはどのようなものか データの収集、分析をおこなう統計学は、学問として存在しているばかりでなく、日常生活の中で無意識のうちにその考え方が用いられているものである。 • 経済学と統計学 経済学部という文系の学部で、統計学という数学のようなものはあまり関係ないように思われる。しかし、経済学を学ぶ上で、統計学は非常に重要なものであり、現実経済の把握や将来の予測には統計学が必ず用いられる。
統計学とはどのようなものか 経験の浅い者が、豊富な経験を持つものに対抗しようとするとき、統計学の必要性が生じる。 • 日常生活において、われわれは不確実なことがらにさまざまな情報を用いて、予測し、意思決定をおこなっている。 (例) 駅までバスでいくときには、 〇 通常の所要時間の情報 に加え 〇 曜日、季節、時間帯、天候などによる混雑度の情報 を用いて、所要時間を予測し、行動する。 a) 統計学の考え方
通常の所要時間の情報、混雑度の情報をどのように入手し、どのように利用しているのであろうか?通常の所要時間の情報、混雑度の情報をどのように入手し、どのように利用しているのであろうか? • 普段からよく乗るバスであれば、大体の所要時間を記録(多くの人は脳の中で)している。 • 平均所要時間と最大所要時間を大まかに計算している。 • さらに、曜日・時間帯・天候などで場合分けし、それぞれの場合の平均所要時間と最大所要時間を大まかに計算している。 ⇒ 普段の「経験」は、無意識のうちに「統計学的なものの考え方」を用いているのである。
統計学とは、分析目的に対応してデータを収集し、分析することによって、予測や意思決定のための材料を提供する学問である。統計学とは、分析目的に対応してデータを収集し、分析することによって、予測や意思決定のための材料を提供する学問である。 • 人間の記憶にはあいまいな所がある。事実を正確にとらえるためには、きちんとデータを収集して、平均所要時間を求める(簡単な分析)などの統計学の手法を用いる必要がある。 統計学 予測・ 意思決定 分析目的 データの収集 分析
b) 記述統計と推測統計 データを収集し、分析する統計学の立場には次の2種類が考えられる。 • まず、得られたデータの特徴を何らかの数値(例えば平均)や表・グラフにまとめたりすることが考えられる。 ⇒ 記述統計(または統計的記述)という。 • 次に、データの記述にもとづき、そのデータを生成した集団や構造(これを母集団という)についての推論をおこなうことが考えられる。 ⇒ 推測統計という。
1) 記述統計の例 • 左のグラフは主要死因別死亡数の推移を折れ線グラフであらわしたもの。 • これらから、死因別死亡数が時代とともにどのように変化したかを見ることができる。 「経験」をきちんと整理する
2) 推測統計の例 母集団(個体数N) 母集団 - 知りたい対象の集まり 標本 - 母集団から抜き出されたその一部 × ×× ×× ×× × 標本(個体数n) × ×× × 全数調査 - 母集団の全てについて調査をおこなうこと 標本調査 - 母集団から抜き出された一部について調査をおこなうこと 推論 母平均 μ 母比率 p 標本平均 標本比率 x ˆ p 母数 θ 標本統計量t 標本統計量をもとに、母数についての推論をおこなうのが推測統計である。
晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方のバスの所要時間を知りたいとする。 晴れた日の夕方に走るすべてのバスについて、所要時間のデータを収集することは不可能である。このとき、たとえば10日間に乗ったバスを標本(サンプル)として考える。 母集団(晴れた日の夕方のバス全体) × ×× ×× ×× × 標本(乗ったバス10回) × × 推論 平均所要時間 μ 平均所要時間 x 少ない「経験」をもとに、多くを経験した場合のことを推論する。
3) 推測統計の注意点 • 標本から得た母集団についての情報は、誤差を持っている。 • たとえば、晴れた平日の夕方にAさんとBさんがそれぞれ別の日にバスに乗ってデータ収集をおこなう。 • Aさんは10回乗ったところ、目的地まで平均15分でついた。 • Bさんは運の悪い人で、乗ったバスが信号に何度もつかまり、10回乗ったところ平均時間は20分であった。 母集団(晴れた日の夕方のバス全体) × × 標本1(Aさんの乗ったバス10回) 平均15分 × ×× ×× ×× × × × 標本2(Bさんの乗ったバス10回) 平均20分
⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差がある。 ⇒ 選んだ標本(サンプル)から求めた平均所要時間には誤差がある。 • ⇒ 標本誤差(標本の偏り)の問題 • ※ 内閣発足直後、新聞各社は支持率調査をおこなうが、各社ごとにその結果が異なる。それはこの標本誤差(標本の偏り)の問題による。 • 推測統計では、標本から得られる情報にもとに、確率を用いて、誤差の大きさを評価し、母集団についての情報を推論する。
<鳩山内閣発足直後の支持率の例> 母集団(有権者1億人) × × 標本1(朝日1054人) 71% × ×× ×× ×× × × × 標本2(読売1087人) 75% × × 標本3(毎日1014人) 77% 2009年9月18日付の朝刊各紙に掲載された鳩山内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。 × × 標本4(日経857人) 75% × × 標本5(共同1032人) 72%
推測統計の例 -視聴率- • ドラマやスポーツなどのテレビ番組の視聴率は、ビデオリサーチ社が調査している。 • 全国を各地区に分け、視聴率を調べているが、新聞などで大きく取り上げられるのは、関東地区の結果である。 • 関東地区の場合、約1580万世帯のうち、600世帯を標本(サンプル)として選び調査している。 母集団(1580万世帯) × ×× ×× ×× × 標本(600世帯) × ×× ×
(例) 2010年4月4日放送の「龍馬伝」第14回の視聴率は18.5%であった。 • テレビ局の論理 1580万世帯×0.185 = 292万世帯が視聴している。 視聴率が1%増えるということは、関東地区だけで 1580万世帯×0.01 = 15万世帯増加 全国では4700万世帯×0.01 = 47万世帯(その世帯に住む人数を考えると約100万人の増加) ⇒ 標本誤差を考慮せず、標本から求めた視聴率が母集団から求めた視聴率に等しいとしている。
統計学の論理 標本の600世帯×0.185 = 111世帯が視聴しているということ。 視聴率が1%増えるということは、600世帯×0.01 = 6世帯がたまたまその番組を見ていたことである。 1%程度の視聴率は標本誤差によって変わる可能性がある。
では、標本調査で36.4%という結果を得た場合、母集団の視聴率はどの程度なのだろうか?では、標本調査で36.4%という結果を得た場合、母集団の視聴率はどの程度なのだろうか? ⇒ これに答えるのが統計的推定 • 視聴率35%以上の番組を作った場合、プロデューサーの査定にプラスになるという内規があったとする。しかし、この番組は本当に35%を超えたのだろうか? ⇒ これに答えるのが統計的検定 ※ 2003年10月に発覚した、視聴率操作事件をおこした日本テレビプロデューサーは、視聴率のわずかな差にこだわっていたが、統計学の立場からすると、わずかな差にこだわるのはバカバカしい。
経済学と統計学 • 経済学を学ぶ場合、マクロ経済学やミクロ経済学などの経済理論を学ぶとともに、それらが現実経済と一致するかを検証しなくてはならない。 一致? 現実経済 経済理論
現実経済の状態を把握するために、記述統計が用いられる。現実経済の状態を把握するために、記述統計が用いられる。 • 完全失業率を算出する • 株価の動きをグラフ化する • 所得税減税効果と、消費増大の関係について、回帰分析をおこなう。 → 所得税を○○%引き下げることによって、消費が△△%増大する • さらに、現状把握をもとに予測し、意思決定をおこなうためには、推測統計が用いられる。
完全失業率は、これは日本全国15歳以上(1億人)から10万人を標本として選んだ調査の結果である。この数値が前月と比べて0.1%増えたところで、誤差の範囲内ではないだろうか?完全失業率は、これは日本全国15歳以上(1億人)から10万人を標本として選んだ調査の結果である。この数値が前月と比べて0.1%増えたところで、誤差の範囲内ではないだろうか? • 所得税を○○%引き下げることによって、消費が△△%増大することが回帰分析によってわかった。しかし、この分析は標本にもとづいて分析されたものであり、実際には ± □% の誤差がある。 ⇒ 誤差をふまえたうえでの意思決定が必要
マーケティングと統計学 • マーケティングと統計学は密接な関係がある。 • コンビニなどのPOSシステムのデータは、天候、時間、年齢、性別などによってどのような商品が売れるのかを解析するために用いられている。 • 市場調査のためにアンケートをおこなう場合には、調査対象者をどのぐらいの規模でどのようにして選ぶかなどには統計学の知識が必要不可欠である。(統計的推定に含まれるサンプリング(標本抽出法)の話)
スポーツと統計学 • スポーツの戦術、トレーニング方法などを科学的に解明する場合、統計学の助けが必要となる。 • 野球の戦術において、打率、防御率などはどの選手をどのように起用するか(打順、登板順など)に用いられるし、投手の配球を読む上で統計学は非常に役に立つ。選手の起用に際して、メジャーリーグのアスレチックスを起源とするでは「セイバーメトリクス」という統計的分析手法が出てきており、OPS(On-base Plus Slugging)という出塁率+長打率で求められる指標が、得点との関連が高いことがいわれている。 • トレーニングの面では、2つのトレーニング方法があった場合、どちらがより効果的なトレーニング方法であるかなどは、統計的検定によって検証される。
講義内容 第1章 記述統計の復習 第2章 確率と確率分布 第3章 統計的推定 第4章 統計的検定 第5章 回帰分析入門