1 / 24

第 3 章 統計的推定 (その 2 )

第 3 章 統計的推定 (その 2 ). 統計学  2006 年度 <修正・補足版>. Ⅰ  標本分布 a)  母集団と標本 1)  標本調査の利点 2)  標本調査における誤差 b)  標本平均の標本分布 c)  標本分散の標本分布 Ⅱ  点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ  区間推定 a)  母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b)  母比率の区間推定 標本比率の標本分布 母比率の区間推定 c)  標本数の決定

Download Presentation

第 3 章 統計的推定 (その 2 )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第3章 統計的推定(その2) 統計学 2006年度 <修正・補足版>

  2. Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 • 点推定 • 統計量の特性 • 不偏性 • その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 • 中心極限定理 • 信頼区間 • 母分散が既知の場合の区間推定 • 母分散が未知の場合の区間推定 b) 母比率の区間推定 • 標本比率の標本分布 • 母比率の区間推定 c) 標本数の決定 • 母平均の区間推定における標本数の決定 • 母比率の区間推定における標本数の決定 (その1) (その2)

  3. Ⅲ 区間推定 • 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。 •    の標本分布について、    が成り立っていた。また、母集団の個体数(N)が十分大きいとき、    が成り立つ a) 母平均の区間推定 1) 中心極限定理

  4.   次に、標本平均   の分布がどのような形になるのか考えてみよう。  次に、標本平均   の分布がどのような形になるのか考えてみよう。 ⅰ) 母集団の分布が正規分布の場合    母集団が平均μ、分散σ2の正規分布にしたがっているとする。    標本平均  は    であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。    したがって、正規分布の再生性†より、  は正規分布にしたがう。 † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y)にしたがう。これを正規分布の再生性という。

  5. ⅱ) 母集団の分布が正規分布ではない場合   母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均  の分布は正規分布となる。 <中心極限定理>   算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均  の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ, )に近づく。  ※ 以上ⅰ),ⅱ) より、nが大きい時には母集団の分布にかかわらず、標本平均  の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。

  6. 2) 信頼区間   標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。よって、      はnが大きいときには、中心極限定理により標準正規分布にしたがうので、   となる。この式のカッコ内を変形すると   となり、標本平均  は        の区間内に95%の確率で含まれる。

  7. 標準化     の分布                  zの分布 また                  のカッコ内は次のようにも変形できる。 μ -1.96 0 1.96

  8.                     と                   は次のようなことを意味している。                    と                   は次のようなことを意味している。 μ × × ×

  9.     を中心に、        という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。    を中心に、        という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 • このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 • この場合、             はμの信頼係数95%の信頼区間である。

  10. 3) 母分散が既知の場合の区間推定 (例) 20歳男性の身長を調べるために、100人を標本として選んだところ、標本平均  =170であった。σ=8であるとき、母平均μの95%信頼区間を求めよ。 (解) μの95%信頼区間は     となる。

  11. 4) 母分散が未知の場合の区間推定 信頼区間を求める場合、         が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散σ2が分かっているということは、あまり多くない。 母分散σ2がわからないとき、代わりに標本分散s2を用いる。 このとき、        が自由度n-1のt分布にしたがう。

  12. ※t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。※t分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。 ※ 標本分散s2の代わりに標本不偏分散   を用いれば、      が自由度n-1のt分布にしたがう。

  13. <自由度について>   自由度とは、自由に値を取ることのできる個体数のことである。   この場合は、t統計量の自由度は標本分散 s2の分子に含まれる xiのうち、自由に値を取ることのできる個数である。   なので、x1, …, xn-1は自由に値をとることができるが、xnは   を満たすように決められ、自由度はn-1となる。

  14. 母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、母集団の分散が分からないとき、母平均μの95%信頼区間は、t分布の95%点をt0.95とあらわすと、  となる。 t0.95はt分布表からその値を求める。 ※ より正確には、母集団の分布が正規分布にしたがうとき、        が自由度n-1のt分布にしたがう。   しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、        は近似的に自由度n-1のt分布にしたがうとみなせる。   また、nが十分大きい場合、t分布は正規分布に近づくので、     が正規分布にしたがうと考えることもある。

  15. (例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均  =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。(例) 20歳女性の身長を調べるために、10人を標本として選んだところ、標本平均  =160であった。s=9であるとき、母平均μの95%信頼区間を求めよ。 (解) 自由度10-1=9のt分布のt0.95=2.262なので、 μの95%信頼区間は   となる。

  16.   まず、標本比率  の標本分布を考えよう。   内閣支持率を例にとると、標本比率  とは、標本n人のうちのx人が「内閣を支持する」と答えた割合であり、    である。 b) 母比率の区間推定 1) 標本比率の標本分布  よって  の標本分布を考えるためには、まずxの標本分布を考えればよい。

  17. 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。   また選ばれた人が 「内閣を支持する」人である確率は、母比率pに等しい。   よって、n人の標本を選ぶことは、AかBかという2つの結果しか起こらない試行をn回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは2項分布にしたがう。 • 2項分布の期待値は E(x) = np、分散は V(x) = npq であるので、これを用いて、  の平均、分散を考えてみると、 となる。

  18. また、「内閣を支持する」人を1、「内閣を支持しない」人を0と表すことを考える。n人の標本の中に「内閣を支持する」人はをx人含まれるので、このようにあらわした場合、     は大きさnの標本の平均とみなすことができ、中心極限定理が適用できる。   よって、  の分布は、平均p、分散  の正規分布にしたがう。標準化された変数       は標準正規分布にしたがう。 

  19. 2) 母比率の区間推定         が標準正規分布にしたがうことから、母比率pの 95%信頼区間は              となる。 (例) World Baseball Classic 決勝 日本-キューバ戦の視聴率は43.4% であった。この数値は関東地区の約1600万世帯から600世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の95%信頼区間を求めよう。 (解) pの代わりに   を用いてpの95%信頼区間を計算すると となる。

  20. c) 標本数の決定 WBC決勝戦の視聴率を信頼係数95%で区間推定すると、8%もの幅ができる。そのため、1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。   では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度(どの程度のズレまで許容できるか)を設定し、それに必要な標本数を計算する必要がある。

  21. 1) 母平均の推定における標本数の決定          の許容限度を E とする。      の区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

  22.   となり、   が必要標本数であることが分かる。   これを求めるために、母標準偏差σが必要となるが、標本数を決定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などからσ2の推定値を求め、それを利用する。 (例) ある大都市の大学生の1ヶ月平均生活費を1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。 (解) 信頼係数を95%とすると、必要標本数は   となるので、246人となる。

  23. 2) 母比率の推定における標本数の決定          の許容限度を E とする。 pの区間推定を信頼係数 95% でおこなうとき、  の分布について、   が成り立つので、   となればよい。よって

  24.   となり、   が必要標本数であることが分かる。   これを求めるために、母比率pが必要となる。Pについて何らかの見当がつくなら、その数値を用いるが、pについて何の情報もない場合には   を用いる。なぜなら、     のときに、pqが最大となるからである。 (例) 視聴率調査において、1%以内の誤差で推定するために必要な標本数を求めよ。 (解) 信頼係数を95%とする。また、母比率についてはあらゆる可能性が考えられるので、    とすると、必要標本数は   となるので、9604人となる。

More Related