600 likes | 685 Views
3. 統計的推定. 保健統計 2011 年度. Ⅰ 母集団と標本 a) 標本調査の利点 b) 標本調査における誤差 Ⅱ 確率と確率分布 a) 確率の公理 b) 確率の計算定理 加法定理 条件つき確率と乗法定理 c) 確率分布 確率変数 期待値と分散 2 項分布 正規分布 Ⅲ 統計的推定 a) 標本平均の標本分布 b) 点推定 c) 区間推定 1) 母平均の区間推定 ⅰ) 中心極限定理 ⅱ) 母分散が既知の場合の区間推定 ⅲ) 母分散が未知の場合の区間推定 2) 母比率の区間推定 ⅰ) 標本比率の標本分布
E N D
3. 統計的推定 保健統計 2011年度
Ⅰ 母集団と標本 a) 標本調査の利点 b) 標本調査における誤差 Ⅱ 確率と確率分布 a) 確率の公理 b) 確率の計算定理 • 加法定理 • 条件つき確率と乗法定理 c) 確率分布 • 確率変数 • 期待値と分散 • 2項分布 • 正規分布 Ⅲ 統計的推定 a) 標本平均の標本分布 b) 点推定 c) 区間推定 1) 母平均の区間推定 ⅰ) 中心極限定理 ⅱ) 母分散が既知の場合の区間推定 ⅲ) 母分散が未知の場合の区間推定 2) 母比率の区間推定 ⅰ) 標本比率の標本分布 ⅱ) 母比率の区間推定
Ⅰ 母集団と標本 母集団(個体数N) 標本(個体数n) × × × × × × × × × × • ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
標本調査の例として次のようなものが挙げられる。標本調査の例として次のようなものが挙げられる。 • 労働力調査(完全失業率はこの調査の結果求められる) ⇒ 全国の15歳以上(約1億1千万人)の母集団から、約10万人を標本として選ぶ調査 • 内閣支持率調査などの世論調査 ⇒ 全国の有権者(20歳以上の日本国民)(約1億人)の母集団から、約1000人(新聞社のおこなう内閣支持率調査の場合) その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。
a) 標本調査の利点 標本調査をおこなうメリットとして、次のようなことが挙げられる。 • 費用・時間の削減 → 調査票を配布回収する調査では、調査票の印刷費、集計にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。 • 得られる情報の増加、精度の向上 → 調査には調査員が使われることが多いが、ベテランの調査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。 • 全数調査が不可能な場合にも調査可能 → ガラスの耐久性についての品質管理を調査するなどの場合、全数調査をおこなうことは不可能である。
b) 標本調査における誤差 標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の2つの種類のものが組み合わさったものである。 • 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能 • 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 統計理論によりコントロール可能 • 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題
<野田内閣発足直後の支持率の例> 母集団(有権者1億人) × × 標本1(朝日1051人) 53% × ×× ×× ×× × × × 標本2(読売1100人) 65% × × 標本3(毎日1001人) 56% 2011年9月4日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。 同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。 これが、標本の偏りである。 × × 標本4(日経954人) 67% × × 標本5(共同1014人) 62%
Ⅱ 確率と確率分布 a) 確率の公理 1. どのような事象Aに対しても、確率の値は常に0と1の間の値をとる。すなわち、 2. おこりうる事象全体の集合をSとすれば、Sの確率は1である。 3. A,B,… が同時に起こらない事象(このとき、A,B,… を排反事象という)のとき、A,B,… のいずれかが起こる確率はそれぞれの事象が起こる確率の和に等しい。すなわち
b) 確率の計算定理 • 松中がホームランを打ち、ホークスが勝つ確率 → A1とB1がともに起きる確率である。これをA1とB1の同時確率といい、P(A1∩B1)とあらわす。(∩は「かつ」(and)を表す記号。capとよぶ。) • 松中がホームランを打つかどうかに関わらず、ホークスが勝つ確率 → A1が起こるかどうかに関わらず、B1が起きる確率である。これをB1の周辺確率といい、P(B1)とあらわす。
1) 加法定理 (例) 松中がホームランを打つか、ホークスが勝つ確率 (∪は「または」(or)を表す記号。cupとよぶ。) <排反事象の場合> (例) ホークスが勝つか、引き分ける確率 加法定理 排反事象の場合の加法定理
2) 条件つき確率と乗法定理 • P(E)>0のとき、事象Eの起こることを条件として、事象Fが起こることを、(Eを条件とする)Fの条件つき確率といい、P(F|E)であらわす。 • (例) 袋の中に、赤球3個、白球2個の計5個の球が入っている。この袋から球を続けて2個取り出すとき、2個とも赤球となる確率を考えてみよう。 1個目が赤球となる確率は、 1個目が赤球であったという条件のもとで、2個目が赤球となる確率は、 よって、2個とも赤球となる確率は、 乗法定理 1個目 2個目
(例) 松中がホームランを打ったときに、ホークスが勝つ確率(例) 松中がホームランを打ったときに、ホークスが勝つ確率 ⇒ A1を条件とするB1の条件つき確率P(B1|A1)である。 この条件つき確率を用いて、松中がホームランを打ち、ホークスが勝つ確率を考えると、乗法定理により となる。よって条件つき確率P(B1|A1)は同時確率を周辺確率で割ることによって求めることができ、 となる。
<独立事象の乗法定理> • 事象Eが起こっても起こらなくても事象Fの確率に変化がないとき、すなわちP(F|E) = P(F|Ec) = P(F)のとき、事象Eと事象Fは独立であるという。( EcはEが起こらないという状況をあらわす) • この例で雨が降った場合の白鵬が勝つ条件つき確率は • 雨が降らない場合の白鵬が勝つ条件つき確率は • となり、 P(B1|A1) = P(B1|A2) = P(B1)であることから、雨が降るか降らないかと、白鵬が勝つか負けるかは独立である。 • 事象Eと事象Fが独立である場合、乗法定理は • となる。
c) 確率分布 1) 確率変数 • サイコロを3回振る実験を考える。 • 1の目が出た場合を○、1の目以外が出た場合を×とあらわすと、起こりうる結果は ○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ××× の8通りである。
ここで、1の目が何回出たかによって分類するならここで、1の目が何回出たかによって分類するなら • 2回目に振ったサイコロの目は1回目に振ったさいころの目とは独立であるので、独立事象の乗法定理が用いられる。
1の目が出た回数を x 回とし、それに対応する確率を P(x) とあらわすと、次のように整理できる。 • このようにとりうる値†のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。 • 連続変数の場合はその値を含む微小な区間を考える。
右のような確率で賞金がもらえるくじがあったとする。右のような確率で賞金がもらえるくじがあったとする。 このくじを1枚購入した時点で、いくらの賞金がもらえるかはわからない。 しかし、大体いくらぐらいもらえるかを知りたい。 そのとき、 もらえる金額×当たる確率 の総和がもらえると期待できる金額となる。 2) 期待値と分散 このくじの期待値は50(円)であるという
このことは、次のように考えることができる。このことは、次のように考えることができる。 • 主催者が、全部で5万本のくじを作成したとする。当たる確率を考えると、このときくじの中に、1等を1本、2等を50本、3等を5000本入れる必要がある。このくじが、全部で5万本あったとすると、下のような度数分布表であらわすことができる。 • ある人がこのくじを5万本全部買い占めたとする。くじの当選番号が発表された後で当選金の払い戻しを受ける場合、その合計金額は確実に2500000(円)であり、1枚あたりの当選金(すなわち算術平均)を考えると、2500000÷50000=50(円)であり、期待値に一致する。 期待値=確率変数の算術平均 † このことから、期待値のことを、「平均」「平均値」などと呼ぶこともある。
サイコロを3回振る実験で1の目が出た回数をxとするなら、xの期待値はサイコロを3回振る実験で1の目が出た回数をxとするなら、xの期待値は となり、1の目が出る回数の期待値は0.5回である。 • またサイコロを6回振る実験をおこなうと となるので、 1の目が出る回数の期待値は となり、6回ふれば1の目が1回ぐらい出るという直感に一致する。
期待値は とあらわすことができる。期待値は とあらわすことができる。 • 分散は となる。 • 連続型確率変数の場合は となる。
確率分布は、いくつかの種類に分類することができる。確率分布は、いくつかの種類に分類することができる。 • 離散型確率分布 2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・ • 連続型確率分布 正規分布、t分布、カイ2乗分布、・・・ 3) 2項分布 [定義] 起こりうる結果がAかBかという2つの結果しか起こらない試行† をn回繰り返したとき、Aという結果がx回おこったとする。このxの確率分布を2項分布という。 • このような試行をベルヌーイ試行という [分布関数]Aが起こる確率をp、Bが起こる確率をq(=1-p)とすると、2項分布は p(x)=nCxpxqn-x という式であらわすことができる。この式を2項分布の分布関数という。
(例) サイコロを3回振る実験では、A(1の目が出る)かB(1の目が出ない)かという2つの結果しか起こらない試行をn(=3)回繰り返したとき、A (1の目が出る)という結果がx回おこった。このxの確率分布は2項分布(にしたがう)といわれる。 • この例では、 であるので、分布関数にあてはめると、 となる。 • xのとりうる値は0,1,2,3の4つであるので、この分布関数は次のような関係を表している。
◎数学補足 nCxについて • nCxはn個の中からx個を選ぶ組み合わせの数であり、次のように定義される。 • ここで、!は階乗を表す記号であり、次のようなものである。 n! = n ×(n-1)×・・・×2×1 よって、nCxは次のように計算できる。 x個 x個
たとえば、5人の班の中から2人の委員を選ぶ組み合わせはたとえば、5人の班の中から2人の委員を選ぶ組み合わせは となる。 • サイコロを3回振る実験において、1の目が1回出るパターンは、 ○××, ×○×, ××○の3通りあるが、これはサイコロを振る3回のうち、何回目に1の目が出るかを考えたものであり、 である。 • また、nC0は定義のように計算できないので、 nC0=1と特別に定義する。
[期待値と分散] 2項分布の期待値(平均)は E(x)=np 分散は V(x)=npq となる。 • 離散型確率変数の期待値は、一般に によって求めることができるので、 となる。 • 確率変数が2項分布にしたがう場合、期待値は として求めることができる。すなわち、すべてのとりうる値と対応する確率が得られなくても、期待値が計算できるのである。 • この例の場合 となる。 • また分散は、 となる。
4) 正規分布 • 2項分布において、nを大きくしていくと、左右対称のつりがね型の正規分布といわれる分布に近づく。 • 2項分布は離散型確率変数の分布であるが、nを無限に大きくしたとき、xのとりうる値は無限に大きくなる。すなわちxは連続型確率変数として扱われる。
正規分布は数学的に望ましい性質を持った分布正規分布は数学的に望ましい性質を持った分布 • 身長や知能指数などがこの分布にしたがうといわれている。 • 密度関数
正規分布は平均μ、分散σ2の値によって、中心の位置や山の高さが変わってくる。正規分布は平均μ、分散σ2の値によって、中心の位置や山の高さが変わってくる。 <平均の異なる正規分布>
<分散の異なる正規分布> • これらの正規分布は、中心の位置を移動させたり、目盛りの幅を変える(横に伸ばしたり、縮めたりする)ことによって、全て同じ正規分布となる。
<標準化と標準正規分布> • A君は、あるテストで英語が90点、数学が65点であった。 ⇒ 英語の方が数学より成績が良かった?? • 英語の平均点が80点、数学の平均点が50点だった。⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? • 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準化の必要性(これを応用したものが偏差値)
英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。 • 平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。
標準化は次のような変換である。 • この例で、英語は(90-80)/10=1 数学は(65-50)/20=0.75 となり英語の方が成績が良いことになる。 • 偏差値は、このzを用いて 50+10×z で求められる。この人の英語の偏差値は60、数学の偏差値は57.5である。
<標準正規分布> • 正規分布にしたがう変数について、このような変換をおこなうと、標準正規分布(平均0、分散1の正規分布)になる。 • 標準正規分布では±1の範囲に68.3%、±2の範囲に95.4%、±3の範囲に99.7%が含まれる。
Ⅲ 統計的推定 a) 標本平均の標本分布 • 標本調査をおこなう場合、通常は1つの標本についての特性値(標本平均や標本平均など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。 • しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。
500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全てから標本平均が計算でき、その分布を考えることができる。500人受講している科目の採点に、25人だけ採点して全体の平均点を推定しようとするとき、25人の組み合わせ全てから標本平均が計算でき、その分布を考えることができる。 • 一般にN個の母集団からn個の標本を選ぶ組み合わせの数はNCnとあらわすことができる。
<簡単な例> 中国地方5県の乗用車登録台数(2010年4月末現在、軽自動車除く)は次のようになっている。(単位: 台) これを10万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと となる。 母平均、母分散は 出典: 中国運輸局『管内保有車両数』
この5県を母集団とし、その中から2県を選んで標本とすると、選び方は5C2=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。この5県を母集団とし、その中から2県を選んで標本とすると、選び方は5C2=10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。
次に標本平均の平均と分散について考えよう。次に標本平均の平均と分散について考えよう。 標本平均の度数分布表から、次のように計算できる。 ※ 度数分布表からの平均の計算は、(度数×階級値)の総和を度数の合計で割れば良い 10
なお、この分散の式は計算式であり、次のようにして求めたものである。 ※ 分散については、{度数×(階級値-平均)2}の総和を度数の合計で割ったものとなる
標本平均の平均、分散と、母平均、母分散の関係として標本平均の平均、分散と、母平均、母分散の関係として が成り立つ。分散に関しては である。この例では、 ※全国規模の統計調査などを考えた場合、母集団の大きさNは非常に大きいので、 は1に近くなり、 とみなせる。 視聴率調査の場合、関東地区1580万世帯から600世帯を選ぶので
<補足> 母分散σ2について、ここでは個々の値から平均を引いたものを2乗して加え、個数で割った。すなわち、 とした。 教科書の分散の定義によると、この分母は5-1=4になるはずである。 この教科書の定義は標本不偏分散といわれることもあり、あとで説明する「母分散がわからない場合の区間推定」をおこなうときに、計算が簡単になる。
標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。標本から計算された1つの数値によって、母集団の数値を推定することを点推定という。 たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。 ただし、一般に t≠θである。 b) 点推定 母平均μ 母分散σ2 標本平均x 標本分散s2 推論 母数θ 標本統計量t
c) 区間推定 • 点推定で母数θをピタリと推定することは難しい。そのため、標本統計量tの近くの区間を設定し、その区間内に母数θが含まれることを推定する。これを区間推定という。 ※ たとえば、日本全国全世帯の家計の平均年収を知りたいとき、1万世帯を標本として調査し、500万円という標本平均を得たとする。この500万円±10万円という区間をとればよいのか、±30万円という区間を取ればよいのかを考えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性に劣る) 1) 母平均の区間推定 ⅰ) 標本平均の標本分布の形状 の標本分布について、 が成り立っていた。母集団の個体数が十分大きいとき、 が成り立つ
次に、標本平均 の分布がどのような形になるのか考えてみよう。 次に、標本平均 の分布がどのような形になるのか考えてみよう。 ア) 母集団の分布が正規分布の場合 母集団が平均μ、分散σ2の正規分布にしたがっているとする。 標本平均 は であり、正規分布にしたがう変数の和(をnという定数で割ったもの)となっている。 したがって、正規分布の再生性†より、 は正規分布にしたがう。 † 確率変数XとYがそれぞれN(μx,σ2x), N(μy,σ2y) にしたがうとき、その1次結合α X+βY はN(αμx+βμy,α2σ2x+β2σ2y)にしたがう。これを正規分布の再生性という。
イ) 母集団の分布が正規分布ではない場合 イ) 母集団の分布が正規分布ではない場合 母集団の分布が正規分布でない場合でも、標本の個体数 n が大きいとき、次のような定理によって標本平均 の分布は正規分布となる。 <中心極限定理> 算術平均μ, 分散σ2をもつ母集団からとられた大きさ n の標本の平均 の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ, )に近づく。 ※ 以上 ア), イ) より、nが大きい時には母集団の分布にかかわらず、標本平均 の分布は正規分布となり、標準化された変数 の分布は、標準正規分布 N(0, 1) に近づく。
ⅱ) 母分散が既知の場合の区間推定 標準正規分布にしたがう変数が、-1.96と1.96の間の値をとる確率は95%である。よって、 はnが大きいときには、中心極限定理により標準正規分布にしたがうので、 となる。この式のカッコ内を変形すると となり、標本平均 は の区間内に95%の確率で含まれる。
標準化 の分布 zの分布 また のカッコ内は次のようにも変形できる。 μ -1.96 0 1.96
と は次のようなことを意味している。 と は次のようなことを意味している。 μ × × ×
を中心に、 という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 を中心に、 という区間を考えると、とりうる標本のうち95%がこの区間内に母平均μを含む。 • このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。 • この場合、 はμの信頼係数95%の信頼区間である。