500 likes | 763 Views
第 2 章 確率と確率分布. 統計学 2013 年度. Ⅰ 確率の定義 a) 先験的確率 1) 先験的確率の定義 2) 先験的確率の誤用 b) 経験的確率 1) 経験的確率の定義 2) 経験的確率の特徴 c) 主観的確率 1) 主観的確率の定義 2) 主観的確率の特徴 Ⅱ 確率の公理と計算定理 a) 確率の公理 b) 確率の計算定理 加法定理 2 ) 条件つき確率と乗法定理 ☆発展☆ 条件つき確率とベイズの定理 Ⅲ 確率分布 a) 確率変数 b) 確率分布と確率密度
E N D
第2章 確率と確率分布 統計学 2013年度
Ⅰ 確率の定義 a) 先験的確率 1) 先験的確率の定義 2) 先験的確率の誤用 b) 経験的確率 1) 経験的確率の定義 2) 経験的確率の特徴 c) 主観的確率 1) 主観的確率の定義 2) 主観的確率の特徴 Ⅱ 確率の公理と計算定理 a) 確率の公理 b) 確率の計算定理 • 加法定理 2) 条件つき確率と乗法定理 ☆発展☆ 条件つき確率とベイズの定理 Ⅲ 確率分布 a) 確率変数 b) 確率分布と確率密度 c) 期待値と分散 d)2項分布 ◎数学補足 nCxについて e) 正規分布 1) 標準化 2) 標準正規分布
Ⅰ 確率の定義 • 確率 - ある事象が起こるか起こらないか確実には分からないとき、その事象の起こる「確からしさ」を数値で表したもの • 確率の定義には次の3とおりの方法がある。 • 先験的確率 • 経験的確率 • 主観的確率
a) 先験的確率(古典的確率、数学的確率などともいう)a) 先験的確率(古典的確率、数学的確率などともいう) 1) 先験的確率の定義 • ある行動の起こりうる結果が全部でn通りあり、そのうち事象Aにあてはまる結果がa通りあるとする。それらが同様に確からしく、互いに重複しない場合、 を事象Aの確率とする。 (例1) コインを1枚投げたときに表の出る確率 • 起こりうる結果 - 表、裏の2通り(n=2) • 事象A - 表が出る • あてはまる結果 - 1通り(a=1) ⇒
(例2) サイコロを1個投げたときに5以上の目の出る確率(例2) サイコロを1個投げたときに5以上の目の出る確率 • 起こりうる結果 - 1,2,3,4,5,6の6通り(n=6) • 事象A - 5以上の目が出る • あてはまる結果 - 5,6の2通り(a=2) ⇒ • これらの例では、おこりうるすべての結果が分かり、同様に確からしいとみなせるので、実験を実際におこなってみなくても、確率を評価できる。 よって、先験的確率といわれる。
2) 先験的確率の誤用 • 2枚のコインを同時に投げたときに少なくとも1枚が表である確率を考える。 • 起こりうる結果 - 表表、表裏、裏裏の3通り(n=3) • 事象A - 少なくとも1枚が表である • あてはまる結果 - 表表、表裏の2通り(a=2) ⇒ 「ローベルバルの過ち」といわれる問題 • 正しくは次の通り(パスカルがこのように修正した) • 起こりうる結果 - 表表、表裏、裏表、裏裏の3通り(n=4) • 事象A - 少なくとも1枚が表である • あてはまる結果 - 表表、表裏、裏表の3通り(a=3) ⇒ 起こりうる結果が「同様に確からしい」とはいえない
明日、雨が降る確率(降水確率) • 起こりうる結果 - 雨が降る、雨が降らない の2通り(n=2) • 事象A - 雨が降る • あてはまる結果 - 1通り(a=1) ⇒ • 「雨が降る」と「雨が降らない」は同様に確からしいとはいえない。 ⇒ 先験的確率によって確率を定義することの限界
b) 経験的確率 1) 経験的確率の定義 • 同じ条件のもとで繰り返し十分大きい観察がおこなわれたとき、観察総数nの中で、特定の事象Aとなる場合の数がaであったならば、を事象Aの経験的確率という。 (例1) 男児の出産確率 多数の出産例を観察した結果求められたもの。 (例2) 降水確率 同様な天気図(雲の配置など)を多数観察し、それから降水確率を求めている。
2) 経験的確率の特徴 • すべての結果がわからない場合でも確率を求めることができる。 • おこりうるすべての結果が同様に確からしいとはいえない。 • 同じ条件のもとで繰り返し十分大きい観察が不可能な事象については経験的確率が定義できない。
c) 主観的確率 1) 主観的確率の定義 • 事象Aに対する個人の確信の度合いを数値で表したものP(A)を事象Aの主観的確率という。 (例) 日本ダービーでロゴタイプが勝つ確率は60%である。 ⇒ 競馬には対戦相手、枠順、血統、騎手、馬の調子、ローテーション、馬場状態、開催競馬場などの条件がある。これら同一の条件で、繰り返し十分な観察をすることは不可能である。
2) 主観的確率の特徴 • 主観的確率は個人の確信によって定まるので、同じ事象に対しても確率の評価は異なる。 ⇒ このことから賭けがはじめて成立する。 (例) 日本シリーズで日本ハムと巨人のどちらが勝つか。 • 日本ハムに賭ける人 - 日本ハムが勝つ確率(主観的確率)が高い。 • 巨人に賭ける人 - 巨人が勝つ確率(主観的確率)が高い。 この両者が存在することによって、初めて賭けが成立する。 全員が「日本ハムが勝つ確率が高い」と思っていたら賭けは成立しない。 しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえる金額が多くなるからである。 ⇒ 期待値の大きさで判断している。
主観的確率 経験的確率 先験的確率
Ⅱ 確率の公理と計算定理 a) 確率の公理 1. どのような事象Aに対しても、確率の値は常に0と1の間の値をとる。すなわち、 2. おこりうる事象全体の集合をSとすれば、Sの確率は1である。 3. A,B,… が同時に起こらない事象(このとき、A,B,… を排反事象という)のとき、A,B,… のいずれかが起こる確率はそれぞれの事象が起こる確率の和に等しい。すなわち
b) 確率の計算定理 • ブランコがホームランを打ち、DeNAが勝つ確率 → A1とB1がともに起きる確率である。これをA1とB1の同時確率といい、P(A1∩B1)とあらわす。(∩は「かつ」(and)を表す記号。capとよぶ。) • ブランコがホームランを打つかどうかに関わらず、DeNAが勝つ確率 → A1が起こるかどうかに関わらず、B1が起きる確率である。これをB1の周辺確率といい、P(B1)とあらわす。
1) 加法定理 (例) ブランコがホームランを打つか、DeNAが勝つ確率 (∪は「または」(or)を表す記号。cupとよぶ。) <排反事象の場合> (例) DeNAが勝つか、引き分ける確率 加法定理 排反事象の場合の加法定理
2) 条件つき確率と乗法定理 • P(E)>0のとき、事象Eの起こることを条件として、事象Fが起こることを、(Eを条件とする)Fの条件つき確率といい、P(F|E)であらわす。 • (例) 袋の中に、赤球3個、白球2個の計5個の球が入っている。この袋から球を続けて2個取り出すとき、2個とも赤球となる確率を考えてみよう。 1個目が赤球となる確率は、 1個目が赤球であったという条件のもとで、2個目が赤球となる確率は、 よって、2個とも赤球となる確率は、 乗法定理 AとBが同時に起こる確率であり、AとBの同時確率といわれる。 1個目も2個目も赤球である確率。 1個目の球が赤球であったという条件のもとで、2個目の球も赤であるという条件付き確率 1個目の球が赤球である確率
(例) ブランコがホームランを打ったときに、DeNAが勝つ確率(例) ブランコがホームランを打ったときに、DeNAが勝つ確率 ⇒ A1を条件とするB1の条件つき確率P(B1|A1)である。 この条件つき確率を用いて、ブランコがホームランを打ち、DeNAが勝つ確率を考えると、乗法定理により となる。よって条件つき確率P(B1|A1)は同時確率を周辺確率で割ることによって求めることができ、 となる。
<独立事象の乗法定理> • 事象Eが起こっても起こらなくても事象Fの確率に変化がないとき、すなわちP(F|E) = P(F|Ec) = P(F)のとき、事象Eと事象Fは独立であるという。( EcはEが起こらないという状況をあらわす) • この例で雨が降った場合の白鵬が勝つ条件つき確率は • 雨が降らない場合の白鵬が勝つ条件つき確率は • となり、 P(B1|A1) = P(B1|A2) = P(B1)であることから、雨が降るか降らないかと、白鵬が勝つか負けるかは独立である。 • 事象Eと事象Fが独立である場合、乗法定理は • となる。
☆発展☆ 条件つき確率とベイズの定理 • (例) 5本中2本の当たりのあるくじを、5人で順番に引く。2番目に引く人があたりくじを引く確率は? • ⇒ この問題に答えるときに、条件つき確率と乗法定理が用いられている。 • (解) 1番目の人 当たり A1はずれ A2 • 2番目の人 当たり B1はずれ B2 • とする。 • 1番目の人が当たりとわかったあとで、2番目の人も当たりくじを引く確率は • ○××× ○
1番目の人がはずれとわかったあとで、2番目の人が当たりくじを引く確率は1番目の人がはずれとわかったあとで、2番目の人が当たりくじを引く確率は ○○×× よって、2番目の人が当たりくじを引く周辺確率は となる。(これは1番目の人がくじを引く前の確率と考えられる) ×
さらに、次のようなことを考える。 (例) 2番目に引く人があたりくじを引いたとき、1番目に引いた人があたりを引いた確率は? (解) 2番目に引く人があたりを引いたという条件のもとで、1番目の人があたりを引く条件つき確率なので を求めればよい。 この条件つき確率は として求めることができる。
これはさらに と変形することによって、 と計算できる。
※ ベイズの定理 • 条件つき確率P(A1|B1)は、周辺確率P(A1)と条件つき確率P(B1|A1)を用いて次のように求めることが可能であった。 • この定理をベイズの定理 という。 • ベイズの定理は、A1についての事前確率P(A1)が事象B1がおこったことによって、事後確率P(A1|B1)に更新されたと解釈することができる。 • (ここでは、1番目の人が当たりを引いた確率が、2番目の人が当たりくじを引いたことがわかることによって更新される) • この考え方は、迷惑メールのフィルタなどにも応用されている。
次のような例を考えてみよう (森田優三(1993)『新統計概論』p.361より引用)次のような例を考えてみよう (森田優三(1993)『新統計概論』p.361より引用) • (例) ある銀行で貸出金が貸倒れ(返済されないこと)になる確率は5%である。あるとき、この銀行が新しい審査基準を設けた。この審査基準を過去の借り手に適用すると、貸倒れにおわった借り手の20%はこの審査に合格、順当に返済した借り手は90%が合格であった。この審査に合格した新しい借り手が貸倒れにおわる確率はいくらか。 • (解) 貸出金が 貸倒れ A1完済 A2 • 審査に 合格 B1不合格 B2 • とする。 • 求める確率はP(A1|B1)である。
例の設定から次のようなことがわかる P(A1)=0.05、P(A2)=0.95 P(B1|A1)=0.2、P(B1|A2)=0.9 ベイズの定理を用いてP(A1|B1)を求めると となる。貸倒れの事前確率P(A1)= 0.05が審査という追加情報によって、 P(A1|B1)=0.012という事後確率に更新されたと解釈できる。
Ⅲ 確率分布 a) 確率変数 • サイコロを3回振る実験を考える。 • 1の目が出た場合を○、1の目以外が出た場合を×とあらわすと、起こりうる結果は ○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ××× の8通りである。
ここで、1の目が何回出たかによって分類するなら右図のようになる。ここで、1の目が何回出たかによって分類するなら右図のようになる。 • 2回目に振ったサイコロの目は1回目に振ったさいころの目とは独立であるので、独立事象の乗法定理が用いられる。
1の目が出た回数を x 回とし、それに対応する確率を P(x) とあらわすと、次のように整理できる。 • このようにとりうる値†のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。 • 連続変数の場合はその値を含む微小な区間を考える。
x b) 確率密度 • 右の図のようなルーレットがある。 • xは連続変数なので、0から359までの360通り以外に、42.75, 108.268 などとりうる値が無限にある。 • そのため、P(x=60)の確率を求めることはできない ルーレットの針と真上とのなす角をx度とする。ここで、x=60度となる確率を考えると、
連続型確率変数の場合には、x=60といった確率を求めることはできないので、代わりにといった微小区間に入る確率を考える。連続型確率変数の場合には、x=60といった確率を求めることはできないので、代わりにといった微小区間に入る確率を考える。 • この確率を確率密度という。 • 連続型確率変数の確率分布は、確率密度を線で結んだ密度関数 f(x)によってあらわす。(グラフの場合も、数式の場合もある) • ルーレットの例の場合の密度関数は次のようになる。 f(x) 1/360 360 0
c) 期待値と分散 • 右のような確率で賞金がもらえるくじがあったとする。 • このくじを1枚購入した時点で、いくらの賞金がもらえるかはわからない。 • しかし、大体いくらぐらいもらえるかを知りたい。 • そのとき、 もらえる金額×当たる確率 の総和がもらえると期待できる金額となる。 50(円) このくじの期待値は50(円)であるという
このことは、次のように考えることができる。このことは、次のように考えることができる。 • 主催者が、全部で5万本のくじを作成したとする。当たる確率を考えると、このときくじの中に、1等を1本、2等を50本、3等を5000本入れる必要がある。このくじが、全部で5万本あったとすると、右のような度数分布表であらわすことができる。 • ある人がこのくじを5万本全部買い占めたとする。くじの当選番号が発表された後で当選金の払い戻しを受ける場合、その合計金額は確実に2500000(円)であり、1枚あたりの当選金(すなわち算術平均)を考えると、2500000÷50000=50(円)であり、期待値に一致する。 期待値=確率変数の算術平均 † このことから、期待値のことを、「平均」「平均値」などと呼ぶこともある。
サイコロを3回振る実験で1の目が出た回数をxとするなら、xの期待値はサイコロを3回振る実験で1の目が出た回数をxとするなら、xの期待値は となり、1の目が出る回数の期待値は0.5回である。 • またサイコロを6回振る実験をおこなうと となるので、 1の目が出る回数の期待値は となり、6回ふれば1の目が1回ぐらい出るという直感に一致する。
期待値はとあらわすことができる。 • 分散は となる。 • 連続型確率変数の場合は となる。
確率分布は、いくつかの種類に分類することができる。確率分布は、いくつかの種類に分類することができる。 • 離散型確率分布 2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・ • 連続型確率分布 正規分布、t分布、カイ2乗分布、・・・ d) 2項分布 [定義] 起こりうる結果がAかBかという2つの結果しか起こらない試行† をn回繰り返したとき、Aという結果がx回おこったとする。このxの確率分布を2項分布という。 • このような試行をベルヌーイ試行という [分布関数]Aが起こる確率をp、Bが起こる確率をq(=1-p)とすると、2項分布は p(x)=nCxpxqn-x という式であらわすことができる。この式を2項分布の分布関数という。
(例) サイコロを3回振る実験では、A(1の目が出る)かB(1の目が出ない)かという2つの結果しか起こらない試行をn(=3)回繰り返したとき、A (1の目が出る)という結果がx回おこった。このxの確率分布は2項分布(にしたがう)といわれる。 • この例では、 であるので、分布関数にあてはめると、 となる。 • xのとりうる値は0,1,2,3の4つであるので、この分布関数は次のような関係を表している。
◎数学補足 nCxについて • nCxはn個の中からx個を選ぶ組み合わせの数であり、次のように定義される。 • ここで、!は階乗を表す記号であり、次のようなものである。 n! = n ×(n-1)×・・・×2×1 よって、nCxは次のように計算できる。 x個 x個
たとえば、5人の班の中から2人の委員を選ぶ組み合わせはたとえば、5人の班の中から2人の委員を選ぶ組み合わせは となる。 • サイコロを3回振る実験において、1の目が1回出るパターンは、 ○××, ×○×, ××○の3通りあるが、これはサイコロを振る3回のうち、何回目に1の目が出るかを考えたものであり、 である。 • また、nC0は定義のように計算できないので、 nC0=1と特別に定義する。
[期待値と分散] 2項分布の期待値(平均)は E(x)=np 分散は V(x)=npq となる。 • 離散型確率変数の期待値は、一般に によって求めることができるので、 となる。 • 確率変数が2項分布にしたがう場合、期待値は として求めることができる。すなわち、すべてのとりうる値と対応する確率が得られなくても、期待値が計算できるのである。 • この例の場合 となる。 • また分散は、 となる。
e) 正規分布 • 2項分布において、nを大きくしていくと、左右対称のつりがね型の正規分布といわれる分布に近づく。 • 2項分布は離散型確率変数の分布であるが、nを無限に大きくしたとき、xのとりうる値は無限に大きくなる。すなわちxは連続型確率変数として扱われる。
正規分布は数学的に望ましい性質を持った分布正規分布は数学的に望ましい性質を持った分布 • 身長や知能指数などがこの分布にしたがうといわれている。 • 密度関数 (自然対数の底) 正規分布の平均は、分散は
正規分布は平均μ、分散σ2の値によって、中心の位置や山の高さが変わってくる。正規分布は平均μ、分散σ2の値によって、中心の位置や山の高さが変わってくる。 <平均の異なる正規分布>
<分散の異なる正規分布> • これらの正規分布は、中心の位置を移動させたり、目盛りの幅を変える(横に伸ばしたり、縮めたりする)ことによって、全て同じ正規分布となる。
1) 標準化 • A君は、あるテストで英語が90点、数学が65点であった。 ⇒ 英語の方が数学より成績が良かった?? • 英語の平均点が80点、数学の平均点が50点だった。⇒ 英語は平均点より10点高い、数学は平均点より15点高い。数学の方が良い?? • 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準化の必要性(これを応用したものが偏差値)
英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。英語が平均80、標準偏差10の正規分布、数学が平均50、標準偏差20の正規分布にそれぞれしたがうとする。 • 平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。
標準化は次のような変換である。 • この例で、英語は(90-80)/10=1 数学は(65-50)/20=0.75 となり英語の方が成績が良いことになる。 • 偏差値は、このzを用いて 50+10×z で求められる。この人の英語の偏差値は60、数学の偏差値は57.5である。
2) 標準正規分布 • 正規分布にしたがう変数について、このような変換をおこなうと、標準正規分布(平均0、分散1の正規分布)になる。 • 標準正規分布では±1の範囲に68.3%、±2の範囲に95.4%、±3の範囲に99.7%が含まれる。