1.11k likes | 1.33k Views
5. 연 속 확 률 분 포. 1. 균등분포. 2. 지수분포. 3. 감마분포. 4. 웨이블분포. 5. 베타분포. 6. 정규분포. 7. 정규분포에 관련된 연속분포들. 1. 균등분포 ( uniform distribution ). 균등분포의 확률밀도함수와 분포함수 및 평균 , 분산 그리고 균등분포에 대한 백분위수와 사분위수 등에 대하여 알아본다. 1. b - a. f(x) = , a ≤ x ≤ b. x. b - a. b. 1. x 2. a+b. b. b.
E N D
5 연 속 확 률 분 포 1 균등분포 2 지수분포 3 감마분포 4 웨이블분포 5 베타분포 6 정규분포 7 정규분포에 관련된 연속분포들
1 균등분포(uniform distribution) 균등분포의 확률밀도함수와 분포함수 및 평균, 분산 그리고 균등분포에 대한 백분위수와 사분위수 등에 대하여 알아본다.
1 b - a f(x) = , a ≤ x ≤ b x b - a b 1 x2 a+b b b = = m = E(X) = x f(x)dx = dx 2 2 b - a a a a ☞ 1) 확률밀도함수 X ~ U(a, b) ☞ 2) 평균
b b E(X2) x2 f(x)dx = dx a a b 1 x3 a2 +ab + b2 = = 3 3 b - a a s2 = Var(X) = E(X2) – E(X)2 2 a2 +ab + b2 a+b = - 3 2 (b – a)2 = 12 x2 b - a x x P(X ≤ x) = f(x)dx = 0 du = 0 -∞ -∞ ☞ 3) 분산 ☞ 4) 분포함수 x < a인 경우 : x
x P(X ≤ x) = f(x)dx -∞ 1 a x = 0 dx + du x b - a -∞ a x P(X ≤ x) = f(x)dx -∞ 1 x - a x a b x = = 0 dx + du + 0 du b - a b - a -∞ a b = 1 0 , x < a x - a , a ≤ x < b F(x) = P(X ≤ x) = b - a 1 , x ≥ b a ≤ x < b인 경우 : x ≥ b인 경우 : 분포함수 :
☞ 5) 백분위수와 사분위수 0 < p < 1에 대하여 100p-백분위수 xp: [a, b]를 p : 1-p로 내분하는 점xp=(1-p)a + pb 제1사분위수 Q1 = x0.25=0.75a + 0.25b 제2사분위수 Q2 = Me = x0.5=0.5a + 0.5b 제3사분위수 Q3= x0.75=0.25a + 0.75b 사분위수범위 I.Q.R = Q3 - Q1 = x0.75 - x0.25 = 0.5b – 0.5a
1 1 10 f(x) = , 0 < x < 10 10 x 10 x du 0 X ~ U(0, 10)에 대하여 (1) X의 확률밀도함수와 분포함수 (2) X의 평균(m)와 분산(s2) (3) P(m - s < X < m+s ) (4) 사분위수 Q1 , Q2 , Q3 (5) X의 최빈값 Mo = ? (1) X의 확률밀도함수 : X ~ U(0, 10)이므로 X의 분포함수 : 0 , x < 0 0 , x < 0 , 0 ≤ x < 10 , 0 ≤ x < 10 F(x) = P(X ≤ x) = = 1 , x ≥ 10 1 , x ≥ 10
(10 - 0)2 s2 = Var(X) = = 8.3333 12 P(m - s < X < m +s) = = 0.578 5.78 10 0+10 m = E(X) = = 5, 2 1 10 (2) (3) s2 = 8.3333이므로 s = = 2.89 (m - s , m + s) = (5 – 2.89, 5 + 2. 89) = (2.11, 7.89) (4) 제1사분위수 Q1 = (0.75)•0 + (0.25) •(10) = 2.5 제2사분위수 Q2 = (0.5)•0 + (0.5) •(10) = 5.0 제3사분위수 Q3= (0.25)•0 + (0.75) •(10) = 7.5 (5) [0, 10]에서 f(x) =이므로 f(x)의 최대값이 존재하지 않음. X의 최빈값이 없다.
x 0 X ~ U(0, 1)에 대하여 Y = a + (b – a)X (a < b)라 할 때, (1) Y의 분포함수 (2) Y의 확률밀도함수 (3) Y의 평균(m)와 분산(s2) (4) Y의 중앙값 Me = ? (1) X ~ U(0, 1)이므로 X의 분포함수 : 0 , x < 0 0 , x < 0 , 0 ≤ x < 1 x , 0 ≤ x < 1 1 du FX(x) = P(X ≤ x) = = 1 , x ≥ 1 1 , x ≥ 1 한편, y = a + (b – a)x이고0 ≤ x ≤ 1이므로a ≤ y ≤ b
P(Y ≤ y) = P[a + (b – a)X ≤ y] = P X ≤ = F = y - a = b - a y - a 0 , y < a b - a d d , a ≤ y < b dx dx FY(x) = y - a y - a y - a y - a b - a b - a b - a 1 , y ≥ b b - a a ≤ y < b에 대하여 Y의 분포함수 : (2) Y의 확률밀도함수 : 1 fY(y) = FY(y) = = , a ≤ y ≤ b b - a
s2 = Var(Y) = F(y0) = 0.5 = y0 - a b - a a+b Me = y0 = 2 (b – a)2 12 (3) Y ~ U(a, b)이므로 a+b m = E(Y) = 2 (4) Y ~ U(a, b)이므로
2 지수분포 (exponential distribution) 지수분포의 확률밀도함수와 평균, 분산을 비롯한 비기억성 성질 그리고 포아송과정과의 관계에 대하여 알아본다.
f(x) = le-lx , x > 0 , l> 0 l의 비율로 사고가 발생할 때까지 걸리는 시간 또는 비율 l인 포아송과정에 따라 발생하는 사건 사이의 대기시간 등에 응용되는 확률분포를 모수 l인 지수분포라 한다. ☞ 1) 확률밀도함수 X ~ Exp(l)
∞ ∞ ∞ ∞ 0 0 0 0 lx + 1 l2x2 + 2lx + 2 1 2 1 1 2 l l2 l2 l l2 l2 l s2 = Var(X) = E(X2) – E(X)2 2 - = = ☞ 2) 평균 m = E(X) = x f(x)dx = x le-lx dx u = lim - e-lx = u→∞ 0 ☞ 3) 분산 E(X2) = x2 f(x)dx = x2le-lx dx u = lim - e-lx = x→∞ 0
∞ 2 1 0 교차로에서 나타나는 교통사고 발생시간의 간격 X(단위:개월) (1) 사고가 관측된 이후로 한 달이 지난 후에 다음 사고가 발생할 확률 (2) 두 달 안에 사고가 발생할 확률 (3) 한 달을 30일이라 할 때, 평균 몇 일만에 사고가 나는가? f(x) = 3e-3x , x > 0 ∞ (1)P(X > 1) = 3e-3x dx = (-1)e-3x = e-3= 0.0498 1 2 (2)P(X ≤ 2) = 3e-3x dx = (-1)e-3x = 1 - e-6= 0.9975 0 (3) 사고일 수는 모수 l= 3인 기하분포이므로 월평균 사고발생 간격일 수는 m= 1/3, 즉 10일이다.
x x P(X ≤ x) = f(x)dx = 0 dx = 0 -∞ -∞ P(X ≤ x) = f(x)dx -∞ x 0 = 0 dx + le-lu du 0 -∞ x = - e-lu = 1- e-lx 0 ☞ 4) 분포함수 x < 0인 경우 : x x ≥ 0인 경우 : x x
0 , x < 0 F(x) = P(X ≤ x) = 1- e-lx , x ≥ 0 h(x) = =l f(x) S(x) 분포함수 : ☞ 5) 생존함수(survival function) S(x) = P(X > x) = 1 – F(x) = e-lx , x > 0 ☞ 6) 위험률(hazard rate function), 실패율(failure rate function)
f(x) = e-x/600 , x > 0 1 1 600 600 h(x) = l=, x ≥ 0 X ~ Exp(1/600)에 대하여 (1) X의 확률밀도함수와 분포함수를 구하여라. (2) X의 생존함수를 구하여라. (3) X의 위험률을 구하여라. (4) X의 기대값과 분산 X ~ Exp(1/600) 이므로 X의 확률밀도함수 X의 분포함수 ● ● F(x) = 1- e-x /600 , x ≥ 0 X의 생존함수 X의 위험률 ● ● S(x) = e-x/600 , x > 0 X의 평균 X의 분산 ● ● m = 1/ l = 600 s2 = 1/ l2 = 360000
f(x) = e-x/100 , x > 0 1 100 환자의 생존시간 : X ~ Exp(1/100) (1) 이 환자가 150일 이내에 사망할 확률 (2) 이 환자가 200일 이상 생존할 확률 X의 생존함수 X의 분포함수 F(x) = 1- e-x/100 , x ≥ 0 S(x) = e-x/100 , x > 0 (1) 이 환자가 150일 이내에 사망할 확률 : P(X < 150) = F(150) = 1- e-150/100 = 1 – 0.2231 = 0.7769 (2) 이 환자가 200일 이상 생존할 확률 : P(X ≥ 200) = S(200) = e-200/100 = e-2 = 0.1353
정리 1 비기억성 성질(memorylessness property) X ~ Exp(l)에 대하여 다음이 성립한다. P(X > a+b | X > a) = P(X > b) , a, b > 0 P(X > a+b, X > a) P(X > a+b) P(X > a+b | X > a) = = P(X > a) P(X > a) P(X > a+b) P(X > a+b | X > a) = = = e-lb = P(X > b) P(X > a) e-l(a+b) e-la 증명 ∞ ∞ P(X > a+b) = le-lx dx = (-1) e-lx = e-l(a+b) a+b a+b ∞ ∞ P(X > a) = le-lx dx = (-1) e-lx = e-la a a ∞ ∞ P(X > b) = le-lx dx = (-1) e-lx = e-lb b b 증명 끝
1 1 1000 1000 ∞ P(X ≥ 600 | X ≥ 500) = P(X ≥ 100) = e-x/1000 dx 100 = (-1)e-x/1000 = e-0.1 = 0.9048 ∞ 100 어떤 기계의 일부 부품이 고장 날 때까지 걸리는 시간은 평균 1,000시간인 지수분포에 따른다고 한다. (1) 이 기계를 500시간 이상 아무런 문제없이 사용한 후, 그 후로 다시100시간 이상 사용할 확률을 구하여라. (2) (1)의 조건에 대하여, 앞으로 x시간 이상 사용할 확률이 0.3이라면 x = ? (1) 부품이 고장 날 때까지 걸리는 시간 X는 평균m = 1000인 지수분포에 따르므로X ~ Exp(1/1000) f(x) = e-x/1000 , x > 0 X의 확률밀도함수 :
- = ln (0.3) ; x = (-1000)ln (0.3) = 1203.97 x 1000 (2) (1)의 조건 아래서, 이 기계를 고장 없이 사용한 전체 시간 :500 + x P(X ≥ 500 + x|X ≥ 500) = P(X ≥ x) = S(x) = e-x/1000 = 0.3
☞ 포아송과정과의 관계 연간 지진이 발생하는 회수 :X ~ P(3) T : 지금부터 다음 지진이 일어날 때까지 걸리는 시간 예 사건 [T > t ]의 의미 : 현재부터 t시간 이후에 지진이 발생함 [0, t]에서 지진이 발생하지 않음 ▶사건 [T > t ]의 확률 : P(T > t) = P[X(t) = 0] = e-3t ▶ T의 분포함수 : F(t) = P(T ≤ t) = 1 - P(T > t) = 1 - e-3t , t > 0 ▶ T의 밀도함수 : f(t) = 1 - F(t) = 3e-3t , t > 0
(1) 비율 l를 가지고 포아송과정에 따라 어떤 사건이 발생한다면, 이웃하는 두 사건 사이의 대기시간 T는 모수 l인 지수분포를 이룬다. (2) 비기억성 성질로 어느 한 사건이 발생한 후, 다음 사건이 발생할 때까지 걸리는 대기시간 T는 모수 l인 지수분포에 따라 다시 시작하므로, 이웃하는 사건 사이의 대기시간들 Ti는 i.i.d. Exp(l)이다.
P(T ≥ 6) = 1 - P(T < 6) = 1 – F(6) = 1 - 1 - e-6/10 = e-0.6 = 0.5488 시스템의 응답시간 T는 평균 m=10인 지수분포 신호에 대한 응답이 끝나면 곧 바로 다음 신호를 접수 X(t) : 시간 t동안 이루어진 검색 신호 횟수 (1) 어떤 한 건의 검색 신호에 대한 응답시간이 6초 이상 걸릴 확률 (2) 검색 신호에 대한 응답을 위하여 5초 이상 기다려야 한다면, 그 후로 응답을 받기 위하여 적어도 8초 이상 시간을 소비해야 할 확률이 (3) X(t)의 확률질량함수 (4) 처음 신호가 들어온 이후로부터 5초 사이에 2건의 검색 신호가 있을 확률 (1) 시스템의 응답시간 T는 평균 m = 10인 지수분포에 따르므로T ~ Exp(1/10) F(t) = 1 - e-t/10 , t > 0 T의 분포함수 : 구하고자 하는 확률 :
(t/10)x x! (2) P(T ≥ 13|T > 5) = P(T > 8) = 1 – F(8) = 1 - 1 - e-8/10 = e-0.8 = 0.4493 (3) X(t) ~ P(t/10)이므로 X(t)의 확률질량함수 : f(x) = e-t/10 , x = 0, 1, 2, … (4) t=5이므로 처음 5초 동안 검색 신호가 들어온 횟수 :X(t) ~ P(0.5) 구하고자 하는 확률 : (포아송 확률표로부터) P(X = 2) = P(X ≤ 2) – P(X ≤ 1) = 0.986 – 0.910 = 0.076
3 감마분포 (gamma distribution) 감마분포의 확률밀도함수와 평균, 분산 그리고 카이제곱분포에 대하여 알아본다.
∞ ∞ ∞ ∞ 0 0 0 0 1 1 1 G(a) G(a) 1 x a-1 b G(a) ba b 일정한 비율로 발생하는 사고가 n건 발생할 때까지 걸리는 전체 시간에 관한 확률분포 감마함수 : G(a) = ta-1 e-t dt , a > 0 ta-1 e-t dt = 1 t = x/b e-x/b dx = 1 p.d.f. 조건을 만족 또는 xa-1 e-x/bdx = 1
G(1) = 1 G(a+1) = aG(a),a > 0 G(n+1) = nG(n)= n!, n 은 자연수 G(1/2) = p 1 G(a)ba xa-1 e-x/b, x > 0, a,b > 0 f(x) = ☞ 감마함수의 성질 ● ● ● ● ☞ 1) 확률밀도함수 X ~ G(a, b) a: 형상모수(shape parameter) b: 척도모수(scale parameter)
∞ ∞ ∞ ∞ 0 0 0 0 x 참고 G(a) ba 1 f(x) = e-x/b ,x > 0, b > 0 X ~ G(1, b) X ~ Exp(1/b) b ☞ 2) 평균 m = E(X) = x f(x)dx = xa-1 e-x/b dx 1 = x(a+1)-1 e-x/b dx G(a)ba G(a+1) b 1 = x(a+1)-1 e-x/b dx G(a) G(a+1)ba+1 aG(a) b G(a+1) b = = = a b G(a) G(a)
∞ ∞ ∞ ∞ 0 0 0 0 s2 = Var(X) = E(X2) – E(X)2 = a(a+1)b2 - (ab )2= ab2 x2 G(a) ba ☞ 3) 분산 E(X2) = x2 f(x)dx = xa-1 e-x/b dx 1 = x(a+2)-1 e-x/b dx G(a)ba G(a+2)b2 1 = x(a+2)-1 e-x/b dx G(a) G(a+2) ba+2 a(a+1)G(a) b2 G(a+2)b2 = = = a(a+1) b2 G(a) G(a)
감마분포와 지수분포 그리고 포아송과정 • X1, X2, …, Xn ~ i.i.d.Exp(l) • S =X1 + X2 + …+ Xn ~ G(n, 1/l) (2)S:비율 l인 포아송과정에 따라 n번째 사건이 발생할 때까지 걸리는 시간 비기억성 성질에 의하여 S ~ G(n, 1/l)
1 1 G(2) 22 X = T1 + T2 ~ G(2, 2) 4 x2-1 e-x/2= xe-x/2 , x > 0 f(x) = 시스템의 응답시간 T는 평균 m=2인 지수분포 신호에 대한 응답이 끝나면 곧 바로 다음 신호를 접수 X :오전 9:00부터 2건의 신호가 들어올 때까지 걸리는 시간 (1) X의 확률밀도함수 (2) 2건의 신호가 들어올 때까지 걸리는 평균 시간 (3) 2건의 검색요구가 3초 안에 이루어질 확률 (1) 시스템의 응답시간 T는 평균 m=2인 지수분포에 따르므로T ~ Exp(1/2) T1:오전 9:00부터 처음 신호가 들어올 때까지 걸리는 시간 T2:처음 신호 이후에 두 번째 신호가 들어올 때까지 걸리는 시간 T1 ~ Exp(1/2) , T2 ~ Exp(1/2)
(2) m = a b = 2•2 = 4 3 3 (3) P(X < 3) = xe-x/2 dx = - e-x/2 = 1 - e-3/2 = 0.4421 0 0 x + 2 5 2 2 1 4
1 x(r/2)-1 e-x/2 , x > 0, r > 0 f(x) = G(r/2) 2r/2 ☞ 2) 평균 r r 2 2 m = ab = • 2 = r ☞ 3) 분산 s2 = ab2 = • 4 = 2r 카이제곱(c2)분포(chi-squared distribution) 모수 a= r/2, b = 2인 감마분포를 자유도(degree of freedom; d.f.) r 인 카이제곱분포라 하고, X ~ c2(r)로 나타낸다. ☞ 1) 확률밀도함수 X ~ c2(r)
2 카이제곱분포의 100(1-a)%백분위수 ca(r) P(X ≤ x0 ) = 1 – a인 x0을 100(1-a)%백분위수라 하고, ca(r)로 나타낸다. 2 ☞ 카이제곱분포의 백분위수
X ~ca(7) 2 에 대하여 P(X > c0.05 ) = 0.05를 만족하는c0.05 2 2 2 c0.05 = 14.07 d.f. = 7인 행과 a= 0.05인 열이 만나는 위치의 수 14.07
P(X < x0) = 0.95이므로 P(X > x0) = 0.05 이고, 따라서 카이제곱표에서 d.f. = 5와 a= 0.05인 백분위수 x0 = c0.05 (5) = 11.07 2 카이제곱분포의 성질 X ~ c2(r1), Y ~ c2(r2)이고 독립이면, X + Y ~ c2(r1 + r2)이다. X ~ c2(2), Y ~c2(4) 이고 독립이므로 X + Y ~ c2(6)이다. 그러므로 x0 = c0.01 (6) = 16.81 2 X ~ c2(5)에 대하여 P(X < x0) = 0.95 x0 = ? ☞ X ~ c2(2), Y ~ c2(4) 이고 독립일 때, P(X + Y > x0) = 0.01 x0 = ?
4 웨이블분포 (Weibull distribution) 웨이블분포의 확률밀도함수와 평균, 분산에 대하여 알아본다.
a f(x) = abaxa-1e-(bx) , x > 0 , a, b> 0 의료사고 또는 폭풍 등으로 인한 재해에 대비하기 위한 재해보험에 대한 보험 급부금에 적합한 확률모형 ☞ 1) 확률밀도함수 X ~ Wei(a, b)
x 0 f(x) S(x) ☞ 2) 분포함수 F(x) = abaua-1e-(bu) du = (-1) e-(bu) = 1 - e-(bx) , x > 0 a x a a 0 ☞ 3) 생존함수 S(x) = 1 – F(x) = e-(bx) , x > 0 a ☞ 4) 실패율함수 a abaxa-1e-(bx) h(x) = = = abaxa-1, x > 0 a e-(bx)
X ~ Wei(2, 0.1)에 대하여 (1) X의 분포함수 = ? P(X ≤ 4) = ? (2) X의 생존함수 = ? P(X ≥ 10) = ? (3) X의 실패율함수 = ? (4) X의 중앙값 Me = ? (1)a = 2, b = 0.1이므로 F(x) = 1 – exp[-(x/10)2] , x > 0 P(X ≤ 4) = F(4) = 1 – exp[-(4/10)2]= 0.1479
(2) S(x) = 1 - F(x) = exp[-(x/10)2], x > 0 P(X ≥ 10) = S(10) = exp[-(10/10)2] = 0.3679 (3) h(x) = abaxa-1 = 2•(0.1)2 x2-1 = (0.02)x , x > 0 (4) F(x0) = 1 – exp[-(x0 /10)2] = 0.5 ; exp[-(x0 /10)2] = 0.5 ; -(x0 /10)2 = ln(0.5) = -ln 2 ; x0 /10= ; x0 = Me = 10 = 8.3255 a= 2, b= 0.1
∞ ∞ ∞ ∞ ∞ 1 2 2 1 1 1 a b b a a a 0 0 0 0 0 ☞ 2) 평균 a m = E(X) = x f(x)dx = abaxae-(bx) dx u = (bx)a m = u [(1/a) +1]-1 e-u du = G1 + ☞ 3) 분산 동일한 방법에 의하여 1 a E(X2) = x2 f(x)dx = aba xa+1e-(bx) dx = G 1 + b2 s2 = Var(X) = E(X2) – E(X)2 2 1 - G 1 + G 1 + = b2
∞ 5 배우자가 재혼할 때까지 걸리는 시간 X ~ Wei(a, b) X의 실패율 함수 :h(x) = cx, x > 0 (1) P(X > 5) = e-1/4 = 0.7788을 만족하는 상수 c = ? (2) X의 밀도함수 = ? 배우자가 6개월 이내에 재혼할 확률= ? (3) X의 평균= ? X의 분산= ? (1) 생존함수는 h(x) = aba xa-1= cx , x > 0이므로 a = 2, aba = c ∞ 2 2 2 P(X > 5) = 2b2 xe-(bx) dx = - e-(bx) = e-25b = e-1/4 5 25b2 = 1/4 b = 0.1, c = aba= 2•(0.1)2 = 0.02
f(x) = (0.02)x exp - , x > 0 0.5 x2 x2 x2 0 100 100 100 1 1 1 2 2 2 0.5 = (-1) exp - = 1- 0.9975 = 0.0025 0 p 1 m = G1 + = (10)••G = 5 = 8.8623 0.1 s2= G(2) - = 25(4 – p) = 21.4602 1 p 100 4 (2) X의 밀도함수 : a = 2 , b = 0.1이므로 6개월은0.5년이므로 P(X < 0.5) = (0.02)x exp - dx (3) X의 평균= ? X의 분산= ?
5 베타분포 (beta distribution) 베타분포의 확률밀도함수와 평균, 분산에 대하여 알아본다.
1 1 0 0 1 1 Beta(a, b) Beta(a, b) 확률밀도함수 : f(x) = xa-1 (1 - x)b-1 , 0 < x < 1 제조과정에서 불량품의 비율 또는 서비스에 만족하는 고객의 비율, 전체 보험증권의 한계 금액에 대한 손실비율 등과 같이 0%와 100%사이에서 값을 가지는 비율에 대한 확률모형 베타함수 : Beta(a, b) = xa-1 (1 - x)b-1 dx , a, b > 0 xa-1 (1 - x)b-1 dx = 1 p.d.f. 조건을 만족
G(a)G(b) Beta(a, b) = G(a + b) G(a + b) G(a)G(b) f(x) = xa-1 (1 – x)b-1 , 0 < x < 1, a, b > 0 ☞ 베타함수와 감마함수 ☞ 1) 확률밀도함수 X ~ Beta(a, b)
0.5 ☞ 베타분포의 특성 (1) 동일한 모수 a에 대하여 b가 커지면 왼쪽으로 치우치고, 동일한 모수 b에 대하여 a가 커지면 오른쪽으로 치우친다. (2) a =b이면 x = 0.5를 중심으로 대칭이고, a와 b가 커질수록 종모양에 가까워지며 x = 0.5에 집중한다. (3) a=b= 1이면, 즉 X ∼ Beta (1, 1) ⇒ X ∼ U(0, 1) (4) X ∼ Beta (a, b) ⇒ 1-X ∼ Beta (b, a)