1 / 49

8 장 로지스틱 회귀분석

8 장 로지스틱 회귀분석. 8.1 개요. 로지스틱 회귀분석 (0,1) 기존의 선형 회귀분석의 종속변수 (Y) 를 범주형으로 확장한 것이다 . 범주형 변수 - ( 카테고리 ) Y 가 주식의 보유 / 매도 / 매수 를 나타내면 이 변수는 3 개의 범주를 갖는 범주형 변수라고 정의된다 . 8.1 개요. 분류 - 0 과 1 로 분류

hastin
Download Presentation

8 장 로지스틱 회귀분석

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 8장 로지스틱 회귀분석

  2. 8.1 개요 • 로지스틱 회귀분석(0,1) • 기존의 선형 회귀분석의 종속변수(Y)를 범주형으로 확장한 것이다. • 범주형 변수-(카테고리) • Y가 주식의 보유/매도/매수를 나타내면 이 변수는 3개의 범주를 갖는 범주형 변수라고 정의된다.

  3. 8.1 개요 • 분류 - 0과 1로 분류 • 로지스틱 회귀 분석은 하나의 집단에 속하지만 어느 집단인지 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정 집단으로 분류하기 위해 사용될 수 있으며 이를 분류라 한다. • 프로파일링-관찰치들의 유사점. • 예측 변수를 이용하여 각 집단 내의 관찰치들 간의 유사점을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 하는데 . 이를 프로파일링 이라 한다.

  4. 8.1 개요 • 로지스틱 회귀 분석은 다음과 같은 의사결정문제에 적용가능하다. • 반납 / 미납으로 고객을 분류하기(분류) • 남녀 최고경영진을 판별하는 요인 찾기(프로파일링) • 신용점수와 같은 정보에 기초하여 대출의 승인 / 비승인을 예측하기(분류)

  5. 8.1 개요 • 다중 선형/로지스틱 회귀분석의 다른점 • 다중 선형 회귀분석은 연속형Y값을 예측 • 로지스틱 회귀분석은 어떤 집단에 속할것인지 예측 로지스틱 회귀분석의 2단계 과정: • 각 집단에 속하는 확률의 추정치를 계산. • 각 관찰치를 어느 한 집단으로 분류하기 위해서 이러한 확률들에 분류 기준값을 적용.

  6. 8.2 로지스틱 회귀분석 • 로지스틱 회귀분석 • 범주형 출력변수를 설명 또는 예측하기 위한 모형이 필요한 경우에 사용. • 로짓의 숨은 개념(중간 과정): • 집단 0/1에 속한 확률p를 구함.

  7. 8.2 로지스틱 회귀분석 • 식(8.1) • 식(8.2)-로지스틱 반응함수

  8. 8.2 로지스틱 회귀분석 • 식(8.3)-승산 계산 • 식(8.4)-사건의 확률 계산 집단1에 속하는 승산 집단0에 속하는 승산

  9. 8.2 로지스틱 회귀분석 • 승산(odds)=>p/(1-p) • p는 어떤 사건이 발생할 확률, 로 계산하며, 0에서 무한대의 범위를 갖도록 바꿔, 확률값을 더 편리하게 사용하기 위한 식입니다.확률값이 0에 가까우면 작은 값을 갖고, 1에 가까우면 큰 값을 갖도록 합니다. • 예:요일중에서 일요일을 무작위로 선택할확률 과 승산은? 확률은 1/7 이고 승산은 1/6 , 6 to 1 , 6-1 (모두 six – to – one이라 읽는다) 결과를 얻지 못할 방법의 수 결과를 얻을 방밥의 수

  10. 8.2 로지스틱 회귀분석 • 식(8.5)-승산과 예측변수 관계식(8.2)+(8.4) • 식(8.6)-로지스틱 모형의 표준화된 공식

  11. (a) 승산 (b)로짓

  12. 8.2 로지스틱 회귀분석 • 데이터 전처리 (예1: 개인대출의 승인) • 학습/평가용 집합을 무작위로 데이터를 나눈다.(60:40) • 범주형 예측변수에 대해서는 더미변수를 만든다.

  13. 8.2 로지스틱 회귀분석 • 단일 예측변수를 이용한 로지스틱 회귀분석 • 단일 예측변수인 소득을 사용하여 고객 분류 하고 확률의 관점에서 종속변수와 설명변수 간의 관계를 나타낸다. • 승산의 관점에서 표현한 표현식

  14. 8.2 로지스틱 회귀분석 • 최대우도 추정치에 따라 추정된 추정 모형 • 우도란?/ 최대우도란? • 어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때, 만일 주어진 가설 H 가 참이라면, 그러한 결과 E 가 나올 정도는 얼마나 되겠느냐 하는 것이다. 즉  결과 E 가 나온 경우, 그러한 결과가 나올 수 있는 여러 가능한 가설들을 평가할 수 있는 측도가 곧 우도인 셈이다. • 우도함수을 최대로 하는 모수의추정값을최대우도추정량이라고 한다. • 최대우도추정치 • B0=-6.3525 B1=0.0392

  15. 8.2 로지스틱 회귀분석 • 소득의 함수이 개인대출에 대한 실제 데이터 좌표점들과 이를 적합시킨로지스틱 곡선

  16. 분류기준값: C = c/(1-c) • 고객의 대출제안 수락의 승산 • 예연소득이50000달러인 고객 • 대출제안 수락의 확률 • 나온 수락의 확률을 분류기준값과 비교한다.

  17. 8.2 로지스틱 회귀분석 • 로지스틱 회귀분석의 추정: 모수추정치의 계산 • 로지스틱 회귀분석에서 Y와 베타 모수의 관계는 비선형이다. 다중 회귀분석의 최소자승법이 아닌, 최대우도법을 사용하여 베타 모수를 추정한다.(즉 모집단이 갖고 있는 것과 동일한 데이터를 얻는 가능성를 최대화하는 추정치를 찾는 것이다.) • 좋은 점근성을 보장하기 위하여 컴퓨터 프로그램을 사용하여 모수를 반복적으로 추정한다.

  18. 8.2 로지스틱 회귀분석 • 최대우도추정량의 특징 • 일치성 • 표본의 크기가 증가함에 따라 참의 값과 다를 추정확률은 0으로 수렴한다. • 점근적 효율성 • 최대우도추정량의 분산은 일치추정량 중에서 가능한 최소값을 가진다. • 점근적 정규성 분포 • 표본의 크기가 클 경우 , 다중 선형 회귀 분석과 유사한 방식으로 신뢰구간을 계산하고 통계적 검정을 수행할 수 있다.

  19. 8.2 로지스틱 회귀분석 • 예: • P값을 제외한 상태에서 12개의 예측변수를 갖는 모형 • 에측변수의 값이 클수록 대출제안 수락확률이 높다. 확률계산

  20. 8.2 로지스틱 회귀분석 • 승산을 이용한 결과 분석 • 승산(odds)가정 • 개인대출제안에 대한 고객수락모형은 담음과 같이 소득에 대한 함수로 정의된다. • 기본적인 승산의 예:소득이 0인 고객이 대출제안을 수락할 승산은 exp[6.3525+(0.0392)(0)]=0.0017 로 추정된다. • 소득이100,000달러의 경우 승산은 exp[6.3525+(0.0392)(100)]=0.088이 된다.

  21. 8.2 로지스틱 회귀분석 • 소득, 즉 x1의 값은 x1에서 x1+1만큼 증가하고 반면 다른 예측변수는 일정한 값으로 고정되었다고 할때의 승산율은 다음과 같이 계산 된다.

  22. 8.3선형회귀분석이 범주형 반응변수에 적합하지 않은 이유 • 1.각 관찰치에 대해서 Y를 예측하거나 관찰치를 분류하기 위해 사용하는 모형이 반드시 0또는 1의 예측변수값을 갖는 것은 아니다. • 2.만약 Y가오직 0과1의 값만을 가진다면 그것은 정규분포라고 할수 없다. 데이터 집합에서 1이라는 숫자의 분포에 더 적합한 분포는 p=P(Y=1)을 가지는 이항분포이다. • 3. 모든 집단에 대해서 Y의 분산이 일정하다는 가정은 충족되지 않는다. Y는이항분포를 따르기 때문에 분산은 nP(1-p)이다 .

  23. 3개의 예측변수를 이용하여 개인대출(PL,대출이받아들여진 고객은 PL=1, 그외는PL=0으로 표기함)을 추정하는 다중 선형 회귀분석에 적용할 경우 다음과 같이 출력값의 일부를 얻게 된다. 이 추정모형은 다음과 같다. 예를 들어 연소득이50000달러이고 가족이 2명이며 유니버셜 은행의 CD계좌를 갖지 않은 고객의 대출 제안은 수락은 -0.2346+(0.0329)(0)=-0.009 로예측된다.

  24. 8.4 분류 성과의 평가 • 가장 많이 사용되는 성과 측정치 • 정오분류표 • 리프트 도표 • 목적: • 예측변수만을 이용하여 관찰치가 속한 집단을 정확하게 분류하는것이다. • 비록전체 모형의 정확도가 다소 낮아진다고 하더라도 특별히 관심하는 집단에 속하는 관찰치를 찾아내는데 뛰어난 능력을 보이는 모형을 찾는 것이다.

  25. 정오분류표 • 분류 시스템의 데이터 분류문제에 있어서 실제값(정답)과 예측값(실험결과)의 정보를 담고 있다. • 정오분류표 의 각각의 항은 다음의 의미를 가지게 된다. • a는 부정값인 데이터를 긍정값으로예측한 올바른 예측들의 갯수이다. • b는 부정값인 데이터를 부정값으로예측한잘못된 예측들의 갯수이다. • c는 긍정값인 데이터를 긍정값으로예측한잘못된 예측들의 갯수이다. • d는 긍정값인 데이터를 부정값으로예측한 올바른 예측들의 갯수이다.

  26. 리프트 도표 • Lift chart-로지스틱 회귀모형에 의한 응답에 대한 기대 반응률을 나타낸다), ROC(Receiver Operating Characteristic - 민감도와 특이도에 대한 곡선

  27. 8.4 분류 성과의 평가 • 로지스틱 회귀분석의 정오분류표를 얻는 순서 • 추정식으로 소속집단의 확률계산 • 분류기준값으로 관찰치의 소속집단을 결정 • 예측된 집단과 관찰치의 실제집단 비교 • 예:

  28. 8.4 분류 성과의 평가

  29. 변수 선정: • 최종 모형의 선택에 있어서 변수투입에 따른 비용, 오류의 경향성 그리고 모형의 복잡성 등과 같은 실제적인 문제들을 고려해야 한다.

  30. 8.5 전체 적합도 평가 • 적합도 평가: • 모형이 데이터에 잘 적합되었는지에 대한 평가는 분석의 목적이 대체로 프로파일링인 경우에 중요하며,분석의 목적이 정확한 분류에 있는 경우에는 모형의 적합성에 대한 평가가 상대적으로 덜 중요하다. • 전체 적합도 평가 • 모형의 편차 D를단순 모형의 편차 D0과 비교한다. • 다중 R2의 측정치는(D0-D)/D0로계산 • 단순모형의편차 D0=D/(1-R*R)로 계산 모형이 편차

  31. 정오분류표와 리프트 도표는 최적의 모형을 만드는데 사용한 데이터와 동일한 데이터를 사용하기 때문에 이 정오분류표와 리프트 도표는 미래의 성과 측정치를 제공하지 못한다. 따라서 학습용 집합의 정오분류표와 리프트 도표는 과적합화문제와 데이터 입력오류 또는 작업데이터 테이블의 잘못된 선택 등으로 인해 발생하는 기술적인 문제를 발견하기 위한 용도로 사용된다.

  32. 8.6 예제분석: • 예제 분석 순서 • 모형의 적합화 추정 • 모형의 해석 • 모형의 성과 • 적합도 • 변수선정

  33. 8.6 예제분석: • 목적: • 데이터 집합에 포함되지 않은 새로운 항공기가 연착될지 여부를 정확하게 예측하는 것이다. 종속변수는 이진변수로서 연착변수이며 연착은 1 그외는0으로 표시한다.

  34. 예제의 변수 내역

  35. 20대 항공기에 대한 표본

  36. 4개 범주형 변수를 포함한다. • X1=출발항공 • x2 = 항공사 • x3= 요일군 • Y =비행상태 1:월-수 / 2: 목-일 1:월-수 =>컨티넨탈 2: 목-일 => 델 타 최악의 공항=>LAD

  37. 데이터 전처리 • 범주형 예측변수를 위해 더미변수를 만든다.(출발공항 2개,도착공항2개, 항공사7개 , 요일은 6개,출발시간은 15개,기상악화로 인한 연착 1개) • 학습용과 평가용 데이터를 60:40의 비율로 나눈다.

  38. 모형의 적합화와 추정 • 이 로직스틱 회귀모형에서 음의 계수가 1보다 낮은 승산계수로 변환 되는것을 살펴야 한다. • 양의 로지스틱 회귀계수가 어떻게 1보다 큰 승산계수로 변환되는지에 대하여 깊게 살펴야 한다.

  39. 로지스틱 회귀분석의 추정결과

  40. 모형의 해석: • 예: 도착공항인 JFK의 계수는 -0.67로 추정된다. (이것은 LGA에 도착하는 항공기가 JFK에 도착하는 항공기보다 연착될 경향이 더 크다는 것을 의미한다.)- 기준집단은 LGA이다.

  41. 모형의 성과 • 목적: • 항공기 가 연착할지 여부를 확인하여 항공기의 연착을 줄이거나 연착에 따른 효과를 경감시킬 수 있도록 관련 자원들을 관리하는데 있다.

  42. 적합도 • 목적: • 추정된 로지스틱 모형이 학습용 데이터에 얼마나 잘 적합되었는지를 보기 위해서는 학습용데이터를 이용하여 편차와 같은 적합도 측정치, 정오분류표, 리프트 도표를 계산하기 위함.

  43. 모형의 편차는 1.124로 나타난다. 낮은 다중 R2(13.45%)은모형이 유용하지 않다는것을 의미한다. 엑셀의 CHIDIST를 이용하여 CHIDIST(1299-1124,24)=0.00 로지스틱회귀모형이 단순모형보다 더 좋은 모델임을 설명해줌

  44. 변수 선정: • 변수 제거 • 재그룹화 • 변수군 선택 알고리즘 • 예:

  45. 8.7 3개 이상의 집단을 분류하는 로지스틱 회귀분석 • m개의집단이 있을때에는m개의 확률값의1이기 때문에 m-1개의 확률을 추정하면 된다. • 순위형 집단: • 순위정보를 가진 집단을 말한다.(매수,보유,매도) • m=2 일때에는 이진형 로지스틱 회귀모형으로 사용 • 3<=m<=5에는 확장된 로직스틱 회귀모형을 사용

  46. 모형에 대한 해석과 계산 단순화: • 집단에 속할 누적확률을 조사한다. • 예: • m=3인 집단을 가진다고 할 때 1=매수,2=보유,3=매수로 표기한다. 모형에 의해 추정된 확률값은 P(Y<=1)(매수를 추천할 확률)과 P(Y<=2)(매수 또는 보유를 추천 할 확률) 이다.

  47. 예측변수들의 함수로서 각 로짓 모형을 구축한다. • 주식추천에서 하난의 예측변수 x를 갖는다면 다음의 2개 식이 구해진다.

  48. 3개 집단의 사례에서 다음의 식이 얻어진다. • 여기서 a0,b0,b1은 학습용 집합을 통해 얻는 추정치이다.

  49. 명목형 집단 • 집단들이 순위형이 아니고 단순히 서로 다를 때 이러한 집단은 명목형 집단에 속한다. • 다음은 예측변수와의 관계가 선형인 m-1개의 유사 로싲등식을보여준다. • 학습용 집합을 이용하여 4개의 로지스틱 회귀계수를 추정할 경우, 각 집단에 속할 확률은 다음과 같이 추정될 수 있다.

More Related