440 likes | 641 Views
2 차 통계 생산 방안 - 가계 경활 연계 방안. 조사연구실 심규호 2011.10.19. 1. 2. 4. 목차. 연구 배경. 선행사례 및 전문가 수요조사. 매칭 기법 및 매칭 결과. 3. 결론 및 향후 방향. 연구배경. 통계청 작성 통계 하나의 자료 안에 수록된 정보는 제한적 신뢰도 높은 연구의 수행과 정책 수립을 위해서는 충분한 자료의 확보가 중요 하나의 자료에서 분석에 필요한 정보를 얻는 것은 어려운 일
E N D
2차 통계 생산 방안-가계경활 연계 방안 조사연구실 심규호 2011.10.19
1 2 4 목차 연구 배경 선행사례 및 전문가 수요조사 매칭 기법 및 매칭 결과 3 결론 및 향후 방향
연구배경 • 통계청 작성 통계 하나의 자료 안에 수록된 정보는 제한적 • 신뢰도 높은 연구의 수행과 정책 수립을 위해서는 충분한 자료의 확보가 중요 • 하나의 자료에서 분석에 필요한 정보를 얻는 것은 어려운 일 • 외부 연구기관에서 수행되는 패널조사의 경우 표본 수는 매우 적은 반면 수록 정보는 매우 방대하다는 특성을 가짐.
연구배경 • 데이터 매칭(matching) 데이터 통합(fusion) • 하나의통계에서의 제한적인 정보를 다수의 통계의 통합으로 보완하는 기법 • 조사된 데이터에는 가구 식별번호 및 개인 식별 번호, 나이, 성별 등 공통적으로 포함된 항목이 있음 • 외부 연구를 위한 자료 제공항목에는 이러한 항목이 없어 매칭 연구는 사실상 불가능함 -> 외부 연구자의 불만족 증대
연구배경 • 2차 통계의 생산 • 외부에서는 통계청 보고자료를 다수 이용하여 데이터 통합을 시도하고 분석에 이미 많이 활용하고 있음 • 본 연구는 외부 환경에 대응하고 기존 통계 간 연계를 통해 2차 통계를 생산함으로써 기존 통계의 활용도를 높이고 저비용 고효율 통계생산을 목적으로 함
선행사례 검토 • 호주 • 데이터 연구를 통한 연구 분야에서 국제적으로 선두적 입지 차지 • 대표적으로 인구 보건 및 임상자료의 연계 • 1995년부터 데이터 연계 시스템(the western Australian data linkage system)을 통해 258개의 프로젝트에 데이터를 제공하여 708개의 연구 성과물을 냄 • 연계 데이터의 활용을 통해 의료정책 관련 연구를 향상시키고 의약품의 부작용을 발견, 비용을 절감하고 의료 시스템의 부정을 적발
선행사례 검토 • 호주 데이터 연계의 원칙 • 연계된 데이터는 오직 연구와 통계적 목적으로 활용 • 개인정보 유출 금지 • 연계자료 처리 방식에 대한 합의 필요 • 활성화를 위해 연구자의 광범위한 접근 기반 시설 필요 • 통계청에서 시도 중 : MDSS 분석 시스템 • 데이터 이용과 이용자 간의 협력을 증진시킬 수 있는 적절한 관리 시스템이 필요
선행사례 검토 • FEBRL(Freely extensible biomedical record linkage) • 오픈소스 소프트웨어 라이선스를 기반으로 무료 사용 가능 • Data Cleaning 과 표준화, 인덱싱, 필드비교, 레코드 쌍 분류를 위해 최근 개발된 여러 기법들을 포함함 • 기존의 레코드 연계 기법과 새로운 레코드 연계 기법 모두를 학습하고 실험할 수 있게 해주는 훈련 도구일 뿐 아니라 수백 만개의 데이터 세트를 포함한 연계 작업 수행을 가능토록 함
선행사례 검토 • FEBRL(Freely extensible biomedical record linkage) DataBase A 클리닝과 표준화 블로킹/ 인덱싱 DataBase B 클리닝과 표준화 블로킹/ 인덱싱 필드 비교 매치 비 매치 매치 가능 검토 평가 General Record Linkage Process
선행사례 검토 • 국내사례(한국노동연구원 노동패널) • 가구용(HHID)과 개인용(PID) 데이터로 분류 • 가구와 가구 자료간 (시계열 연계), 개인과 개인 자료간 (시계열) 연계, 가구와 개인 자료간(횡단면)연계, 개인과 부가자료 간(횡단면)연계 • 연계 과정 사례 • 가구자료에서 가구원 정보 추출 • 가구와 개인자료 간 연계 • 직업력 자료와 개인 자료의 연계
선행사례 검토 • 국내사례(경제활동조사 패널화) • 통계청은 마이크로 데이터를 외부 연구자에게 제공하지만 자료간 연계 자료를 제공하지 않으며, 개인 식별 및 자료 연계가 가능한 정보는 제공하지 않음 • 일부 연구자들은 통계청 데이터를 연계하여 분석과제를 수행 • 가장 대표적인 예가 경제활동인구조사 자료의 패널화 • 이를 통해 노동시장에서의 동태적 움직임 포착 가능
선행사례 검토 • 국내사례(경제활동조사 패널화) • 월간 자료의 패널화를 위해 외부 연구자들은 가용한 여러 변수(생년월일, 성별, 가구원 지위, 교육수준)을 활용하여 “개인ID”를 구성하여 자료를 연계하는 방식 사용 • 남재량(1997)은 연접한 두 달을 연계하는 단기 월별 패널 형태를 탈피하여 장기 월별 패널 자료 구축 • 패널화를 통해 여러 유량변수(노동력 상태별 유, 출입률, 실업 지속기간 등)들을 측정하여 고용불안의 정도를 평가하고 분석
선행사례 검토 • 통계청 자료 간 연계 분석 사례
선행사례 검토 • 통계청 자료 간 연계 분석 사례
전문가 수요조사 • 조사개요 • 통계청마이크로 데이터 이용자 및 통계청 용역과제 연구자를 중심으로 2차 자료 수요관련 외부 전문가 조사 실시 • 조사기간 2011.02.14~2011.02.25 • 조사방법 : 인터넷 조사 • 조사대상 : 총 1,179 중 응답자 109명 9.12% 회수 • 공공기관 43명, 연구기관 24명, 교육기관 31명, 기업 6명, 기타 5명
전문가 수요조사 • 조사내용
전문가 수요조사 • 조사결과 • 통계청 마이크로 데이터 사용경험 : 91.7%
전문가 수요조사 • 조사결과 • 마이크로 데이터를 활용하여 분석한 영역 • 가구분야에서는 “경제활동인구조사”와 “가계동향조사”가 가장 많고 인구사회분야에서는 “인구주택총조사”와 “사망원인통계조사”가 많으며 • 사업체 분야에서는 “전국사업체조사“, ”광업제조업조사” 순으로 나타남
전문가 수요조사 • 조사결과 • 마이크로 데이터를 활용하여 분석한 영역 • 마이크로데이터를 활용하여 논문 또는 보고서를 작성한 경우는 35.8% (39명/109명)이며, 나머지는 내부적으로 이용
전문가 수요조사 • 조사결과 • 통계청 마이크로 데이터 사용시 어려움
전문가 수요조사 • 조사결과 • 통계청 마이크로 데이터 사용시 어려움 해소 방법
전문가 수요조사 • 조사결과 • 자료 연계분석 경험 : 36.7% • 연계분석에 활용한 자료의 개수는 2개의 자료를 연계한 경우가 95.12%로 가장 많으며 3개 이상의 자료를 연계하는 경우도 4.88%로 나타남
전문가 수요조사 • 조사결과 • 가공방법으로는 “지역정보”, “가구정보”, “주민번호”, “기업키” 등의 순으로 연계에 사용한다고 응답하였으며 “통계적 기법”을 사용한다는 응답도 5명으로 나타남
전문가 수요조사 • 조사결과 • 통계청에서 제공받고자 하는 2차 자료 • 2차 자료로 요구하는 통계로는 통계청 내부자료 연계를 요청하는 응답이 33명, 통계청과 외부자료의 연계를 요청하는 응답이 39명으로 통계청 내부뿐만 아니라 외부자료와의 연계도 많이 요청하는 것으로 나타남
전문가 수요조사 • 조사결과 • 통계청에서 제공받고자 하는 2차 자료 : 내부자료
전문가 수요조사 • 조사결과 • 통계청에서 제공받고자 하는 2차 자료 : 외부자료
전문가 수요조사 • 조사결과 • 통계청 자료를 연계하여 분석에 필요한 연계자료 제공
전문가 수요조사 • 조사결과 • 통계청 및 외부 자료를 연계하여 분석에 필요한 연계자료 제공
매칭 • 결합데이터
매칭 • 가계+ 경활 연계자료 현황(가구명부 작업 X)
매칭 • 가계+ 경활 연계자료 현황(가구명부 작업 O)
매칭 • 가계 경활 가중치
분석 예시 • 청년층 상용, 임시, 일용, 그 외의 소득, 소비
분석 예시 • 근로자가 전혀 없는 가구와 아닌 가구의 소득, 소비
분석 예시 • 가구당 근로자 수 별 소득, 소비
분석 예시 • 맞벌이 가구의 소듯, 소비 형태
분석 예시 • 소득 수준과 맞벌이 상태 별소득, 소비 형태
분석 예시 • 소득 수준과 가구당 근로자수 별 소득, 소비 형태
결론 • 연계 작업 결과 • 가구명부를 활용하여 99.5% 의 연계율을 확인 • 전출 및 표본 대체에 의한 비매칭은 해결하기 어려움 • 가구가중치를 이용한 가중치 재 작성 • 매칭 작업에서 비매칭 가구를 제거하고 가중치 재작성 • 최대 0.02%P 차이로 큰 문제 없이 적용 가능
결론 • 2차 통계 생산의 당위성 • 전문가 설문조사 결과 2차 통계의 요구가 많다는 것을 알 수 있으며 통계청 자료의 원활한 활용을 위해서도 2차 통계의 생산은 필요함 • 외부 연구에서 통계청 1차 자료를 잘못 사용하는 사례를 방지하기 위해서도 2차 자료를 제공하는 것이 바람직