330 likes | 677 Views
빅데이터 시대의 보안이슈. 2012.10.31. 이 동 우 지티원. Data Explosion. 빅데이터 시대의 보안이슈. 빅데이터 시대 보안의 필요성. 빅데이터 구축 시작부터 보안 아키텍처에 대한 고민이 필요 시스템 아키텍처와 설계 , 심지어는 개발을 마치고 나서야 보안을 생각하는 일이 보안과 관련되어 빈번하게 발생되는 큰 실수임 빅데이터 시스템에도 전자적인 보안 프레임워크 적용이 필요 현재의 시스템은 빅데이터를 저장하고 처리하는 데만 관심이 있음
E N D
빅데이터 시대의 보안이슈 2012.10.31 이 동 우 지티원
빅데이터 시대 보안의 필요성 • 빅데이터 구축 시작부터 보안 아키텍처에 대한 고민이 필요 • 시스템 아키텍처와 설계, 심지어는 개발을 마치고 나서야 보안을 생각하는 일이 보안과 관련되어 빈번하게 발생되는 큰 실수임 • 빅데이터 시스템에도 전자적인 보안 프레임워크 적용이 필요 • 현재의 시스템은 빅데이터를 저장하고 처리하는 데만 관심이 있음 • 빅데이터는 기업의 큰 가치를 창출할 수도 있지만, 또한 기업의 큰 위협을 줄 수 있는 데이터라는 가정을 하고 다루어야 함 • 빅데이터를 수집하는 기업들은 얼마 지나지 않아 자신들이 ‘독소 데이터(Toxic Data)’를 손에 쥐고 있다는 사실을 깨닫게 될 것임 • 내부 수집 데이터가 외부에 유출될 경우 해당 고객 개인은 물론 기업에도 재앙으로 다가올 수 있음 • 하지만 이런 위험을 감수해야 빅데이터 환경을 구축할 수 있음
빅데이터와 연계된 보안이슈 NoSQL 등의 빅데이터 시스템과 관련된 보안이슈 NoSQL 등의 빅데이터 시스템과 관련된 보안이슈 • Hadoop Security (접근 제어 및 사용자 인증 기술) Big Data 빅데이터 저장과 관련된 보안이슈 • PPDM (Privacy Preserving Data Mining) 빅데이터 저장과 관련된 보안이슈 빅데이터 분석기술을 이용한 응용보안 이슈 빅데이터 분석기술을 이용한 응용보안 이슈 • 빅데이터 통합보안 2.0
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) • 목적 • Privacy를 보호할 수 있도록 변환하거나 이를 보호할 수 있는 방법을 사용하여 데이터마이닝을 수행하고 그 결과를 얻어내는 것 • Privacy 침해의 예 • 회원정보, 고객정보 등의 개인정보를 이용한 데이터 분석 수행시 개인정보 유출 및 다른 용도로 사용되는 경우 • 온라인 쇼핑몰의 고객정보 및 구매 정보 분석을 위해 컨설팅 회사에 분석 의뢰를 했을 경우 유통과정에서 개인정보가 유출되는 경우
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) • 확장된 Privacy의 개념 • 개인정보 이외에도 많은 Sensitive data가 존재함 • 기업, 정부기관, 군사기관 등의 대외비 자료 • 대외비 이외도 외부 공개 불가의 민감한 데이터 상존 - 생산공정 데이터, 마케팅 및 판매 실적 데이터 • PPDM의 주요 방법 • 랜덤화(Randomization) 혹은 데이터 섭동(Data Perturbation) - 민감한 정보에 대한 보호를 할 수 있도록 원본 데이터에 노이즈를 더해주거나 다른 종류의 랜덤화를 적용하는 등의 데이터 변환 및 은폐 - 높은 안전성을 요하는 응용에는 적절하지 못하다는 단점이 있지만 매우 효율적이어서 실용화 되어 있음 → 하지만 오리지널 데이터의 변형으로 인한 결과의 정확성(accuracy)은 해결해야 할 문제 • 다주체 보안 연산 (Secure Multiparty Computation : SMC) - 데이터 제공 주체 간 데이터 유출을 방지하며, 통합 연산 수행 → 계산 효율성이 매우 낮기 때문에 아직 실용적이지 못하다는 한계를 지니고 있음
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) • PPDM 적용상의 특성 • 다양한 상황에 두루 적용할 수 있는 기법이 존재하지 않음 • 구체적인 특정 상황에 가장 적합하게 사용할 수 있는 기법을 선정하고, 세부 조정하여 적용
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) 기존의 데이터마이닝 방법 오리지널 데이터의 분포 추정 과정
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) • 최근 개발된 중요한 데이터 마이닝 기술 • 연관규칙 (Association Rules) - 데이터 마이닝의 대표적인 기술로써 여러 데이터 사이의 연관성을 찾아내는 것 • 분류 (Classification) - 주어진 데이터와 각각의 데이터에 대한 클래스가 주어진 경우, 그것을 이용하여 각각의 클래스를 갖는 데이터들은 어떤 특징이 있는지 분류 모델을 만들고, 새로운 데이터가 주어졌을 때, 그 데이터가 어느 클래스에 속하는지를 예측하는 방법 • 순차 패턴 (Sequential Patterns) - 연관규칙은 물건을 한 번에 살때 같이 구매한 것들을 이용해 규칙을 찾는 것인 반면에 순차패턴은 순서대로 일어난 데이터를 분석해 빈도수가 높은 순차 패턴을 찾아내는 기술 • 군집화 (Clustering) - 주어진 데이터를 몇몇 그룹으로 나누는 것을 말함. 분류와 다른 점은 각 클래스에 해당되는 정보를 제공하지 않고 단지 주어진 데이터들 사이의 유사성만을 바탕으로 여러 그룹으로 나누어 그룹의 특성을 연구한다는 점 에 있음 • 아웃라이어 판별(Outlier Discovery) - 주어진 데이터에서 이상값(Outlier)을 찾아내어 전체에 영향을 주는 요소들을 제거하거나 이상값(Outliner)에 대한 원인을 분석하는 기술
시스템 Big Data 저장 응용 PPDM (Privacy Preserving Data Mining) • 시사점 • 최근 개발된 주요한 데이터 마이닝 기술과 연계한 PPDM 연구가 진행됨 • Ex) 랜덤화를 이용한 연관규칙 마이닝 적용 • Ex) Privacy-Preserving Indexing for e-Health Information Networks • 개인의 프라이버시 문제는 정보의 제공자와 사용자 모두에게 중요한 이슈이며 특히 정부에서는 데이터 개방 및 활용에 관한 많은 정책들을 발의 중인데 적정한 수준(good enough)의 기술적, 제도적(법에 근거하는) 보완장치 마련이 필요 • 출처 • 강정현, 조성준, “아웃소싱 데이터마이닝 환경에서 데이터 보안을 위한 무작위 추출 기반 사영변환”, 2010.12 • 강주성, 조성훈, 이옥연, 홍도원, “연관규칙 마이닝에서 랜덤화를 이용한 프라이버시 보호기법에 관한 연구”, 2007 • Yuzhe Tang, Ting Wang, Ling Liu, Shicong Meng, Balaji Palanisamy, “Privacy-Preserving Indexing for eHealth Information Networks”, 2011
시스템 Big Data 저장 응용 Conceptual Hadoop Architecture
시스템 Big Data 저장 응용 (Open Source based) Hadoop Realization Architecture
시스템 Big Data 저장 응용 Hadoop Security • 하둡의 보안 관련 상황 • 하둡의 초기버전에는 사용자 인증을 위한 보안을 제공하지 않았음 • 최근 Hadoop 1.0을 발표하면서 GSSAPI(Generic Services Application Program Interface) 를 통하여 SASL (Simple Authentication and Security Layer)을 제공하면서 Kerberos 인증, RPC Digest 방식 등을 제공하기 시작하였음 • 하지만 ACL(Access Control Lists)와 Kerberos 인증과 같은 하둡 분산파일 시스템 (HDFS)에 장착된 보안 기능들은 기업의 요구수준에 부합하는 수준은 안됨 • 알려진 하둡 보안 취약점 • 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제 • Hadoop Echo System 중 Hadoop Security를 지원하지 않는 객체 문제
시스템 Big Data 저장 응용 하둡 보안 취약점 1 • 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제 • 보안이 강화되지 이전의 하둡은 네임노드에서 클라이언트에 대한 인증을 수행하지 않았고, 데이터 노드에게 데이터 요청시 데이터 블록에 대한 권한 제어를 하지 않았음 → 악의적인 공격자가 어떤 클라이언트든지 가장할 수 있는 취약 사항과 악의적인 공격자가 데이터 블록 아이디만 알면 해당 블록에 접근할 수 있는 취약점등이 존재 • 최근 하둡 1.0 버전에서 보안 부분이 추가 됨 (Kerberos 인증 방식) - 하둡은 퍼포먼스 강조의 이유로 공개키 기반 시스템보다는 대칭키 기반 시스템을 선택 - 클라이언트가 네임노드에 최초 접근할 시 → 우선 커버로스 인증을 받고 그 증거로 서비스 티켓을 받음 → 해당 서비스 티켓을 이용하여 네임노드로부터 인증을 받음 → 네임노드 재 방문시 재인증 받을 필요 없는 위임 토큰을 받음 → 추가적으로 데이터 노드에서 데이터 블록에 대한 접근 권한을 확인하기 위한 블록 접근 토큰을 획득 Format of Block access Token
시스템 Big Data 저장 응용 하둡 보안 취약점 1 • 하나의 대칭키 암호 키(블록 접근 토큰) 사용 문제 • 취약점 : - 하둡은 블록 접근 토큰을 생성하기 위해 네임노드와 모든 데이터 노드 간에 하나의 비밀키를 공유함 → 만약 한 데이터 노드가 공격을 당해서 키가 노출이 되거나 전송 중에 키가 노출된다면 모든 데이터 노드에 저장되어 있는 데이터 블록은 공격자에 노출됨 - 하둡에서는 블록 접근 토큰을 사용할 때 다른 사용자에게 양도 가능하지 않게 하기 위해 토큰 아이디에 소유자 아이디(OwnerID)를 삽입 → 현재 하둡 구현체는 데이터노드에서 소유자 아이디에 대한 검증방식을 적용하지 않고 있음. 즉 네트워크로 블록 접근 토큰을 얻은 공격자는 데이터 노드에 재전송 함으로써 네임노드와 데이터 노드가 공유하고 있는 비밀키가 갱신되기까지 해당 블록에 접근 가능함 Read Operation Sequence of Block
시스템 Big Data 저장 응용 하둡 보안 취약점 2 • Hadoop Echo System 중 Hadoop Security를 지원하지 않는 객체 존재 • Hadoop (CDH4 기준) 에서 지원하는 보안 체계 - MIT Kerberos 5 (krb5-1.6.1, 1.6.3, 1.8.1, 1.8.2, 1.9) - Hadoop Security with Active Directory - AES-256 Encryption with JCE Policy File - HMAC-SHA1 - Plug-in : integrate with existing enterprise web SSO • Flume, Hue, Hbase (with a Secure ZooKeeper), ZooKeeper – support Kerberos • Oozie, HttpFS - support Kerberos with HTTP SPNEGO • Sqoop, Pig – support security with no configuration required • Whirr – does not support security → Hadoop (CDH3 기준) 일 경우에는 ZooKeeper 및 HttpFS는 인증 지원하지 않음 또한 Job Tracker, Task Tracker, Node 와 Oozie 를 위한 몇몇 웹 도구들은 ID/PW 사용자 인증으로 접근 가능한 웹 사용자 인터페이스 (UI)에 의존함
시스템 Big Data 저장 응용 하둡 보안 취약점 2 • 하둡 보안 도입시 검토 대상 • Job Control – Dose nothing to prevent malicious users from causing harm (weak authentication) • Is not support encryption on the wire and encryption on disk • Is not protect DOS attacks • Is not support edge authentication (eg, PKI, SAML) • Is not easy to setting up Hadoop Security System • 새로운 하둡 컴포넌트 도입시 하둡 보안을 지원하는 컴포넌트로 구성해야 함
시스템 Big Data 저장 응용 하둡 보안 취약점 – 해결 솔루션 예제 • Solution Ex) Gazzang zNcrypt for Big Data • Transparent, unified data encryption to protect data at rest and in motion with minimal performance impact • Advanced key management that stores keys separately from the encrypted data to ensure ongoing data privacy compliance and minimize the risk of a potential data breach • Process-based access control lists to restrict access based on specific processes rather than job function, and ensure encrypted data is accessible only to those who absolutely need it • Platform independence to protect your investment – and your big data – no matter which cloud provider you choose or which cloud model you deploy • 출처 • 박승제, 김희열, “해쉬 체인을 이용한 하둡 보안의 향상”, 2012.06 • Owen O’Malley, Kan Zhang, Sanjay Radia, Ram Marti, and Christopher Harrell, “Hadoop Security Design”, 2009.10 • Andrew Beeherer, “Hadoop Security Design Just Add Kerberos? Really?”, 2010 • Cloudera, “CDH4 Security Guide 4.0”, 2012.06 • Cloudera, “CDH3 Security Guide 3.0”, 2012.02 • Gazzng, “Gazzang zNcrypt for Big Data - data sheet”, 2012
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0 • 빅 보안 데이터의 분석 필요성 • 스마트 기기와 인터넷 환경의 변화로 트래픽 증가와 다양한 보안위협이 확산 • 이와 관련하여 보안솔루션도 증가하고 있고, 관련 로그 및 이벤트의 증가는 빅 보안 데이터 시대로 넘어가고 있음 - 분석 데이터가 증가하고, 보안 위협 요소가 빅데이터에 잠복할 수 있는 가능성이 있음 APT (Advanced Persistent Threat) : 최대 수개월에서 수년에 걸쳐 타겟을 정하고 공격을 발생시킴 - 실시간으로 완벽하게 탐지하기 위해 정보보안 분야에서도 빅데이터 분석 및 처리기술에 대한 연구가 필요 • 기존 네트워크 계층 중심의 시그너처 탐지가 아닌 어플리케이션 계층 중심의 이상행위 기반 분석방법을 이용한 빅 보안 데이터를 처리해야 함
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0 • APT 위협 • 지능형 지속 위협은 단발성 공격이 아니며 공격 대상 네트워크에 침투하여 목적이 달성될 때가지 지속적으로 공격하는 고도화된 보안 위협을 의미 • 외부에 공개된 정보나 이전의 공격에서 얻은 데이터를 바탕으로 진행되기 때문에 공격대상에 대해 더 자세히 알면 알수록 공격은 정교해짐 • 많은 조직이 APT 공격과 싸우고 있으며, 네트워크의 백그라운드 노이즈로부터 위협을 초래할 수 있는 데이터를 걸러내는 것은 어려운 일이 되고 있음 • BYOD 위협 • BYOD(Bring Your Own Device)는 개인소유의 IT 단말기를 업무에 활용하는 현상을 의미함 • PC 위주의 주요업무와 개인 태블릿 PC, 스마트폰을 보조적 수단으로 업무에 활용하는 최신 유행 • 이러한 현상으로 하드웨어와 소프트웨어의 발전이 더욱 가속화되고 있으며 이로 인하여 BYOD를 이용한 업무생산성, 편의성과 같은 긍정적인 요소 외에 각종 Device 에 대한 잠재적 보안 위협이 존재 • 대표적인 보안 위협으로는 기업의 IT 통제권 상실, 단말기 취약점 및 악성코드로 인한 기업 내부정보 유출 위협, 악성코드에 감염된 개인용 기기의 내부 접속으로 인한 기업 IT 자산 위협, 단말기 도난 또는 분실로 인한 데이터 유출 등이 있음
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0 [로그데이터를 수집하는 이유] [로그데이터 수집이유 중 달성하기 어려운 것]
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0 • 통합보안 2.0 요구사항 * 빅데이터 이전의 통합보안을 ‘통합보안 1.0’ 이라 정의 • 단편적인 단위 보안시스템 (침입탐지/침입차단 시스템 등)의 처리방식으로는 위협대응에 한계가 있음 → 빅 보안 데이터에 대한 총체적으로 통합분석을 수행함으로써 효과적으로 대응해야 함 • 통합보안 1.0에서는 네트워크 보안 시스템 중심으로 데이터를 단일 장비에서 수집하여 DBMS에 저장하여 처리하는 구조 → 수집성능과 분석성능을 고려하여 병렬처리가 가능하도록 구성 • 통합보안 1.0에서는 네트워크 계층의 규칙기반 연관분석 방법을 이용하여 알려진 공격과 IP, 포트 임계치 위주로 위협을 탐지 → 고도화되고 지능적으로 잠복해 있는 위협을 탐지하기 위하여 사용자 ID, 어플리케이션에서 전후 관계를 분석한 어플리케이션 계층 중심의 사이버 상황인지 방법으로 위협을 탐지할 수 있음 • 통합보안 1.0에서는 성능 측면의 한계 때문에 수개월에서 년간 단위의 데이터를 실시간 분석하기 어려웠음 →분산 병렬처리로 인하여 수개월 이상의 장기 데이터를 이용하여 실시간 분석이 가능
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0
시스템 Big Data 저장 응용 빅데이터 통합 보안 2.0 • 시사점 • 이기종 보안시스템 및 업무용 어플리케이션의 로그들을 다양한 방법으로 통합하여 대량의 데이터를 대상으로 실시간 분석이 가능한 인프라 기술 적용 → 네트워크 및 어플리케이션 계층에서의 사용자의 행위에 대한 지속적 모니터링을 통한 비정상 행위를 탐지 → 콘텐츠 중심의 전후관계를 분석한 컨텍스트 중심 분석 연구를 통한 갈수록 지능화되는 보안위협 탐지 • 통합보안에 대한 보안관제 관점의 기술적 보안에 대한 연구가 주로 진행되고 있음 → 관리적 관점의 컴플라이언스 이슈와 위험관리에 대한 연구도 필요함 • 또한 빅데이터에 대한 표준 처리기준이 없으므로 표준화된 빅데이터 저장방식, 처리 기준에 대한 연구가 필요 • 출처 • 최대수, 김용민, “빅데이터와 통합보안 2.0”, 2012.06
빅데이터 보안 동향 • CSA, 빅데이터 워킹그룹 발족 (BDWG – Big Data Working Group) • CSA(Cloud Security Alliance)가 빅데이터 워킹그룹 발족 (2012.08.29) • 빅데이터 워킹그룹은 데이터 중심적인 보안과 개인정보보호 문제 해결을 목표로 함 1. 빅데이터 보안과 개인정보보호를 위한 베스트 프랙티스 수립이 제일 큰 목표 2. 업계와 정부가 이들 베스트 프랙티스를 적용할 수 있도록 지원 3. 빅데이터 보안과 개인정보보호 표준들에 영향을 끼칠 수 있도록 표준 개발조직들과 협력 관계 구축 4. 보안과 개인정보보호 이슈에 초점을 맞춘 새로운 연구 적용을 가속화하는 것을 목표로 함 • 2012년 말까지 업계와 정부 이니셔티브를 위한 펀딩을 모색 https://cloudsecurityalliance.org/csa-news/fujitsu-ebay-and-verizon-big-data-grour/
빅데이터 활성화를 위해 해결해야 할 과제 • 개인정보 익명성 보장체계 확립 • 전문인력 문제는 지속적인 투자만이 해결책
결론 • 빅데이터 시대는 Low-level 데이터 수집부터 시작하는 구조임 • 이런 Low-level 데이터 일체를 수집해야 모집단 전체에 대한 분석이 가능 • 그러므로 빅데이터 수집 시부터 데이터 암호화를 철저하게 해야 함 • 포착하고 저장하는 모든 데이터에 대해 암호화하는 것이 필요함 • 이전에는 비용이 많이 들기 때문에 수집하는 모든 데이터를 암호화하는 것을 꺼려하였으나 오픈소스 기반의 툴을 사용하면 비용이 많이 떨어짐 • 또한 성능 감소도 Application 계층 별 3~5%에 불과 • 분산환경처리에 맞는 자동 키 관리 솔루션을 활용하는 것이 필요 • 전체 암호화 프로세스에서도 취약한 부분이 키 관리이기도 하고, 분산환경처리에 맞는 자동 키 관리 솔루션의 적용이 필요함 • 또한 빅데이터 분석 시 개인정보 보호에 대한 방법도 같이 고민 해야 함 • 국가의 개인정보 보호법에 저촉되지 않도록 분석하고자 하는 데이터에 대한 보호 수준 및 알고리즘 선택 등에 대한 고민을 같이 해야 함
감사합니다. 이동우 지티원 데이터거버넌스 사업부 Tel : 010-4801-6609 email : leewow9@naver.com