200 likes | 429 Views
주제 : 빅 데이터의 오늘과 , 내일. 네트워크 컴퓨팅 프로젝트. B 반. 발표자 : 이광복 팀원 : 김정훈 박기호 이광복. 네트워크 컴퓨팅. 1. Big Data - Big data 정의 및 특징 - Big data 배경 2. 빅 데이터 기술 및 업체 동향 - 기술 동향 - 업체 동향 - 적용 사례 3. 전망 - 향후 전망 - 관련 이슈 및 과제. 목차. 네트워크 컴퓨팅. IT 업계의 새로운 화두 Big Data 란 ??.
E N D
주제: 빅 데이터의 오늘과, 내일 네트워크 컴퓨팅 프로젝트 B반 발표자: 이광복 팀원: 김정훈 박기호 이광복
네트워크 컴퓨팅 1. Big Data - Big data 정의 및 특징 - Big data 배경 2. 빅 데이터 기술 및 업체 동향 - 기술 동향 - 업체 동향 - 적용 사례 3. 전망 - 향후 전망 - 관련 이슈 및 과제 목차
네트워크 컴퓨팅 IT 업계의 새로운 화두 Big Data란?? 1. Big Data- 정의 및 특징(1) 단순히 많은 양의 데이터 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등을 하기 어려운 데이터 집합 그러한 데이터 집합을 활용하는 영역이나 기술까지 데이터 베이스의 규모에 초점을 맞춘 정의 (McKinsey, 2011) - 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 • 데이터 베이스가 아닌 업무수행에 초점을 맞춘 정의 (IDC, 2011) • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 • 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
네트워크 컴퓨팅 빅 데이터의 3가지 특징 대 용 량 다 양 성 속 도 1. Big Data- 정의 및 특징(2) 데이터의 기하급수적인 증가 방대한 데이터의 집합 데이터 종류의 증가 비정형, 구조화 되지 않은 데이터 실시간 데이터 생성, 활용 빠른 데이터 분석, 처리
네트워크 컴퓨팅 빅 데이터의 등장 배경 1. Big Data- 배경 Big Data
네트워크 컴퓨팅 2. 빅 데이터 기술 및 업체 동향 - 기술 동향(1) 데이터의 증가 더욱 고사양 고가의 장비로 교체? 전 서비스 영역에서 개인화 서비스와 소셜 서비스를 제공해야 하는 환경으로 변화 기존의 시스템, 소프트웨어 아키텍처의 Scale-Up만으로는 한계
네트워크 컴퓨팅 2. 빅 데이터 기술 및 업체 동향 - 기술 동향(2) 분산 처리 시스템 -효과적인 분산처리 시스템을 통한 유연한 서버 운용이 핵심 경쟁력 -서버 사양과 단일 스토리지 용량보다는 이를 효율적으로 운용하는 소프트웨어가 중요해 짐 -기술이 발전하고 있는 과정, 대부분오픈소스 형태
네트워크 컴퓨팅 R R은 오픈소스 프로그래밍 언어이자 통계적 컴퓨팅과 가상화를 지원하는 소프트웨어 환경이다. 대량의 데이터 셋을 통계적으로 분석하기 위한 툴로 큰 인기를 누리고 있다. 캐스케이딩(Cascading) 하둡용오픈소스 소프트웨어 추상화 계층(abstraction layer)으로, 사용자들이 JVM 기반 언어를 활용해 하둡 클러스터에서 데이터 프로세싱워크플로(data processing workflow)를 제작, 실행할 수 있도록 지원한다. 캐스케이딩의장점은 맵리듀스 작업 근간의 복잡성을 숨겨준다는데 있다. 엘라스틱서치(ElasticSearch) 엘라스틱서치(ElasticSearch)는 분산형레스트풀(RESTful) 오픈소스 검색 서버다. 이는 특별한 설정 없이도 거의 실시간의 검색과 멀티테넌시(multitenancy)를 지원하는 스케일러블 솔루션(scalable solution)이다. 현재는 스텀블어폰(StumbleUpon)이나 모질라와 같은 여러 기업들이 이를 채택하고 있다. 2. 빅 데이터 기술 및 업체 동향 - 기술 동향(3) 아파치 H베이스(Apache HBase) 아파치 H베이스(Apache HBase)는 구글의빅테이블(BigTable)을 본떠 자바로 작성된 오픈소스비관계열지향분산형 데이터베이스(non-relational columnar distributed database)로, 하둡분산형 파일시스템(HDFS, Hadoop Distributed Filesystem)에 기반한 구동을 목적으로 설계됐다. 이는 폴트 톨러런트 스토리지(fault-tolerant storage)와 대량의 희소 데이터(sparse data)에의 신속한 접속을 지원한다. H베이스는 지난 몇 해간 시장의 관심을 모은NoSQL데이터 스토어(NoSQL data store) 중 하나다. 몽고DB(MongoDB) 몽고DB(MongoDB)는 대중적으로 사랑받는 또 다른NoSQL데이터 스토어다. 몽고DB는 역동적 스키마(dynamic schema)를 통해 정형 데이터를 BSON(Binary JSON)이라고 하는 JSON 형태의 문서로 저장한다. 시장의 여러 대기업들이 몽고DB를 채택하고 있다. 스크라이브(Scribe) 스크라이브(Scribe)는 페이스북이 개발한 서버로, 2008년부터 사용되기 시작했다. 이는 여러 서버들에서 실시간으로 스트림되는 로그 데이터를 종합하는 역할을 한다. 페이스북의 자체 스케일링(scaling) 작업을 위해 설계된 스크라이브는 현재 매일 수백 억 건의 메시지를 처리하고 있다. 카산드라(Cassandra) 또 하나의NoSQL데이터 스토어 아파치 카산드라는 자신들의 인박스서치(Inbox Search) 기능을 지원할 목적으로 페이스북이 개발한 오픈소스분산형 데이터베이스 관리 시스템이다. 페이스북이 2010년 카산드라를 포기하고 H베이스를 채택하긴 했지만, 카산드라는 여전히 많은 기업들에서 활용되고 있다. 아파치 카우치DB(ApachCouchDB) 아파치 카우치DB(ApachCouchDB) 역시 오픈소스NoSQL데이터 스토어 중 하나다. 이는 JSON을 이용해 데이터를 저장하고 있으며 자바스크립트를 쿼리 랭기지(query language)로, 맵리듀스와 HTTP를 API로 사용하고 있다. 하둡(Hadoop) 데이터 집약적 분산형 애플리케이션(data-intensive distributed application)용 오픈소스 소프트웨어 프레임워크이다. 복수의 컴퓨터를 연결해 처리하기 위해 맵리듀스 기능과 분산 파일 시스템을 도입했고, 이로부터 하둡의 역사가 시작됐다. 현재 하둡은빅 데이터를 구성하는 정형, 반정형, 비정형 데이터를 저장하는 가장 대중적인 테크놀로지로 사랑받고 있다.
네트워크 컴퓨팅 빅 데이터는 클라우드 기반의 대용량 데이터 처리 기술인 하둡(Hadoop)을 비롯해, 전통적인 RDBMS를 보완하기 위한 NoSQL(Notonly SQL), 그리고 각종 데이터 시각화(Data Visualization) 기법에 이르기까지 방대한 기술 세트를 사용한다. 따라서 데이터를 저장하고 분석하는 부분에서 경쟁사보다 우수한 기술을 보유한 신생 기업이 나타나면 이를 경쟁적으로 인수하고 있는 상황이다. 위키본(Wikibon)에 따르면, 2011년 빅 데이터 시장 규모는 52억 달러였으며 하드웨어, 소프트웨어, 서비스 분야 중 서비스 매출이 44%로서 가장 큰 비중을 차지했다. 빅 데이터 시장에서 앞서가기 위해서는 서비스 역량이 가장 중요할 것으로 판단. 빅 데이터의 궁극적인 목적은 기술의 도입이 아니라 이를 통해 비즈니스 통찰력을 도출하고 실제로 비즈니스를 향상시키는 것이기 때문이다. 2. 빅 데이터 기술 및 업체 동향 - 업체 동향(1)
네트워크 컴퓨팅 ● 데이터 저장부터 관리, 분석까지 빅데이터와 관한 모든 것을 제공하기 위해 그린플럼, 아이실론 등 빅데이터 솔루션 업체 및 데이터 관련 다수업체 인수 ● 빅데이터 스토리지 솔루션 (아이실론, 이트모스), 콘텐츠 관리 솔루션 등 제공 ● EMC 애널리스트 랩을 운영하며 데이터 사이언티스트(Data Scientist) 육성 2. 빅 데이터 기술 및 업체 동향 - 업체 동향(2) ● 140억 달러 이상을 투자하여 비즈니스 분석 관련업체 인수 - 분석용 데이터 저장관리 업체(네티자), 데이터 통합 업체(에센셜), 분석 솔루션 업체 등 ● 빅데이터 솔루션 : InfoSphereBigInsight(Hadoop). InfoSphere Streams ● 지속가능한 지구를 만들기 위해 지구 데이터(기온, 토양상태, 교통 흐름 등)를 분석하는‘스마트 플래닛(smart planet)’ 프로젝트 전개 ● 세계적인 DB 업체, ‘하이페리온社’를 인수로 분석기술 확보 ● 오라클빅데이터어플라이언스 제품 출시
네트워크 컴퓨팅 ● 업무용 어플리케이션 업체에서 최근 DB 전문업체로 변신 ● 메모리 기반 DB 어플라이언스(HANA) 제시 ● BI 소프트웨어, 플랫폼을 제공하는 ‘비즈니스 오브젝트社’ 인수 2. 빅 데이터 기술 및 업체 동향 - 업체 동향(3) ● 데이터웨어하우징 및 비즈니스 인텔리전스(BI) 전문업체 ● 비정형 데이터의 고급분석, 관리 솔루션 업체 인수(애스터데이터) ● 애스터맵리듀스 플랫폼 제시 ● BI 솔루션 업체 ‘버티카’, 기업용 검색엔진 업체 ‘오토노미’ 인수 ● 버티카와오토노미를 결합하여 빅데이터 분석 시장에 진입 ● 인스턴트-온 엔터프라이즈(Instant-On Enterprise) 솔루션으로 기업경영의사 결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공
네트워크 컴퓨팅 ● 비즈니스 인텔리젼스(BI) 소프트웨어 공급업체 ● BI(Business Intelligence)에 빅데이터 분석 처리를 접목하여 사업 역량 강화 2. 빅 데이터 기술 및 업체 동향 - 업체 동향(4) ● 대용량 데이터 처리 기술 발표: GFS(Google File System, 2003년), MapReduce(2004년), Sawzall(2005년), Bigtable(2006년) ● 빅쿼리(Big Query) 서비스 공개(2011년): 이용자(기업 등)가 업로드한 거대한 양의 데이터 분석 처리를 지원하는 서비스 ● 윈도 애저(Windows Azure)와 윈도 서버 플랫폼용 아파치 하둡 개발 계획 ● 하둡(Hadoop) 기술 전문업체 ‘호튼웍스’와 협력
네트워크 컴퓨팅 구글 독감예보 2. 빅 데이터 기술 및 업체 동향 - 적용 사례(1) • 시간별, 지역별 독감 관련 검색어 빈도를 지도에 표시, 확산 정도 뿐만 아니라 확산되는 방향에 따라 예보도 하는 서비스 제공 • 미국 질병통제예방센터보다 2주나 빠르고 정확히 예측 http://www.google.org/flutrends/ 구글 실시간 번역 및 오타체크 서비스 • 미리 번역한 문서에서 뜻이 비슷한 문장과 어구를 대응시키는 방식. 엄청난 양의 데이터를 통원해 번역의 정확성을 크게 높임. 수십억장의 문서를 바탕으로 총 65개의 번역서비스 제공. • 매일 3억 건씩 발생하는 검색창의 오타입력과 수정 정보를 활용해 오타체크 프로그램 제작
네트워크 컴퓨팅 페이스북 친구 추천 2. 빅 데이터 기술 및 업체 동향 - 적용 사례(2) • 회원들의 관계 데이터들을 수집해 지인들이 많이 겹치는 사람을 우선적으로 친구로 추천. 같은 학교, 직장, 동아리 사람들을 친구로 추천, 심지어 자신을 검색한 적이 있는 사람을 친구로 추천. 아마존 추천 기능 • ‘데이터는 절대 버리지 않는다’는 경영진 기조를 바탕으로 데이터 분석을 경영 철학화 • 소비자 성향 및 패턴을 분석하여 ‘당신이 아마도 좋아할 것들’ 이라는 말을 붙여 구매를 유도하는 추천엔진 개발. 매출의 30%가 추천엔진에서 발생
네트워크 컴퓨팅 T-mobile 고객 이탈 방지 • 매일 170억 건 이상의 통화 및 송수신 내역을 담은 데이터 발생, 이를 분석해 다른 통신사로 옮긴 고객이 사전에 보였던 특유의 패턴 발견 • 고객간 소셜 네트워크를 분석, 영향력이 큰 고객을 따라 지인들이 동반 이탈하는 현상 발견. 이탈 징후 보이는 고객에게 맞춤형 추가혜택 제공하여 Lock-in 유도 • 시스템 구축 직후인 2011년 2/4분기 이탈 고객 수 5만 명으로 1/4분기 9만 9,000명 절반 수준으로 감소 2. 빅 데이터 기술 및 업체 동향 - 적용 사례(3) 포드 스마트 자동차 • 시시각각으로 운전데이터를 수집, 유저가 어디로 향하려 하는가 등을 실시간으로 예측하는 등의 미래 스마트자동차 개발 목표 • 구글과'하이브리드 자동차스마트 서비스' 공동 개발 중. 실시간으로 수집되는 교통정보 데이터를 분석하여 교통혼잡지역을 피함과 동시에 운전자의 운전습관에 기초하여 가장 에너지를 절약하는 방식으로 운전자의 목적지 경로를 추천
네트워크 컴퓨팅 5년간 Big Data 시장규모 전망 3. 전망 - 향후 전망(1) $534억 $50.1억
네트워크 컴퓨팅 빅 데이터 활용이 정보통신, 교육, 의료, 금융 등 사회 각 분야로 확산되면서 사회전반의 생산성 향상에 기여할 전망 3. 전망 - 향후 전망(2)
네트워크 컴퓨팅 향후 빅 데이터 시장 전개 방향 3. 전망 - 향후 전망(3) 첫째, 데이터의 가치가 증대됨에 따라 업체들간에 데이터를 거래하는 데이터 마켓플레이 스가 주목 받게 될 것이다. 둘째, 물리적 현상을 나타내는 데이터를 수집함에 따라 온라인과 오프라인의 연계가 더 욱 중요해질 것이다. 셋째, 빅 데이터에서 탁월한 성과를 내기 위해서는 무엇보다도 빅 데이터를 활용할 수 있는 성숙된 IT/조직 문화의 확립해야 한다. 더불어 IT 및 비즈니스 도메인 지식을 갖춘 인력, 그리고 통계학, 수학적 지식을 갖춘 데이터 사이언티스트를 확보하는 것이 중요한 선결과제라고 볼 수 있다.
네트워크 컴퓨팅 개인정보 유출 및 사생활 침해 문제 소유권 및 사용권 문제 보안 및 영업비밀의 유출 문제 인프라 구축과 전문인력 확보 3. 전망 - 관련 이슈 및 과제
감사합니다. 소아과