560 likes | 974 Views
Linked Open Data 를 가능하게 하는 도구들. 2014. 1. 24. 이 규 철 충남대학교 컴퓨터공학과 kclee@cnu.ac.kr. Ⅰ. Ⅱ. III. Ⅳ. 발표 순서. Linked Open Data : Web of Data. CKAN & OGPL. LATC & LOD2. Wrap-up. Linked Open Data : Web of Data. 데이터베이스의 진화 [Fujitsu 2012]. Linked Data : 차세대 진화.
E N D
Linked Open Data를 가능하게 하는도구들 2014.1.24. 이 규 철 충남대학교 컴퓨터공학과 kclee@cnu.ac.kr
Ⅰ Ⅱ III Ⅳ 발표 순서 Linked Open Data : Web of Data CKAN & OGPL LATC & LOD2 Wrap-up
CKAN(Comprehensive Knowledge Archive Network) • 모든 형태의 데이터,콘텐츠 공개및 접근을 가능하게 하는 오픈소스 데이터 포털 플랫폼 • OKF(Open Knowledge Foundation) 산하의 프로젝트 결과물로 OKF는 2004년 설립된 비영리 단체 • 목표 • 데이터의 게시, 공유, 검색, 사용을 가능하게 하는 도구를 제공하여 정부나 회사의 데이터를 공개함으로써 누구든지 이용 가능하게 함 • 라이선스 • Affero GPL3.0
CKAN 적용사례 • 총 70개의 정부 데이터 포탈 및 데이터 커뮤니티를 구성
OGPL(Open Government Platform) • 인도와 미국의 공동 프로젝트 결과물로 데이터를 공개, 공유함으로써 정부의 투명성을 보장하고 시민의 참여를 장려하는 오픈 소스 플랫폼 • Future roadmap of OGPL • CKAN + Drupal7
Drupal • 개인 또는 커뮤니티가 웹사이트의 다양한 자료들을 손쉽게 관리, 조직, 출판할 수 있도록 다양한 기능을 제공하는 오픈 소스 CMS(Content Management System) • 대표적 오픈소스CMS : Drupal, WordPress, XpressEngine등 • 오픈 소스 CMS의 특징 • 상용 CMS는 정해진 방식대로 활용해야 하는 반면, 오픈 소스 CMS는 개발자가 원하는 대로 변형이 가능함 상용 CMS = 변신합체로봇 오픈 소스 CMS = 레고
Drupal 구성 • 코어 모듈 • 웹 사이트 제작 플랫폼 • 기여 모듈 • 코어 모듈과 결합하여 추가 기능을 부여하는 모듈
Drupal 적용사례 • 미국 백악관 • 미국 정부 사이트의 24%, 교육 기관 사이트의 26%, 세계 100대 대학의 71%가 Drupal을 사용
LATC • LATC (Linked Open Data Around-The-Clock)는 EU FP7의 후원을 받는 프로젝트 • 2010년 9월 ~ 2012년 8월까지 총 2년간 진행 • 목표 • LOD 데이터 셋 사이의 데이터 링크의 정확성과 품질, 수의 증가 • LOD 게시와 소비의 지원 • 라이선스 • Apache license 2.0
24/7 Interlinking Platform • LOD Cloud에서 데이터 셋간의 RDF 링크를 생성하기 위해 제공되는 솔루션 • 기능 • 데이터간의 링크 생성 • LOD Cloud로 부터 데이터 셋 검색 • CKAN 데이터 셋 검색 • 링크 품질 측정 • 최근 24/7 Interlinking Platform은 LOD2의 Linking 단계를 위한 도구에 포함
LOD2 • LOD2는 EU FP7 의 후원을 받는 대규모 통합 프로젝트 • 목표 • 데이터의 일관성과 품질향상 • 관계형 데이터와 RDF 데이터 관리의 격차 해소 • 데이터 게시자, 사용자를 위한 LOD의 진입 장벽 낮춤 • 2010년 9월 ~ 2014년 8월까지 총 4년간 진행 • 유럽 11개국의 15개의 파트너로 구성되어 있음
LOD2 Stack • 라이프 사이클 관리를 위한 통합 도구로 LOD의 게시, 관리, 소비를 위한 일련의 절차
Extraction : Virtuoso Sponger • 텍스트, XML, RDB 등의 포맷으로부터 RDF 형태의 문서를 추출함 • Virtuoso Sponger • 다양한 데이터 형식을 RDF로 변환해주는 미들웨어 • RDB, XHTML, XML, RDFa, CSV 등을 지원 • SOAP, REST 인터페이스를 통해 데이터에 직접적으로 접근할 수 있는 HTTP 프록시 서비스를 제공 • SPARQL Endpoint 지원
Extraction : D2R • 관계형 데이터베이스의콘텐츠를LOD 형식으로 변환 • D2R server • Linked data view, HTML view, SPARQL Endpoint기능 제공 • RDB데이터를 RDF 또는 HTML 형식으로 변환하여 보여줌 • D2RQ Engine • 별도의 Triple Store 없이 RDB에서 RDF 기반의 접근을 제공함 • RDB에 RDF 기반의 접근을 제공하기 위해 R2RML을 사용 • SPARQL Query, RDF dump 기능 제공
R2RML • 관계형 데이터베이스의 데이터를 RDF 형식으로 변환 할 수 있도록하는매핑 언어 • 2012년 9월 W3C 표준으로 제정
Storage / Querying : Virtuoso RDF Store • RDF 형식의 데이터를 저장하고, 저장된 데이터를 SPARQL을 통해 검색할 수 있도록 함 • Virtuoso • 특정 플랫폼에 상관없는 통합 데이터 관리, 접근, 통합 솔루션을 제공하는 멀티 모델 데이터 서버
Manual revision / authoring : OntoWiki • 시맨틱콘텐츠를 제작, 수정하는 것을 제공하는 인터페이스 • OntoWiki • 인스턴스 데이터들의 시각적 표현을 제공함 • 시맨틱콘텐츠를 제작할 수 있도록 하며 RDF의 내용을 편집할 수 있는 편집 모드를 제공함
Manual revision / authoring : OntoWiki(계속) • Selection of a knowledge base • Selection of a class • Selection of additional properties to be shown as columns in the list • Further restriction of the resources in the list • Selection of a resource redirects the user to a generic resource details view • Representation of RDF triples in the user interface as resource attribute value notation
Interlinking / Fusing : SILK • 실제로는 같은 객체이나 서로 다른 URI를 가진 자원들을 발견하여 연결함 • SILK • 서로 다른 두 개의 데이터 셋에서 데이터 항목 간의 관계를 발견하는 도구 • 데이터 셋 간의 연결을 위한 절차를 웹 애플리케이션으로 제공하여 발견 및 연결을 기능을 사용하기 쉽게 제공함
Interlinking / Fusing : SILK(계속) 연결을 수행 할 2개의 Dataset Property 값 비교를 위한 규칙 생성 Class의 특정 Property를 지정 : name 연결할 대상이 되는 Class를 지정
Interlinking / Fusing : SILK(계속) • Property(name) 값이 일치하는 경우의 결과 리스트
LATC SILK와 SILK의비교 • LATC SILK • LATC에서 SILK에 부가적인 기능을 추가하여 만든 Interlinking 도구 • SILK 기능 • Workbench • Console • Console API • Runtime • LATC SILK에 추가된 기능 • Data Source Inventory • Metadata Store • SindiceCrawler & Indexer
Classification / Enrichment : DL-Learner • 상위레벨 온톨로지와의 연결 및 통합을 통해 Linked data의 폭넓은검색및 활용을 제공함 • DL-Learner • 인스턴스 데이터의 Description Logic을 학습하는 도구 • 특정 클래스에 대한 상위클래스에 대한 정보와 그 클래스와 비슷한 인스턴스 검색, 인스턴스 분류 등을 제공하기 위함
Classification / Enrichment : DL-Learner(계속) • Father를 학습하는 예 • 배경지식을 가진 Description Logic에 Father에관한 인스턴스 정보를 전달 • Positive example:Father • negative example: NOTFather • 전달 받은 인스턴스 정보를 통해 Father Class가 가지는 Description Logic을 결론으로 도출 결론 도출 : Male AND EXISTS hasChild.T 배경 지식 Father의인스턴스 정보
Quality Analysis : ORE • Quality Analysis • Linked Data의 품질을 평가하기 위한 기술 • ORE(Ontology Repair and Enrichment) • 구성된 온톨로지에서 잘못 작성된 개념을 수정하거나 새로운 개념을 추가함으로써 온톨로지 품질을 향상시킴 • Ontology Enrichment • DL-Learner를 사용하여 기존 클래스와 상위 클래스 사이의 관계를 학습함 • Ontology Debugging • 학습한 관계와 다른 논리적인 오류를 발견하고 그것을 수정함
Evolution / Repair : ZemantaLODrefine • Linked data를 정제하고, 문제점 발견될 시 자동으로 복구하는 방법을 제안함 • ZemantaLODrefine • OpenRefine의장점을 가져와 Linked Data에 적합하게 작동하도록 만든 도구 • DBPedia데이터 셋과 연결하여 데이터를 확장할 수 있고Crowdsourcing 서비스를 통한 데이터 확장을 지원함
Evolution / Repair : ZemantaLODrefine(계속) • 보유하고 있는 기존 정보에 대해 Extension을 수행 DBpedia와 Extension을 통해 추가적으로 얻은 정보 기존 정보
Search / Browsing Exploration : SIG.MA • RDF로 만들어진 데이터를 Web을 통해 검색할 수 있도록 함 • SIG.MA • Web의 데이터를 Mashup하여 구조화된 데이터 형태(RDF, RDFa)로 제공함 • RDF 데이터를 검색할 수 있도록 Query를 지원함
Search / Browsing Exploration : SIG.MA(계속) Web에 존재하는 Tim Berners Lee와 관련된 RDF link를 발견하여 결과로 제공함 특정 Web Site의 결과만 볼 수 있도록approve, reject 기능을 제공함
Linked Open Data 도구를 잘사용하면 ? • 데이터의 가치 향상 • 공유 및 연결을통한 • 데이터의 가치 향상 • 데이터 연계 • 전문적인 지식이 없어도 • 누구나 쉽게 • 관련 데이터를찾음 • 플랫폼 활용 • 다양한 지식정보 서비스 • 플랫폼으로 활용 • 시너지 효과 발생 • 지식화된 서비스를 • 통해 더 많은 창의적인 • 서비스창출
향후 발전 방향: 빅데이터 분석에 LOD를 활용 • 빅데이터 분석을 통해 생성된 데이터를 LOD로 구축하고 기존의 LOD와 연계하여 지식화된 맞춤형 서비스를 구축 빅 데 이 터 저 장 시 스 템 H A D O O p
빅데이터 분석에 LOD를활용한 예시 • 교통 사고 • 통계 • 특정 지점에서 1년에 10회 이상 교통 사고 발생 • 사고 다발 지점 지정 • 빅데이터 분석 • 지난 3년간 특정 조건(날씨, 교통량, 속력 등)일 때 사고가 빈발 • 특정 조건에 따라 교통 사고 가능성을 측정하여 사고주의 지역 예측 • 사고주의 지역 진입 시 알림(보행자 및 운전자) • 빅데이터 지식화 • 지난 3년간 특정 조건일 때 사고를 일으킨 자동차에 장착된 차량제어장치와 그 제조회사를 찾아내어 문제 장치를 진단 • 사고가 발생한 차량의 제동거리를 비교하여 제동장치의 문제를 진단
LOD의 증가로 인한 변화 Big Linked Data Linked Data Master Slave Cloud Single Machine
Hadoop & MR을 통한 Big LOD 처리시 문제점 • RDF는 Subject, Object 의 지속적인 연결로 인하여 많은 Join 연산이 발생함 • Hadoop & MapReduce는 Join 연산이 존재하지 않음 • Multi-Query 시 상당한 I/O, Network Traffic 발생의 원인이 되며 상당한 성능 저하가 발생함