340 likes | 812 Views
LOD 해외 사례. 2014 Linked Open Data Annual Conference. 2014. 1. 24. 박진호 ( jino.kor@gmail.com ) 성균관대학교 문헌정보학과 DataLab. 따. 라. 가. 지. 만. 말. 고. 따. 라. 잡. 자. !. 2014.1.24. 국립중앙도서관 국제회의장. 이 자료는 네이버에서 제공한 나눔글꼴이 적용되어 있습니다 http://hangeul.naver.com/font.
E N D
LOD해외 사례 2014 Linked Open Data Annual Conference 2014. 1. 24. 박진호(jino.kor@gmail.com) 성균관대학교 문헌정보학과 DataLab 따 라 가 지 만 말 고 따 라 잡 자 ! 2014.1.24. 국립중앙도서관 국제회의장
이 자료는 네이버에서 제공한 나눔글꼴이 적용되어 있습니다http://hangeul.naver.com/font This work is licensed under the Creative Commons 저작자표시-비영리-변경금지 2.0 대한민국 License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-nd/2.0/kr/ or send a letter to Creative Commons, 444 Castro Street, Suite 900, Mountain View, California, 94041, USA.
사람간의 소통이 가능한 이유 같은 언어 사용 같은 개념 인지 같은 문화 공유 구문(Syntax), 의미(Semantics), 화용(Pragmatics)
지금까지 웹과 소통 방식 WWW 같은 언어 사용 구문(Syntax)
Semantic Web(Linked Data) 같은 언어 사용 같은 개념 인지 구문(Syntax), 의미(Semantics) 표준적인 구문을 사용하고, 개념, 대상을 정의하고 체계화하고(구조화), 비교/분류하기(동일한 것, 비슷한 것, 다른 것,어딘가에 속하고, 무언가를 가지고 있고등)
Linked Open Data • 웹에서 보다 잘 소통하기 위한 방식 : • 기본적으로 정보문제(Information needs) 해결을 위한 활동 • 웹은 문제해결이 가능한 거대한 데이터베이스(documents 중심) • 기존의 소통방식도 좋으나 보다 정확하고 명확한 이해(machine processable)가 가능하도록 하는 것이 필요 • 웹을 구조화시키고, 소통하기 위한 기본 원칙(LOD원칙)을 준수하고, 공통적으로(사람과 기계, 기계와 기계) 이해가 가능한 구조와 언어로(RDF/OWL)누구나 활용할 수 있도록(Open) 하기
누군가는 원칙과 표준을 만들어가고 누군가는 데이터 플랫폼을 구축하고 에 누군가는 데이터를 출판하고(Publishing) 누군가는 이 데이터들을 활용하고 언젠가는 LOD를 위한,LOD를 활용한 새로운 서비스들이 만들어질 것이고
넓어지고 많아지면 무엇이 여기를 달리는 것이 가장 효과적인가? 무엇이 여기를 달리게 할 것인가? data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data로 만들어진 data를 연료로쓰는 이 도로는 어떻게 만들어야하는가? 이 도로에 들어가는 data는 어떻게 만들고 활용할 수 있는가?
같 이 날 자 ! 따 라 가 지 만 말 고 따 라 잡 자 !
사례1:DBpedia • 위키피디아(Wikipedia, http://www.wikipedia.org)로부터 구조화된정보를 추출하고 웹에서 이 정보들을 활용 가능하도록 함 • 약 400만 개의 개념(things)이 기술 : 약 80만 건이 사람에 대한 것, 60만 건이 장소(인구정보를 포함하고 있는 약 40만 건 포함), 약 37만 건이 저작물(11만 건의 음악앨범, 7만 건의 영화, 2만 건의 비디오 게임 포함), 20만 건이 기관(약 5만 건의 회사 정보와 4만 건의 교육기관 포함), 22만 건의 종 정보와 약 5천 건의 질병관련 정보 • 영어 외에 DBpedia는 119개 언어로 구성된 정보를 제공함.이는 약 2,400백만 건의 개념(things)들을 기술하고 있는데 이 중 약 16백만건이 영어버전의 DBpedia와 연결되어 있음
Data(Literal) Object
사례2:BBC • 미디어 분야 중 가장 적극적으로 LOD를 직접 활용하고 업무 영역까지 확장하여 실제 이용자 서비스에 도입 • BBC가 구축, 관리하는 데이터에 대한 Linked Data 발행자이자,MusicB_rainz, DBPedia, Wikipedia 데이터와의 연결을 지향하는 데이터 소비자 • BBC가 생산하는 막대한 정보들은 상호간의 공유와 연계, 협업 없이 해당 채널별 지역별로 분리되어, 데이터 중복, 데이터 관리/운영 어려움(재정적어려움 포함) 초래 • 이러한 문제를 극복하기 위해 Linked Data 도입
사례2:BBC • 2007년 10월 BBC Programmes서비스 • 웹에서 BBC 프로그램에 대한 영구적인 접근과 정보활용 보장 • BBC 프로그램으로 8개의 BBC TV 채널, 10개의 주요 라디오 방송국, 스코틀랜드, 북아일랜드, 웨일즈를 포함하는 6개 방송국의 모든 프로그램 데이터에 대한 접근 • 이를 구현하기 위해 프로그램 메타데이터 간의 공유와 활용을 위해 Linked Data 선택(BBC 웹사이트 15개 원칙) • 특정 사람부터 특정 프로그램까지 모든 것을 식별할 수 있도록 하고, 이를 RDF를 활용하여 기계가독형으로 표현
사례2:BBC The BBC’s 15 Web principles • BBC 2.0 프로젝트의 일환 • 1. Build web products that meet audience needs • 2. The very best websites do one thing really, really well3.Do not attempt to do everything yourselves • 4. Fall forward, fast • 5. Treat the entire web as a creative canvas • 6. The web is a conversation. Join in7. Any website is only as good as its worst page • 8. Make sure all your content can be linked to, forever. • 9. Remember your granny won’t ever use “Second Life” • 10. Maximise routes to content • 11. Consistent design and navigation needn’t mean one-size-fits-all • 12. Accessibility is not an optional extra • 13. Let people paste your content on the walls of their virtual homes • 14. Link to discussions on the web, don’t host them • 15. Personalisation should be unobtrusive, elegant and transparent
사례2:BBC • BBC Linked Data 플랫폼은 DSP(Dynamic Semantic Publishing)가 자연스럽게 진화한 형태로 BBC의 모든 콘텐츠에 태깅을 허용한다는 생각에 기초 • 기존의 BBC 콘텐츠 관리 시스템은 개방되고 연결된 구조의 웹에서 재활용되고 서비스되는데 적합하지 않음 • 모든 BBC 저작물이 데이터 뒤에 숨겨져 있는 의미를 이해할 수 있도록 하고 “things”에 대한 검색이 가능하도록 하는 API를 제공하는 것임 • 현재 음악, 스포츠(축구와 올림픽), 정치, 학습 분야에 적용 향후 확장 고려
사례2:BBC • 2012년부터 BBC News를 위한 시맨틱 프로토타이핑 플랫폼 BBC News Juicer 시작 The News Juicer 1 Grab BBC News & Sport Articles 2 Extract Concepts 3 Match to DBpedia 4 Annotate Article 5 Push to Triplestore 6 Expose via API
사례3:OCLC WorldCat • OCLC WorldCat.org • Schema.org의 용어집을 활용하여 서지 정보에 대한 구조화된 데이터를 제공 • 웹 검색엔진(서비스)에서 WorldCat서지 정보에 대한 접근성을 강화하는 효과를 갖는데, 이는 서지 정보 기술을 위한 OCLC의 1세대 링크드 데이터모델
사례4:Linked Open Vocabulary • LOV(Linked Open Vocabularies, http://lov.okfn.org) • 링크드 데이터 웹의 성장으로 수많은 RDFS/OWL 기반의 용어집들이 존재하며, 용어집은 SKOS, DC, FRBR과 같은 표준뿐만 아니라 FOAF, Event Ontology와 같이 사실상 표준들인 것들도 있음 • 현재 수많은 용어집들이 새로운 메타데이터를 선언하고 상호 연결되어 웹에 출간되면서 새로운 용어집 생태계를 이루고 있음 • LOV는 어휘 생태계에 쉽게 접근할 수 있는 방법을 제공함
사례4:GeoNames • GeoNmaes온톨로지는 웹에 URI를 활용해서 약 1,000만 건의 지리적위치 정보를 제공하고 있으며 이중 약 800만 건은 지리와 관련된 다양한 특징적인 정보를 포함하고 있음 • 인구정보를 포함한 280만 건의 지리정보, 이명표기를 갖고 있는 550만건의 지리정보 등 • GeoNames는 다양한 언어, 고도, 인구와 다양한 이명표기 등에 대한 데이터를 통합한 데이터로, 모든 위도, 경도 좌표는 WGS84(World Geodetic System 1984)표준을 따르고 있음
한 번 더 생각해볼 문제 • 어디에서 출발할 것인가? • BBC의 경우처럼 현재 해결해야할 문제가 있는가? • 단지, 내 데이터를 발행하는 것이 중요한가? • 기존에 연결되어 있는 기관(웹사이트, 데이터베이스 등)과 함께 출발해 보는 것은 어떠한가? • 꼭,RDF로 개방해야하는가?
플랫폼은 누가, 어떻게 만들고 있고 데이터는 누가, 어떻게 만들고 있고 서비스는 누가 어떻게 만들고 있는가? 나의 문제 상황은 무엇인고, 내가 만들어야 하는 것은 플랫폼인가, 데이터인가, 서비스인가?
참고자료 • 박진호 (2013, 7월). 도서관은 웹에 존재하는가? : 링크드데이터, 글로벌 데이터베이스. 국가전자도서관 세미나. 경기도 : 국가기록원 • 박진호. (2013). 도서관 데이터의 링크드 데이터(Linked Data) 변환과 인터링킹(interlinking)을 통한 정보연계 확장성에 관한 연구 : 국립중앙도서관 서지, 주제명, 저자명 데이터를 중심으로. 석사학위논문, 성균관대학교, 서울. • 박진호 (2013, 12월). 국내외 정보서비스 기관의 LOD 구축 동향,KISIT세미나. 서울 : 한국과학기술정보연구원 • Godby, J. Carol. (2013, June). The Relationship between BIBFRAME and OCLC’s Linked-Data Model of Bibliographic Description: A Working Paper. OCLC Working Paper. Retrieved from http://oclc.org/content/dam/research/publications/library/2013/2013-05.pdf 이미지 출처 http://www.flickr.com/photos/sergemelki/8156333460/