1 / 47

The Role of Libraries in Data Curation

The Role of Libraries in Data Curation. Rapeepong Yamsuwan. What I want to talk about. The importance of data Infrastructure of data curation Skills needs Dataverse ‘s project. The importance of data. It’s the data, stupid.

ivie
Download Presentation

The Role of Libraries in Data Curation

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. The Role of Libraries in Data Curation RapeepongYamsuwan

  2. What I want to talk about • The importance of data • Infrastructure of data curation • Skills needs • Dataverse ‘s project

  3. The importance of data

  4. It’s the data, stupid • ‘astronomers are just as likely to point a software query tool at a digital sky survey as to point a telescope at the stars’ (The Economist, Feb 2010) • ‘“It's like the invention of the telescope," Franco Moretti, a Stanford professor of English and comparative literature, says of Google Books. "All of a sudden, an enormous amount of matter becomes visible.” (The Chronicle, ‘The humanities go Google’, May 28 2010)

  5. Gary King, 2007 “Data sometimes exist on individual researchers’ Web sites, without professional backups, off-site replication, plans for format conversion and migration, or professional cataloging.”

  6. Pious hopes (Carole Palmer) • 60% ‘archive’ generated or collected data (no offsite backup) • 61% expect to keep more than 10 years

  7. Data lost, and data never born (U Wisconsin Summary Report of the Research Data Management Study Group (2009)) ‘In some cases, inadequate storage capacity is leading to loss of data: forcing some researchers to discard data from past experiments in order to make room for current ones or to avoid certain types of experiments and research altogether’

  8. Ten Questions to Begin a Conversation With Your Faculty About Data Curation (Witt & Carlson) What is the story of your data? What form and format are the data in? What is the expected lifespan of your data? How could your data be used, reused, and repurposed? How large is your dataset, and what is its rate of growth? Who are potential audiences for your data? Who owns the data? Does the dataset include any sensitive information? What publications or discoveries have resulted from the data? How should the data be made accessible?

  9. Qualified gravitational pull (Green and Gutmann) ‘Most institutional repositories do not and cannot offer support for managing dataset formats over time … Policies for long-term stewardship vary among institutions, but many have developed a sliding scale of preservation promises’

  10. Monash approach (institutional) (Treloar)

  11. U Wisconsin proposal ‘Solutions comprised solely of expensive technology will fail, because of the underlying need to establish long-lasting cultural stability within and between the research, library, and IT communities on campus.’

  12. Is this possible (Gabridge)? ‘libraries can develop existing liaisons with interest, passion, and strong analytical skills; or they can recruit domain experts, and teach them about excellent information science practices.’

  13. Infrastructure of data curation

  14. โครงสร้างพื้นฐานเพื่อการแบ่งปันและการอนุรักษ์ข้อมูลโครงสร้างพื้นฐานเพื่อการแบ่งปันและการอนุรักษ์ข้อมูล • โครงสร้างพื้นฐานสำหรับวงการสิ่งพิมพ์และบทความที่มีคุณภาพ โครงสร้างพื้นฐานทางด้านเทคโนโลยีนั้นจำเป็นต้องง่ายต่อการใช้งาน เทคโนโลยีที่จำเป็นในการดึงสารสนเทศจากเครื่องมือนี้เป็นเสมือนดวงตาของคุณที่ช่วยในการค้นหาและไม่ต้องใช้กระบวนพิเศษในการค้นหาหนังสือหรือบทความ

  15. โครงสร้างพื้นฐานเพื่อการแบ่งปันและการอนุรักษ์ข้อมูลโครงสร้างพื้นฐานเพื่อการแบ่งปันและการอนุรักษ์ข้อมูล • ในทางตรงกันข้าม ข้อมูลไม่ได้ถูกจัดระบบให้มีความปลอดภัยมากนัก • ข้อมูลเชิงวิชาการส่วนใหญ่ไม่ได้ปรากฏในแหล่งข้อมูลสาธารณะ • ไม่มีการสำรองข้อมูลที่มีคุณภาพ • ข้อมูลส่วนใหญ่จะปรากฏอยู่ไม่นานนัก ข้อมูลที่สร้างขึ้นนานกว่า 5 – 10 ปีไม่สามารถเข้าถึงได้

  16. สิ่งที่จำเป็นสำหรับโครงสร้างพื้นฐานในการอนุรักษ์ข้อมูลสิ่งที่จำเป็นสำหรับโครงสร้างพื้นฐานในการอนุรักษ์ข้อมูล • พวกเราได้ร่างสิ่งจำเป็นไว้ 8 ข้อ หากได้ผล ก็จะสามารถปรับปรุงโครงสร้างพื้นฐานการอนุรักษ์ข้อมูลได้อย่างมากและเพิ่มประสิทธิภาพของการสื่อสารในวงการด้านวิชาการ(scholarly community)

  17. การยอมรับ • บทบาทหลักของวารสารเชิงวิชาการ(scholarly journal)ช่วยผู้แต่ง(author)ในการสร้างข้อมูลให้สัมพันธ์กับบทความที่ตีพิมพ์แล้วให้ใช้ได้ และผู้แต่ง(author)ต้องเขียนข้อมูลให้เป็นที่ยอมรับอย่างเปิดเผยในทางที่ชัดเจนมากกว่าปัจจุบันมี ความเชื่อถือของการอ้างอิง(citation credit)ควรจะแบ่งสรรให้ทั้งบทความต้นฉบับและข้อมูล วารสาร(journals)จะต้องไม่คลุมเครือและทำตราให้กับหน่วยงานที่สร้าง แม้ว่าในขณะที่ใช้บริการข้อมูลส่วนใหญ่และแหล่งอื่น ผู้แต่ง(author)ควรมีการเก็บต้นฉบับ ของตนเองและเรื่องที่ตีพิมพ์บนหน้าเว็บไซต์ของตนเอง

  18. การเผยแพร่สาธารณะ • ผู้ใช้ไม่ต้องได้รับคำยินยอมจากผู้ประพันธ์แต่ผู้ประพันธ์ต้องยอมรับข้อตกลงมาก่อนที่จะมีการเผยแพร่บทความ

  19. การอนุญาต • บุคคลที่เข้าถึงข้อมูลต้องได้รับการอนุญาตจากผู้ถือครองกรรมสิทธิ์โดยตรง จำเป็นต้องมีสิทธิ์, ในการเผยแพร่และเก็บข้อมูล ทั้งนี้รวมไปถึงการลงลายมือชื่อในข้อตกลงเพื่ออนุญาต (เช่น การตกลงเรื่องการให้หลักประกันกับผู้ที่มีส่วนร่วมในงานวิจัย), ลงลายมือชื่อสมุดเยี่ยมอย่างเสมอภาค, เป็นสมาชิกของสถาบันเพื่อการเก็บข้อมูล (คล้ายกับสมาคมสำหรับงานวิจัยและสังคมระหว่างมหาวิทยาลัย: Interuniversity Consortium for Political and Social Research [ICPSR] หรือ Roper Center) หรือแม้แต่การจ่ายค่าธรรมเนียม ทั้งนี้ความจำเป็นที่แตกต่างกันอาจนำมาใช้กับชุดข้อมูลในปริมาณที่ต่างกัน

  20. การตรวจสอบ • วารสาร(journal)และนักวิจัยต้องแน่ใจว่าข้อมูลสัมพันธ์กับบทความที่เผยแพร่แต่ละบทความต้องเหมือนเดิมและไม่สามารถเปลี่ยนแปลงโดยปราศจากการค้นหา นักวิจัยในอนาคตต้องสามารถตรวจสอบข้อมูลที่ได้มาว่าเป็นความจริง ซึ่งผู้แต่ง(author)ได้อนุญาตด้วยเหตุผลบางประการ ต้องแน่ใจว่าวารสารเป็นอำนาจเด็ดขาดในอนาคต แม้ว่าข้อมูลบางจุดถูกเปลี่ยนไปเป็นรูปแบบใหม่ ดังนั้น พวกเราต้องได้ข้อมูลจริงในการตรวจสอบด้วยโปรแกรม SPSS เพื่อวิเคราะห์ที่ข้อมูลทางสถิติและใช้เครื่อง Pc macหรือ Linux เทปแม่เหล็กหรือแผ่น DVD ในการทำงานจริงเหมือนผู้ประพันธ์

  21. ความต่อเนื่อง • นักวิจัยต้องมีความสามารถในการค้นหาข้อมูล เข้าถึงทำให้ชุดข้อมูลใช้ได้และสัมพันธ์กับบทความที่ยังอภิปรายอยู่และตรวจสอบว่าชุดข้อมูลเป็นชุดเดียวกันกับที่ผู้แต่ง (author)ใช้ วารสาร(journals)และชุมชนด้านวิทยาศาสตร์ (scientific community)จำเป็นต้องติดตามบางขั้นตอนซึ่งสร้างความมั่นใจให้กับพวกเราว่า ความจริงเหล่านี้จะยังคงอยู่ไม่มีวันสิ้นสุด ไม่ว่ามีการเปลี่ยนแปลงใดเกิดขึ้นในขั้นตอนของการกระจายข้อมูลและการเข้าถึงเครือข่าย, รูปแบบการเก็บข้อมูล, โปรแกรมข้อมูลพื้นฐานและสถิติ, ระบบปฏิบัติการ และอุปกรณ์คอมพิวเตอร์(computer hardware)

  22. ความง่ายต่อการใช้งาน • ระบบง่ายต่อการใช้งานทั้ง ผู้เรียบเรียง ผู้ตรวจสอบแก้ไข ผู้แต่ง รวมทั้งการจัดการซอฟแวร์และฮาร์ดแวร์ตามมาตรฐานการจัดเก็บ

  23. การคุ้มครองทางกฎหมาย • จำนวนวารสารมีมากมายในการจัดเก็บและทางที่จะเผยแพร่ข้อมูลบทความส่วนใหญ่อยู่บนเว็บของผู้แต่งไม่มีการตรวจสอบจากคณะทำงานการพิจารณาใหม่ไม่ได้ลงนามจากผู้แต่ง ซึ่งผิดกฎหมายในการเผยแพร่ สำนักพิมพ์มีวิธีการในการติดต่อขอลิขสิทธิ์และขอตีพิมพ์ แต่รูปแบบการโอนลิขสิทธิ์มีมาตรฐานไม่ครอบคลุมถึงสิทธิ์สิ่งตีพิมพ์ เพราะหากข้อมูลไม่ได้ถูกตรวจสอบให้ถูกต้องอาจมีกรรมสิทธิ์, ทำลายชื่อเสียง, ข้อมูลไม่เพียงพอหยาบคายหรือเผยแพร่อย่างผิดกฎหมาย แน่นอนว่า วารสาร(journal)ไม่ควรคาดหวังที่จะว่าจ้างนักกฎหมายหรือติดต่อกับคณะกรรมการพิจารณาภายใน ดังนั้นปัญหานี้จำเป็นต้องหาทางแก้ไข ซึ่งไม่ทำให้มหาวิทยาลัย สำนักพิมพ์ หรือองค์กรที่เกี่ยวข้องกับวารสารมีความเสี่ยงต่อกฎหมาย อีกอย่างหนึ่ง คือ ข้อมูลที่จัดทำขึ้นมาดีอยู่แล้วดังนั้นวารสารก็รวบรวมมานี้สามารถใช้ประโยชน์ในการทำงานได้

  24. Skill Needs

  25. six areas of knowledge and skills: 1.Understanding software, 2.Project planning and management, 3.Collection definition, 4.Metadata guidance, 5.Submission review, 6.Author training. Competencies Required for Digital Curation: An Analysis of JobAdvertisements, (2013), Kim

  26. Knowledge, Skills and Abilities Based on the requirements for the positions,

  27. Dataverse ‘s project

  28. Problem?

  29. What Is the Dataverse Network? • The Dataverse Network allows researchers,journals and archives to share, cite, and preserveresearch data • The Dataverse Network is the successor of the VDC (Virtual Data Center), also developed at Harvard

  30. 5 Key Features • Exchange Data • Share Across Dataverse Networks and Other Archives • Search, Browse, Analyze World Data • Complex Object Relationships

  31. Share Across Dataverse Networks and Other Archives • A DVN may “harvest” metadata from other installed DVNs (or any OAI server Archive) to allow searching locally for their studies; Data is then retrieved remotely

  32. DSpace Dataverse Ingest packager DDI Record/ Content SIP Study URL Study URL Person sends URL Agent Dataverse-DSpace Interoperability (Via OAI)

  33. Example: Item in Dataverse

  34. Example: Item in DSpace

  35. Search, Browse, Analyze World Data

  36. Complex Object Relationships

  37. 2. Security

  38. 5 Key Features • 3. Validation & Verification • UNF • Handle ID UNF calculated from the content not the file (i.e. UNF:3:6:ZNQRI14053UZq389x0Bffg?==) i.e. hdl:10527/abc

  39. Share, Cite, Preserve • Create a new standard for citing quantitative dat sets

  40. 5 Key Features 4. Statistics Analysis Online • R Analysis

  41. 5 Key Features 5. Virtual Host

  42. Case Studies: UC-UTCC Research Center http://uc.utcc.ac.th/dvn.html

  43. Case Studies: Research Support Office http://department.utcc.ac.th/research/dbresearch/dataverse.html

  44. Case Studies: SEA-LAC Trade Center http://utcc2.utcc.ac.th/sealac/research.html

  45. Who use Dataverse?

  46. Benefits

More Related