300 likes | 304 Views
IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]
E N D
TutoriaisemGestãode Dados Científicos Módulo 3: Planejamento CC imagem por Joe Hall em Flickr
Tópicosabordadosnesta aula • O que é um plano de gerenciamento de dados (DMP)? • Por que preparar um DMP? • Componentes de um DMP • Recomendações para conteúdo DMP • Exemplo de NSF DMP Imagem CC por Darla Hueske no Flickr
Objetivos do Aprendizado • Após concluir estaparte, o participante será capaz de: • Definir um DMP • Entendera importância de preparar um DMP • Identificaros principais componentes de um DMP • Reconhecer os elementos DMP necessários para uma proposta NSF Imagem de CC por cybrarian77 no Flickr
O que é um DMP? • Documento formal • Descreve o que você fará com seus dados durante e depoisdecompletarsua pesquisa • Garante que seus dados estão seguros para o presente e a futuro Da Biblioteca da Universidade da Virgínia
Por que preparar um DMP? (1) • Economizar tempo • Menos reorganização depois • Aumentar a eficiência da pesquisa • Ajudavocê e outras pessoasa entendereme usaremdados no futuro Imagem CC por Cathdew no Flickr
Por que preparar um DMP? (2) • Facilita a preservação dos seusdados • Impede a duplicação de esforços • Pode levar a novasdescobertas • Aumenta a visibilidade da pesquisa • Torna a pesquisa e os dados mais relevantes • Requisitoparaagência de fomento
Componentesgerais de um DMP • Informações sobre dados e formato dos dados • Conteúdo e formato de metadados • Políticas para acesso, compartilhamento e reutilização • Armazenamento de longo prazo e gerenciamento de dados • Papéis e responsabilidades • Despesas
1. Informações sobreos dados e seuformato 1.1 Descrição dos dados a serem produzidos • Experimental • Observacional • Bruto ou derivado • Coleções físicas • Modelos e suas saídas • Saídas de simulação • Materiais curriculares • Programas • Imagens • Etc… Imagem do CC por Jeffery Seja tudo em Flickr
1. Informações sobreos dados e seuformato 1.2 Como os dados serão adquiridos • Quando? • Onde? 1.3 Como os dados serão processados • Software utilizado • Algoritmos • Fluxos de trabalho Imagem do CC por Ryan Sandridge em Flickr
1. Informações sobre os dados e seu formato 1.4 Formatos de arquivo • Justificativa • Convenções de nomenclatura 1.5 Garantia e controle de qualidade durante coleta, análise e processamento das amostras Imagem CC por Forma de arte Canadá em Flickr
1. Informaçõessobreos dados e seuformato 1.6 Dados existentes • Se osdados existentes são usados, quais são suas origens? • Seus dados serão combinados com osquejáexistem? • Qual é a relação entre seus dados e os dados existentes? 1.7 Como os dados serão gerenciadosno curto prazo • Controle de versão • Backup • Proteçãoe segurança • Quem será responsável
2. Conteúdo e formato dos metadados Definição dos Metadados: • Documentação e relatório de dados • Detalhes contextuais: informações críticas sobre o conjunto de dados • Informações importantes parautilização dos dados • Descrições de detalhes temporais e espaciais, instrumentos, parâmetros, unidades, arquivos, etc. Imagem CC 0 do Projeto Substantivo
2. Conteúdo e formato dos metadados 2.1 Quais metadados são necessários • Todos os detalhes que tornam os dados significativos 2.2 Como os metadados serão criados e/oucapturados • Cadernos de laboratório? Unidades GPS? • Gravado automaticamente no instrumento? 2.3 Qual formato será usado para os metadados • Padrões para a comunidade • Justificativa para o formato escolhido Imagem CC 0 do Projeto Substantivo
3. Políticas de acesso, compartilhamento e reutilização 3.1 Obrigaçõesdo compartilhamento • Agência financiadora • Instituição • Outra organização • Legal 3.2 Detalhes do compartilhamento de dados • Quanto tempo? • Quando? • Como o acessar? • Direitos? 3.2 Questões éticase de privacidade com o compartilhamento de dados Imagem CC 0 do Projeto Substantivo
3. Políticas de acesso, compartilhamento e reutilização 3.4 Propriedade intelectual e questões de direitos autorais • Quem possui os direitos autorais? • Políticas institucionais • Políticas da agência financiadora • Embargos por razõespolíticas/comerciais 3.5 Utilizações/usuáriosfuturosdos dados 3.6 Citação • Como os dados devem sercitados? • Citação persistente? Imagem CC 0 do Projeto Substantivo
4. Armazenamento de longo prazo e gerenciamento de dados 4.1 Quais dados serão preservados 4.2 Onde será arquivado • Repositóriomais apropriado paraos dados • Normas 3.6 Transformações/formatosde dados necessários • Considere políticas de arquivamento 4.4 Quem será responsável • Pessoa de contato para arquivo
5. Funções e responsabilidades 5.1 Descreva as funções e responsabilidades para implementar este plano de gerenciamento de dados. • Por exemplo: • Quem será responsável pelo gerenciamento de dados e pelo monitoramento do DMP? • Como a aderência a este DMP será verificada ou demonstrada? • Qual o processoparatransferir a responsabilidade pelos dados? • Quem se responsabilizará, ao longo do tempo, pelas decisões sobre os dados quandoo responsávelnãoestiver mais disponível? Imagem CC 0 do Projeto Substantivo
6. Orçamento 6.1 Custos previstos • Tempo para preparação e documentação de dados • Hardware/software para preparação e documentação de dados • Pessoal • Custos de arquivo 6.2 Como os custos serão pagos
Ferramentas para criarDMP dmptool.org dmponline.dcc.ac.uk
Requisitos NSF DMP Das diretrizes da proposta de subsídio: Planos para gerenciamento de dados e compartilhamento dos produtos da pesquisa. Propostasdevemincluir um documento suplementar com no máximo duas páginas rotuladas como “Data Management Plan". Este suplemento deve descrever como a propostaseráconformidadecom a política da NSF sobre disseminação e compartilhamento dos resultados da pesquisaAAG) e pode incluir: • Tiposde dados, amostras, coleções físicas, software, materiais curriculares e outros materiais a serem produzidos no decorrer do projeto • Padrõesa serem usados para dados e metadados: formato e conteúdo (onde os padrões existentes estão ausentes ou são considerados inadequados, isso deve ser documentado juntamente com as soluções ou soluções propostas) • Políticaspara acesso e compartilhamento incluindo disposições para a proteção adequada da privacidade, confidencialidade, segurança, propriedade intelectual ou outros direitos ou requisitos • Políticase provisões para reutilização, redistribuição e produção de derivativos • Planospara arquivamento dados, amostras e outros produtos de pesquisa e para preservar o acesso.
Requisitos NSF DMP Resumodo Guia de Prêmios e Administração: 4. Divulgação e compartilhamento dos resultadosda pesquisa • Publique imediatamente com a autoria apropriada • Compartilhe dados, amostras, coleções físicas e materiais de apoio com outras pessoas, dentro de um prazo razoável • Compartilhe software e invenções • Ospesquisadorespodem manter seus direitos legais sobre sua propriedade intelectual, mas ainda precisam disponibilizar seus resultados, dados e coleções para outras pessoas. • As políticas serão implementadas via • Revisão da proposta • Negociação e condições do prêmio • Suporte/incentivos
Dados reais: um exemplode DMP Nome do Projeto: Effects of temperature and salinity on population growth of the estuarine copepod, Eurytemoraaffinis Participantes e afiliações do projeto: Carly Strasser (University of Alberta and Dalhousie University) Mark Lewis (University of Alberta) Claudio DiBacco (Dalhousie University and Bedford Institute of Oceanography) Agênciafinanciadora: CAISN (Canadian Aquatic Invasive Species Network) Descrição dos objetivos e propósitos do projeto: We will rear populations of E. affinis in the laboratory at three temperatures and three salinities (9 treatments total). We will document the population from hatching to death, noting the proportion of individuals in each stage over time. The data collected will be used to parameterize population models of E. affinis. We will build a model of population growth as a function of temperature and salinity. This will be useful for studies of invasive copepod populations in the Northeast Pacific. Fonte de vídeo: Plankton Copepods. Video. Encyclopædia Britannica Online. Web. 13 Jun. 2011 Foto de C. Strasser; todos os direitos reservados
Dados reais: um exemplode DMP 1. Informaçãosobreos dados Every two days, we will subsample E. affinis populations growing at our treatment conditions. We will use a microscope to identify the stage and sex of the subsampled individuals. We will document the information first in a laboratory notebook, then copy the data into an Excel spreadsheet. For quality control, values will be entered separately by two different people to ensure accuracy. The Excel spreadsheet will be saved as a comma-separated value (.csv) file daily and backed up to a server. After all data are collected, the Excel spreadsheet will be saved as a .csv file and imported into the program R for statistical analysis. Strasser will be responsible for all data management during and after data collection. Our short-term data storage plan, which will be used during the experiment, will be to save copies of 1) the .txt metadata file and 2) the Excel spreadsheet as .csv files to an external drive, and to take the external drive off site nightly. We will use the Subversion version control system to update our data and metadata files daily on the University of Alberta Mathematics Department server. We will also have the laboratory notebook as a hard copy backup.
Dados reais: um exemplode DMP 2. Formato dos metadados & conteúdo We will first document our metadata by taking careful notes in the laboratory notebook that refer to specific data files and describe all columns, units, abbreviations, and missing value identifiers. These notes will be transcribed into a .txt document that will be stored with the data file. After all of the data are collected, we will then use EML (Ecological Metadata Language) to digitize our metadata. EML is on of the accepted formats used in Ecology, and works well for the type of data we will be producing. We will create these metadata using Morpho software, available through the Knowledge Network for Biocomplexity (KNB). The documentation and metadata will describe the data files and the context of the measurements.
Dados reais: um exemplode DMP 3. Politicasparaacesso, compartilhamento& reuso We are required to share our data with the CAISN network after all data have been collected and metadata have been generated. This should be no more than 6 months after the experiments are completed. In order to gain access to CAISN data, interested parties must contact the CAISN data manager (data@caisn.ca) or the authors and explain their intended use. Data requests will be approved by the authors after review of the proposed use. The authors will retain rights to the data until the resulting publication is produced, within two years of data production. After publication (or after two years, whichever is first), the authors will open data to public use. After publication, we will submit our data to the KNB, allowing discovery and use by the wider scientific community. Interested parties will be able to download the data directly from KNB without contacting the authors, but will still be required to give credit to the authors for the data used by citing a KNB accession number either in the publication text or in the references list.
Dados reais: um exemplode DMP 4. Armazenamento de longoprazo e gerenciamento dos dados The data set will be submitted to KNB for long-term preservation and storage. The authors will submit metadata in EML format along with the data to facilitate its reuse. Strasser will be responsible for updating metadata and data author contact information in the KNB. 5. Orçamento A tablet computer will be used for data collection in the field, which will cost approximately $500. Data documentation and preparation for reuse and storage will require approximately one month of salary for one technician. The technician will be responsible for data entry, quality control and assurance, and metadata generation. These costs are included in the budget in lines 12-16.
Resumo Os DMPs são uma parte importante do ciclo de vida dos dados. Eles economizam tempo e esforço a longo prazo e garantem que os dados sejam relevantes e úteis para outras pessoas. As agências de fomentoestão começando a exigir DMPs Principais componentes de um DMP: • Informações sobre dados e formato dos dados • Conteúdo e formato de metadados • Políticas para acesso, compartilhamento e reutilização • Armazenamento de longo prazo e gerenciamento de dados • Despesas
Recursos • University of Virginia Library http://www2.lib.virginia.edu/brown/data/plan.html • Digital Curation Centre http://www.dcc.ac.uk/resources/data-management-plans • Oregon State University Libraryhttp://guides.library.oregonstate.edu/dmp/policies • NSF Grant Proposal Guidelines http://www.nsf.gov/pubs/policydocs/pappguide/nsf11001/gpg_2.jsp#dmp • Inter-University Consortium for Political and Social Research http://www.icpsr.umich.edu/icpsrweb/ICPSR/dmp/index.jsp • DataONEhttps://www.dataone.org/data-management-planning
O conjuntocompletode slides podeser baixado de: http: //www.dataone.org/ education-modules Citação sugerida: DataONE Education Module: Data Management Planning. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L03_DataManagementPlanning.pptx Informações sobre licença de direitos autorais: Nenhum direito reservado; você pode aprimorar e reutilizar para seus próprios propósitos. Pedimos que você forneça a citação e atribuição apropriadasparaDataONE.