250 likes | 253 Views
IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]
E N D
Tutoriaisnagestão de Dados Módulo 4: Coleta e Manipulação de dados • Práticas recomendadas para entrada de dados, e ferramentas de manipulação de dados CC image by Cobalt123 on Flickr
Tópicos a seremabordadosnesta aula • Melhorespráticas para criararquivos de dados • Opções de entrada de dados • Melhores práticas recomendadas para integração de dados • Opções de manipulação de dados CC image by JISC on Flickr
Objetivos de aprendizado • Reconhecer e planejar inconsistências que podem dificultar a compreensão e / ou manipulação do dataset • Descrever características de formatos de dados estáveis e listar os motivos para usar esses formatos • Identificar ferramentas de entrada de dados • Identifique medidas de validação que podem ser executadas quando os dados são inseridos • Revise as melhoes práticas recomendadas para integração de dados • Descrever os componentes básicos de um banco de dados relacional
Objetivos da entrada de dados • Criar data set de qualidade que são: • Validos • Organizado para suportar a facilidade de uso e reutilização CC image by Travis S on Flickr
Example: Poor Data Entry • Inconsistência na coleta de dados • Localização da informação da data • Formato de dados inconsistentes • Nome das colunas • Ordem das colunas
Exemplo: Entrada de Dados Insatisfatória • Inconsistência na coleta de dados • Ortografia, capitalização, espaços nos nomes dos sites - difícil de filtrar • Códigos usados para nomes de sites para alguns dados, mas detalhados para outros • O valor de Mean1 estánacoluna Weight • Texto e números na mesma coluna - qual é a média de 12, "escapou <15" e 91?
Melhorespráticas • As colunas de dados são • consistentes:apenasnúmeros, datasoutexto • Nomes, códigos e formatos consistentes (data) usados em cada coluna • Os dados estão todos em uma tabela, o que é muito mais fácil para um programa estatístico trabalhar do que várias pequenas tabelas
Melhores Práticas • Crie nomes de colunas descritivos sem espaços ou caracteres especiais • Soil T30 Soil_Temp_30cm • Species-Code Species_Code (Evite usar-,+,*,^ nosnomes das colunas. Alguns software possam interpreter estessímboloscomooperadores) • Use um nome de arquivo descritivo. Por exemplo, um arquivo com o nome SEV_SmallMammalData_v.5.25.2010.csv indica que o projetoestáassociado a(SEV) ,com o tema dos dados (SmallMammalData) e também a versão e data em que foicriada. (v.5.25.2010). Esse nome é muito mais útil que um arquivo chamado apenas de mydata.xls.
Melhores Práticas • Dados faltantes • De preferência, deixe o campo em branco (NULL = sem valor) • Em campos numéricos, use um valor distinto como 9999 para indicar um valor ausente • Nos campos de texto, use NA ("Não aplicável" ou "Não disponível") • Use sinalizadores de dados em uma coluna separada para qualificar o valor ausente M1 = ausente; nenhuma amostra coletada E1 = estimado a partir da amostra de captura
Classificar um arquivo do Excel com células vazias não é uma boa ideia! Melhores Práticas • Enter complete lines of data
Melhores Práticas • No longo prazo, armazene os dados em um formato consistente que possa ser lido bem no futuro e que possa ser usado por qualquer aplicativo agora ou no futuro • Os tipos de arquivos apropriados incluem: • Não proprietário: padrão aberto e documento padrão • Representação padrão (ASCII, Unicode) • Não criptografado • Descomprimido • Arquivos formatados em ASCII serão legíveis no futuro • Use ASCII (separado por vírgula) para dados tabulares
Referências • Best Practices for Preparing Environmental Data Sets to Share and Archive. September 2010. Les A. Hook, Suresh K. SanthanaVannan, Tammy W. Beaty, Robert B. Cook, and Bruce E. Wilson. http://daac.ornl.gov/PI/BestPractices-2010.pdf
Ferramentas de entrada de dados • Google Docs • Planilhas
Revisão: Planejamento para entrada de dados • Esteja ciente das melhores práticas recomendadas em sua área de conhecimento ao definir • Prefira um método de entrada de dados que permita alguma validação dos dados assim que forem digitados CC image by fo.ol on Flickr
Melhores práticas recomendadas para integração de dados • Manter a proveniência do dataset • Transformações de documentos • Cuidado com duplicação de dados acidental • Revise os metadados para compatibilidade de contexto, métodos e significado • Qual finalidade que os dados foram coletados? • Como os dados foram coletados? • É razoável combinar esses conjuntos de dados?
Práticas recomendadas para integração de dados • Garanta compatibilidade • Converter em unidades comuns • Escolha a precisão numérica apropriada • Avalie e padronize códigos de valores faltantes • Documente todas as suposições • Quais suposições estão subjacentes aos conjuntos de dados originais? • Que suposições você fez ao combinar os conjuntos de dados?
Práticas recomendadas para integração de dados • Reconheça que você está criando um novo dataset • Revise o ciclo de vida dos dados para garantir que o novo dataset seja devidamente documentado, validado e preservado • Use fluxos de trabalho que possam ser replicados • Permitir transparência e a possibilidade do processo de integração • Garanta que outras pessoas entendam e possam avaliar seu processo de tomada de decisão
Manipulação de Dados • Útil para análise, subconjunto e transformação de dados • Pode ser usado para checar e garantir a qualidade dos dados
Revisão: Integração e manipulação de dados • Manter a origem dos dados (uma trilha de custódia e decisões) é importante ao integrar mais de um dataset • Documentar e entender o contexto e os relacionamentos, bem como as mudanças, é crucial ao criar um novo conjunto de dados (sempre que você combinar dois ou mais datasets diferentes) • Crie um fluxo de trabalho transparente e passível de reprodução • Certifique-se de fornecer a atribuição e citação adequadas a todos os recursos, incluindo o dataset original.
The full slide deck may be downloaded from: http://www.dataone.org/education-modules Suggested citation: DataONE Education Module: Data Entry and Manipulation. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L04_DataEntryManipulation.pptx Copyright license information: No rights reserved; you may enhance and reuse for your own purposes. We do ask that you provide appropriate citation and attribution to DataONE.