1 / 25

M04_Manipulacao_Dados (4/10)

IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]

989212
Download Presentation

M04_Manipulacao_Dados (4/10)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tutoriaisnagestão de Dados Módulo 4: Coleta e Manipulação de dados • Práticas recomendadas para entrada de dados, e ferramentas de manipulação de dados CC image by Cobalt123 on Flickr

  2. Tópicos a seremabordadosnesta aula • Melhorespráticas para criararquivos de dados • Opções de entrada de dados • Melhores práticas recomendadas para integração de dados • Opções de manipulação de dados CC image by JISC on Flickr

  3. Objetivos de aprendizado • Reconhecer e planejar inconsistências que podem dificultar a compreensão e / ou manipulação do dataset • Descrever características de formatos de dados estáveis ​​e listar os motivos para usar esses formatos • Identificar ferramentas de entrada de dados • Identifique medidas de validação que podem ser executadas quando os dados são inseridos • Revise as melhoes práticas recomendadas para integração de dados • Descrever os componentes básicos de um banco de dados relacional

  4. O ciclo de vida dos dados

  5. Objetivos da entrada de dados • Criar data set de qualidade que são: • Validos • Organizado para suportar a facilidade de uso e reutilização CC image by Travis S on Flickr

  6. Example: Poor Data Entry • Inconsistência na coleta de dados • Localização da informação da data • Formato de dados inconsistentes • Nome das colunas • Ordem das colunas

  7. Exemplo: Entrada de Dados Insatisfatória • Inconsistência na coleta de dados • Ortografia, capitalização, espaços nos nomes dos sites - difícil de filtrar • Códigos usados ​​para nomes de sites para alguns dados, mas detalhados para outros • O valor de Mean1 estánacoluna Weight • Texto e números na mesma coluna - qual é a média de 12, "escapou <15" e 91?

  8. Melhorespráticas • As colunas de dados são • consistentes:apenasnúmeros, datasoutexto • Nomes, códigos e formatos consistentes (data) usados ​​em cada coluna • Os dados estão todos em uma tabela, o que é muito mais fácil para um programa estatístico trabalhar do que várias pequenas tabelas

  9. Melhores Práticas • Crie nomes de colunas descritivos sem espaços ou caracteres especiais • Soil T30  Soil_Temp_30cm • Species-Code  Species_Code (Evite usar-,+,*,^ nosnomes das colunas. Alguns software possam interpreter estessímboloscomooperadores) • Use um nome de arquivo descritivo. Por exemplo, um arquivo com o nome SEV_SmallMammalData_v.5.25.2010.csv indica que o projetoestáassociado a(SEV) ,com o tema dos dados (SmallMammalData) e também a versão e data em que foicriada. (v.5.25.2010). Esse nome é muito mais útil que um arquivo chamado apenas de mydata.xls.

  10. Melhores Práticas • Dados faltantes • De preferência, deixe o campo em branco (NULL = sem valor) • Em campos numéricos, use um valor distinto como 9999 para indicar um valor ausente • Nos campos de texto, use NA ("Não aplicável" ou "Não disponível") • Use sinalizadores de dados em uma coluna separada para qualificar o valor ausente M1 = ausente; nenhuma amostra coletada E1 = estimado a partir da amostra de captura

  11. Classificar um arquivo do Excel com células vazias não é uma boa ideia! Melhores Práticas • Enter complete lines of data

  12. Melhores Práticas • No longo prazo, armazene os dados em um formato consistente que possa ser lido bem no futuro e que possa ser usado por qualquer aplicativo agora ou no futuro • Os tipos de arquivos apropriados incluem: • Não proprietário: padrão aberto e documento padrão • Representação padrão (ASCII, Unicode) • Não criptografado • Descomprimido • Arquivos formatados em ASCII serão legíveis no futuro • Use ASCII (separado por vírgula) para dados tabulares

  13. Referências • Best Practices for Preparing Environmental Data Sets to Share and Archive. September 2010. Les A. Hook, Suresh K. SanthanaVannan, Tammy W. Beaty, Robert B. Cook, and Bruce E. Wilson. http://daac.ornl.gov/PI/BestPractices-2010.pdf

  14. Ferramentas de entrada de dados • Google Docs • Planilhas

  15. Googledocs

  16. Googledocs Forms

  17. Ferramentas de entrada de dados: Excel

  18. Excel: Validação de dados 20

  19. Revisão: Planejamento para entrada de dados • Esteja ciente das melhores práticas recomendadas em sua área de conhecimento ao definir • Prefira um método de entrada de dados que permita alguma validação dos dados assim que forem digitados CC image by fo.ol on Flickr

  20. Melhores práticas recomendadas para integração de dados • Manter a proveniência do dataset • Transformações de documentos • Cuidado com duplicação de dados acidental • Revise os metadados para compatibilidade de contexto, métodos e significado • Qual finalidade que os dados foram coletados? • Como os dados foram coletados? • É razoável combinar esses conjuntos de dados?

  21. Práticas recomendadas para integração de dados • Garanta compatibilidade • Converter em unidades comuns • Escolha a precisão numérica apropriada • Avalie e padronize códigos de valores faltantes • Documente todas as suposições • Quais suposições estão subjacentes aos conjuntos de dados originais? • Que suposições você fez ao combinar os conjuntos de dados?

  22. Práticas recomendadas para integração de dados • Reconheça que você está criando um novo dataset • Revise o ciclo de vida dos dados para garantir que o novo dataset seja devidamente documentado, validado e preservado • Use fluxos de trabalho que possam ser replicados • Permitir transparência e a possibilidade do processo de integração • Garanta que outras pessoas entendam e possam avaliar seu processo de tomada de decisão

  23. Manipulação de Dados • Útil para análise, subconjunto e transformação de dados • Pode ser usado para checar e garantir a qualidade dos dados

  24. Revisão: Integração e manipulação de dados • Manter a origem dos dados (uma trilha de custódia e decisões) é importante ao integrar mais de um dataset • Documentar e entender o contexto e os relacionamentos, bem como as mudanças, é crucial ao criar um novo conjunto de dados (sempre que você combinar dois ou mais datasets diferentes) • Crie um fluxo de trabalho transparente e passível de reprodução • Certifique-se de fornecer a atribuição e citação adequadas a todos os recursos, incluindo o dataset original.

  25. The full slide deck may be downloaded from: http://www.dataone.org/education-modules Suggested citation: DataONE Education Module: Data Entry and Manipulation. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L04_DataEntryManipulation.pptx Copyright license information: No rights reserved; you may enhance and reuse for your own purposes. We do ask that you provide appropriate citation and attribution to DataONE.

More Related