160 likes | 165 Views
IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]
E N D
Módulo 5: Controle de Qualidade dos Dados Tipos de erros, práticas recomendadas para garantia e controle de qualidade para prevenir e corrigir erros. Imagem do CC por Shane Melaugh no Flickr Imagem CC por harusday no Flickr Data Quality Control and Assurance
• Definições o Garantia de qualidade e controle de qualidade o Contaminação dos dados o Tipos de erros • Práticas recomendadas de controle de qualidade/garantia de qualidade o Antes da coleta de dados o Durante a coleta / entrada de dados o Após a coleta / entrada de dados Imagem de CC por cobalt123 no Flickr Data Quality Control and Assurance
• Após concluir esta parte, o participante será capaz de: o Definir controle de qualidade dos dados (QC) e garantia de qualidade dos dados (QA) o Realizar controle de qualidade e garantia de seus dados em todas as etapas do ciclo de vida dos dados Imagem do CC por 0xFCAF no Flickr Data Quality Control and Assurance
Planejar Analisar Coletar Integrar Assegurar Publicar Descrever Preservar Data Quality Control and Assurance
Contaminação de dados • Processo ou fenômeno, exceto o de interesse, que afeta o valor da variável • Valores errôneos Imagem de CC por Michael Coghlan em Flickr Data Quality Control and Assurance
• Erros de Comissão o Dados incorretos ou imprecisos o Exemplos: instrumento com defeito, dados digitados incorretamente • Erros de Omissão o Dados ou metadados não registrados o Exemplos: documentação inadequada, erro humano, anomalias no campo Imagem do CC por Nick J Webb no Flickr Data Quality Control and Assurance
• Estratégias para impedir que erros entrem em um conjunto de dados • Atividades para garantir a qualidade dos dados antes da coleta • Atividades que envolvem monitoramento e manutenção da qualidade dos dados durante o estudo Data Quality Control and Assurance
• Definir e aplicar padrões o Formatos o Códigos o Unidades de medida o Metadados • Atribuir responsabilidade pela qualidade dos dados o Certifique-se de que a pessoa designada tenha formação em QA/QC Data Quality Control and Assurance
• Entrada dupla o Dados digitados por duas pessoas independentes o Verifique se há acordo com a verificação do computador • Grave uma leitura dos dados e transcreva da gravação • Use o programa de conversão de texto em fala para ler dados novamente Imagem CC por weskriesel no Flickr Data Quality Control and Assurance
• Projete bem o armazenamento de dados o Minimize o número de vezes que os itens devem ser inseridos repetidamente o Use terminologia consistente o Atomize data: uma célula por informação • Documentar alterações nos dados o Evita a verificação de erros duplicados o Permite desfazer se necessário Data Quality Control and Assurance
• Verifique se os dados estão nas colunas apropriadas • Checar valores ausentes, impossíveis ou anômalos • Realizar resumos estatísticos Imagem CC por chesapeakeclimate no Flickr Data Quality Control and Assurance
• Procure outliers o Outliers são valores extremos para uma variável, dado o modelo estatístico usado o O objetivo não é eliminar discrepâncias, mas identificar possíveis contaminações de dados 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 Data Quality Control and Assurance
• Métodos para procurar valores discrepantes o Gráfico • Gráficos de probabilidade normal • Regressão • Gráficos de dispersão o Mapas o Subtrair valores da média Data Quality Control and Assurance
• Contaminação de dados são dados resultantes de um fator não examinado pelo estudo que resulta em valores de dados alterados • Tipos de erro de dados: comissão ou omissão • Garantia de qualidade e controle de qualidade são estratégias para: o impedir erros na inserção um conjunto de dados o garantir a qualidade dos dados inseridos o monitorar e manuter a qualidade dos dados em todo o projeto • Identifique e aplique medidas de garantia e controle de qualidade ao longo do Ciclo de Vida dos Dados Data Quality Control and Assurance
1. D. Edwards, em Dados Ecológicos: Projeto, Gerenciamento e Processamento, WK Michener e JW Brunt, Eds. (Blackwell, Nova York, 2000), pp. 70-91. Disponível emwww.ecoinformatics.org/pubs RB Cook, RJ. Olson, P. Kanciruk, LA Hook, Melhores práticas para preparar conjuntos de dados ecológicos para compartilhar e arquivar. Touro. Ecol. Soc. Amer.82, 138-141 (2001). AD Chapman, “Principles of Data Quality :. Relatório para o Global Biodiversity Information Facility ”(Global Biodiversity Information Facility, Copenhague, 2004). Disponível emhttp://www.gbif.org/communications/resources/print-and-online- resources/download-publications/bookelets/ 2. 3. Data Quality Control and Assurance
O conjunto completo de slides pode ser baixado de: http: //www.dataone.org/ education-modules Citação sugerida: DataONE Education Module: Data Quality Control and Assurance. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L05_DataQuality ControlAssurance.pptx Informações sobre licença de direitos autorais: Nenhum direito reservado; você pode aprimorar e reutilizar para seus próprios propósitos. Pedimos que você forneça a citação e atribuição apropriadas paraDataONE. Data Quality Control and Assurance