360 likes | 371 Views
IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]
E N D
TutoriaisemGestãode Dados Científicos Módulo 9: Fluxos de trabalho (Workflows) Tipos de análise de dados, introdução à reprodutibilidade, procedênciae fluxos de trabalho, fluxos de trabalho informais (conceituais) e formais (executáveis). Imagem de CC de wlef70 no Flickr
Conteúdo • Visão geral das típicasanálisesde dados • Reprodutibilidadee procedência • Fluxos de trabalho em geral • Fluxos de trabalho informais • Fluxos de trabalho formais • Controle de versão Imagem CC por jwalsh no Flickr
Objetivosde Aprendizagem • Após concluir estaetapa, o participante será capaz de: • Enumerar vários tipos de análise • Familiarize-se com os símbolos nos fluxogramas para esboçar fluxos de trabalho • Saber quando usar um fluxo de trabalho formal ou informal • Conhecervárias ferramentas de fluxo de trabalho • Conheceras ferramentas de controle de versão Imagem de CC por cybrarian77 no Flickr
Análise de dados • Conduzidavia computador pessoal, grid, computação em nuvem • Estatísticas, execuções de modelos, estimativas de parâmetros, gráficos/plotagens, etc. Imagem CC por tai viinikka no Flickr Imagem CC por hegemonx no Flickr
Tipos de análises • Processamento: extrairsubconjunto, mesclar, manipular • Redução: importante para conjuntos de dados de alta resolução • Transformação: conversões de unidades, algoritmos lineares e não lineares DataHora air temp precip C mm 11-Jul-07 5:00 27.6 000 11-Jul-07 6:00 27.6 000 11-Jul-07 7:00 27.7 003 11-Jul-07 8:00 28.2 017 11-Jul-07 9:00 28.5 000 11-Jul-07 10:00 29.3 000 11-Jul-07 11:00 30.1 000 11-Jul-07 12:00 30.4 000 0711070500276000 0711070600276000 0711070700277003 0711070800282017 0711070900285000 0711071000293000 0711071100301000 0711071200304000 Recreated from Michener & Brunt (2000)
Tipos de análises • Análises Gráficas • Exploração visual de dados: busca de padrões • Garantia de qualidade: detecção de outlier Scatter plot of August Temperatures Box and whisker plot of temperature by month Strasser, unpub. data Strasser, unpub. data
Tipos de análises Exemplo de análise de componentes principais • Análiseestatística Estatísticas convencionais • Dados experimentais • Exemplos: ANOVA, MANOVA, linear e regressão não linear • Confie em suposições: aleatórias amostragem aleatória e normalmente erro distribuído, erro independente termos, variação homogênea Estatísticas descritivas • Dados observacionais ou descritivos • Exemplos: índices de diversidade, cluster análise, variância do quadrante, métodos de distância, análise de componentes principais, análise de correspondência De Oksanen (2011) Análise multivariada de comunidades ecológicas em R: tutorial vegano
Tipos de análises • Análises estatísticas (continuação) • Análises temporais: séries temporais • Análises espaciais: para autocorrelação espacial • Abordagens não paramétricas úteis quando pressupostos convencionais violam ou distribuição subjacente desconhecida • Outros misc. análises: avaliação de riscos, modelos lineares generalizados, modelos mistos, etc. • Análises de conjuntos de dados muito grandes • Mineração e descoberta de dados • Processamento de dados online
Após análise de dados • Reanálise das saídas • Visualizações finais: tabelas, gráficos, simulações etc. A ciência é iterativa: O processo que resulta no produto final pode ser complexo
Reprodutibilidade • Reprodutibilidade no centro do método científico • Processo complexo = mais difícil de reproduzir • Boa documentação necessária para reprodutibilidade • Metadados: dados sobre dados • Metadados do processo: dados sobre o processo usado para criar, manipular e analisar dados Imagem de CC de Richard Carter no Flickr
Garantindo a reprodutibilidade: documentando o processo • Metadados do processo: Informações sobre o processo (análise, organização de dados, gráficos) usadas para obter as saídas de dados • Conceito relacionado:procedência dos dados • Origens dos dados • Boa procedência = capaz de acompanhar os dados durante todo o ciclo de vida • Permite • Replicação e reprodutibilidade • Análise de defeitos potenciais, erros de lógica, erros estatísticos • Avaliação de hipóteses
Fluxos de trabalho: o básico • Formalização de metadados do processo • Descrição precisa do procedimento científico • Série conceitualizadada obtenção dos dados, transformação e etapas analíticas • Três componentes • Insumos: informações ou material necessário • Produtos: informação ou material produzido e potencialmente usado como insumo em outras etapas • Regras de transformação/algoritmos (por exemplo, análises) • Dois tipos: • Informal • Formal/Executável
Fluxos de trabalhoinformais Diagramas de fluxo de trabalho: Alguns blocos de construção básicos Dados (entrada ou saída) • Entradas ousaídas:incluemdados, metadados ou visualizações • Processosanalíticos:incluem operações que alteram ou manipulam dados de alguma maneira • Decisões:especificamcondições que determinam a próxima etapa do processo • Processos predefinidos ou sub-rotinas: especificam um processo fixo de várias etapas Processo analítico Decisão Processo predefinido (sub-rotina)
Fluxos de trabalho informais Diagramas de fluxo de trabalho: Fluxograma linear simples • Conceitualizando a análise como uma sequência de etapas • Setasindicam fluxo Dados brutos e metadados associados Dados de saída, visualizações, metadados associados Coletade dados Limpezados dados Análise Etapa 1 Etapa de análise 2 Geração de saída
Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Importação de dados para R Controle de qualidade e limpeza de dados Análise: média, DP Produção gráfica
Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Regras de Transformação Importação de dados para R Controle de qualidade e limpeza de dados Análise: média, DP Produção gráfica
Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Entradas saídas Dados de temperatura Importação de dados para R Dados no formato R Dados de salinidade Controle de qualidade e limpeza de dados Dados de T&S “limpos” Análise: média, DP Estatísticas resumidas Produção gráfica
Fluxos de trabalho informais Diagramas de fluxo de trabalho: Adicionando pontos de decisão LOOP CONDICIONAL Análise 1 CONDIÇÃO SE falso Análise 2 verdade
Fluxos de trabalho informais Diagramas de fluxo de trabalho: uma simples exemplo Compilar lista de taxa únicas Calcular frequências de taxa nome da espécie Gere dados de saída e visualizações para frequências de taxa no intervalo declarado PARA Controle de qualidade / certificaçãoqualidade(por exemplo, verifique os tipos de dados apropriados, discrepantes) Dados e metadados Inserção dos dados contagem lat/longitude Dados, visualizações e metadados Determinar o alcance (calcularpontos)
Fluxos de trabalho informais Diagramas de fluxo de trabalho: uma complexo exemplo Dados e metadados Análise 1A Inserçãodedados Limpeza de dados A Integração de dados Integração de dados Análise 2 Geração de saída PARA B Dados e metadados Inserçãode dados Limpeza de dados Análise 1B Dados, visualizações e metadados F Dados e metadados Processo predefinido (sub-rotina) Inserçãode dados Limpeza de dados V SE
Fluxos de trabalho informais Scripts comentados: Melhores Práticas • Código bem documentado é mais fácil de revisar, compartilhar e permiterepetidasanálises • Adicioneinformações de alto nívelna parte superior • Descriçãodo projeto, autor, data • Dependências, entradas e saídas de script • Descreve parâmetros e suas origens • Observe e organize seções • O que acontece na seção e por que • Descrever dependências, entradas e saídas • Construa o script de ponta a ponta, se possível • Uma narrativa completa • Executa sem intervenção do início ao fim % # $ &
Fluxos de trabalhoformais/executáveis • Pipeline analítico • Cada etapa pode ser implementada em diferentes sistemas de software • Cada etapa e seus parâmetros / requisitos registrados formalmente • Permite a reutilização de etapas individuais e do fluxo de trabalho geral Imagem CC por AJ Cann no Flickr
Fluxos de trabalho formais / executáveis Benefícios: • Ponto de acesso único para várias análisesporpacotes de software • Acompanha a análise e a procedência: permite a reprodutibilidade • Cada etapa e seus parâmetros / requisitos registrados formalmente • O fluxo de trabalho pode ser armazenado • Permite compartilhar e reutilizar etapas individuais ou fluxo de trabalho geral • Automatizatarefas repetitivas • Usadaem diferentes disciplinas e grupos • Pode executar análises mais rapidamente, pois não inicia do zero
Fluxos de trabalho formais / executáveis Exemplo: Software Kepler • Código aberto, gratuito e multiplataforma • Interface de arrastar e soltar para construção do fluxo de trabalho • Etapas (análises, manipulações etc.) no fluxo de trabalho representado por "ator" • Atores se conectam a partir de um fluxo de trabalho • Possíveis aplicações • Modelos teóricos ou análises observacionais • Modelagem hierárquica • Pode ter fluxos de trabalho aninhados • Pode acessar dados de fontes baseadas na Web (por exemplo, bancos de dados) • Downloads e mais informações em kepler-project.org
Fluxos de trabalho formais / executáveis Exemplo: Software Kepler Atores no fluxo de trabalho Arraste e solte componentes desta lista
Fluxos de trabalho formais / executáveis Exemplo: Software Kepler This model shows the solution to the classic Lotka-Volterra predator prey dynamics model. It uses the Continuous Time domain to solve two coupled differential equations, one that models the predator population and one that models the prey population. The results are plotted as they are calculated showing both population change and a phase diagram of the dynamics.
Fluxos de trabalho formais / executáveis Exemplo: Software Kepler Resultado
Fluxos de trabalho formais / executáveis Exemplo: VisTrails • Código aberto • Fluxo de trabalhoe suporte de gestãode origem • Voltado paratarefas computacionaisexploratórias • Pode gerenciarSWF • Mantém histórico detalhado sobre etapas e dados • www.vistrails.org Screenshot vistrails
Fluxos de trabalhoem geral • A ciênciaestá se tornandomaisintensivaemtermoscomputacionais • Compartilharfluxos de trabalhobeneficia a ciência • Ossistemascientíficos de fluxo de trabalhofacilitam a documentação dos fluxos de trabalho • Documentesuaanáliseatravés de fluxos de trabalhoinformais • Aplicativos de fluxo de trabalhoemergentes (fluxos de trabalhoformais / executáveis) • Software paraanálise de ponta a pontaexecutável • Providencirinformaçãodetalhadasobre dados e análise • Facilitareutilização e refinamentode análisescomplexasemváriasetapas • Ativatrocaeficiente de modelos e algoritmosalternativos • Ajudaautomatizartarefastediosas
Controle de versão • Software para gerenciar alterações nos arquivos, principalmente scripts e código fonte • Essencial para gerenciar fluxos de trabalho em evolução • É útil para gerenciar alterações de código e scripts • Permite colaboração em escala • Permite rastrear a revisão exata do código/script usado para um fluxo de trabalho
Ferramentasparacontrole de versão • Git - modelo distribuído, amplamente utilizado, simples de ramificar e mesclar • SVN - muitosprojetosainda usam, requer um servidorpara colaborar • Mercurial - modelo distribuído com nicho de usuários
Práticas recomendadas para análise de dados • Os cientistas devem documentar fluxos de trabalho usados paragerarosresultados • Procedência dos dados • Análises e parâmetros utilizados • Conexões entre análises via entradas e saídas • A documentação pode ser informal (por exemplo, fluxogramas, scripts comentados) ou formal (por exemplo, Kepler, VisTrails) Calendário geek da imagem CC no Flickr
Resumo • A ciência modernautilizamuitopodercomputacional • Dados heterogêneos, análises, software • A reprodutibilidade é importante • Fluxos de trabalho = metadados do processo • O uso de fluxos de trabalho informais ou formais para documentar os metadados do processo garante reprodutibilidade, repetibilidade, validação
Recursos para análise de dados e fluxos de trabalho • W. Michener and J. Brunt, Eds. Ecological Data: Design, Management and Processing. (Blackwell, New York, 2000).
O conjuntocompleto de slides pode ser baixado de: http: //www.dataone.org/ education-modules Citação sugerida: DataONE Education Module: Analysis and Workflows. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L10_Analysis Workflows.pptx Informaçõessobrelicença de direitosautorais: Nenhumdireito reservado; você pode aprimorar e reutilizar para seus próprios propósitos. Pedimos que você forneça a citação e atribuição apropriadas paraDataONE.