1 / 36

M09_Workflows_Port

IDRC u2013 Open research data initiative [109059-013] supported this study.<br>Su00e9rie integrante do curso sobre datasets<br>Material traduzido por Jose Dutra O Neto, Ildeberto A Rodello<br>Apoio: IDRC u2013 Open research data initiative [109059-013]

989212
Download Presentation

M09_Workflows_Port

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TutoriaisemGestãode Dados Científicos Módulo 9: Fluxos de trabalho (Workflows) Tipos de análise de dados, introdução à reprodutibilidade, procedênciae fluxos de trabalho, fluxos de trabalho informais (conceituais) e formais (executáveis). Imagem de CC de wlef70 no Flickr

  2. Conteúdo • Visão geral das típicasanálisesde dados • Reprodutibilidadee procedência • Fluxos de trabalho em geral • Fluxos de trabalho informais • Fluxos de trabalho formais • Controle de versão Imagem CC por jwalsh no Flickr

  3. Objetivosde Aprendizagem • Após concluir estaetapa, o participante será capaz de: • Enumerar vários tipos de análise • Familiarize-se com os símbolos nos fluxogramas para esboçar fluxos de trabalho • Saber quando usar um fluxo de trabalho formal ou informal • Conhecervárias ferramentas de fluxo de trabalho • Conheceras ferramentas de controle de versão Imagem de CC por cybrarian77 no Flickr

  4. O ciclo de vida dos dados

  5. Análise de dados • Conduzidavia computador pessoal, grid, computação em nuvem • Estatísticas, execuções de modelos, estimativas de parâmetros, gráficos/plotagens, etc. Imagem CC por tai viinikka no Flickr Imagem CC por hegemonx no Flickr

  6. Tipos de análises • Processamento: extrairsubconjunto, mesclar, manipular • Redução: importante para conjuntos de dados de alta resolução • Transformação: conversões de unidades, algoritmos lineares e não lineares DataHora air temp precip C mm 11-Jul-07 5:00 27.6 000 11-Jul-07 6:00 27.6 000 11-Jul-07 7:00 27.7 003 11-Jul-07 8:00 28.2 017 11-Jul-07 9:00 28.5 000 11-Jul-07 10:00 29.3 000 11-Jul-07 11:00 30.1 000 11-Jul-07 12:00 30.4 000 0711070500276000 0711070600276000 0711070700277003 0711070800282017 0711070900285000 0711071000293000 0711071100301000 0711071200304000 Recreated from Michener & Brunt (2000)

  7. Tipos de análises • Análises Gráficas • Exploração visual de dados: busca de padrões • Garantia de qualidade: detecção de outlier Scatter plot of August Temperatures Box and whisker plot of temperature by month Strasser, unpub. data Strasser, unpub. data

  8. Tipos de análises Exemplo de análise de componentes principais • Análiseestatística Estatísticas convencionais • Dados experimentais • Exemplos: ANOVA, MANOVA, linear e regressão não linear • Confie em suposições: aleatórias amostragem aleatória e normalmente erro distribuído, erro independente termos, variação homogênea Estatísticas descritivas • Dados observacionais ou descritivos • Exemplos: índices de diversidade, cluster análise, variância do quadrante, métodos de distância, análise de componentes principais, análise de correspondência De Oksanen (2011) Análise multivariada de comunidades ecológicas em R: tutorial vegano

  9. Tipos de análises • Análises estatísticas (continuação) • Análises temporais: séries temporais • Análises espaciais: para autocorrelação espacial • Abordagens não paramétricas úteis quando pressupostos convencionais violam ou distribuição subjacente desconhecida • Outros misc. análises: avaliação de riscos, modelos lineares generalizados, modelos mistos, etc. • Análises de conjuntos de dados muito grandes • Mineração e descoberta de dados • Processamento de dados online

  10. Após análise de dados • Reanálise das saídas • Visualizações finais: tabelas, gráficos, simulações etc. A ciência é iterativa: O processo que resulta no produto final pode ser complexo

  11. Reprodutibilidade • Reprodutibilidade no centro do método científico • Processo complexo = mais difícil de reproduzir • Boa documentação necessária para reprodutibilidade • Metadados: dados sobre dados • Metadados do processo: dados sobre o processo usado para criar, manipular e analisar dados Imagem de CC de Richard Carter no Flickr

  12. Garantindo a reprodutibilidade: documentando o processo • Metadados do processo: Informações sobre o processo (análise, organização de dados, gráficos) usadas para obter as saídas de dados • Conceito relacionado:procedência dos dados • Origens dos dados • Boa procedência = capaz de acompanhar os dados durante todo o ciclo de vida • Permite • Replicação e reprodutibilidade • Análise de defeitos potenciais, erros de lógica, erros estatísticos • Avaliação de hipóteses

  13. Fluxos de trabalho: o básico • Formalização de metadados do processo • Descrição precisa do procedimento científico • Série conceitualizadada obtenção dos dados, transformação e etapas analíticas • Três componentes • Insumos: informações ou material necessário • Produtos: informação ou material produzido e potencialmente usado como insumo em outras etapas • Regras de transformação/algoritmos (por exemplo, análises) • Dois tipos: • Informal • Formal/Executável

  14. Fluxos de trabalhoinformais Diagramas de fluxo de trabalho: Alguns blocos de construção básicos Dados (entrada ou saída) • Entradas ousaídas:incluemdados, metadados ou visualizações • Processosanalíticos:incluem operações que alteram ou manipulam dados de alguma maneira • Decisões:especificamcondições que determinam a próxima etapa do processo • Processos predefinidos ou sub-rotinas: especificam um processo fixo de várias etapas Processo analítico Decisão Processo predefinido (sub-rotina)

  15. Fluxos de trabalho informais Diagramas de fluxo de trabalho: Fluxograma linear simples • Conceitualizando a análise como uma sequência de etapas • Setasindicam fluxo Dados brutos e metadados associados Dados de saída, visualizações, metadados associados Coletade dados Limpezados dados Análise Etapa 1 Etapa de análise 2 Geração de saída

  16. Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Importação de dados para R Controle de qualidade e limpeza de dados Análise: média, DP Produção gráfica

  17. Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Regras de Transformação Importação de dados para R Controle de qualidade e limpeza de dados Análise: média, DP Produção gráfica

  18. Fluxos de trabalho informais Fluxogramas: forma mais simples de fluxo de trabalho Entradas saídas Dados de temperatura Importação de dados para R Dados no formato R Dados de salinidade Controle de qualidade e limpeza de dados Dados de T&S “limpos” Análise: média, DP Estatísticas resumidas Produção gráfica

  19. Fluxos de trabalho informais Diagramas de fluxo de trabalho: Adicionando pontos de decisão LOOP CONDICIONAL Análise 1 CONDIÇÃO SE falso Análise 2 verdade

  20. Fluxos de trabalho informais Diagramas de fluxo de trabalho: uma simples exemplo Compilar lista de taxa únicas Calcular frequências de taxa nome da espécie Gere dados de saída e visualizações para frequências de taxa no intervalo declarado PARA Controle de qualidade / certificaçãoqualidade(por exemplo, verifique os tipos de dados apropriados, discrepantes) Dados e metadados Inserção dos dados contagem lat/longitude Dados, visualizações e metadados Determinar o alcance (calcularpontos)

  21. Fluxos de trabalho informais Diagramas de fluxo de trabalho: uma complexo exemplo Dados e metadados Análise 1A Inserçãodedados Limpeza de dados A Integração de dados Integração de dados Análise 2 Geração de saída PARA B Dados e metadados Inserçãode dados Limpeza de dados Análise 1B Dados, visualizações e metadados F Dados e metadados Processo predefinido (sub-rotina) Inserçãode dados Limpeza de dados V SE

  22. Fluxos de trabalho informais Scripts comentados: Melhores Práticas • Código bem documentado é mais fácil de revisar, compartilhar e permiterepetidasanálises • Adicioneinformações de alto nívelna parte superior • Descriçãodo projeto, autor, data • Dependências, entradas e saídas de script • Descreve parâmetros e suas origens • Observe e organize seções • O que acontece na seção e por que • Descrever dependências, entradas e saídas • Construa o script de ponta a ponta, se possível • Uma narrativa completa • Executa sem intervenção do início ao fim % # $ &

  23. Fluxos de trabalhoformais/executáveis • Pipeline analítico • Cada etapa pode ser implementada em diferentes sistemas de software • Cada etapa e seus parâmetros / requisitos registrados formalmente • Permite a reutilização de etapas individuais e do fluxo de trabalho geral Imagem CC por AJ Cann no Flickr

  24. Fluxos de trabalho formais / executáveis Benefícios: • Ponto de acesso único para várias análisesporpacotes de software • Acompanha a análise e a procedência: permite a reprodutibilidade • Cada etapa e seus parâmetros / requisitos registrados formalmente • O fluxo de trabalho pode ser armazenado • Permite compartilhar e reutilizar etapas individuais ou fluxo de trabalho geral • Automatizatarefas repetitivas • Usadaem diferentes disciplinas e grupos • Pode executar análises mais rapidamente, pois não inicia do zero

  25. Fluxos de trabalho formais / executáveis Exemplo: Software Kepler • Código aberto, gratuito e multiplataforma • Interface de arrastar e soltar para construção do fluxo de trabalho • Etapas (análises, manipulações etc.) no fluxo de trabalho representado por "ator" • Atores se conectam a partir de um fluxo de trabalho • Possíveis aplicações • Modelos teóricos ou análises observacionais • Modelagem hierárquica • Pode ter fluxos de trabalho aninhados • Pode acessar dados de fontes baseadas na Web (por exemplo, bancos de dados) • Downloads e mais informações em kepler-project.org

  26. Fluxos de trabalho formais / executáveis Exemplo: Software Kepler Atores no fluxo de trabalho Arraste e solte componentes desta lista

  27. Fluxos de trabalho formais / executáveis Exemplo: Software Kepler This model shows the solution to the classic Lotka-Volterra predator prey dynamics model. It uses the Continuous Time domain to solve two coupled differential equations, one that models the predator population and one that models the prey population. The results are plotted as they are calculated showing both population change and a phase diagram of the dynamics.

  28. Fluxos de trabalho formais / executáveis Exemplo: Software Kepler Resultado

  29. Fluxos de trabalho formais / executáveis Exemplo: VisTrails • Código aberto • Fluxo de trabalhoe suporte de gestãode origem • Voltado paratarefas computacionaisexploratórias • Pode gerenciarSWF • Mantém histórico detalhado sobre etapas e dados • www.vistrails.org Screenshot vistrails

  30. Fluxos de trabalhoem geral • A ciênciaestá se tornandomaisintensivaemtermoscomputacionais • Compartilharfluxos de trabalhobeneficia a ciência • Ossistemascientíficos de fluxo de trabalhofacilitam a documentação dos fluxos de trabalho • Documentesuaanáliseatravés de fluxos de trabalhoinformais • Aplicativos de fluxo de trabalhoemergentes (fluxos de trabalhoformais / executáveis) • Software paraanálise de ponta a pontaexecutável • Providencirinformaçãodetalhadasobre dados e análise • Facilitareutilização e refinamentode análisescomplexasemváriasetapas • Ativatrocaeficiente de modelos e algoritmosalternativos • Ajudaautomatizartarefastediosas

  31. Controle de versão • Software para gerenciar alterações nos arquivos, principalmente scripts e código fonte • Essencial para gerenciar fluxos de trabalho em evolução • É útil para gerenciar alterações de código e scripts • Permite colaboração em escala • Permite rastrear a revisão exata do código/script usado para um fluxo de trabalho

  32. Ferramentasparacontrole de versão • Git - modelo distribuído, amplamente utilizado, simples de ramificar e mesclar • SVN - muitosprojetosainda usam, requer um servidorpara colaborar • Mercurial - modelo distribuído com nicho de usuários

  33. Práticas recomendadas para análise de dados • Os cientistas devem documentar fluxos de trabalho usados ​​paragerarosresultados • Procedência dos dados • Análises e parâmetros utilizados • Conexões entre análises via entradas e saídas • A documentação pode ser informal (por exemplo, fluxogramas, scripts comentados) ou formal (por exemplo, Kepler, VisTrails) Calendário geek da imagem CC no Flickr

  34. Resumo • A ciência modernautilizamuitopodercomputacional • Dados heterogêneos, análises, software • A reprodutibilidade é importante • Fluxos de trabalho = metadados do processo • O uso de fluxos de trabalho informais ou formais para documentar os metadados do processo garante reprodutibilidade, repetibilidade, validação

  35. Recursos para análise de dados e fluxos de trabalho • W. Michener and J. Brunt, Eds. Ecological Data: Design, Management and Processing. (Blackwell, New York, 2000).

  36. O conjuntocompleto de slides pode ser baixado de: http: //www.dataone.org/ education-modules Citação sugerida: DataONE Education Module: Analysis and Workflows. DataONE. Retrieved Nov12, 2012. From http://www.dataone.org/sites/all/documents/L10_Analysis Workflows.pptx Informaçõessobrelicença de direitosautorais: Nenhumdireito reservado; você pode aprimorar e reutilizar para seus próprios propósitos. Pedimos que você forneça a citação e atribuição apropriadas paraDataONE.

More Related