320 likes | 348 Views
Curso NPT/USP<br>19/01/2021<br>Dutra/Rodello<br><br>Embed<br><iframe src="https://www.slideserve.com/embed/10302329" width="600" height="497" frameborder="0" marginwidth="0" marginheight="0" scrolling="no" style="border:1px solid #CCC;border-width:1px 1px;margin-bottom:5px;max-width: 100%;" allowfullscreen webkitallowfullscreen mozallowfullscreen> </iframe>
E N D
Gestão de Dados dataset2021 Curso de Difusão - USP NPT – Núcleo de pesquisas em tecnologias e ambientes educacionais www.npt.com.br José Dutra de Oliveira Neto Ildeberto A. Rodelo Aula 02/10 – Gestão de dados – Ciclo de vida dos dados – Compartilhamento – “Mão na massa” Curso patrocinado pelo projeto Open Data initiative - IDRC
Dúvidas 2 Seção de dúvidas (aula anterior): • Repeatability(Same team, same experimental setup): The measurement can be obtained with stated precision by the same team using the same measurement procedure, the same measuring system, under the same operating conditions, in the same location on multiple trials. For computational experiments, this means that a researcher can reliably repeat her own computation. • Replicability (Different team, same experimental setup): The measurement can be obtained with stated precision by a different team using the same measurement procedure, the same measuring system, under the same operating conditions, in the same or a different location on multiple trials. For computational experiments, this means that an independent group can obtain the same result using the author's own artifacts. • Reproducibility (Different team, different experimental setup): The measurement can be obtained with stated precision by a different team, a different measuring system, in a different location on multiple trials. For computational experiments, this means that an independent group can obtain the same result using artifacts which they develop completely independently.
O mundo dos dados criados, capturados, copiados e consumidos (zettabytes) Gestão dos dados Como decidimos quais dados devemos manter? Zettabytes = 1 trillion Gigabytes 90% of the data in the world today has been created in the last two years.
Gestão dos dados Existe alguma chance de perda de dados? Imagem CC por Sharyn Morrow no Flickr • Desastre natural • Falha na infraestrutura das instalações • Falha no armazenamento • Falha no hardware/software do servidor • Falha no software do aplicativo • Dependências externas (por exemplo, falha de PKI) • Obsolescência de formato • Oneração legal • Erro humano • Ataque malicioso por agentes humanos ou automatizados • Perda de competências pessoais • Perda de compromisso institucional • Perda de estabilidade financeira • Mudanças nas expectativas e requisitos do usuário Imagem CC por momboleum no Flickr
Falhasnagestão…. Gestão dos dados “MEDICARE PAYMENT ERRORS NEAR $20B”(CNN) December 2004 Miscoding and billing errors from doctors and hospitals totaled $20 billion in FY 2003 (9.3% error rate). The error rate measured claims that were paid despite being medically unnecessary, inadequately documented, or improperly coded. This error rate actually was an improvement over the previous fiscal year (9.8% error rate). “AUDIT: JUSTICE STATS ON ANTI-TERROR CASES FLAWED” (AP) February 2007 The Justice Department Inspector General found only two sets of data out of 26 concerning terrorism attacks were accurate. The Justice Department uses these statistics to argue for their budget. The Inspector General said the data “appear to be the result of decentralized and haphazard methods of collections … and do not appear to be intentional.” “SOCIAL SECURITY DATA CAN TURN PEOPLE INTO THE LIVING DEAD” (NPR) August 2016 In 2011, an audit found that about 1,000 people a month in the U.S. were marked deceased when they were very much alive. Rona Lawson, who works in the Office of the Inspector General at the Social Security Administration, says that number has gone down. It's now around 500 people a month. Lawson says 90 percent of the time, the cascade of misinformation starts with an input error by Social Security staff — a regular mistake on a regular office day that just happens to kill a person off, at least on paper. Slide cortesia de BLM
Um biólogo da vida selvagem de um pequeno escritório de campo era o especialista interno em GIS e fornecia suporte para todas as necessidades de GIS da equipe. No entanto, os dados foram armazenados em sua própria estação de trabalho. Quando o biólogo se mudou para outro escritório, ninguém entendeu como os dados eram armazenados ou gerenciados. Solução: Um especialista em GIS do escritório do estado recuperou a estação de trabalho e vasculhou os arquivos tentando recuperar dados relevantes. Custo: 1 mês de trabalho (US $ 4.000) mais o valor de dados que não foram recuperados Gestão dos dados Exemplo de umamágestão de dados científicos Compartilhe alguma experiência sua ou da empresa
Gestão dos dados Importância da Gestão de Dados Os cientistas climáticos no centro de uma tempestade de informações da mídiadevido a e-mails vazados (13 anos de emails) . Elesforam absolvidos de acusações de que falsificaram seus resultados e silenciaramos críticos, mas uma revisão descobriu que eles tinhamfalhado no processo de abertura dos dados de suaspesquisas. Ciência aberta, transparência e reprodutibilidade dos resultados
Gestão dos dados Por que gerenciar dados?perspectiva do pesquisador • Gerencie seus dados para si mesmo: • Mantenha-se organizado - seja capaz de encontrar seus arquivos (entradas de dados, scripts analíticos, saídas em vários estágios do processo analítico, etc.) • Acompanhe seus processos científicos quanto à reprodutibilidade - seja capaz de combinar suas saídas com entradas e transformações exatas que as produziram • Melhor controle de versões de dados - identifique facilmente as versões que podem ser eliminadas periodicamente • Controle de qualidade- seus dados com mais eficiência
Gestão dos dados Para que a gestão dos dados? perspectiva do pesquisador • Para evitar a perda de dados(por exemplo, fazer backups) • Formate seus dados para reuso (por você ou por outros) • Esteja preparado: documente seus dados para sua própria lembrança, responsabilidade e reutilização (por você ou por outras pessoas) • Ganho de credibilidade e reconhecimento pelos seus esforços científicos por meio do compartilhamento de dados! Imagem CC por UWW ResNet no Flickr
Gestão dos dados Qual a importância da gestão de dados?É base para o avanço da ciência • Os dados são um ativo valioso - é caro e demorado coletar • Os dados devem ser gerenciados para: • maximizar o uso e valor efetivosde ativos de dados e informações • melhorarcontinuamente a qualidadeincluindo: precisão, integridade, integração, pontualidade da captura e apresentação de dados, relevância e utilidade • garantir o uso apropriadode dados e informações • facilitar o compartilhamento de dados • garantir sustentabilidade e acessibilidade a longo prazo para reutilização na ciência
Gestão dos dados Dados bem gerenciados e publicamente acessíveis são importantes: por quê? Aqui estão algumas razões (do UK Data Archive): • Aumenta o impacto e a visibilidade da pesquisa • Promove inovação e uso potencial de novos dados • Leva a novas colaborações entre usuários de dados e criadores • Maximiza a transparência e a responsabilidade • Permite o exame minucioso dos resultados da pesquisa • Incentiva a melhoria e validação de métodos de pesquisa • Reduz o custo de duplicar a coleta de dados • Fornece recursos importantes para educação e treinamento
Gestão dos dados O gerenciamento de dados facilita o compartilhamento e o reuso…
Ciclo de vida O que é o ciclo de vida dos dados?
Ciclo de vida • Descrever o conteúdo, especificidades e processo dos dados • Descrever O ciclo de vida dos dados Armazenarem um local ondepodem ser acessados • Depositar • Selecionarformato e tipos de mídias que podem ser preservado no longoprazo • Preservar Vários estágios requerem atenção para garantir o compartilhamento eficaz de dados Publicarinformaçõessobreos dados para que outros possamencontrá-los • Publicar
Pesquisa Quem compartilha ?Link responda agora - https://www.menti.com/duu3v74gtw Não compartilho os meus dados Sim, compartilho só de modo privado Sim, compartilho via email Sim, compartilho nas nuvens Sim, compartilho como dados complementares em revistas científicas Sim, compartilho em sites pessoais ou corporativos Sim, compartilho em repositórios públicos ou privados Sim, compartilho em artigo de dados
Compartilhar dados Público em geral Compartilhamento de dados O compartilhamentorequeresforço, recursos e confiançanos outros. Por que compartilhar? Para beneficiar: • O públicoemgeral • O patrocinador da pesquisa • A comunidade de pesquisa • O própriopesquisador CC image by Jessica Lucia on Flickr
Compartilhar dados Valor do compartilhamento de dados para o público em geral Um público mais bem informado gera confiança na pesquisa científica e pode gerar melhores decisões com relação a: • Planejamento ambiental e econômico • Políticas federais, estaduais e municipais • Escolhas sociais, como a melhor aplicar dos recursos oriundo de impostos e opções de investimentos na educação • Estilo de vida e saúde, como alimentação e lazer CC image by falonyates on Flickr
Compartilhar dados Patrocinador Valor do compartilhamento de dados para o patrocinador • As organizações que patrocinam as pesquisas devem maximizar o valor dos investimentos e assim investir cada vez mais • O compartilhamento de dados aumenta o valor dos investimentos em pesquisa, permitindo: • Mensurar os resultados da pesquisa • Incentivo as novas pesquisas e o aumento do retorno do investimento • Avanço da ciência • Evita recursos alocados desnecessariamente em dados duplicados • Melhorar e ampliar a disseminação ciência
Compartilhar dados Comunidade Valor do compartilhamento de dados para a comunidade científica O acesso aos dados permite que os membros da comunidade: • Possam dar continuidade nos trabalhos de outros pesquisadores para contribuir com sua evolução e não apenas repetir4 • Integrar pesquisas interdisciplinares • Realizar meta-análises5 • Compartilhar recursos e perspectivas para que a compreensão dos dados seja ampliada e aprimorada 5 • Aumentar a transparência, reprodutibilidade e comparabilidade dos resultados 5 • Permitir a avaliação, recomendações e melhorias da metodologia6 CC image by Lawrence Berkeley National Laboratory on Flickr
Compartilhar dados Pesquisador Valor do compartilhamento de dados para o pesquisador Os pesquisadores que compartilham dados são beneficiados: • Reconhecimento do patrocinador de sua pesquisa como uma fonte relevante e como um bom investimento • Melhoria da qualidade dos dados devido ao tratamento, checagem e feedback • Maior oportunidade para intercâmbio de dados • Novas conexões com redes científicas de colaboração CC image by SLU Madrid Campus on Flickr
Preocupações com compartilhamento Preocupações com o compartilhamento de dados • Mesmo que o valor do compartilhamento de dados seja reconhecido, permanecem as preocupações quanto aos impactos do aumento da exposição de dados e suas consequências. CC image by CyberHades on Flickr
Compartilhar dados – etapa 1 Preocupações com o compartilhamento de dados
Compartilhar dados – etapa 1 4 etapas para compartilhar Etapa 1: Crie um metadata robusto que sejadescobertopelosmecanismos de busca: • metadata deve ser completo, correto e documentado para reproducibilidade e permitaidentificar as suasorigens • Especificarperíodosgeográficos e temporal • Use termos , locais, palavras-chave , glossáriorelacionadas a área de conhecimento • Descrevaosatributos • Incluir links para ….dados associados, download, website do projeto, etc.
Compartilhar dados – etapa 2 Tornando os dados compartilháveis Etapa 2: Incluainformação de referência e de armazenamento dos dados. Por exemplo: • Faça as citações de forma adequada para os dados e todas as fontes • Universally Unique Identifiers (UUID) identifica de forma únicaseus dados e ajudamrelacionaros dados com o metadado. • Veja o guia do identificadorúnico da DataONE : https://releases.dataone.org/online/api-documentation-v2.0/design/PIDs.html Formato de citação dos dados:https://www.datacite.org/services/cite-your-data.html Exemplo de citação dos dados: Sidlauskas, B. 2007. Data from: Testing for unequal rates of morphological diversification in the absence of a detailed phylogeny: a case study from characiform fishes. Dryad Digital Repository. doi:10.5061/dryad.20
Compartilhar dados – etapa 3 Tornando os dados compartilháveis Etapa três: Vocêpediuajuda a um colega para validarosseus dados? • Osmétodos /técnicassãoprecisos? • Todas as contribuiçõesforamidentificadas? • O gestor fez a revisão do produto e da documentação? • A agência de foment (se houver) foidevidamentereconhecida ?
Compartilhar dados – etapa 4 Tornando os dados compartilháveis Etapa 4: Publiqueosseus dados /metadados : e.g. Catálogo de dados federais • data.gov (base de dados aberta do EUA) e.g. Repositórios de dados • Knowledge Network for Biodiversity (KNB) Data Portal • Long Term Ecological Research (LTER) Network Data Portal • Institutional data repositories e.g. Outros locais • Project and/or Program websites • Web-accessible folders (WAF) • Community or Public Cloud Diretórios de repositórios para publicarosseus dados: http://service.re3data.org/search
prática • Por área • WorldwideProtein Data Bank : http://www.wwpdb.org/, • The CancerImagingArchive; https://www.cancerimagingarchive.net/collections/, • DataMed (https://datamed.org/), • GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/, • Zenodo - https://zenodo.org/. • Geral • Figshare : https://figshare.com/, • Purdue :https://purr.purdue.edu/, • Dryad: https://datadryad.org/stash , • Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse, • Google datasetsearchhttps://datasetsearch.research.google.com/ , • PANGAEA (https://www.pangaea.de/) • DataBibhttp://databib.org/index.php; • NEMercuryhttps://www.dataone.org/find-data • Knowledge Network for Biodiversity (KNB) https://knb.ecoinformatics.org/index.jsp
Referências • Inter-university Consortium for Political and Social Research (ICPSR), ICPSR Guide to Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (ICPSR, 2009; http://www.icpsr.umich.edu/files/ICPSR/access/dataprep.pdf). [4th Edition] • Australian Bureau of Statistics - National Statistical Service (ABS-NSS), A good practice guide to sharing your data with others (ABS-NSS, 2009; http://www.nss.gov.au/nss/home.nsf/NSS/E6C05AE57C80D737CA25761D002FD676?opendocument). [Vers. 1] • H.A. Piwowar, A new task for NSF reviewers: Recognizing the value of data reuse. ResearchRemixvers. May 28, 2011 (http://researchremix.wordpress.com/2011/05/28/dear-nsf-reviewers/). [blog posting of draft] • H.A. Piwowar, M.J. Becich, H. Bilofsky, R.S. Crowley, Towards a Data Sharing Culture: Recommendations for Leadership from Academic Health Centers. PLoS Med. 5(9), e183 (2008), doi:10.1371/journal.pmed.0050183. [on behalf of the caBIG Data Sharing and Intellectual Capital Workspace]
References • J.L. Teeters, K.D. Harris, K.J. Millman, B.A. Olshausen, F.T. Sommer, Data Sharing for Computational Neuroscience. Neuroinform (2008), DOI 10.1007s12021-008-9009-y. [http://redwood.berkeley.edu/fsommer/papers/teetersetal08.pdf] • National Institute of Health (NIH) “NIH Data Sharing Policy and Implementation Guidelines” (NIH, Washington D.C., 2003, http://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm). • R. Geambasu, S.D. Gribble, H. M. Levy, "CloudViews: Communal Data Sharing in Public Clouds" In Proceedings of the First USENIX Workshop on Hot Topics in Cloud Computing (HotCloud), San Diego, USA, June 2009. [Paper: PDF; Presentation: PPT, PDF] • J. Niu, “Reward and Punishment Mechanisms for Research Data Sharing”. IASSIST Quarterly, Winter (2006).
Referências • C.L. Borgman, “Research Data: Who will share what, with whom, when, and why?”in Proceedings of the China-North American Library Conference, Beijing , September 2010 (http://works.bepress.com/borgman/238/). • Chatfield, T., Selbach, R. fevereiro de 2011. Workshop de TreinamentoemGerenciamento de Dados. Bureau of Land Management (BLM). • Strasser, Carly. Fevereiro de 2012.Gerenciamento de dados para cientistas. http://www.slideshare.net/carlystrasser/oceansciences2012workshop • Arquivo de dados do ReinoUnido. Maio de 2011. Gerenciamento e compartilhamento de dados: melhorespráticas para pesquisadores. http://www.data-archive.ac.uk/media/2894/managingsharing.pdf • DAMA International, O Guia DAMA do ConhecimentoemGerenciamento de Dados. https://www.dama.org/content/body-knowledge