1 / 38

Gestão de dados - dataset - 01/10

Curso oferecido pelo NPT/USP com patrocinio do IDRC - Canada<br>12/01/2021<br>https://youtu.be/PFwAzP5WCWA

989212
Download Presentation

Gestão de dados - dataset - 01/10

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Gestão de Dados dataset2021 Curso de Difusão - USP NPT – Núcleo de pesquisas em tecnologias e ambientes educacionais www.npt.com.br José Dutra de Oliveira Neto Ildeberto A. Rodelo Aula 01/10 – Apresentação – Projeto – Certificado USP (70% freq. e apresentação DMP) – Introdução Curso patrocinado pelo projeto Open Data initiative - IDRC

  2. Agenda Agenda • Crise de replicação • Compartilhamento de dados • Repositório • Dados sensitivos • Ondepublicar? • Dataset • Artigo de Dados

  3. Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? Erro, falseamento de dados, omissão e manipulação ameaçam a qualidade das pesquisas

  4. Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? In 1992, philosopher Karl Popper wrote: “Science may be described as the art of systematic oversimplification — the art of discerning what we may with advantage omit.” Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you can’, not ‘catch me if you can’.

  5. Crise Replicabilidade/ reprodutibilidade • A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são construídos sobre resultados das pesquisas anteriores. • Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos escassos e compromete a confiança na ciência • Replicabilidade/ reprodutibilidade e transparênciasãotemasimportantes para a ciência https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web

  6. Crise Replicabilidade/ reprodutibilidade : É um problema? • More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments. Those are some of the telling figures that emerged from Nature's survey of 1,576 researchers who took a brief online questionnaire on reproducibility in research • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  7. Crise Existe uma crise de replicabilidade/ reprodutibilidade na pesquisa? • Sim, existe uma crise significativa • Sim, existe um crise pequena • Não existe esta crise • Não sei Responda aqui: https://www.menti.com/udarxro5z5

  8. Crise Existe uma crise de replicabilidade/ reprodutibilidade ? Detalhando mais... https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  9. Crise Potenciais causas do problema com a replicabilidade/ reprodutibilidade

  10. Crise A maiorexplicação para a nãorepetibilidadefoi a indisponibilidade dos dados (nature genetics) https://www.nature.com/articles/ng.295/figures/1?proof=true

  11. Crise Iniciativas das revistas • Seção de métodos limitados • Não limitar o tamanho da seção de métodos • Lançamento de artigos no formato de métodos (Wellcome Open Research- https://wellcomeopenresearch.org/browse/articles - MethodArticles) • Falta de estatísticas adequadas • Fornecer instruções ou guias para relatar as formas de descrever as estatísticas

  12. Por que publicar? Por que publicar os dados? Vantagens? • Crédito pela publicação indexada e citável • Acesso aberto (Ex: Licença tipo Creative Commons) • Validade a pesquisa • Garantir a reprodução da pesquisa acadêmica • Promover comportamentos éticos na pesquisa • Melhorar a reputação da instituição ou mesmo pessoal Repositório de dados Artigo de dados

  13. Compartilhar Alguns financiadores e editores já estão exigindo o compartilhamento dos dados da pesquisa https://dataservices.gfz-potsdam.de/portal/drr.html

  14. Repositório Repositório de dados

  15. Repositório Repositório – Para que? • Disseminar dados para outros pesquisadores • Incentivar o reuso • Facilitar acesso • Exemplo: Figshare - https://figshare.com/ https://doi.org/10.6084/m9.figshare.12195075

  16. Repositório Repositório x Website Website ?

  17. Publicar o DMP no repositório de dados -> Lattes • Por área • WorldwideProtein Data Bank : http://www.wwpdb.org/, • The CancerImagingArchive; https://www.cancerimagingarchive.net/collections/, • DataMed (https://datamed.org/), • GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/, • Zenodo - https://zenodo.org/. • Geral • Figshare : https://figshare.com/, • Purdue :https://purr.purdue.edu/, • Dryad: https://datadryad.org/stash , • Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse, • Google datasetsearchhttps://datasetsearch.research.google.com/ , • PANGAEA (https://www.pangaea.de/), https://www.mendeley.com/) Entrar no meu plano-> https://dmponline.dcc.ac.uk/plans

  18. Onde publicar? Repositório – como citar de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data onthe Open EducationalResources differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020). https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data

  19. Dados Sensitivos Seus dados são sensitivos ? Estão seguros?

  20. Dados Sensitivos Dados sensitivos • Dados que identificam as pessoas ou organização • Diretos – Nome, assinatura, telefone, foto, digital • Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de nascimento, raça, características incomuns (doença rara, empregos específicos e raros) • Alguns dados protegidos pelas legislação vigente • Dados comerciais sensitivos https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970

  21. Dados Sensitivos Dados sensitivos: Riscos • Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou organizações? • Se combinar diversos datasets é possível identificar pessoas ou organizações? • Existem aspectos legais ou éticos que limitam o seu compartilhamento? • A publicação pode prejudicar alguém?

  22. Dados Sensitivos Algum risco? • It was found that 87% (216 million of 248 million) of the population in the United States had reported characteristics that likely made them unique based only on {5-digit ZIP, gender, date of birth}. • About half of the U.S. population (132 million of 248 million or 53%) are likely to be uniquely identified by only {place, gender, date of birth}, where place is basically the city, town, or municipality in which the person resides. • And even at the county level, {county, gender, date of birth} are likely to uniquely identify 18% of the U.S. population. In general, few characteristics are needed to uniquely identify a person. https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half%20of%20the%20U.S.,in%20which%20the%20person%20resides.

  23. Dados Sensitivos Dados Sensitivos Como proteger dados sensitivos? • Comitê de ética • Agregar os dados para tornar mais seguros • Acesso controlado ao repositório? • Pedir autorização aos participantes • Anonimizar ou de-identificar os dados • Fechar o acesso até a morte dos participantes • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970 reprodução link site

  24. Dados Sensitivos Caso Netflix • On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December 1999 and December 2005. • Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she liked them or not, maybe even approximate dates when she watched them. • Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify individual users by matching the data sets with film ratings on the Internet Movie Database[29][30] uncovering their apparent political preferences and other potentially sensitive information. • On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement with the plaintiffs, after which they voluntarily dismissed the lawsuit • On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission privacy concerns.[28]

  25. Dados Sensitivos Dados sensitivos: Planejamento • Comitê de ética • Plano • Permissão para coleta – Consentform[https://tinyurl.com/yxmwrvl4 ] • Guardar permissão com data de aceite • Descrição detalhada e clara • Deixar claro que a coleta é opcional • Deixar claro que os respondentes podem desistir a qualquer momento • Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância) • Esclarecer o que e como vai usar os dados • Identificar o repositório oficial onde ficará hospedado os dados • Plano de armazenamento e gestão dos dados • Tipo de permissão para reuso : deixar claro • Metadados, descrição e dados de contato

  26. Dados Sensitivos Remover identificadores de dados sensitivos • Anonimação - definitivo • De-identificação – Pode ser revertido com o processo de re-identificação. Pode ser usado para estudos longitudinais. Documentar todo o processo! • Diminuir risco • Eliminar identificadores • Substituir identificadores • Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e Ribeirão Preto por Estado de São Paulo • Substituir caracteres por * . E****.I****. (nome da escola) • Morte? Mudança de Lei?

  27. Dados Sensitivos Compartilhar dados sensitivos qualitativos • Como anonimizar? • Textual • Áudio • Vídeo • Pseudônimos • Remover trechos • Alterar trechos • Acesso controlado dos dados • Embargo

  28. Quem compartilha? Quem compartilha ?Link responda agora - https://www.menti.com/duu3v74gtw Não compartilho os meus dados Sim, compartilho só de modo privado Sim, compartilho via email Sim, compartilho nas nuvens Sim, compartilho como dados complementares em revistas científicas Sim, compartilho em sites pessoais ou corporativos Sim, compartilho em repositórios públicos ou privados Sim, compartilho em artigo de dados

  29. Quem compartilha? Como os pesquisadores compartilham os dados • Quantos? 36% só compartilha privado • Como? 65% por email e 39% nas nuvens • Onde? Revistas científicas como informações suplementares (51%), sites pessoais (27%) e repositórios (25%) https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf Qual o Problema?

  30. Onde publicar? Quais dados podem ser publicados? • Dados antigos • Dados já utilizados em um artigo • dados associados a um artigo de alto impacto • Dados de um único experimento Quando pode ser publicado? • Depois da análise de dados ser publicada • Antes da análise de dados ser publicada • Junto com a publicação da análise de dados • Quando o autor não tem intenção de publicar os dados

  31. Onde publicar? E o “artigo” de dados?

  32. Onde publicar? Artigo de dados • Artigo de dados apenasdescreve o dataset e normalmentenãoincluinenhumainterpretaçãooudiscussãoacerca dos dados • As revistasnormalmenterequerem o depósitoem um repositório de dados • Nemtodosexigemanálise, interpretação e conclusão • Nãotem o foconageração de dados e nemnosmétodos • Nãoexiste teste de hipótese

  33. Onde publicar? Exemplo de um artigo de dados Especificações Design experimento, materiais e métodos Valor dos dados Local dos dados Abstract Dados

  34. Artigo de dados - achar revista compatível com seu projeto/bolso • Biodiversity data jornal - https://bdj.pensoft.net/ • BMC research notes - https://bmcresnotes.biomedcentral.com/ • Data scienceJournal - https://datascience.codata.org/ • Data in Brief - https://www.journals.elsevier.com/data-in-brief • Earth System Science Data - https://www.earth-system-science-data.net/ • Giga Science - https://gigascience.biomedcentral.com/ • Journalof open humanities data -https://openhumanitiesdata.metajnl.com/ • Journalof big data - https://journalofbigdata.springeropen.com/ • Research data journal for thehumanitiesand social sciences - https://brill.com/view/journals/rdj/rdj-overview.xml • Scientifica data - https://www.nature.com/sdata/ Scientific data - submissionguidelines https://www.nature.com/sdata/publish/submission-guidelines

  35. Obrigado Material disponível no Slideserve Dutra@usp.br

  36. Referências Referências • Workshop IDRC - Open data initiative • Material sobre data sharing da Natureresearch - https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data

  37. Repositório • Slides no servidor slideserve - https://www.slideserve.com/ • Material adicional no googledrive • https://drive.google.com/drive/folders/1tI98AhJWF6rdicaKqlW2wGOhqp5jwdMB?usp=sharing

More Related