430 likes | 472 Views
Curso oferecido pelo NPT/USP com patrocinio do IDRC - Canada<br>12/01/2021<br>https://youtu.be/PFwAzP5WCWA
E N D
Gestão de Dados dataset2021 Curso de Difusão - USP NPT – Núcleo de pesquisas em tecnologias e ambientes educacionais www.npt.com.br José Dutra de Oliveira Neto Ildeberto A. Rodelo Aula 01/10 – Apresentação – Projeto – Certificado USP (70% freq. e apresentação DMP) – Introdução Curso patrocinado pelo projeto Open Data initiative - IDRC
Agenda Agenda • Crise de replicação • Compartilhamento de dados • Repositório • Dados sensitivos • Ondepublicar? • Dataset • Artigo de Dados
Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? Erro, falseamento de dados, omissão e manipulação ameaçam a qualidade das pesquisas
Crise Crise de replicabilidade/ reprodutibilidade da pesquisa? In 1992, philosopher Karl Popper wrote: “Science may be described as the art of systematic oversimplification — the art of discerning what we may with advantage omit.” Science should be ‘show me’, not ‘trust me’; it should be ‘help me if you can’, not ‘catch me if you can’.
Crise Replicabilidade/ reprodutibilidade • A ciência só evolui se os pesquisadores confiarem nos resultados das pesquisas anteriores. O conhecimento é acumulado pelos novos testes de hipóteses que são construídos sobre resultados das pesquisas anteriores. • Um trabalho não replicável/reprodutível não é a melhor forma de usar de recursos escassos e compromete a confiança na ciência • Replicabilidade/ reprodutibilidade e transparênciasãotemasimportantes para a ciência https://www.knaw.nl/shared/resources/actueel/publicaties/pdf/20180115-replication-studies-web
Crise Replicabilidade/ reprodutibilidade : É um problema? • More than 70% of researchers have tried and failed to reproduce another scientist's experiments, and more than half have failed to reproduce their own experiments. Those are some of the telling figures that emerged from Nature's survey of 1,576 researchers who took a brief online questionnaire on reproducibility in research • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Crise Existe uma crise de replicabilidade/ reprodutibilidade na pesquisa? • Sim, existe uma crise significativa • Sim, existe um crise pequena • Não existe esta crise • Não sei Responda aqui: https://www.menti.com/udarxro5z5
Crise Existe uma crise de replicabilidade/ reprodutibilidade ? Detalhando mais... https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Crise Potenciais causas do problema com a replicabilidade/ reprodutibilidade
Crise A maiorexplicação para a nãorepetibilidadefoi a indisponibilidade dos dados (nature genetics) https://www.nature.com/articles/ng.295/figures/1?proof=true
Crise Iniciativas das revistas • Seção de métodos limitados • Não limitar o tamanho da seção de métodos • Lançamento de artigos no formato de métodos (Wellcome Open Research- https://wellcomeopenresearch.org/browse/articles - MethodArticles) • Falta de estatísticas adequadas • Fornecer instruções ou guias para relatar as formas de descrever as estatísticas
Por que publicar? Por que publicar os dados? Vantagens? • Crédito pela publicação indexada e citável • Acesso aberto (Ex: Licença tipo Creative Commons) • Validade a pesquisa • Garantir a reprodução da pesquisa acadêmica • Promover comportamentos éticos na pesquisa • Melhorar a reputação da instituição ou mesmo pessoal Repositório de dados Artigo de dados
Compartilhar Alguns financiadores e editores já estão exigindo o compartilhamento dos dados da pesquisa https://dataservices.gfz-potsdam.de/portal/drr.html
Repositório Repositório de dados
Repositório Repositório – Para que? • Disseminar dados para outros pesquisadores • Incentivar o reuso • Facilitar acesso • Exemplo: Figshare - https://figshare.com/ https://doi.org/10.6084/m9.figshare.12195075
Repositório Repositório x Website Website ?
Publicar o DMP no repositório de dados -> Lattes • Por área • WorldwideProtein Data Bank : http://www.wwpdb.org/, • The CancerImagingArchive; https://www.cancerimagingarchive.net/collections/, • DataMed (https://datamed.org/), • GenBank (DNA) - https://www.ncbi.nlm.nih.gov/genbank/, • Zenodo - https://zenodo.org/. • Geral • Figshare : https://figshare.com/, • Purdue :https://purr.purdue.edu/, • Dryad: https://datadryad.org/stash , • Harvard Dataverse: https://library.harvard.edu/services-tools/harvard-dataverse, • Google datasetsearchhttps://datasetsearch.research.google.com/ , • PANGAEA (https://www.pangaea.de/), https://www.mendeley.com/) Entrar no meu plano-> https://dmponline.dcc.ac.uk/plans
Onde publicar? Repositório – como citar de Oliveira Neto, José Dutra; Rodello, Ildeberto Aparecido.: Data onthe Open EducationalResources differentiation in Global South. figshare https://doi.org/10.6084/m9.figshare.12195075 (2020). https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data
Dados Sensitivos Seus dados são sensitivos ? Estão seguros?
Dados Sensitivos Dados sensitivos • Dados que identificam as pessoas ou organização • Diretos – Nome, assinatura, telefone, foto, digital • Indiretos – Junto com outras informações, permitem a identificação- Gênero, data de nascimento, raça, características incomuns (doença rara, empregos específicos e raros) • Alguns dados protegidos pelas legislação vigente • Dados comerciais sensitivos https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970
Dados Sensitivos Dados sensitivos: Riscos • Se combinar alguns identificadores indiretos, conseguimos identificar pessoas ou organizações? • Se combinar diversos datasets é possível identificar pessoas ou organizações? • Existem aspectos legais ou éticos que limitam o seu compartilhamento? • A publicação pode prejudicar alguém?
Dados Sensitivos Algum risco? • It was found that 87% (216 million of 248 million) of the population in the United States had reported characteristics that likely made them unique based only on {5-digit ZIP, gender, date of birth}. • About half of the U.S. population (132 million of 248 million or 53%) are likely to be uniquely identified by only {place, gender, date of birth}, where place is basically the city, town, or municipality in which the person resides. • And even at the county level, {county, gender, date of birth} are likely to uniquely identify 18% of the U.S. population. In general, few characteristics are needed to uniquely identify a person. https://dataprivacylab.org/projects/identifiability/paper1.pdf#:~:text=About%20half%20of%20the%20U.S.,in%20which%20the%20person%20resides.
Dados Sensitivos Dados Sensitivos Como proteger dados sensitivos? • Comitê de ética • Agregar os dados para tornar mais seguros • Acesso controlado ao repositório? • Pedir autorização aos participantes • Anonimizar ou de-identificar os dados • Fechar o acesso até a morte dos participantes • https://www.nature.com/news/1-500-scientists-lift-the-lid-on-reproducibility-1.19970 reprodução link site
Dados Sensitivos Caso Netflix • On October 2, 2006, Netflix, the world’s largest online DVD rental service, announced the $1-million Netflix Prize for improving their movie recommendation service [15]. To aid contestants, Netflix publicly released a dataset containing 100, 480, 507 movie ratings, created by 480, 189 Netflix subscribers between December 1999 and December 2005. • Subscriber’s movie preferences: the titles of a few of the movies that this subscriber watched, whether she liked them or not, maybe even approximate dates when she watched them. • Although the data sets were constructed to preserve customer privacy, the Prize has been criticized by privacy advocates. In 2007 two researchers from The University of Texas at Austin were able to identify individual users by matching the data sets with film ratings on the Internet Movie Database[29][30] uncovering their apparent political preferences and other potentially sensitive information. • On December 17, 2009, four Netflix users filed a class action lawsuit against Netflix, alleging that Netflix had violated U.S. fair trade laws and the Video Privacy Protection Act by releasing the datasets.[31] There was public debate about privacy for research participants. On March 19, 2010, Netflix reached a settlement with the plaintiffs, after which they voluntarily dismissed the lawsuit • On March 12, 2010, Netflix announced that it would not pursue a second Prize competition that it had announced the previous August. The decision was in response to a lawsuit and Federal Trade Commission privacy concerns.[28]
Dados Sensitivos Dados sensitivos: Planejamento • Comitê de ética • Plano • Permissão para coleta – Consentform[https://tinyurl.com/yxmwrvl4 ] • Guardar permissão com data de aceite • Descrição detalhada e clara • Deixar claro que a coleta é opcional • Deixar claro que os respondentes podem desistir a qualquer momento • Esclarecer ao respondente a necessidade dos dados para a pesquisa (relevância) • Esclarecer o que e como vai usar os dados • Identificar o repositório oficial onde ficará hospedado os dados • Plano de armazenamento e gestão dos dados • Tipo de permissão para reuso : deixar claro • Metadados, descrição e dados de contato
Dados Sensitivos Remover identificadores de dados sensitivos • Anonimação - definitivo • De-identificação – Pode ser revertido com o processo de re-identificação. Pode ser usado para estudos longitudinais. Documentar todo o processo! • Diminuir risco • Eliminar identificadores • Substituir identificadores • Generalização ( range idade, cidade e não rua) 10/07/2000 por 20-30 e Ribeirão Preto por Estado de São Paulo • Substituir caracteres por * . E****.I****. (nome da escola) • Morte? Mudança de Lei?
Dados Sensitivos Compartilhar dados sensitivos qualitativos • Como anonimizar? • Textual • Áudio • Vídeo • Pseudônimos • Remover trechos • Alterar trechos • Acesso controlado dos dados • Embargo
Quem compartilha? Quem compartilha ?Link responda agora - https://www.menti.com/duu3v74gtw Não compartilho os meus dados Sim, compartilho só de modo privado Sim, compartilho via email Sim, compartilho nas nuvens Sim, compartilho como dados complementares em revistas científicas Sim, compartilho em sites pessoais ou corporativos Sim, compartilho em repositórios públicos ou privados Sim, compartilho em artigo de dados
Quem compartilha? Como os pesquisadores compartilham os dados • Quantos? 36% só compartilha privado • Como? 65% por email e 39% nas nuvens • Onde? Revistas científicas como informações suplementares (51%), sites pessoais (27%) e repositórios (25%) https://partnerships.nature.com/wp-content/uploads/2019/08/Whitepaper-Practical-challenges-for-researchers-in-data-sharing.pdf Qual o Problema?
Onde publicar? Quais dados podem ser publicados? • Dados antigos • Dados já utilizados em um artigo • dados associados a um artigo de alto impacto • Dados de um único experimento Quando pode ser publicado? • Depois da análise de dados ser publicada • Antes da análise de dados ser publicada • Junto com a publicação da análise de dados • Quando o autor não tem intenção de publicar os dados
Onde publicar? E o “artigo” de dados?
Onde publicar? Artigo de dados • Artigo de dados apenasdescreve o dataset e normalmentenãoincluinenhumainterpretaçãooudiscussãoacerca dos dados • As revistasnormalmenterequerem o depósitoem um repositório de dados • Nemtodosexigemanálise, interpretação e conclusão • Nãotem o foconageração de dados e nemnosmétodos • Nãoexiste teste de hipótese
Onde publicar? Exemplo de um artigo de dados Especificações Design experimento, materiais e métodos Valor dos dados Local dos dados Abstract Dados
Artigo de dados - achar revista compatível com seu projeto/bolso • Biodiversity data jornal - https://bdj.pensoft.net/ • BMC research notes - https://bmcresnotes.biomedcentral.com/ • Data scienceJournal - https://datascience.codata.org/ • Data in Brief - https://www.journals.elsevier.com/data-in-brief • Earth System Science Data - https://www.earth-system-science-data.net/ • Giga Science - https://gigascience.biomedcentral.com/ • Journalof open humanities data -https://openhumanitiesdata.metajnl.com/ • Journalof big data - https://journalofbigdata.springeropen.com/ • Research data journal for thehumanitiesand social sciences - https://brill.com/view/journals/rdj/rdj-overview.xml • Scientifica data - https://www.nature.com/sdata/ Scientific data - submissionguidelines https://www.nature.com/sdata/publish/submission-guidelines
Obrigado Material disponível no Slideserve Dutra@usp.br
Referências Referências • Workshop IDRC - Open data initiative • Material sobre data sharing da Natureresearch - https://www.slideshare.net/VarshaKhodiyar/sharing-and-publishing-research-data
Repositório • Slides no servidor slideserve - https://www.slideserve.com/ • Material adicional no googledrive • https://drive.google.com/drive/folders/1tI98AhJWF6rdicaKqlW2wGOhqp5jwdMB?usp=sharing