410 likes | 538 Views
Qualidade dos dados na Internet. Integração de Dados e Warehousing. Maio/2009. Felype Santiago. Agenda. Qualidade dos dados Proveniência dos dados Confiabilidade e segurança na Web Privacidade na Web. Qualidade dos dados. Definições
E N D
Qualidade dos dados na Internet Integração de Dados e Warehousing Maio/2009 Felype Santiago
Agenda • Qualidade dos dados • Proveniência dos dados • Confiabilidade e segurança na Web • Privacidade na Web
Qualidade dos dados • Definições • “A qualidade dos dados refere-se ao grau de excelência apresentado pelo dado em relação ao retrato dos fenômenos atuais” GIS Glossary • “O estado de completude, validade, consistência, atualidade e precisão que torna um dado apropriado para um uso específico” GovernmentofBritish Columbia
Qualidade das informações publicadas • Problemas reconhecidos com qualidade dos dados • Checklists e frameworks propostos para avaliar a qualidade das informações publicadas na Internet
Critérios de avaliação • Alexander e Tate (1999) • Autoridade • Precisão • Atualidade • Objetividade • Cobertura • Hawkins (1999) • Atualização • Propósito • Autoria/Fonte • Escopo • Exatidão/Relevância • Desenho/Formatação • Autoridade • Unicidade/Estabilidade • Estrutura/Indexação • Revisão/Classificação • Qualidade de escrita • Qualidade dos dados • Critério de seleção • Links de/paraoutrasfontes
Dimensões da qualidade dos dados • A qualidade dos dados é um conceito multidimensional • Huh, Keller, Redman e Watkins (1990) definiram quatro dimensões da qualidade dos dados: • Precisão • Completude • Consistência • Atualidade
Wand e Wang (1996) • Qualidade dos dados como uma tarefa independente • Quatro dimensões intrínsecas: • Completude • Falta de ambigüidade • Significância • Corretude
Observação empírica • Zmud (1978), Madnick e Wang (1992) • Qualidade da informação • Relevância da informação • Qualidade do formato • Qualidade do significado • Componentes da qualidade dos dados • Completude, precisão, adequação e consistência
Proveniência dos dados • Qual a origem dos dados? • Cópias de cópias • Edições de conteúdo • O quão confiáveis e atuais eles são? • Fontes não confiáveis • Dados desatualizados
Proveniência dos dados - Definição A proveniência de um dado é a descrição das origens dele e do processo pelo qual ele foi produzido, o que auxilia a avaliação da qualidade, da validade e de quão recente é a informação (BUNEMAN et al.,2001)
Taxonomia das técnicas de proveniência • Diferentes abordagens para domínios individuais • Aplicações da proveniência dos dados: • Qualidade dos dados • Investigação do rastro • Receitas de replicação • Atribuição
Qualidade dos dados • A proveniência dos dados permite avaliar a qualidade deles para uma aplicação • Erros introduzidos por defeitos nos dados tendem a inflar quando propagados • O nível de detalhe da proveniência determina com que grau a qualidade dos dados pode ser estimada • Com um certificado do pedigree do dado, é possível avaliá-lo baseado nas métricas de qualidade
Investigação do rastro • A proveniência como um meio de realizar a auditoria dos dados e saber o processo pelo qual ele foi produzido • Por meio de backtrack para localizar a fonte dos dados ou processar as causas de erros encontrados e aplicar correções relevantes
Receitas de replicação • Informações de proveniência incluem os passos utilizados para derivar um conjunto de dados e podem ser tidos como uma receita para criação desses dados • Dados detalhados sobre operações, fontes de dados e parâmetros tornam possível repetir a derivação
Atribuição • O pedigree do dado pode ajudar a verificar a propriedade de uma fonte de dados • Usuários podem procurar a árvore de variação para ver os criadores de uma fonte de dados • Criadores podem ver na cadeia da linhagem quem está utilizando os dados criados • Também pode ser utilizado como um meio de atribuição de responsabilidade em casos e erros
Proveniência na Web • A Internet mudou completamente a forma como os dados circulam • Documentos em folhas de papel -> Documentos online em bases de dados
Transformação Papel -> Web • Um documento em papel, em essência, é imodificável • Documentos on-line podem ser (e freqüentemente são) freqüentemente atualizados • Documentos online freqüentemente estão em bases de dados, ou seja, têm uma estrutura explícita • Documentos on-line tipicamente contêm dados extraídos de outros documentos/bases de dados
Qualidade na Web • Processos de revisão de conteúdo são freqüentemente ausentes • Dados desatualizados e de baixa qualidade podem causar danos ao mundo dos negócios • Riscos com a falta de qualidade das informações sobre saúde orientadas para o consumidor publicadas na Web
Segurança • A segurança de sistemas de informação se refere ao fato de que as metas de proteção são alcançadas mesmo com ataques inteligentes • Informação são seguras se • Não podem ser interceptadas • Se interceptadas, não podem ser entendidas • Não podem ser alteradas ou falsificadas
Segurança • Alguns objetivos da proteção • Confidencialidade • Integridade • Disponibilidade • Responsabilidade
Encriptação • Os algoritmos de encriptação disponíveis hoje serão bons o suficiente por vários anos • Porém, hashes fracos como o MD5 e chaves curtas devem ser evitados • Embora pareça irreal hoje quebrar uma chave com facilidade, isso pode se tornar fácil em poucos anos
Protocolos de criptografia • TLS - TransportLayerSecurity • SSL - SecureSocketsLayer • Provêem comunicação segura para SMTP, HTTP e outros tipos de transferência de dados • Ambos são basicamente o mesmo • Pequenas diferenças no TLS – sucessor do SSL
Objetivos do TLS em ordem de prioridade • Segurança com criptografia • Interoperabilidade • Extensibilidade • Eficiência relativa
TLS - TransportLayerSecurity • Finalidade: Garantir a privacidade e a integridade dos dados em uma comunicação entre duas aplicações • Composto de duas camadas: • Protocolo de registro (TLS Record Protocol) • Protocolos handshaking (TLS HandshakingProtocols)
Confiabilidade • Crença no comportamento de uma das partes envolvidas para algum propósito • Está intimamente ligado a natureza humana • Algo é confiável se • Não pode ser identificado de forma ambígua • Opera exatamente como projetado ou esperado • Não faz nada que não foi projetado para fazer • Opera sem interrupção
Segurança e confiabilidade na Web • Crescimento rápido da popularidade do comércio eletrônico • Uso online de informações de valor • Crescimento de ataques e exploração de brechas em mecanismos de segurança • A falta de confiança no comércio eletrônico ainda é o maior empecilho ao seu crescimento
Mecanismos de segurança na Web • O modelo de segurança utilizado hoje em browsers, dispositivos móveis etc., em essência, é o mesmo de 10 anos atrás • Baseado em criptografia de chave pública e assinatura confiável e uma implementação dos protocolos SSL e TLS
Privacidade dos dados - Definição • É a relação entre a coleta e divulgação de dados, tecnologias e as questões jurídicas e políticas em torno deles • Controle da disponibilidade de informações
Privacidade dos dados • A capacidade de controlar que informações podem ser reveladas sobre alguém na Internet, e de controlar quem pode acessar informações • Data Privacy Day • Estados Unidos, Canadá e 27 países europeus • “Privacy is dead - get over it” Steve Rambam (investigador particular especializado em casos de privacidade na Web
Privacidade em redes sociais • Facebook • Bloquear participantes • Bloquear conteúdo de profile • Bloquear fotos e vídeos • Escolher amigos • Funcionalidades semelhantes no E-harmony, no MySpace, no Orkut etc.
Cookies (1/2) • Dados trocados entre navegador e servidor, colocando em arquivos no computador do usuário dados criados no computador do visitante • Mantém persistência entre sessões HTTP • Bastante utilizado por sites de comércio eletrônico
Cookies (2/2) • Pode conter informações confidenciais do usuário • Somente o site que originalmente distribuiu um cookie pode recuperá-lo, retornando apenas informações já cedidas ao site • Na prática, programadores podem contornar isso • Uso de cross-sitescripting ou outras técnicas para roubar informações de um usuário
Ameaças legais • Utilização de tecnologias projetadas para rastrear e monitorar informações de internautas por agências do governo • Medidas necessárias para manter a lei • Defensores da privacidade e civis libertários X Agências do governo
Exemplos específicos • União Européia adota plano que permite a polícia acessar conteúdo pessoal sem um mandado (Janeiro/2009) • FBI lança software (MagicLantern), cavalo de tróia que registra todas as ações do usuário (Novembro/2001)
Google: “You can trust us, really” • Processos automatizados que não têm intervenção humana • Apenas alguns Googlers têm acesso a informações confidenciais
Conclusão • Sem a proveniência de um dado, não é possível a avaliação de sua qualidade, validade e atualidade • A Web oferece algumas ameaças ao usuário, porém já há métodos de proteção eficientes que podem aumentar a segurança do usuário
Referências • http://findarticles.com/p/articles/mi_qa5495/is_200210/ai_n21323493/?tag=content;col1 • http://news.cnet.com/8301-10784_3-9890847-7.html • http://wiki.uni.lu/MsCS/Security+and+Trust.html • http://www.csiro.au/resources/Security-And-Trust.html • http://en.wikipedia.org/wiki/Data_quality • http://en.wikipedia.org/wiki/Internet_privacy • http://www.gta.ufrj.br/grad/06_1/ssl/func_tls.htm • http://www.cin.ufpe.br/~fsf2/dw/