240 likes | 347 Views
Comparativo de Ferramentas Grid para Dados. VLADIMIR GUERREIRO. Trabalho Final – PDP – PPGCC - UFRGS. Estrutura da apresentação. Introdução Tema Globus GT 4 Descrição Conclusão OppStore Descrição Conclusão JavaRMS Descrição Conclusão Conclusão Geral Comparativo Referências.
E N D
Comparativo de Ferramentas Grid para Dados VLADIMIR GUERREIRO Trabalho Final – PDP – PPGCC - UFRGS
Estrutura da apresentação • Introdução • Tema • Globus GT 4 • Descrição • Conclusão • OppStore • Descrição • Conclusão • JavaRMS • Descrição • Conclusão • Conclusão Geral • Comparativo • Referências
Introdução Nos últimos tempos, tem se utilizado amplamente o conceito de grades para diversos tipos de aplicações. Uma Grade é a utilização de diversos sistemas computacionais ao mesmo tempo para processar um problema. Elas podem ser ou não geograficamente próximas e extremamente heterogêneas.
Tema Grades de Dados, são grids que trabalham no gerenciamento e compartilhando de grandes quantidades de dados. Muitas aplicações executadas em grades, geram uma imensa quantidade de dados, que muitas vezes precisam ser disponibilizados e acessados por diversos meios e de forma segura e confiável. Também aplicações diretas para distribuição de dados.
Globus GT 4 Globus é uma aliança de organizações que desenvolvem tecnologias para grades. Eles mantém o Globus ToolKit, uma software aberto para desenvolvimento e gerenciamento de grades. O GT possui diversos componentes para várias necessidades em uma grade, é possível montar uma estrutura utilizando os que foram mais interessante a sua aplicação.
Descrição - GridFTP No caso de grades de dados, um componente bastante utilizado é o GridFTP, responsável pela transferência de dados entre nodos. Ele é uma evolução do FTP, possui diversos mecanismos que provêem segurança e confiabilidade: GSI, suporte ao kerberos, Divisão de dados, negociação de TCP, múltiplas transferências paralelas.
Descrição - RLS O RLS (Replica Location Service) é o componente do Globus responsável por gerenciar a replicação de dados em uma grade. Ele converte nomes Lógicos em URL de arquivos: dset_fileCMS para gsiftp://labtec:5678/opt/DoneFile.dat Diversas informações de atributos podem ser associados de um ao outro.
Descrição - RLS Possui dois tipos de servidores: • Local Replica Catalog (LRC): armazena mapeamentos entre nomes lógicos e URLs. • Replica Location Index (RLI): lista informações de mais de um LRC sobre o nome lógico, quando solicitado o URL, informa o LRC que possui o mapeamento.
Descrição - DRS O DRS (Data Replication Service) é o responsável pela replicação dos dados, ele tenta assegurar que uma informação exista em mais de um local. Cada requisição efetuada consulta a URL do arquivo, o RLS retorna o local, inicia-se a cópia, e no final é registrado no servidor de mapeamento está nova cópia. O DRS é um WebService.
Conclusão O Globus, por ser um sistema de grade mais utilizado, possui mecanismos mais específicos para cada passo em uma grade de dados, tornando-se moldável a cada necessidade de aplicação . Esta facilidade na modelagem de aplicações específicas, pode acabar por tornar o Globus muito mais complexo, embora mais seguro e eficiente.
OppStore A OppStore é uma grade oportunista, ela utiliza o grande espaço em disco disponível em Grades formadas por estações de trabalho para fornecer uma solução de baixo custo para armazenamento de dados. Os equipamentos que compõem esta grade, além de grande heterogeneidade, podem ser frequentemente desligadas, reiniciadas ou estarem ocupadas, devendo ser utilizada apenas quando estiverem ociosas, tornando um ambiente altamente dinâmico.
Descrição O sistema utiliza algoritmo Pastry para criar uma rede P2P estruturada. O CDRM, ou líder, é escolhido levando em conta a média da capacidade dos nodos da rede local. Uma rede P2P comunica todos os CDRMs.
Descrição - Indentificadores O OppStore utiliza identificadores virtuais, cada nó P2P recebe um virtual id baseado na sua estrutura local que registra o espaço disponível naquela rede local, os autores afirmam que o custo da redistribuição do virtual id é pequeno . Para evitar que o espaço em disco dos nós seja ocupado rapidamente, ele diminui gradativamente o tamanho do virtual id, sempre que o espaço em disco ocupar um certo valor (1Gb).
Descrição - Redundância Para tolerar a entrada e saída de máquinas, ele divide os dados em fragmentos redundantes e distribui em diversos clusters. Ele utiliza um algoritmo de dispersão de informações - IDA – um arquivo de tamanho t é codificado em n + m fragmentos de tamanho t/n, aonde apenas n é necessário para decodificar, o arquivo pode ser recuperado mesmo faltando m fragmentos do arquivo. Segundo os autores, alguns estudos mostram que o uso de IDA melhora a disponibilidade do que a replicação de dados.
Conclusão Segundo os autores, os resultados em simulações em grades com maquinas não dedicadas, o uso de identificadores virtuais melhora a disponibilidade de dados. Pela distribuição dos fragmentos, mesmo que geograficamente distante, representa uma ganho de disponibilidade dos dados.
JavaRMS Dissertação de Diego Souza, o JavaRMS (Java Replica Management System), tem como objetivo reduzir os custos para construção de grades e suporte a este tipo de aplicação O modelo JavaRMS inclui uma estratégia P2P de distribuição e replicação de dados e uma estrutura de gerenciamento de dados e recursos. Ele se preocupa também com a segurança dos dados em um ambiente distribuido.
Descrição O sistema utiliza a técnica de nodos virtuais, equivalentes a quantidade de espaço fornecida por um nó. Desta forma podendo trabalhar com a heterogeneidade das plataformas. O JavaRMS procura obter um balanceamento no desempenho nas operações, levando em conta as principais causas: recursos de rede e armazenamento heterogêneos, tamanhos de dados variáveis e popularidade das informações.
Descrição O JavaRMS possui um componente para gerenciar os recursos e comunicação com demais nós. Cada nó recebe uma quantidade de identificadores de acordo com sua disponibilidade e baseado no mínimo requisito da rede: Identif = disco_local disco_min
Descrição - Redundância Por motivos de segurança e disponibilidade, se utiliza mecanismos de replicação de dados, o JavaRMS utiliza técnicas simples baseadas no roteamento P2P. Para todos os dados gerenciados, existe uma chave associada (lookup), ela retorna uma lista com k nodos mais próximos, então cria cópia nos R nodos mais próximos, aonde R é a quantidade de réplicas desejadas. O autor admite que existam melhores mecanismos de replicações, porem este melhor considera a heterogeneidade dos recursos e tamanho dos dados.
Descrição - Segurança O JavaRMS procura atender diversas exigências de segurança: • Controle de Usuários: precisam ser autenticados; • Proteção de dados: só pode modificar ou remover com autorização do autor; • Proteção de Operações: garantir execução mesmo que ocorra falhas; • Proteção de Recursos: segurança no gerenciamento destes.
Conclusão Segundo o autor: este é um modelo de gerenciamento de dados para um ambiente misto de Grade/P2P. De acordo com seus testes, o JavaRMS é capaz de prover os recursos desejados, embora a utilização de outras técnicas(ex: replicação de arquivos) possa resultar em um melhor desempenho. Os resultados obtidos ficaram de acordo para o autor, mas ele considera o trabalho como inicial.
Conclusão Geral Ambientes de Grade de Dados são sistemas com inúmeras dificuldades para seu pleno funcionamento. Tamanho dos dados, capacidade da rede e de armazenamento são algumas questões que devem ser analisadas antes de uma implantação. Cada caso deve ser analisado e se possível simulado em um ambiente de grade, pois desta forma será possível alcançar um alto desempenho e confiabilidade no gerenciamento e compartilhamento de dados.
Referências • Dissertação de Diego Gomes sobre JavaRMS; • http://www.intergrade.org.br; • https://www.globus.org;