370 likes | 476 Views
Segurança no Armazenamento 1. Introdução. Márcio Aurélio Ribeiro Moreira marcio.moreira@pitagoras.com.br http://si.lopesgazzani.com.br/docentes/marcio /. Objetivos da unidade. Explicitar a necessidade de armazenamento Avaliar as alternativas de solução
E N D
Segurança no Armazenamento1. Introdução Márcio Aurélio Ribeiro Moreira marcio.moreira@pitagoras.com.br http://si.lopesgazzani.com.br/docentes/marcio/
Objetivos da unidade Explicitar a necessidade de armazenamento Avaliar as alternativas de solução Revisar os principais conceitos de armazenamento Explorar os tipos de RAID Mostrar as alternativas de redes de armazenamento
O armazenamento não está resolvido? • O número total de livros produzidos desde o começo da imprensa não passa de 1 bilhão: • Se cada livro tiver em média 500 páginas com 2000 caracteres cada. Logo, 1 MB é suficiente para armazenar cada livro sem compressão • Para armazenar todos os livros precisamos de 1 bilhão de MB ou 1 PetaByte (PB) • Considerando Us$20 / GB, 1 PB pode ser comprado por Us$20 milhões
O armazenamento nas organizações Fonte: Ramakrishnan • Banco da Índia (2007): • 14.000 filiais em todo o país • 11.000 escritórios conectados ao Data Center • Mais de 20 milhões de clientes • ≈ 100 TB armazenados • Crescimento exponencial • Questões de segurança: • Compressão / Cifragem • Antivírus • Firewall e IDS
Demanda Espaço Demanda Performance 8X 300% 7X 250% 253% 6X 200% Demanda anual de 50% de espaço e performance 5X 169% 7.6X 4X 150% 3X 113% 100% 5.1X 2X 75% 3.4X 50% 50% 2.3X 1X 1.5X 1X Hoje 1 Ano 2 anos 3 anos 4 anos 5 anos Demanda de performance e espaço Fonte: Ramakrishnan
Alternativas para a demanda • Podemos resolver com RAMs? • Caras e voláteis só para processamento • Podemos utilizar fitas? • Baratas e lentas por serem seqüenciais backups • Podemos resolver com CDs e DVDs? • Baratos e aleatórios. Mas, lentos distribuição • Podemos resolver com HDs? • Preço justo, aleatórios e rápidos muitos HDs • Onde colocar tantos HDs? Fora do gabinete
Camadas de dados ComputadoresNotebooks Camada de Banco de Dados Camada web Camada Aplicações Pessoas e Coisas Dispositivos Fonte: Ramakrishnan Camada de Storage
1º dispositivo magnético • A superfície do disco (ou fita) é coberta com uma substância magnética • Movimento mecânico posiciona cabeça do dispositivo para: • Gravação: definir a polarização. Leitura: testar a polarização • Por ser magnética, a polarização é mantida mesmo sem energia
Armazenamento em discos • Organiza os dados em áreas endereçáveis • Devem ser formatados para serem endereçáveis pelos sistemas operacionais • O acesso direto provê performance adequada para acessos seqüencial ou randômico • O desempenho do disco é impactado pelo tempo de posicionamento da cabeça para o acesso • Os discos são conectados fisicamente ao sistema: • É inviável movê-los para um novo local ou novo sistema • Como conectar vários discos num mesmo sistema?
Cada prato do disco é segmentado em vários anéis concêntricos chamados trilhas Trilha Um cilindro é o conjunto formato por uma trilha específica em todos os pratos juntas Cilindro Setor Um setor é a menor parte endereçável de uma trilha Formatação para acesso direto O endereço único de uma área em um drive de disco é composto de: Cilindro, Cabeça e Setor. Fonte: EMC
Tempo de acesso ao drive de disco Fonte: EMC • Seek Time: • Tempo de busca • Média de tempo gasto para mover o braço do atuador para a posição de leitura ou gravação da cabeça na trilha • Normalmente, informado em milissegundos (ms)
Tempo de acesso ao drive de disco Fonte: EMC • Latency: • Tempo de Latência ou tempo de espera racional • Média de tempo gasto para esperar o disco girar e o setor desejado chegar o início da posição de acesso • Tempo de meia volta: • 50% * 1 / RPM / 60 * 1000
Tempo de acesso ao drive de disco Fonte: EMC • Transfer Rate: • Taxa de Transferência • Média de tempo gasto para ler (ou escrever) e enviar (ou receber) os dados do setor para o drive de disco (MB) • Tempo de Transferência: • Kbytes / (taxa * 1024) * 1000 (ms)
Variáveis da performance de discos Fonte: EMC • Tempo de Busca (TB) • Tempo de Latência (TL): • Velocidade rotação RPM • RPM Tempo de Latência • RPM tem menor impacto na Taxa de Transferência • TL = 50% * 1 / RPM / 60 * 1000 (ms) • Taxa de Transferência (TT): • Ultra SCSI: 40 MB/sec • Canal de fibra: 100 MB/sec • TT = Kb / (taxa * 1024) * 1000 (ms) • Tempo de Resposta (TR): • TR = TB + TL + TT
Evolução da tecnologia de discos Fonte: EMC • A capacidade continua aumentando muito com o aumento da densidade dos dados • A performance aumenta marginalmente com: • Aumento da velocidade de rotação (RPM) • Aumento do uso da memória e cache no nível de drive • As interfaces são dirigidas por padrões da indústria: • ATA (Advanced Technology Attachment) • Ultra SCSI (Small Computer System Interface) • Canal de Fibra • Desafios da indústria: • Aumentar a capacidade por disco reduzindo custo. Mas, … • Reduzir o número de atuadores mantendo a capacidade
High-EndUs$40/GB 100% Alta Performance Tempo Crítico 99.999% Midrange Us$20/GB Deman-da do negócio SATAUs$5/GB 99.9% Custo Crítico Alta Capacidade TapeUs$0.5/GB Longo Prazo Necessidades de armazenamento Fonte: Ramakrishnan
Tecnologia RAID • Como obter performance e confiabilidade? • RAID: • Redundant Array of Independent Disks • Um conjunto de HDs é visto pelo SO como uma única unidade de disco • Vantagens: • Grande capacidade de armazenamento • Acesso paralelo melhor performance • Permite o espelhamento de dados • Desvantagens: • Custo: requer hardware ou software especial • Se espelhado: requer o dobro de espaço
HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Conexões físicas dos discos Fonte: EMC • Variáveis para conexões físicas: • Tipos de cabos • Número de vias • Conectores físicos • Regras para conexões lógicas: • Identificar os comandos (de leitura e gravação) e os dados • Formato do drive: • Esquema de endereçamento • Sistema controlador ou placa de circuito: • ESCON para mainframe • Host Bus Adapter (placas para fibra ótica) para sistemas abertos • Placas proprietárias para o AS/400
HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Como a operação de I/O ocorre Fonte: EMC Iniciando uma requisição de leitura:
HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Como a operação de I/O ocorre Fonte: EMC Completando a requisição de leitura:
Customer 1 Meter Reading HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Customer 2 Meter Reading Customer 3 Meter Reading Usando melhor a CPU e a memória Customer 1 Meter Reading Customer 2 Meter Reading Customer 3 Meter Reading CACHE Fonte: EMC • “Vamos ver”: • Acessamos o cliente 1 • Depois o cliente 2 • Qual será o próximo? • Presumo o cliente 3 • Técnica: • Cache • Read ahead
Customer 1 Meter Reading HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Customer 2 Meter Reading Customer 3 Meter Reading Melhorando ainda mais CACHE Customer 1 Meter Reading Customer 2 Meter Reading Customer 3 Meter Reading CPU Fonte: EMC • Usar controladora no RAID: • Libera processamento • Libera memória RAM
HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Como a operação de I/O ocorre Fonte: EMC Iniciando um comando de escrita:
HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Como a operação de I/O ocorre Fonte: EMC Completando o comando de escrita:
Comando de escrita: “Grave a conta mensal do cliente no disco”. A confirmação de escrita é emitida assim que os dados e o comando de gravação estão seguros dentro de uma área completamente tolerante à falha HBA System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Melhor uso da CPU e memória CACHE Customer 1 Meter Reading Customer 2 Meter Reading Customer 3 Meter Reading CPU Fonte: EMC
Host Interface Host Interface Fault Tolerant Cache Memory Array Controller Array Controller Disk Directors Disk Directors Por dentro dos Disk Arrays Gaveta do sistema operacional Gavetas de discos Fonte: EMC
Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Sem RAID: 3 HDs num mesmo host. Cada HD contem um volume Volume 1 Middle Volume 2 Middle Volume 3 Middle Volume 1 End Volume 2 End Volume 3 End Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Com RAID 0: Os volumes são divididos em blocos e movidos para balancear a carga de atividades. Volume 2 Middle Volume 3 Middle Volume 1 Middle Volume 3 End Volume 1 End Volume 2 End RAID 0 - Striping ou Fracionamento Fonte: EMC Os dados são divididos em segmentos e estes são colocados nos HDs Não há redundância
Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Volume 1 Middle Volume 2 Middle Volume 3 Middle Volume 1 End Volume 2 End Volume 3 End Volume 1 Beginning Volume 1 Beginning Volume 2 Beginning Volume 2 Beginning Volume 3 Beginning Volume 3 Beginning Volume 1 Middle Volume 1 Middle Volume 2 Middle Volume 2 Middle Volume 3 Middle Volume 3 Middle Volume 1 End Volume 1 End Volume 2 End Volume 2 End Volume 3 End Volume 3 End RAID 1 - Mirroring ou Espelhamento Sem RAID: 3 HDs num mesmo host. Com RAID 1: Um espelho de cada HD é criado gerando um para de HDs. Fonte: EMC Os dados de um HD são espelhados em outro gerando redundância
Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Volume 1 Middle Volume 2 Middle Volume 3 Middle Volume 1 End Volume 2 End Volume 3 End Volume 1 Beginning Volume 1 Beginning Volume 2 Beginning Volume 2 Beginning Volume 3 Beginning Volume 3 Beginning Volume 2 Middle Volume 2 Middle Volume 3 Middle Volume 3 Middle Volume 1 Middle Volume 1 Middle Volume 3 End Volume 3 End Volume 1 End Volume 1 End Volume 2 End Volume 2 End RAID 1+0 - Performance e Redundância Sem RAID: 3 HDs num mesmo host. Com RAID 1+0: HDs espelhados. Volumes lógicos fracionados para balancear carga. Fonte: EMC Os HDs (volumes físicos) são espelhados e os volumes lógicos divididos
0 1 1 Parity for 1st Group = 0 Group 1 Group 2 Group 3 Parity for 2nd Group = 1 0 1 0 1 1 Parity for 3rd Group = 1 LOST DATA DATA + DATA + DATA = Parity Group 1 0 + 1 + 1 = 0 Group 2 0 + 1 + 0 = 1 Group 3 1 + 1 + ? = 1 Paridade de dados Fonte: EMC A paridade é utilizada para tentar recuperar dados perdidos
Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Volume 1 Middle Volume 2 Middle Volume 3 Middle Sem RAID: 3 HDs num mesmo host. Volume 1 End Volume 2 End Volume 3 End Volume 1 Beginning Volume 2 Beginning Volume 3 Beginning Parity for 3rd Group Com RAID 5: Um grupo de drives são agrupados como um volume físico. Parity for 2nd Group Volume 3 Middle Volume 2 Middle Volume 1 Middle Volume 3 End Volume 1 End Parity for 1st Group Volume 2 End RAID 5 - Fracionamento e paridade Fonte: EMC Divide os dados no nível de bloco e acrescenta um bloco de paridade Requer no mínimo 3 discos
Níveis de RAID • Níveis mais usados comercialmente: 0, 1, 3, 5 e 10 (1+0): • Múltiplos I/O Independência de leitura e gravação (acesso múltiplo). • Custo comparado para níveis que oferecem mesmos benefícios. Fonte: EMC, IBM, Wikipedia e experiência.
Arquiteturas típicas de storage • DAS: • Direct Attached Storage • NAS: • Network Attached Storage • SAN: • Storage Area Network Netware Windows NT/2K Linux/Unix Direct Attached Storage (DAS) Netware Windows NT/2K Linux/Unix NAS Network Attached Storage (NAS) Storage FC Switch Windows NT/2K Netware Storage Area Network (SAN) Linux/Unix
System Bus ROM (Read Only Memory) CPU MAIN MEMORY (RAM) Conexões típicas SAN Switch Storage Array Network Router Tape Drive Device HBA HBA NIC HBA
Produtos de Storage da EMC Centera Symmetrix CLARiiON ADIC Scalar Series CX700 NS700/G Centera DL700 CX500 CX300 DMX3000-M2 DMX2000-M2 DMX1000-M2 CelerraCNS AX 100 Netwin 110 DMX3000 DMX2000 DMX1000 DMX800 SAN / NAS / Backup-to-Disk Tape & Tape Emulation SAN / NAS CAS
Referências • EMC. Storage Basics. EMC. Jun-2006. • S. Ramakrishnan. Management of large scale Terabyte Store information servers. IACITS 2007. Jul-2007. • Khattar, Murphy, Tarella e Nystrom. Introduction to Storage Area Network, SAN. IBM. Redbooks. SG24-5470-00. 1999.