1 / 100

Infraestrutura computacional para BI

Infraestrutura computacional para BI. Guilherme Galante. Roteiro. Introdução Armazenamento de dados Mídias de armazenamento RAID DAS, NAS, SAN Sistemas de Arquivo Backup Alta Disponibilidade Virtualização e Computação em nuvem. Parte I – Introdução.

thor
Télécharger la présentation

Infraestrutura computacional para BI

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Infraestrutura computacional para BI Guilherme Galante

  2. Roteiro • Introdução • Armazenamento de dados • Mídias de armazenamento • RAID • DAS, NAS, SAN • Sistemas de Arquivo • Backup • Alta Disponibilidade • Virtualização e Computação em nuvem Infraestrutura para BI

  3. Parte I – Introdução Infraestrutura para BI

  4. BI: Passos para o desenvolvimento Larissa T. Moss, Shaku Atre - Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications - Addison Wesley. 2003 Infraestrutura para BI

  5. Demanda por Infraestrutura • Armazenamento • Confiabilidade e Disponibilidade • Capacidade • Desempenho • Processamento • Desempenho • Escalabilidade (mudanças acontecem) Armazenamento Grande Quantidade de dados BI Processamento Infraestrutura para BI

  6. O aumento da quantidade de dados emergiu como o maior desafio para a infraestrutura de hardware de data centers, com 47% dos clientes de grandes empresas classificando-o entre os três principais desafios, seguido por desempenho do sistema e escalabilidade (37%), além de congestionamento da rede e arquitetura de conectividade (36%). Gartner 2011. Parte I – Armazenamento de Dados Infraestrutura para BI

  7. Camadas de Armazenamento de dados 6. Aplicações e Banco de Dados 5. Sistema de Arquivos 4. Software RAID e Ger. Volumes 3. Hardware de RAID 2. SAN (Storage Area Network) 1. Mídias de Armazenamento Infraestrutura para BI

  8. Parte I.1 – Mídias de Armazenamento Infraestrutura para BI

  9. Discos Rígidos • 90% de novas informações geradas são armazenadas em discos rígidos (2007) • Confiáveis(?!) • Compostos por diversos componentes • Tempo de vida médio: 5 anos • Fatores relevantes para falhas: • Idade • Carga de uso • Ambiente Infraestrutura para BI

  10. Anatomia do disco Infraestrutura para BI

  11. Probabilidade de Falhas em disco • Estudo do Google (2007) • USENIX Conference on File and Storage Technologies (FAST’07) • Dados coletados de 100.000 discos de seus servidores • Conclusões • Após o segundo ano de vida do HD a probabilidade de falha quadruplica • A utilização do HD influencia menos que o esperado; a alta utilização só aumenta sensivelmente a taxa de falhas nos 6 primeiros meses e após o 5º ano de uso • A temperatura também influencia menos que o esperado. A longo prazo a melhor temperatura de operação é entre 30-40 graus Infraestrutura para BI

  12. S.M.A.R.T • Self-Monitoring, Analysis and Reporting Tecnhology • Sistema de monitoramento de discos que detecta e antecipa falhas, através de vários indicadores de confiabilidade • Implementado no próprio disco Infraestrutura para BI

  13. S.M.A.R.T – Informações do disco • Seek error rate • Trilha não encontrada • Raw read error rate • Problemas na mídia magnética • hardware ECC recovered • Correções de erro • Scan error rate • Taxa de erros não reparáveis • Spin up time • Tempo de inicialização • Reallocated sector count • Setores realocados (!) • Temperatura • Contador de ativações/desativações • Horas de funcionamento Infraestrutura para BI

  14. S.M.A.R.T • Conclusões Google retiradas do S.M.A.R.T • Após o primeiro Scan Error (Raw Read Erro Rate) a chance de um HD falhar nos próximos 60 dias aumenta pelo fator 39 • Após o primeiro Reallocation Count chance de um HD falhar nos próximos 60 dias aumenta pelo fator 14 • Após o primeiro Offline Realocation chance de um HD falhar nos próximos 60 dias aumenta pelo fator 21 • Após o primeiro Pending Sector chance de um HD falhar nos próximos 60 dias aumenta pelo fator 16. • 2/3 das falhas podem ser previstas • 1/3 ocorre sem aviso Infraestrutura para BI

  15. Ferramentas • Smartmontools (linux e windows) • http://sourceforge.net/apps/trac/smartmontools/wiki • Disponível em várias distribuições • Interface gráfica • http://gsmartcontrol.berlios.de/home/index.php/en/Home • CrystalDiskInfo (windows) • Disk Monitor (windows) • http://www.ntfs.com/disk-monitor.htm Infraestrutura para BI

  16. Solid State Disks - SSD • Usam materiais semi-condutores para o armazenamento • Sem partes móveis • Não é sensível a choque, altitude, vibração, magnetismo • Problemas: • limite de regravações • custo • Compensa? Infraestrutura para BI

  17. HDD vs SDD Infraestrutura para BI

  18. Fitas Magnéticas • Dispositivos de armazenamento de dados mais utilizados no mercado corporativo para guardar dados e fazer backups • Desde que armazenadas adequadamente, podem conter informações por aproximadamente 1 século • Grande capacidade de armazenamento Infraestrutura para BI

  19. Parte I.2 – RAID Infraestrutura para BI

  20. RAID • Redundant Array of Independent (Inexpensive) Disks • Motivação: • Redundância (confiabilidade) • Desempenho • Volumes lógicos maiores • Dividido em níveis (0 – 6) • Hardware ou Sofware Infraestrutura para BI

  21. RAID 0 • Conhecido como stripping • Junção de 2 ou mais discos • Sem redundância (!) • Divisão dos dados em fatias (stripes) • Aumento do tamanho da unidade lógica • Aumento do Desempenho • Blocos pode ser lidos/escritos em paralelo • Não confundir com JBOD • Just a Bunch Of Disks • Quando usar: • Quando for necessário APENAS desempenho • Operações temporárias 20GB 20GB 40GB Infraestrutura para BI

  22. RAID 0 - desempenho Fonte: Clube do Hardware Infraestrutura para BI

  23. RAID 1 • Espelhamento de discos (mirroring) • Dados armazenados em dois ou mais dispositivos • Redundância de dados • Cara (50% do espaço de disco) • Desempenho: • Leitura rápida (com suporte do SO) • Escrita lenta • Quando usar: • Aplicações que exigem redundância • Leituras rápidas • Ex. Pequenos servidores de arquivo 20GB 20GB 20GB Infraestrutura para BI

  24. RAID 2, 3 e 4 • Obsoletos e pouco utilizados • Variações de RAID 0 • RAID 2 • Código de Hamming (correção de erros) • Discos atuais já possuem este tipo de correção • RAID 3 • Um disco para armazenar paridade (byte) • RAID 4 • Um disco para armazenar paridade (bloco) Infraestrutura para BI

  25. RAID 5 • Divide dados entre todos os discos • Paridade distribuída • Um disco pode falhar sem perda de dados • Bom desempenho • Operações paralelas • Quando usar: • Desempenho • Redundância • Servidores de BD • Mínimo 3 discos 20GB 20GB 20GB 20GB 60GB Infraestrutura para BI

  26. RAID 6 • Variação do RAID 5 • Duplicação dos blocos de paridade Infraestrutura para BI

  27. RAID 0+1 • Junção de dois volumes RAID0 em um volume RAID1 • Dobra-se a velocidade de leitura e gravação • Tolerância a falhas de até dois discos • RAIDs diferentes • Quando usar: • Rapidez e redundância • 4 discos necessários • 50% perda de espaço Infraestrutura para BI

  28. RAID 10 • Junção de dois volumes RAID1 em um volume RAID0 • Desempenho elevado • Confiabilidade Infraestrutura para BI

  29. RAID 50 • Combina o stripping do nível 0 com a paridade distribuída do nível 5 • Requer pelo menos 6 drives • Escritas rápidas • Ótimo desempenho Infraestrutura para BI

  30. RAID – capacidade Infraestrutura para BI

  31. RAID – desempenho Infraestrutura para BI

  32. RAID: HW vs SW Infraestrutura para BI

  33. RAID por hardware • Controladoras que realizam todas as operações via hardware • Podem ser externas ou “plugáveis” • Algumas placas-mãe já tem embutidas (ponte-sul compatível) • Os chipsets da Intel que têm RAID integrado possuem a letra “R” • O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado • - RAID 0, 1, 5, 10 e JBOD • 4 discos SATA II ou SATA I • PCI express • - Aprox. R$500,00 ROCKETRAID2302 Infraestrutura para BI

  34. RAID por hardware • O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado • Muitas vezes como um drive SCSI Chip Promise FastTrak 100 Lite da Soyo Dragon Plus Infraestrutura para BI

  35. RAID por sofware • A grande vantagem do RAID por software é seu custo • Nenhuma placa adicional ou mesmo componente onboard faz parte dos seus requisitos • Na verdade, a única necessidade é ter um sistema operacional que dê suporte a essa tecnologia • Windows, Linux e MacOS possuem suporte a RAID Infraestrutura para BI

  36. RAID por sofware • Windows 7 (ultimate) • Computador -> Gerenciar -> Gerenciamento de disco Opções de RAID (partições/disco não alocados) Infraestrutura para BI

  37. RAID por sofware • Linux • Linha de comando: • fdisk, mkraid e o mount (abordagem mais antiga) • mdadm • Opção de interface: Webmin + módulo Linux RAID Infraestrutura para BI

  38. RAID: Casos de Uso • Servidor de imagens HTTP • Imagens dos produtos em uma loja online • Conteúdo estático • Fotos são inseridas pelos funcionários • Muitos acessos • Necessidade de acesso rápido • Ficar offline o mínimo possível • Qual o melhor RAID? Infraestrutura para BI

  39. RAID: Casos de Uso • ACME Motion Picture Company • Criação de vídeos • Quantidade enorme de conteúdo • 3 servidores • Trabalhos terminados (Tolerância a Falhas) • Trabalhos em andamento (Tolerância a Falhas) • Edição (Desempenho e Tolerância a Falhas) Infraestrutura para BI

  40. Boa escolha? Infraestrutura para BI

  41. Parte I.3 – DAS, NAS, SAN Infraestrutura para BI

  42. DAS, NAS e SAS • Discos locais podem não ser suficientes • Desempenho • Capacidade • Alternativas: • DAS (Direct Attached Storage) • NAS (Network Attached Storage) • SAN (Storage Area Network) Infraestrutura para BI

  43. Conceitos • Conectividade: • Como os processadores e armazenamento estão físicamente conectados • Mídia: • Cabeamento e protocolos • Protocolos: • Como as requisições são comunicadas à mídia Infraestrutura para BI

  44. Conectividade • Conexão direta • Interligado por rede REDE Infraestrutura para BI

  45. Mídia 2 • Alguns Padrões: • Ethernet • Fibre Channel • Parallel SCSI • SSA (Serial Storage Architecture) 3 4 Infraestrutura para BI

  46. Protocolos • SCSI (Small Computer Systems Interface): • nível de bloco • NFS (Network File System) • nível de arquivo • CIFS (Common Internet File System) • nível de arquivo Infraestrutura para BI

  47. DAS (Direct Attached Storage) • Sistema de armazenamento conectado diretamente a um servidor • Não há acesso direto via rede • acessados pelos outros computadores da rede através do computador ligado a este dispositivo • Interface especial - host bus adapter (HBA) • Variam de gavetas portáteis até dispositivos com vários discos • Os principais protocolos usados nas conexões DAS são: ATA, SATA, eSATA, SCSI, SAS e o Fibre Channel Promise SmartStor DS4600 4-Bay Dell PowerVault MD1000 Infraestrutura para BI

  48. NAS (Network Attached Storage) • Um NAS, por sua vez, roda um sistema operacional completo e funciona como um servidor de arquivos • Também conhecidos como “filers” • Tratada como única unidade de armazenamento • Ligado diretamente na rede • TCP/IP • Acessado via protocolos NFS e CIFS • Usuário enxerga arquivos Infraestrutura para BI

  49. NAS • Limitações: • A rede pode ser um gargalo • Quantidade de discos limitado à capacidade do equipamento • Mais apropriado para uso no nível de arquivo • Opções para implementação de NAS • Equipamentos próprios • PCs podem ser configurados como NAS • NFS • OpenNas (BSD) • OpenFiler (UNIX) Infraestrutura para BI

  50. SAN (Storage Area Network ) • É uma rede dedicada ao armazenamento de dados • Conecta storages aos servidores da rede • Estrutura de rede dedicada, geralmente baseada em Fibre Channel • Os computadores que têm acesso ao SAN possuem interface específica para ligar-se ao SAN, além da interface de rede tradicional • HBA (Host Bus Adapter) Infraestrutura para BI

More Related