Tempo de leitura: 4 atas

Se você não está familiarizado com o conceito de um lago de dados, você não está sozinho. Um lago de dados é um grande repositório para dados não estruturados. E, ele leva todos os dados, antes de ser limpo, estruturado, ou organizado.

Só quando você começa a desvendar os desafios técnicos do armazenamento e da recuperação de dados em grande escala é que você começa a entender porque existem tantas soluções por aí. E, por que muitas delas parecem confusamente semelhantes.

Neste post, vamos rever algumas das implementações de data lake do passado, compará-las com soluções mais modernas, e considerar as várias abordagens tomadas para o gerenciamento de dados.

Um breve histórico dos sistemas de arquivo

Desde o início dos anos 2000, temos visto um aumento em diferentes sistemas de arquivo como o da NetApp, então eventualmente Isilon, que foram projetados para superar as limitações de armazenamento em um único servidor e seu sistema operacional.

Estes "arquivadores" foram construídos com o propósito de lidar com centenas de usuários lendo e escrevendo arquivos ao mesmo tempo e alcançando uma escala muito maior do que um único servidor pode lidar. Com o tempo, estas soluções se tornaram tão populares que tanto a NetApp quanto a EMC tiveram tanto sucesso que, combinadas, elas compõem quase 50% do mercado de armazenamento de arquivos empresariais.

O desafio do sistema de arquivo

A NetApp e a EMC ainda são a escolha certa? Esses sistemas de arquivos foram construídos há quase 20 anos, quando o problema dos "grandes dados" não era tão grande quanto é agora.

Para a resposta, vamos explorar o que acontece quando um usuário solicita um arquivo do "arquivador". Agora é tarefa do arquivador processar o pedido para encontrar o único arquivo que está enterrado entre cerca de um bilhão de arquivos.

Este é seu antigo problema de "agulha no palheiro". O sistema de arquivos tem que pesquisar todo o diretório de arquivos para recuperar os dados que seu usuário solicitou, que vivem em algum disco em algum lugar da matriz de armazenamento.

É função do sistema de arquivo acompanhar todos esses dados e também acompanhar o desempenho, ao mesmo tempo em que muitas vezes protege os dados usando instantâneos. Além disso, o sistema de arquivo realiza uma ladainha de outras tarefas, milhares de vezes por segundo. Isso pode significar que o desempenho fica um pouco instável às vezes.

Para superar estes desafios técnicos, os fornecedores de armazenamento legados lançaram mais hardware sobre o problema. Isto cria silos de armazenamento, juntamente com uma extraordinária quantidade de replicação de dados, pois arquivos idênticos - ou muito próximos - são armazenados em vários lugares diferentes.

Embora isso seja um problema para você, já que você luta com silos de dados, ou faz atualizações recomendadas do sistema para lidar com seu volume atual de dados, ele funciona bem para os fornecedores de armazenamento legados.

A maioria desses aparelhos de hardware são normalmente suportados por 3-7 anos. Ao se aproximarem do fim de sua vida útil, você se vê diante da aquisição de novas versões do mesmo hardware e da migração de seus dados de dispositivos antigos para novos. Isso consome CAPEX, e requer uma quantidade significativa de planejamento antecipado, para evitar ficar sem suporte, ou sem espaço de armazenamento.

A explosão de dados que todos estão passando significa que as organizações estão atingindo o "ponto de inflexão financeira" muito mais rapidamente, e isso está provocando um afastamento de um ciclo de atualização regular e em direção a uma solução de armazenamento definida por software ou modelo OPEX.

Armazenamento Arquivo vs. Objeto (Blob)

Dado que muitos sistemas de arquivo antigos não fazem mais sentido implementar devido a limitações de escala e custo, o armazenamento em nuvem - ou armazenamento de objetos - parece ser uma solução lógica.

Entretanto, embora o armazenamento de objetos possa superar as limitações comuns dos sistemas de arquivos ao lidar com o volume de dados, ele vem com seu próprio conjunto de desafios. O primeiro é que o armazenamento de objetos fala a aplicações ou usuários em diferentes protocolos, como o Swift ou HTTP.

Estes protocolos diferem do protocolo do sistema de arquivos (SMB & NFS), pois são projetados para o tráfego web. Isso significa que enquanto você pode migrar seus dados para o armazenamento de objetos, seus usuários e aplicações não podem mais trabalhar com eles. Isso pode ser bom para dados mais antigos que você está simplesmente procurando armazenar por razões de arquivo, mas é impraticável para dados de usuários; arquivos que as pessoas acessam e editam ativamente em uma base regular.

O problema com a adoção do armazenamento de objetos é que isso força as organizações a reescreverem suas aplicações para se comunicarem no novo protocolo. Isto pode consumir muito tempo e custar proibitivo para a maioria das empresas. De fato, uma instituição financeira que contemplava uma mudança para o armazenamento em nuvem tinha 2.800 aplicações legadas a considerar, e estava enfrentando uma conta de milhões de dólares para reescrevê-las.

O Melhor do Armazenamento Local Encontra o Melhor do Armazenamento em Nuvem

É aqui que entra em jogo o arquivador da próxima geração. Uma que é definida por software e é projetada desde o início para trabalhar com o armazenamento de objetos.

Se você der uma olhada em como Panzura arquitetou seu sistema global de arquivos, eles superaram as limitações de escalabilidade dos sistemas de arquivos tradicionais, convertendo sem problemas todos os arquivos em objetos para viver em uma nuvem pública ou privada (loja de objetos).

Isso também torna todos os dados disponíveis para consumo em qualquer lugar onde haja outro arquivador Panzura acessando a mesma loja de objetos, o que significa que Panzura clientes podem reduzir seu custo total de propriedade para comprar mais aparelhos de hardware, e remover a necessidade de atualizar o hardware a cada 5-7 anos.

Este novo design decompõe os silos tradicionais de armazenamento e permite aos clientes usar o armazenamento de nuvens ou objetos como um lago de dados de próxima geração, sem comprometer o desempenho. Esta abordagem lhe dá a capacidade de gerar dados em locais de fronteira ou centros de dados, alavancando seus dados na nuvem para outros casos de uso como análise, aprendizagem de máquinas ou inteligência artificial.

Aumentando o nível de dificuldade

Nenhuma solução moderna de lago de dados ou sistema de arquivos estaria completa sem proteção contra um flagelo moderno - o resgate.

Os sistemas de arquivos legados são projetados para permitir que os arquivos sejam editados, portanto, quando um ator malicioso penetra neles, corrompendo ou criptografando seus dados, a criptografia danifica os próprios arquivos.

Panzura emprega uma nova abordagem para a proteção de resgate de seus dados, criando um sistema de arquivos imutável. Isto significa que eles não permitem o apagamento ou a sobregravação de dados. Ao invés disso, você só pode adicionar ou anexar dados à versão original. Qualquer usuário pode restaurar seu arquivo para o último bom estado conhecido em minutos, evitando o árduo processo de restauração a partir de um sistema de backup.

Armazenamento e Gerenciamento de Dados para os Tempos

Uma nova tomada de posse de um lago de dados sugere tirar proveito da idade dos dados - não apenas lidar com o volume de dados não estruturados, mas ser capaz de trabalhar com ele de maneiras que levem as organizações à frente, agora requer a próxima geração de arquivador, capaz da próxima geração de gerenciamento de dados.