Deduplicação

Deduplicacão

Deduplicação vem do termo em ingles deduplication que é o processo de analisar identificar e remover duplicidade nos dados, diminuindo assim a quantidade de informação a ser manipulada e armazenada.

A deduplicação surgiu para tirar algum benefício do fato que existirem arquivos parecidos, como réplicas e arquivos com diferentes versões. Em uma réplica, o software de deduplicação pode apenas gravar um dos arquivos e criar links para os demais. Em arquivos de diferentes versões, os pedaços de arquivos comuns são gravados apenas uma vez, sendo criados links nos demais arquivos.

A ideia é fazer com que no sistema de arquivos nunca exista um cluster contendo os mesmos dados. Com isso, ganha-se espaço em disco e diminuição no tempo de backup.

Por exemplo:


Você cria um arquivo em excel, manda para o departamento administrativo, automaticamente o colaborador vai salvar numa pasta compartilhada na rede, logo você terá dois arquivos com as mesmas informações. Agora imagine este cenário em um ambiente com diversos colaboradores, criando, copiando e salvando arquivos iguais ou parecidos. Isso com certeza gera um grande volume de dados duplicados. Quando aplicada a deduplicação ela automaticamente irá comparar os dados serem gravados em disco com os já existentes e criar apontamentos para o arquivo principal, ou seja não salvará arquivos duplicados.


A deduplicação também pode ser aplicada em transferências de dados através da rede, com os chamados WAN Accelerators, ou pode ser aplicada a dados armazenados em sistemas de arquivos, ou ainda pode ser aplicada aos dados durante o processo de backup em disco ou fita.


Tipos de deduplicação

A deduplicação pode ser utilizada a nível de arquivos, blocos ou bytes.


No modelo baseado em arquivo, uma "assinatura" (hash) é atribuída ao arquivo inteiro. Quando se está interessado em comparar apenas arquivos inteiros, este é o modelo menos "pesado", pois exige pouco esforço de comparação. Entretanto, quando estamos falando de uma rede, milhares de informações distintas passam pelo link, algumas fazem parte de arquivos, outras fazem parte de conversações de sistemas online, páginas web, e assim por diante. Logo, existe uma enorme probabilidade de que sequencias de dados estejam repetidas nesse mar de bits passando pelo link, e portanto a granularidade oferecida por este método não é muito eficiente para otimização WAN.


A opção baseada em blocos (a mais comum), possui um "overhead" maior que a deduplicação de arquivos, porém consegue comparar pedaços menores de dados (blocos), o que é muito útil para dados diversos, como máquinas virtuais ou arquivos de imagens. Em casos de informações bastante repetitivas (mas não iguais) como por exemplo telas de sistemas corporativos, este método oferece uma maior taxa de otimização.

 

Sem dúvida, a deduplicação em nível de byte apresenta o maior "overhead" para o acelerador, mas também o maior retorno. Ao analisar sequencias de bytes (não atrelados a blocos predefinidos), ela consegue obter o melhor resultado, substituindo tamanhos diferentes de sequencias de dados repetidos por ponteiros, reduzindo sensivelmente o stress sobre o link. Este é o modo mais eficiente.

 

Deduplicação in-line

A Deduplicação in-line elimina os dados redundantes durante o processo de backup, antes mesmo de serem gravados. O processo in-line geralmente é mais demorado visto que os dados serão armazenados somente após a deduplicação dos mesmos.

 

Deduplicação pós-processamento

 Na deduplicação pós processamento o backup completo é realizado normalmente e a analise e remoção das redundâncias nos dados são efetuadas em um processo posterior separadamente do backup. Isso garante um backup mais rápido porém necessita de mais espaço de armazenamento.

 

 

Deduplicação na origem x deduplicação no destino

 

Deduplicação de Origem

 A deduplicação na origem remove os dados redundantes em ambiente de produção, antes mesmo de serem enviados para o servidor de backup. A Deduplicação na origem usa softwares de que comunicam com o servidor de backup comparando os novos dados com os dados já armazenados e caso o servidor ou appliance já tenha uma cópia previamente armazenada desses dados, os mesmos não serão enviados pela rede, como consequência diminuindo o trafego da rede e melhorando o desempenho no armazenamento. A desvantagem de utilizar a deduplicação na origem é que ela utiliza o poder de processamento do próprio servidor de produção, podendo assim afetar o desempenho de outras aplicações rodando no servidor.

A deduplicação na origem é altamente recomendada em ambientes virtualizados devido a grande quantidade de dados redundantes geradas nos arquivos de disco .vmdk da maquina virtual. Outro cenário recomendado é para backup de sites menores e remotos onde o aumento do uso da CPU no processo de backup não causa grande impacto nos servidores.

 

Deduplicação de Destino

 Na deduplicação de destino o processamento e remoção dos dados redundantes são feitos após o seu envio pela rede, ou seja, direto no appliance ou servidor de backup. Este tipo de deduplicação causa muito menos impacto no processamento do ambiente de produção, porém utiliza muito a largura de banda, visto que todos os dados são enviados para backup sem nenhuma compressão ou deduplicação.  A Deduplicação de destino é ideal para ambientes de produção com altas carcas de trabalho ou que possuem uma janela de backup limitada como por exemplo servidores de banco de dados. 

 

Principais Vantagens da Deduplicação de dados

 

Melhora a eficiência na utilização da largura de banda

  • Backups menores consomem menos largura de banda
  • A deduplicação in-line na origem diminuí drasticamente o uso da rede enviando somente os dados já desduplicados para o storage de backup

Redução nos custos de armazenamento

  • A Deduplicação pode fornecer uma média de redução de 10 a 30 vezes nos requisitos de capacidade de armazenamento. Isso significa podemos armazenar de 100 a 300 TB de dados de backup em 10TB de capacidade de armazenamento físico gerando grande economia. 

Diminuí o tempo do aackup

  • A deduplicação de dados em rede é usada para reduzir o número de bytes a serem transferidos entre o servidor de produção e o appliance de backup, o que pode reduzir a quantidade de largura de banda necessária e consequentemente o tempo de backup.

 

Você pode obter mais informações sobre data deduplication no vídeo abaixo (em inglês).

https://www.youtube.com/watch?v=6H8scMR4seQ


Os storages Infortrend possuem uma avançada tecnologia de deduplicação baseada em blocos, proporcionando assim uma grande economia de espaço em disco além de alta performace nos backups e acesso ao disco.

 

Fonte: http://www.infortrendbrasil.com.br/deduplicacao/

.