Menu
Contato Comercial
Por: Pedro César Tebaldi em 09.02.2022

O que é ETL? Entenda como funciona este processo

ETL - Extract, transform, load

A integração de dados é um processo que permite que os dados que estão em locais separados sejam reunidos em uma visão unificada. Na realidade, a integração de dados não se trata de mover os dados originais, mas sim replicá-los e colocar a cópia dos dados originais em outro lugar.

Uma parte importante da integração é a transformação de dados, pois dados de fontes diferentes geralmente vêm em formatos diferentes que não podem ser combinados em uma visão unificada, a menos que alguns ou todos os dados sejam transformados no mesmo formato.

ETL é o processo mais popular na integração de dados. É usado quando alguém deseja reunir dados de várias fontes, mas também exige que o formato dos dados seja alterado. Por exemplo, se alguém tivesse um arquivo Excel ou CSV que desejasse mover para um banco de dados específico, mas todas as outras fontes de dados estivessem no formato JSON (um formato de intercâmbio de dados muito popular), esse arquivo teria que ser transformado em um JSON para que pudesse ser combinado com os demais.

Depois que o arquivo é transformado, ele é enviado para o destino definido para esse pipeline específico, onde é colocado junto com todas as outras informações que foram extraídas.

 

Qual o significado do termo ETL?

O termo ETL (Extract-Transform-Load), em português, significa extrair, transformar e carregar dados. Ou seja, geralmente envolve a prática de mover dados de uma ou mais fontes, fazer algumas alterações e depois carregá-los em um novo destino único.

Um desafio importante para a atividade de ETL é que, na maioria das empresas, os dados tendem a estar armazenados em diferentes locais e formatos e muitas vezes são imprecisos ou inconsistentes. Essa situação está longe de ser ideal se quisermos analisar e obter informações facilmente a partir desses dados para usá-los em projetos de business intelligence ou data science.

 

Como funciona o ETL?

Para torná-lo um pouco mais concreto, vamos usar um exemplo moderno de ETL do mundo real. Imagine que você é um varejista online que usa um sistema de gerenciamento de relacionamento com o cliente (CRM), como o SalesForce, para acompanhar seus clientes registrados. Você também usa um processador de pagamento, como o Pagseguro, para manipular e armazenar detalhes de transações de vendas feitas por meio de seu site de comércio eletrônico.

Suponha que seu objetivo seja melhorar sua taxa de conversão usando dados sobre o que seus clientes compraram historicamente, para fazer melhores recomendações de produtos quando eles estiverem navegando em seu site.

Você certamente poderia usar um modelo de machine learning para alimentar um mecanismo de recomendação para atingir esse objetivo. Mas o desafio é que os dados de que você precisa estão em dois sistemas diferentes. A solução no nosso caso é usar um processo ETL para extrair, transformar e combiná-los em um data warehouse.

Vamos detalhar o que acontece em um processo de ETL na prática:

 

1. Extrair

Esta parte do processo envolve a recuperação de dados de nossas duas fontes, SalesForce e o Pagseguro. Depois que os dados forem recuperados, a ferramenta ETL os carregará em uma área de preparação para a próxima etapa.

 

2. Transformar

Esta é uma etapa crítica, porque lida com as especificidades de como nossos dados serão integrados. Qualquer limpeza, reformatação, desduplicação e combinação de dados acontecem aqui antes que possam avançar no pipeline.

No nosso caso, digamos que em um sistema um registro de cliente seja armazenado com o nome “F. Almeida”, em outro sistema, esse mesmo registro de cliente é armazenado com o nome “Felipe Almeida”.

Suponha que sabemos que é o mesmo cliente (com base em seu endereço de entrega), mas o sistema ainda precisa reconciliar os dois, para não acabar com registros duplicados. As estruturas e ferramentas de ETL nos fornecem a lógica necessária para automatizar esse tipo de transformação e também podem atender a muitos outros cenários.

 

3. Carregar

Envolve inserir com sucesso os dados de entrada no banco de dados de destino, armazenamento de dados ou, em nosso caso, um data warehouse. Então, aí está, coletamos nossos dados, os integramos usando um pipeline de ETL e os carregamos em algum lugar acessível para atividades de ciência de dados ou para criar relatórios de BI.

 

ETL vs ELT

Você também pode ter se deparado com o termo ‘ELT’. Extrair, carregar e transformar (ELT) difere do ETL apenas no local onde a transformação ocorre. No processo ELT, a transformação de dados ocorre no armazenamento de dados de destino.

Isso pode simplificar a arquitetura removendo o que, às vezes, é um sistema de preparação separado ou intermediário que hospeda a transformação de dados. A outra vantagem é que você pode se beneficiar da escala adicional e do desempenho de computação normalmente presentes em destinos como data warehouses na nuvem.

 

Desafios comuns ao ETL

OK, todas essas coisas de ETL parecem bem simples, certo? Aqui estão algumas “pegadinhas” para ficar de olho:

 

Dimensionamento

A quantidade de dados que as empresas produzem só deve crescer – 175 Zettabytes até 2025, de acordo com um relatório da IDC. Portanto, você deve garantir que a ferramenta ETL escolhida tenha a capacidade de escalar não apenas para suas necessidades atuais, mas também futuras. Você pode mover dados em lotes agora, mas esse sempre será o caso? Quantos ‘jobs’ você pode executar em paralelo?

Mudar para a nuvem é uma aposta bastante segura se você deseja preparar seus processos de ETL para o futuro — tendo acesso a uma escalabilidade teoricamente ilimitada de armazenamento e computação, ao mesmo tempo em que reduz seus gastos de capital de TI.

 

Precisão dos dados

Outro grande desafio de ETL é garantir que os dados que você transforma sejam precisos e completos. A codificação e as alterações manuais ou a falha no planejamento e teste antes de executar um trabalho de ETL às vezes podem apresentar erros, incluindo o carregamento de duplicatas, dados ausentes e outros problemas.

Uma ferramenta capaz de realizar o ETL definitivamente reduzirá a necessidade de codificação manual e ajudará a reduzir os erros. O teste de precisão de dados pode ajudar a identificar inconsistências e duplicatas, e os recursos de monitoramento podem ajudar a identificar instâncias em que você está lidando com tipos de dados incompatíveis e outros problemas de gerenciamento de dados.

 

Diversidade de fontes de dados

Os dados estão crescendo em volume. Mas, mais importante, estão crescendo em complexidade. Uma empresa pode estar lidando com diversos dados de centenas — ou mesmo milhares — de fontes de dados. Isso pode incluir fontes estruturadas e semiestruturadas, fontes em tempo real, arquivos simples, CSVs, buckets de objetos, streaming ou qualquer novidade que surja.

Alguns desses dados são melhor transformados em lotes, enquanto para outros, o streaming e a transformação contínua de dados funcionam melhor. Ter uma estratégia de como você pretende lidar com diferentes fontes de dados é fundamental. Algumas ferramentas modernas de ETL podem oferecer suporte para uma ampla variedade, incluindo lote e streaming em um só lugar.

Implementação e Consultoria em Business Intelligence - BI

Após entender os conceitos relacionados ao ETL, caso você tenha interesse em evoluir para um projeto de business intelligence que centralize dados de múltiplas fontes e que transforme os dados para que sigam as regras de negócio definidas pelo seu time, saiba que podemos te ajudar nessa missão! Nossa equipe conta com especialistas na área, que podem te apoiar em qualquer tipo de projeto, independente de sua complexidade. Para saber mais, entre em contato com nossos especialistas!

Compartilhe:

ESCRITO POR

Pedro César Tebaldi

Atuei por 10 anos no mercado B2B de tecnologia da informação como gerente de marketing, tendo escrito mais de 500 artigos sobre tecnologia durante esse período. Hoje sou líder do time de dados, dentro da área de Business Intelligence da OpServices, prestando consultoria para grandes empresas em todo o Brasil.

Posts Relacionados

ASSINE NOSSA NEWSLETTER E RECEBA
NOSSOS MELHORES CONTEÚDOS!

ASSINE NOSSA NEWSLETTER!

Entre para nossa lista e receba conteúdos exclusivos