Etl - Tarde

Definições

O que é ETL

ETL é acrônimo inglês para Extract Transform Load que também é conhecido nacionalmente como ETC (Extração, Transformação e Carga).
ETL é o processo de extrair dados de um banco de dados realizando as modificações necessárias para tornar possível a inserção destes dados num outro banco de dados de propósito especial: o WD (data Warehouse). A modificação pode ser uma alteração baseada em regras de negócios, pode ser uma tradução, pode ser uma simples limpeza dos dados, uma filtragem de dados, etc. Estas modificações dão margem à combinação de dados provenientes de bancos de dados distintos.

WD (Warehouse Data)

O WD, segundo informação obtida no winkpédia, é um sistema computacional utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada.
O WD possibilita a análise de grandes volumes de dados provenientes de sistemas transacionais (OLTP).

OLTP (Online Analytical Processing)

É uma das ferramentas mais utilizadas para a Exploração de um WD. Através desta ferramenta é possível explorar os dados de um WD de forma mais eficiente pois ele possue uma estrutura apropiada para realizar pesquisas e apresentar informações extraídas de um WD.

Definição das Etapas do Processo ETL

Um processo ETL é subdividido em três etapas distintas: extração, transformação e carga.

Extração

A extração de dados consiste na retirada dos dados de outros bancos de dados para depois inseri-los no WD. Neste processo que as fontes de dados são definidas. As fontes de dados podem provir de bancos de dados diferentes portanto é indispensável adotar uma fonte como padrão.

Tranformação

A limpeza dos dados consiste em verificar a compatibilidade dos dados extraídos, descartando informações redundantes ou desnecessárias. Entretanto, muitas vezes é necessário realizar algumas transformações, pois os dados podem provir de bancos de dados que utilizam padrões diferentes (por exemplo, um determinado banco usa H para designar o sexo masculino e M para o feminino, já outro usa M para designar o sexo masculino e F para o feminino) e nesse caso deve-se pré-estabelecer qual formatação será adotada como padrão de entrada para o WD, ou seja, a transformação é o processo de uniformização dos dados provenientes de fontes e formatos distintos.

Carga

A carga é a fase na qual os dados são inseridos no DW, portanto este processo é extremamente complexo pois é nesta fase que se deve garantir a integridade dos dados armazenados no WD.

Novidades

Processamento em paralelo

Pesquisas e inovações na área de softwares de ETL deram margem ao desenvolvimento de processamento paralelo o que possibilitou uma melhoria na performance geral dos processos ETL.
Atualmente existem três tipos de processamento paralelo: dados, pipeline e componente.

Dados

Baseia-se na divisão de um arquivo único e seqüencial em arquivos de dados menores para possibilitar o acesso paralelo.

Pipeline

Baseia-se na execução simultânea de diversas partes do mesmo fluxo de dados.

Componente

Baseia-se na execução simultânea de diversas processos em vários fluxos de dados.

Compiladores e ETL

O funcionamento do ETL é análogo ao funcionamento de um compilador, pois o ETL tem como entrada (processo de extração) dados provenientes de um banco de dados específico.Estes dados são filtrados (pré-processados), transformados (“compilados”) gerando em seguida dados, com equivalência de significado, para outro banco de dados. (O WD, nesta analogia, se equipara a linguagem de máquina). Em suma o ETL pode ser considerado como sendo um compilador que compila banco de dados.O ETL tem como entrada um fluxo de dados proveniente de bancos de dados diferentes e tem como saída dados (equivalentes em sentidos) no formato específico do WD.

Referência Eletrônica

  • Wikipédia pt.wikipedia.org/wiki/ETL
  • Sqldts www.sqldts.com
  • portalsbgc.org.br/sbgc/foruns/printable.asp?m=2599
  • infobras.com.br/portugues/produtos_conceito_etl.asp
Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License