DEV Community

Cover image for Pipeline de Dados
Sthefany Spina
Sthefany Spina

Posted on

Pipeline de Dados

Pipeline de Dados

Um pipeline de dados é um método no qual dados brutos são ingeridos de várias fontes de dados, transformados e, em seguida, transferidos para um armazenamento de dados, como um data lake ou data warehouse, para análise.

Como funciona um pipeline de dados?

Um pipeline de dados extrai dados de uma fonte, faz alterações e os salva em um destino específico. Segue os componentes críticos da arquitetura de pipeline de dados:

• Fontes de dados: pode ser uma aplicação, um dispositivo ou outro banco de dados. Fontes diferentes podem enviar dados para o pipeline. O pipeline também pode extrair pontos de dados usando uma chamada de API, webhook ou processo de duplicação de dados.

• Transformações: são operações (como classificação, reformatação, desduplicação, verificação e validação) que alteram dados. Seu pipeline pode filtrar, resumir ou processar dados para atender aos seus requisitos de análise.

• Dependências: podem existir dependências específicas que reduzem a velocidade de movimentação de dados no pipeline. Existem dois tipos principais de dependências - técnicas e de negócios

• Destinos: O endpoint de seu pipeline de dados pode ser um data warehouse, data lake ou outra aplicação de análise de dados ou business intelligence. Às vezes, o destino também é chamado de coletor de dados.

Tipos de Pipelines

Existem vários tipos principais de pipelines de dados, cada um apropriado para tarefas específicas em plataformas específicas.
• Processamento em lote: carrega "lotes" de dados em um repositório durante intervalos de tempo definidos, que normalmente são programados fora do horário de pico comercial. Dessa forma, outras cargas de trabalho não são afetadas, uma vez que os trabalhos de processamento em lote tendem a trabalhar com grandes volumes de dados.

• Dados de streaming: processam continuamente os eventos gerados por várias fontes, como sensores ou interações do usuário em um aplicativo. Os eventos são processados e analisados e, em seguida, armazenados em bancos de dados ou enviados para uma análise mais aprofundada.

• Pipelines de integração de dados: se concentram na mesclagem de dados de várias fontes em uma única exibição unificada. Esses pipelines geralmente envolvem processos de extração, transformação e carregamento (ETL) que limpam, enriquecem ou modificam dados brutos antes de armazená-los em um repositório centralizado, como um data warehouse ou data lake.

• Pipelines de dados nativos da nuvem: inclui um pacote de produtos de software nativos da nuvem que permitem a coleta, limpeza, transformação e análise dos dados de uma organização para ajudar a melhorar a tomada de decisões.

Arquitetura de pipeline de dados

  1. Ingestão de dados: Os dados são coletados de várias fontes, incluindo plataformas de software como serviço (SaaS), dispositivos de internet das coisas (IoT) e dispositivos móveis, e várias estruturas de dados, tanto de dados estruturados quanto não estruturados.

  2. Transformação de dados: Durante esta etapa, uma série de trabalhos são executados para processar os dados no formato exigido pelo repositório de dados de destino.

  3. Armazenamento de dados: Os dados transformados são então armazenados em um repositório de dados, onde podem ser expostos a diversos stakeholders.

Top comments (0)