Skip to content

PArthur006/secure_lakehouse_pipeline

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🛡️ Secure Lakehouse Pipeline: Engenharia de Dados & Adequação LGPD

Este projeto simula a construção de um Data Lakehouse corporativo focado em segurança da informação, privacidade de dados (LGPD) e preparação de features para modelos de Machine Learning (Previsão de Churn).

O objetivo principal não é treinar a IA, mas arquitetar a infraestrutura de dados que permite aos cientistas de dados trabalharem com total conformidade legal, garantindo que Informações Pessoais Identificáveis (PII) sejam criptografadas e isoladas da camada de Analytics.

🏗️ Arquitetura e Fluxo de Dados

O pipeline foi construído sobre a Arquitetura Medallion, utilizando Apache Spark (PySpark) para processamento distribuído e Delta Lake para garantir transações ACID, Time Travel e confiabilidade na escrita.

  1. Simulação de Caos (Silos Corporativos): Um dataset de Churn foi enriquecido com PIIs sintéticas (CPFs, Nomes, Emails) via biblioteca Faker e fragmentado em dois sistemas inconsistentes: um CRM (Atendimento) e um ERP (Faturamento com dados nulos).
  2. Camada Bronze (Ingestão Raw): Ingestão bruta dos silos em formato Delta. Preservação do histórico imutável sem transformações.
  3. Camada Silver (Núcleo de Segurança): Integração dos sistemas (JOIN) e sanitização. Aplicação da governança cibernética para destruir a PII direta.
  4. Camada Gold (Machine Learning Features): Engenharia de features binarizando variáveis categóricas (One-Hot Encoding) e tipagem estrita para consumo direto por algoritmos de IA.
  5. Orquestração e Observabilidade: Automação do fluxo via Prefect com DAG (Directed Acyclic Graph), isolando subprocessos e garantindo tolerância a falhas e monitoramento em tempo real.

🔐 Engenharia de Segurança Cibernética

Para garantir a total conformidade com a LGPD e mitigar riscos de vazamento (Data Breach), a arquitetura implementa:

  • Salted Hashing (SHA-256): CPFs não são apenas codificados. Um Secret Salt é concatenado ao dado antes do hash, tornando ataques de engenharia reversa (Rainbow Tables) matematicamente inviáveis.
  • Data Masking (Mascaramento Dinâmico): E-mails e telefones são ofuscados usando Expressões Regulares (Regex) nativas do PySpark (p***@gmail.com).
  • Gestão de Segredos: Remoção total de chaves expostas no código (Hardcoded Secrets) através da injeção dinâmica via variáveis de ambiente (.env).
  • Testes Automatizados (Pytest): Cobertura de testes unitários no módulo de criptografia para garantir que a lógica de segurança não seja corrompida em atualizações futuras.

📋 Evidência de Auditoria (PoC)

Abaixo está o registro real gerado pelo motor de auditoria (src/04_inspect_lgpd.py), comprovando a transformação criptográfica entre as camadas:

Image

🚀 Como Executar Localmente

1. Instalação e Configuração

Recomenda-se o uso do Python 3.11 para máxima estabilidade.

python -m venv venv

# Linux / macOS:
source venv/bin/activate
# Windows
.\venv\Scripts\Activate.ps1

pip install -r requirements.txt

2. Configuração de Segurança

Crie um arquivo .env na raiz do projeto e defina uma chave secreta forte para o Salt cripográfico:

LGPD_SALT_KEY=SuaChaveSecretaAqui123!

3. Executando os Testes Unitários

Valide a integridade dos algoritmos de segurança antes de rodar o pipeline:

pytest tests/

4. Execução da Esteira Orquestrada (Prefect)

O pipeline inteiro é gerenciado pelo orquestrador. Abra dois terminais com o venv ativado:

Terminal 1 - Painel de Observabilidade:

prefect server start

Acesse a interface web gerada para monitorar a execução em tempo real.

Terminal 2 - Disparo do Pipeline:

python src/orchestrator.py

Desenvolvido por: Pedro Arthur - Estudante de Engenharia e Segurança de Dados.

About

Arquitetura Data Lakehouse (Medallion) construída com PySpark e Delta Lake. Implementa orquestração com Prefect, adequação criptográfica à LGPD e engenharia de features para Machine Learning.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages