🛡️ Secure Lakehouse Pipeline: Engenharia de Dados & Adequação LGPD

Este projeto simula a construção de um Data Lakehouse corporativo focado em segurança da informação, privacidade de dados (LGPD) e preparação de features para modelos de Machine Learning (Previsão de Churn).

O objetivo principal não é treinar a IA, mas arquitetar a infraestrutura de dados que permite aos cientistas de dados trabalharem com total conformidade legal, garantindo que Informações Pessoais Identificáveis (PII) sejam criptografadas e isoladas da camada de Analytics.

🏗️ Arquitetura e Fluxo de Dados

O pipeline foi construído sobre a Arquitetura Medallion, utilizando Apache Spark (PySpark) para processamento distribuído e Delta Lake para garantir transações ACID, Time Travel e confiabilidade na escrita.

Simulação de Caos (Silos Corporativos): Um dataset de Churn foi enriquecido com PIIs sintéticas (CPFs, Nomes, Emails) via biblioteca Faker e fragmentado em dois sistemas inconsistentes: um CRM (Atendimento) e um ERP (Faturamento com dados nulos).
Camada Bronze (Ingestão Raw): Ingestão bruta dos silos em formato Delta. Preservação do histórico imutável sem transformações.
Camada Silver (Núcleo de Segurança): Integração dos sistemas (JOIN) e sanitização. Aplicação da governança cibernética para destruir a PII direta.
Camada Gold (Machine Learning Features): Engenharia de features binarizando variáveis categóricas (One-Hot Encoding) e tipagem estrita para consumo direto por algoritmos de IA.
Orquestração e Observabilidade: Automação do fluxo via Prefect com DAG (Directed Acyclic Graph), isolando subprocessos e garantindo tolerância a falhas e monitoramento em tempo real.

🔐 Engenharia de Segurança Cibernética

Para garantir a total conformidade com a LGPD e mitigar riscos de vazamento (Data Breach), a arquitetura implementa:

Salted Hashing (SHA-256): CPFs não são apenas codificados. Um Secret Salt é concatenado ao dado antes do hash, tornando ataques de engenharia reversa (Rainbow Tables) matematicamente inviáveis.
Data Masking (Mascaramento Dinâmico): E-mails e telefones são ofuscados usando Expressões Regulares (Regex) nativas do PySpark (p***@gmail.com).
Gestão de Segredos: Remoção total de chaves expostas no código (Hardcoded Secrets) através da injeção dinâmica via variáveis de ambiente (.env).
Testes Automatizados (Pytest): Cobertura de testes unitários no módulo de criptografia para garantir que a lógica de segurança não seja corrompida em atualizações futuras.

📋 Evidência de Auditoria (PoC)

Abaixo está o registro real gerado pelo motor de auditoria (src/04_inspect_lgpd.py), comprovando a transformação criptográfica entre as camadas:

🚀 Como Executar Localmente

1. Instalação e Configuração

Recomenda-se o uso do Python 3.11 para máxima estabilidade.

python -m venv venv

# Linux / macOS:
source venv/bin/activate
# Windows
.\venv\Scripts\Activate.ps1

pip install -r requirements.txt

2. Configuração de Segurança

Crie um arquivo .env na raiz do projeto e defina uma chave secreta forte para o Salt cripográfico:

LGPD_SALT_KEY=SuaChaveSecretaAqui123!

3. Executando os Testes Unitários

Valide a integridade dos algoritmos de segurança antes de rodar o pipeline:

pytest tests/

4. Execução da Esteira Orquestrada (Prefect)

O pipeline inteiro é gerenciado pelo orquestrador. Abra dois terminais com o venv ativado:

Terminal 1 - Painel de Observabilidade:

prefect server start

Acesse a interface web gerada para monitorar a execução em tempo real.

Terminal 2 - Disparo do Pipeline:

python src/orchestrator.py

Desenvolvido por: Pedro Arthur - Estudante de Engenharia e Segurança de Dados.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
src		src
tests		tests
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🛡️ Secure Lakehouse Pipeline: Engenharia de Dados & Adequação LGPD

🏗️ Arquitetura e Fluxo de Dados

🔐 Engenharia de Segurança Cibernética

📋 Evidência de Auditoria (PoC)

🚀 Como Executar Localmente

1. Instalação e Configuração

2. Configuração de Segurança

3. Executando os Testes Unitários

4. Execução da Esteira Orquestrada (Prefect)

Terminal 1 - Painel de Observabilidade:

Terminal 2 - Disparo do Pipeline:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🛡️ Secure Lakehouse Pipeline: Engenharia de Dados & Adequação LGPD

🏗️ Arquitetura e Fluxo de Dados

🔐 Engenharia de Segurança Cibernética

📋 Evidência de Auditoria (PoC)

🚀 Como Executar Localmente

1. Instalação e Configuração

2. Configuração de Segurança

3. Executando os Testes Unitários

4. Execução da Esteira Orquestrada (Prefect)

Terminal 1 - Painel de Observabilidade:

Terminal 2 - Disparo do Pipeline:

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages