Este projeto simula a construção de um Data Lakehouse corporativo focado em segurança da informação, privacidade de dados (LGPD) e preparação de features para modelos de Machine Learning (Previsão de Churn).
O objetivo principal não é treinar a IA, mas arquitetar a infraestrutura de dados que permite aos cientistas de dados trabalharem com total conformidade legal, garantindo que Informações Pessoais Identificáveis (PII) sejam criptografadas e isoladas da camada de Analytics.
O pipeline foi construído sobre a Arquitetura Medallion, utilizando Apache Spark (PySpark) para processamento distribuído e Delta Lake para garantir transações ACID, Time Travel e confiabilidade na escrita.
- Simulação de Caos (Silos Corporativos): Um dataset de Churn foi enriquecido com PIIs sintéticas (CPFs, Nomes, Emails) via biblioteca
Fakere fragmentado em dois sistemas inconsistentes: um CRM (Atendimento) e um ERP (Faturamento com dados nulos). - Camada Bronze (Ingestão Raw): Ingestão bruta dos silos em formato Delta. Preservação do histórico imutável sem transformações.
- Camada Silver (Núcleo de Segurança): Integração dos sistemas (JOIN) e sanitização. Aplicação da governança cibernética para destruir a PII direta.
- Camada Gold (Machine Learning Features): Engenharia de features binarizando variáveis categóricas (One-Hot Encoding) e tipagem estrita para consumo direto por algoritmos de IA.
- Orquestração e Observabilidade: Automação do fluxo via Prefect com DAG (Directed Acyclic Graph), isolando subprocessos e garantindo tolerância a falhas e monitoramento em tempo real.
Para garantir a total conformidade com a LGPD e mitigar riscos de vazamento (Data Breach), a arquitetura implementa:
- Salted Hashing (SHA-256): CPFs não são apenas codificados. Um Secret Salt é concatenado ao dado antes do hash, tornando ataques de engenharia reversa (Rainbow Tables) matematicamente inviáveis.
- Data Masking (Mascaramento Dinâmico): E-mails e telefones são ofuscados usando Expressões Regulares (Regex) nativas do PySpark (
p***@gmail.com). - Gestão de Segredos: Remoção total de chaves expostas no código (Hardcoded Secrets) através da injeção dinâmica via variáveis de ambiente (
.env). - Testes Automatizados (Pytest): Cobertura de testes unitários no módulo de criptografia para garantir que a lógica de segurança não seja corrompida em atualizações futuras.
Abaixo está o registro real gerado pelo motor de auditoria (src/04_inspect_lgpd.py), comprovando a transformação criptográfica entre as camadas:
Recomenda-se o uso do Python 3.11 para máxima estabilidade.
python -m venv venv
# Linux / macOS:
source venv/bin/activate
# Windows
.\venv\Scripts\Activate.ps1
pip install -r requirements.txtCrie um arquivo .env na raiz do projeto e defina uma chave secreta forte para o Salt cripográfico:
LGPD_SALT_KEY=SuaChaveSecretaAqui123!
Valide a integridade dos algoritmos de segurança antes de rodar o pipeline:
pytest tests/O pipeline inteiro é gerenciado pelo orquestrador. Abra dois terminais com o venv ativado:
prefect server startAcesse a interface web gerada para monitorar a execução em tempo real.
python src/orchestrator.pyDesenvolvido por: Pedro Arthur - Estudante de Engenharia e Segurança de Dados.