Skip to content

[Data] br_bcb_sicor#1459

Merged
folhesgabriel merged 33 commits intomainfrom
feat/br-bcb-sicor-pipeline
Mar 19, 2026
Merged

[Data] br_bcb_sicor#1459
folhesgabriel merged 33 commits intomainfrom
feat/br-bcb-sicor-pipeline

Conversation

@folhesgabriel
Copy link
Copy Markdown
Collaborator

Pipeline do conjunto br_bcb_sicor

@folhesgabriel folhesgabriel self-assigned this Mar 9, 2026
@folhesgabriel folhesgabriel marked this pull request as draft March 9, 2026 18:24
@folhesgabriel folhesgabriel changed the title br_bcb_sicor [Data] br_bcb_sicor Mar 9, 2026
@folhesgabriel folhesgabriel added the test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project label Mar 16, 2026
@folhesgabriel folhesgabriel requested a review from a team March 16, 2026 16:08
@folhesgabriel folhesgabriel linked an issue Mar 16, 2026 that may be closed by this pull request
@folhesgabriel folhesgabriel marked this pull request as ready for review March 16, 2026 16:09
@folhesgabriel folhesgabriel added test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project and removed test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project labels Mar 16, 2026
Copy link
Copy Markdown
Contributor

@laura-l-amaral laura-l-amaral left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Ficou muito bom o tratamento e coisas adicionais que vc colocou pisa. Fui colocando alguns pequenos comentarios e dúvidas que tive no caminho. Tem só um ponto que eu percebi e acho que merece mais atenção que é uma coluna de cnpj que está 100% nula. Importante garantir que não foi erro nosso.

Vou dar o approve para agilizar o processo, mas maneira tenho 3 pontos gerais que vale dar uma olhada

  1. Precisamos colocar descrições melhores das tabelas no schema e no Backend. Acho bom usar o modelo padrão que eu tava usando no guia de uso. Descreve o que essa tabela representa, inclui quais informações as colunas dela trás e adiciona algum comentário se precisar. Dá pra pedir pra IA fazer, e depois só revisar, costuma funcionar bem
  2. Isso não sei se será viável, nem considero um bloqueio, mas entendo que seria mais elegante não colocar o microdados_ antes do nome de cada tabela. Na maior parte dos conjuntos em que temos várias tabelas de microdados não fazemos isso e acho que não ajuda o usuário a entender melhor a tabela, acaba sendo é só uma pequena poluição visual. Se vc achar que é viável renomear as tabelas me chama pra gente validar.
  3. Trás a descrição que vc colocou no discord aqui. Ter esse resumo das principais mudanças dentro do github ajuda a equipe dados do futuro debugar coisas

É isso, ótimo trabalho pisa!

```

**Decisões e Tratamento:**
- **Remoção de nulos:** As linhas com IDs não encontrados na tabela de operações foram removidas da modelagem final.
Copy link
Copy Markdown
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

chegou a testar ver se não era uma das operações desclassificadas?

Copy link
Copy Markdown
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Sim, são linhas que tinham correspondência com nenhum id

Copy link
Copy Markdown
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Tem algum template do modelo padrão de descrição?

Copy link
Copy Markdown
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Com relação a nome das tabelas, posso mudar para pradronizar e subir tudo de novo; Apenas mantive o nome das tabelas não me atentei a este detalhe

Copy link
Copy Markdown
Contributor

@laura-l-amaral laura-l-amaral Mar 17, 2026

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Puxei aqui no user_guide_model

Na introdução descrevemos as tabelas que compõe o conjunto.
Essa descrição inclui necessáriamente:

  • Se a tabela é de microdados ou dados agregagos
  • Explicação do que cada linha da tabela representa
  • Um resumo das colunas

Caso tenha alguma informação muito chave para entender o conjunto, elas também podem ser adicionadas aqui. Mas se atente para não adicionar informação demais, temos o guia todo para descrever melhor o conjunto.

Copy link
Copy Markdown
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Aí o exemplo é da tabela de CNPJ:

Esse conjunto possui quatro tabelas de microdados:

  • Empresas: Cada linha representa uma empresa e seus atributos. As colunas descrevem seus atributos como natureza jurídica e tipo de quadro societário.
  • Sócios: Cada linha representa um sócio de uma empresa. As colunas descrevem algumas características do sócio e qualificam a relação com a empresa.
  • Estabelecimentos: Cada linha representa um estabelecimento de operação de uma empresa. As colunas detalham informações sobre localização, atividade econômica e informações de contato.
  • Simples: Cada linha representa uma empresa e indica se a empresa está no Simples Nacional ou MEI.

A tabela que relaciona todas elas é a tabela Empresas. Uma empresa pode ter vários sócios, vários estabelecimentos e pode ser qualificada como Simples Nacional ou MEI.

As tabelas Empresas, Sócios e Estabelecimentos são divulgadas no formato de fotografias. Para cada data, tem-se um retrato do Cadastro Nacional das Pessoas Jurídicas (CNPJs) e seus atributos.

Copy link
Copy Markdown
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Acho que pode pegar só a parte de descrição da tabela mesmo

Comment thread pipelines/datasets/br_bcb_sicor/README.md
Comment thread pipelines/datasets/br_bcb_sicor/README.md Outdated
Comment thread pipelines/datasets/br_bcb_sicor/README.md Outdated
Comment thread pipelines/datasets/br_bcb_sicor/README.md
Comment thread pipelines/datasets/br_bcb_sicor/README.md Outdated
Comment thread pipelines/datasets/br_bcb_sicor/README.md Outdated
@folhesgabriel folhesgabriel removed the test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project label Mar 17, 2026
@folhesgabriel folhesgabriel added table-approve Triggers Table Approve on PR merge test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project labels Mar 18, 2026
mergify Bot added a commit that referenced this pull request Mar 19, 2026
* feat: add br_bcb_sicor pipeline
* feat: add pydatinc schema validator
* feat: add check_if_is_outdated_by_size udpate task
---------

Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com>
@folhesgabriel folhesgabriel merged commit db4d15c into main Mar 19, 2026
2 checks passed
@folhesgabriel folhesgabriel deleted the feat/br-bcb-sicor-pipeline branch March 19, 2026 16:11
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

table-approve Triggers Table Approve on PR merge test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project

Projects

None yet

Development

Successfully merging this pull request may close these issues.

[pipeline] br_bcb_sicor

2 participants