[Data] br_bcb_sicor by folhesgabriel · Pull Request #1459 · basedosdados/pipelines

folhesgabriel · 2026-03-09T18:23:47Z

Pipeline do conjunto br_bcb_sicor

…uet headers

…_csv

…tions

…d_by_size

laura-l-amaral

Ficou muito bom o tratamento e coisas adicionais que vc colocou pisa. Fui colocando alguns pequenos comentarios e dúvidas que tive no caminho. Tem só um ponto que eu percebi e acho que merece mais atenção que é uma coluna de cnpj que está 100% nula. Importante garantir que não foi erro nosso.

Vou dar o approve para agilizar o processo, mas maneira tenho 3 pontos gerais que vale dar uma olhada

Precisamos colocar descrições melhores das tabelas no schema e no Backend. Acho bom usar o modelo padrão que eu tava usando no guia de uso. Descreve o que essa tabela representa, inclui quais informações as colunas dela trás e adiciona algum comentário se precisar. Dá pra pedir pra IA fazer, e depois só revisar, costuma funcionar bem
Isso não sei se será viável, nem considero um bloqueio, mas entendo que seria mais elegante não colocar o microdados_ antes do nome de cada tabela. Na maior parte dos conjuntos em que temos várias tabelas de microdados não fazemos isso e acho que não ajuda o usuário a entender melhor a tabela, acaba sendo é só uma pequena poluição visual. Se vc achar que é viável renomear as tabelas me chama pra gente validar.
Trás a descrição que vc colocou no discord aqui. Ter esse resumo das principais mudanças dentro do github ajuda a equipe dados do futuro debugar coisas

É isso, ótimo trabalho pisa!

laura-l-amaral · 2026-03-16T19:53:30Z

+```
+
+**Decisões e Tratamento:**
+- **Remoção de nulos:** As linhas com IDs não encontrados na tabela de operações foram removidas da modelagem final.


chegou a testar ver se não era uma das operações desclassificadas?

Sim, são linhas que tinham correspondência com nenhum id

Tem algum template do modelo padrão de descrição?

Com relação a nome das tabelas, posso mudar para pradronizar e subir tudo de novo; Apenas mantive o nome das tabelas não me atentei a este detalhe

Puxei aqui no user_guide_model

Na introdução descrevemos as tabelas que compõe o conjunto.
Essa descrição inclui necessáriamente:

Se a tabela é de microdados ou dados agregagos

Explicação do que cada linha da tabela representa

Um resumo das colunas

Caso tenha alguma informação muito chave para entender o conjunto, elas também podem ser adicionadas aqui. Mas se atente para não adicionar informação demais, temos o guia todo para descrever melhor o conjunto.

Aí o exemplo é da tabela de CNPJ:

Esse conjunto possui quatro tabelas de microdados:

Empresas: Cada linha representa uma empresa e seus atributos. As colunas descrevem seus atributos como natureza jurídica e tipo de quadro societário.

Sócios: Cada linha representa um sócio de uma empresa. As colunas descrevem algumas características do sócio e qualificam a relação com a empresa.

Estabelecimentos: Cada linha representa um estabelecimento de operação de uma empresa. As colunas detalham informações sobre localização, atividade econômica e informações de contato.

Simples: Cada linha representa uma empresa e indica se a empresa está no Simples Nacional ou MEI.

A tabela que relaciona todas elas é a tabela Empresas. Uma empresa pode ter vários sócios, vários estabelecimentos e pode ser qualificada como Simples Nacional ou MEI.

As tabelas Empresas, Sócios e Estabelecimentos são divulgadas no formato de fotografias. Para cada data, tem-se um retrato do Cadastro Nacional das Pessoas Jurídicas (CNPJs) e seus atributos.

Acho que pode pegar só a parte de descrição da tabela mesmo

…iedade tables

* feat: add br_bcb_sicor pipeline * feat: add pydatinc schema validator * feat: add check_if_is_outdated_by_size udpate task --------- Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com>

feat: add pydatinc schema validator

9c39599

folhesgabriel self-assigned this Mar 9, 2026

folhesgabriel marked this pull request as draft March 9, 2026 18:24

folhesgabriel mentioned this pull request Mar 9, 2026

[Data] br_bcb_sicor #1451

Closed

folhesgabriel changed the title ~~br_bcb_sicor~~ [Data] br_bcb_sicor Mar 9, 2026

folhesgabriel added 12 commits March 9, 2026 15:38

feat: add ingestion pipeline

51e831c

add innit .py to crawler bcb

75e6df9

refactor: set dump_reader_to_csv to read only 1 row when dumping parq…

f7c55f6

…uet headers

update microdados_recurso_publico_mutuario schema

dc174dc

refactor: force string data types for parquet files in dump_header_to…

0c259e1

…_csv

feat: add sicor dbt models

235e41a

feat: add macro to standardize missing dict keys filling

96c1464

feat: add specific sicor params, coments and fix col names typos

47515cb

feat: add production setup to dbt models

333b310

docs: add sicor readme about data standardization problems and valida…

e2c67fd

…tions

feat: add new task to check updates based on source byte lenght

1c03f1f

feat: add raw data source metadata update to check_if_data_is_outdate…

601e650

…d_by_size

folhesgabriel added the test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project label Mar 16, 2026

folhesgabriel added 4 commits March 16, 2026 13:03

remove unnused tests from

6f0d44a

docs: add microdados_operacoes_desclassificadas

911466f

deactivate microdados_operacoes_desclassificadas schedule

d5035f0

reactivate elementary test results

8bd1b79

folhesgabriel requested a review from a team March 16, 2026 16:08

folhesgabriel linked an issue Mar 16, 2026 that may be closed by this pull request

[pipeline] br_bcb_sicor #1428

Closed

Merge branch 'main' into feat/br-bcb-sicor-pipeline

3fe93e3

folhesgabriel marked this pull request as ready for review March 16, 2026 16:09

deactivate operacoes_desclassificadas flow

5e8fea7

folhesgabriel added test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project and removed test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project labels Mar 16, 2026

laura-l-amaral approved these changes Mar 16, 2026

View reviewed changes

mergify Bot and others added 5 commits March 17, 2026 14:52

Merge branch 'main' into feat/br-bcb-sicor-pipeline

de50933

fix: cnpj parsing logic and unique_keys test

28bbaaf

fix: handle cnpj and cnpj_basico within mutuario, cooperado and propr…

968dac0

…iedade tables

docs: update readme

74bdf13

reactivate operacoes_desclassificadas schedule

f596f85

folhesgabriel removed the test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project label Mar 17, 2026

folhesgabriel and others added 3 commits March 17, 2026 15:34

feat: remove microdados prefix from every table

e97b48e

Merge branch 'main' into feat/br-bcb-sicor-pipeline

02c4364

fix: adjust dbt model file names to new table names

ae49fbd

folhesgabriel added table-approve Triggers Table Approve on PR merge test-dev-model Run DBT tests in the modified models using basedosdados-dev Bigquery Project labels Mar 18, 2026

fix: adjust liberacao not nulll multiple cols test treshold

541f71e

folhesgabriel requested a review from laura-l-amaral March 18, 2026 13:35

laura-l-amaral approved these changes Mar 18, 2026

View reviewed changes

mergify Bot and others added 5 commits March 18, 2026 22:32

Merge branch 'main' into feat/br-bcb-sicor-pipeline

20dd568

feat: add DDL hooks and incremental strategy

010fc8d

fix: adjust typo in operacao and gleba models

a6ec010

docs: update readme

b7d2639

Merge branch 'main' into feat/br-bcb-sicor-pipeline

0618b81

folhesgabriel merged commit db4d15c into main Mar 19, 2026
2 checks passed

folhesgabriel deleted the feat/br-bcb-sicor-pipeline branch March 19, 2026 16:11

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Data] br_bcb_sicor#1459

[Data] br_bcb_sicor#1459
folhesgabriel merged 33 commits intomainfrom
feat/br-bcb-sicor-pipeline

folhesgabriel commented Mar 9, 2026

Uh oh!

laura-l-amaral left a comment •

edited

Loading

Uh oh!

laura-l-amaral Mar 16, 2026

Uh oh!

folhesgabriel Mar 16, 2026

Uh oh!

folhesgabriel Mar 17, 2026

Uh oh!

folhesgabriel Mar 17, 2026

Uh oh!

laura-l-amaral Mar 17, 2026 •

edited

Loading

Uh oh!

laura-l-amaral Mar 17, 2026

Uh oh!

laura-l-amaral Mar 17, 2026

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

folhesgabriel commented Mar 9, 2026

Uh oh!

laura-l-amaral left a comment • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

laura-l-amaral Mar 16, 2026

Choose a reason for hiding this comment

Uh oh!

folhesgabriel Mar 16, 2026

Choose a reason for hiding this comment

Uh oh!

folhesgabriel Mar 17, 2026

Choose a reason for hiding this comment

Uh oh!

folhesgabriel Mar 17, 2026

Choose a reason for hiding this comment

Uh oh!

laura-l-amaral Mar 17, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

laura-l-amaral Mar 17, 2026

Choose a reason for hiding this comment

Uh oh!

laura-l-amaral Mar 17, 2026

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

laura-l-amaral left a comment •

edited

Loading

laura-l-amaral Mar 17, 2026 •

edited

Loading