Conversation
There was a problem hiding this comment.
Ficou muito bom o tratamento e coisas adicionais que vc colocou pisa. Fui colocando alguns pequenos comentarios e dúvidas que tive no caminho. Tem só um ponto que eu percebi e acho que merece mais atenção que é uma coluna de cnpj que está 100% nula. Importante garantir que não foi erro nosso.
Vou dar o approve para agilizar o processo, mas maneira tenho 3 pontos gerais que vale dar uma olhada
- Precisamos colocar descrições melhores das tabelas no schema e no Backend. Acho bom usar o modelo padrão que eu tava usando no guia de uso. Descreve o que essa tabela representa, inclui quais informações as colunas dela trás e adiciona algum comentário se precisar. Dá pra pedir pra IA fazer, e depois só revisar, costuma funcionar bem
- Isso não sei se será viável, nem considero um bloqueio, mas entendo que seria mais elegante não colocar o
microdados_antes do nome de cada tabela. Na maior parte dos conjuntos em que temos várias tabelas de microdados não fazemos isso e acho que não ajuda o usuário a entender melhor a tabela, acaba sendo é só uma pequena poluição visual. Se vc achar que é viável renomear as tabelas me chama pra gente validar. - Trás a descrição que vc colocou no discord aqui. Ter esse resumo das principais mudanças dentro do github ajuda a equipe dados do futuro debugar coisas
É isso, ótimo trabalho pisa!
| ``` | ||
|
|
||
| **Decisões e Tratamento:** | ||
| - **Remoção de nulos:** As linhas com IDs não encontrados na tabela de operações foram removidas da modelagem final. |
There was a problem hiding this comment.
chegou a testar ver se não era uma das operações desclassificadas?
There was a problem hiding this comment.
Sim, são linhas que tinham correspondência com nenhum id
There was a problem hiding this comment.
Tem algum template do modelo padrão de descrição?
There was a problem hiding this comment.
Com relação a nome das tabelas, posso mudar para pradronizar e subir tudo de novo; Apenas mantive o nome das tabelas não me atentei a este detalhe
There was a problem hiding this comment.
Puxei aqui no user_guide_model
Na introdução descrevemos as tabelas que compõe o conjunto.
Essa descrição inclui necessáriamente:
- Se a tabela é de microdados ou dados agregagos
- Explicação do que cada linha da tabela representa
- Um resumo das colunas
Caso tenha alguma informação muito chave para entender o conjunto, elas também podem ser adicionadas aqui. Mas se atente para não adicionar informação demais, temos o guia todo para descrever melhor o conjunto.
There was a problem hiding this comment.
Aí o exemplo é da tabela de CNPJ:
Esse conjunto possui quatro tabelas de microdados:
- Empresas: Cada linha representa uma empresa e seus atributos. As colunas descrevem seus atributos como natureza jurídica e tipo de quadro societário.
- Sócios: Cada linha representa um sócio de uma empresa. As colunas descrevem algumas características do sócio e qualificam a relação com a empresa.
- Estabelecimentos: Cada linha representa um estabelecimento de operação de uma empresa. As colunas detalham informações sobre localização, atividade econômica e informações de contato.
- Simples: Cada linha representa uma empresa e indica se a empresa está no Simples Nacional ou MEI.
A tabela que relaciona todas elas é a tabela Empresas. Uma empresa pode ter vários sócios, vários estabelecimentos e pode ser qualificada como Simples Nacional ou MEI.
As tabelas Empresas, Sócios e Estabelecimentos são divulgadas no formato de fotografias. Para cada data, tem-se um retrato do Cadastro Nacional das Pessoas Jurídicas (CNPJs) e seus atributos.
There was a problem hiding this comment.
Acho que pode pegar só a parte de descrição da tabela mesmo
* feat: add br_bcb_sicor pipeline * feat: add pydatinc schema validator * feat: add check_if_is_outdated_by_size udpate task --------- Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com>
Pipeline do conjunto br_bcb_sicor