Projeto Final - Engenheiro de Dados

Esse foi o Workflow do nosso projeto de ETL, onde utilizamos, no total, 7 datasets, sendo eles em formatos distintos como XLS, CSV, XLSX e diretamente de um banco de dados. Os dados brutos foram armazenados no Google Cloud Storage e no MySQL. O tratamento foi realizado no Google Colab com o uso das ferramentas PySpark e Pandas. Após o tratamento, foi criada uma pipeline com o Apache Beam para o envio direto para o Google Cloud Storage e, via conector, os dados tratados foram enviados para o BigQuery. Via modelo pré-definido do Google Dataflow, realizamos o envio dos dados tratados do BigQuery para o MongoDB e, por fim, inserimos os dados no Google DataStudio para análise dos dados.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
ProjetoFinal_Pandas_PopulacaoPorMunicipio.ipynb		ProjetoFinal_Pandas_PopulacaoPorMunicipio.ipynb
ProjetoFinal_Pandas_TA_PRECO_MEDICAMENTO.ipynb		ProjetoFinal_Pandas_TA_PRECO_MEDICAMENTO.ipynb
ProjetoFinal_PySpark_VendasMedicamentosSP.ipynb		ProjetoFinal_PySpark_VendasMedicamentosSP.ipynb
README.md		README.md
Workflow.png		Workflow.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto Final - Engenheiro de Dados

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Projeto Final - Engenheiro de Dados

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages