Web Data Pipeline

O Web Data Pipeline é um sistema de ingestão e processamento de dados que coleta noticias de tecnologia a partir de páginas HTML, processa essas informaçôes e armazena os dados de forma estruturada

O objetivo do projeto é estudar e implementar conceitos de data ingestion, processamento assíncrono, scraping configurável, e papelines de dados, utilizando Python e ferramentas comuns em arquiteturas backend modernas.

Funcionalidades

Cadastro de fontes de notícias
Coleta automática de páginas HTML
Scraping configurável via seletores CSS
Processamento e normalização de dados
Deduplicação de registros
Históricos de execuções de pipeline
Dashboard web para visualização dos dados
Envio de digest por email com notícias coletadas

Arquitetura

O sistema segue uma arquitetura baseada em pipeline de insgestão de dados

Sources
|
Scheduler
|
Workers
|
Processing
|
Database
|
API/Dashboard

Fluxo de funcionamento:

Fontes de dados são cadastradas no sistema
O scheduler agenda execuções de pipeline
Workers realizam o scraping das páginas
Os dados coletados passam por processamento
Registros normalizados são armazenados no banco
Os dados podem ser visualizados via API ou dashboard
O sisterma pode gerar digest periódico por email

Tecnologias utilizadas

Python
FastAPI - API e backend do sistema
Celery - processamento assíncrono
Redis - broker de mensagens
PostgreSQL - banco de dados
Jinja2 - renderização do dashboard
HTMX - interatividade no frontend
Docker - containerização do ambiente

Estrutura do projeto

app/
  api/ # rotas da API
  models/ # modelos do banco de dados
  scrapers/ # lógica de scraping
  services/ # regras de negócio e processamento
  workers/ # tarefas assíncronas
  templates/ # template HTML

Objetivo do projeto

Este projeto foi criado como forma de estudar e praticar:

pipelines de ingestão de dados
scraping configurável
processamento assícrono com Celery
arquitetura de workers
organização de sistemas backend em Python

Status do projeto

Em andamento...

Licença

Este projeto está sob a licença MIT

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
app		app
docker		docker
docs		docs
.dockerignore		.dockerignore
.env-example		.env-example
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
celerybeat-schedule		celerybeat-schedule
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Data Pipeline

Funcionalidades

Arquitetura

Fluxo de funcionamento:

Tecnologias utilizadas

Estrutura do projeto

Objetivo do projeto

Status do projeto

Licença

About

Uh oh!

Releases 1

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Web Data Pipeline

Funcionalidades

Arquitetura

Fluxo de funcionamento:

Tecnologias utilizadas

Estrutura do projeto

Objetivo do projeto

Status do projeto

Licença

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages