Skip to content

ViniciusAmador/seq_pipe

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Pipeline de Acesso ao Ecossistema GenBank

Em andamento está um pipeline end-to-end orientado ao processamento de sequências primárias, estruturado para acesso automatizado ao ecossistema do GenBank. O fluxo foi inicialmente concebido com base nas ferramentas esearch, efetch e xtract, pertencentes ao conjunto EDirect do protocolo Entrez do NCBI, permitindo consultas programáticas, recuperação de assemblies e extração estruturada de metadados diretamente das bases do NCBI.

A arquitetura utiliza consultas taxonômicas automatizadas, parsing de registros e organização de dados genômicos para posterior integração em análises de genômica comparativa, controle de qualidade e mineração de dados biológicos.

Tecnologias e Componentes

  • esearch
  • efetch
  • xtract
  • EDirect
  • Entrez / E-utilities
  • GenBank
  • NCBI Datasets CLI
  • Python
  • JSONL parsing
  • Processamento automatizado de FASTA
  • Extração de metadata de assemblies

Objetivos do Pipeline

  • Automatizar aquisição de assemblies genômicos
  • Organizar metadados estruturados
  • Realizar controle de qualidade inicial
  • Extrair sequências primárias
  • Integrar dados para análises comparativas
  • Suportar workflows reprodutíveis em bioinformática

Referências

About

Download de bancos de dados e pré-tratamento por deduplicação.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages