Add journal info extractor CLI tool for DOCX to XLSX conversion #1055

Rossi-Luciano · 2025-12-02T14:07:56Z

Descrição do PR:

O que esse PR faz?

Este PR adiciona uma nova ferramenta CLI ao packtools para extrair informações estruturadas de arquivos DOCX de periódicos científicos e gerar relatórios em formato XLSX. A ferramenta processa documentos multilíngues (português, espanhol e inglês) contendo informações sobre periódicos científicos e extrai duas categorias principais de dados:

Seções do documento (About the Journal, Editorial Policy, Bibliographic Record, etc.) com normalização para inglês
Corpo editorial completo com metadados dos membros (nomes, afiliações, cidades, estados, países, roles, ORCID, Lattes, emails)

Onde a revisão poderia começar?

Iniciar a revisão pelo arquivo principal:

packtools/journal_info_extractor.py

Como este poderia ser testado manualmente?

Instalar dependências:

pip install python-docx>=0.8.11 openpyxl>=3.0.10

Reinstalar o packtools:

cd packtools
pip install -e .

Preparar arquivos de teste (formato esperado: YYYYMMDD_ACRONYM_*_LANGUAGE_ok.docx)
Executar o extrator:

journal-extractor /path/to/docx_files --output /path/to/output --loglevel DEBUG

Verificar os arquivos gerados:
- TIMESTAMP-sections.xlsx: deve conter todas as seções normalizadas
- TIMESTAMP-editorial_board.xlsx: deve conter membros com roles corretos
Validar que membros do corpo editorial têm roles específicos (ex: "Associate Editors: Theoretical Physics...") e não roles genéricos incorretos
Verificar campos obrigatórios na planilha: title_journal, issn_scielo, affiliation, given_names, last_name, country_code, state_name, city_name, std_role

Algum cenário de contexto que queira dar?

N.A.

Screenshots

N.A.

Quais são tickets relevantes?

N.A.

Referências

Estrutura do projeto packtools: packtools/data_checker.py, packtools/htmlgenerator.py
Biblioteca python-docx: https://python-docx.readthedocs.io/
Biblioteca openpyxl: https://openpyxl.readthedocs.io/
Padrões de metadados SciELO para periódicos científicos
Arquivos de exemplo: 20251010_RBEF_Total_Página_Informativa_inglês_ok.docx, 20251010_RBEF_Total_Página_Informativa_português_ok.docx

Nota: Este desenvolvimento utilizou Claude (Anthropic) como ferramenta auxiliar para análise, implementação e debug. Todo código foi revisado, testado e validado pelo desenvolvedor.

Copilot

Pull request overview

This PR introduces a comprehensive CLI tool for extracting structured journal information from multilingual DOCX files and generating XLSX reports. The tool processes scientific journal documents in Portuguese, Spanish, and English, normalizing section names to English and extracting both document sections and editorial board member details.

Key Changes

New journal-extractor CLI command for DOCX to XLSX conversion
Multi-stage extraction pipeline: metadata parsing, section extraction, editorial board parsing, and XLSX report generation
Support for complex data structures including multilingual section mapping and detailed member metadata (names, affiliations, ORCID, Lattes, emails)

Reviewed changes

Copilot reviewed 2 out of 3 changed files in this pull request and generated 21 comments.

File	Description
setup.py	Adds new CLI entry point `journal-extractor` to console_scripts
requirements.txt	Adds duplicate python-docx dependency (already specified on line 16)
packtools/journal_info_extractor.py	Complete implementation of journal info extraction tool with section/editorial board extractors, XLSX generators, and CLI interface (1238 lines)

💡 Add Copilot custom instructions for smarter, more guided reviews. Learn how to get started.

Copilot · 2025-12-02T14:34:01Z