🧾 Name Finder

Ferramenta em Python para validar automaticamente se nomes de pessoas presentes em uma base de referência (.txt) aparecem em arquivos PDF (digitais ou escaneados).

O projeto combina extração de texto nativa (PDF digital) com OCR via IA (EasyOCR), utilizando CPU ou GPU de forma automática.

🚀 Funcionalidades

📂 Detecção automática da pasta com PDFs
📄 Leitura de PDFs digitais (PyMuPDF)
🤖 OCR inteligente para PDFs escaneados (EasyOCR)
🧠 Uso automático de GPU (CUDA) quando disponível
🌍 Suporte a idioma PT / EN (detectado pelo sistema)
🗂️ Organização automática dos arquivos em:
- NAMES_FIND/ → PDFs com nome encontrado
- NAMES_NOT_FIND/ → PDFs sem nome encontrado
📊 Relatório final com métricas de processamento

📁 Estrutura do Projeto

NAME_FINDER/
├── documents/            # Pasta com PDFs (entrada)
├── NAMES_FIND/           # PDFs com nome encontrado (gerado)
├── NAMES_NOT_FIND/       # PDFs sem nome encontrado (gerado)
├── info.txt              # Base de nomes (1 nome por linha)
├── script.py             # Script principal
├── requirements.txt      # Dependências
├── LICENSE
└── README.md

📌 Pré-requisitos

Python 3.9+
CUDA (opcional, para uso de GPU)

📦 Instalação

pip install -r requirements.txt

⚠️ Em ambiente com GPU, certifique-se de que o PyTorch com CUDA está corretamente instalado.

📝 Arquivo de Referência (`.txt`)

Deve estar na raiz do projeto

O sistema filtra automaticamente:

Nomes corporativos (LTDA, S/A, EPP, etc.)
Entradas inválidas ou curtas

▶️ Execução

python script.py

O sistema irá:

Detectar idioma e hardware
Carregar a base de nomes
Processar todos os PDFs
Separar os arquivos por resultado
Exibir relatório final

📊 Relatório Gerado

Total de nomes válidos carregados
Tempo total de execução
Tempo médio por arquivo
Quantidade de PDFs encontrados / não encontrados
Hardware utilizado (CPU ou GPU)

🧠 Tecnologias Utilizadas

Python
PyMuPDF (fitz)
EasyOCR
OpenCV
NumPy
PyTorch

⚠️ Observações

O OCR analisa apenas as 2 primeiras páginas de cada PDF (otimização de performance)
Quanto melhor a qualidade do PDF escaneado, maior a taxa de acerto

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧾 Name Finder

🚀 Funcionalidades

📁 Estrutura do Projeto

📌 Pré-requisitos

📦 Instalação

📝 Arquivo de Referência (`.txt`)

▶️ Execução

📊 Relatório Gerado

🧠 Tecnologias Utilizadas

⚠️ Observações

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
NAMES_FIND		NAMES_FIND
NAMES_NOT_FIND		NAMES_NOT_FIND
documents		documents
.gitattributes		.gitattributes
LICENSE		LICENSE
README.md		README.md
info.txt		info.txt
requirements.txt		requirements.txt
script.py		script.py

License

diegtj2/name_finder

Folders and files

Latest commit

History

Repository files navigation

🧾 Name Finder

🚀 Funcionalidades

📁 Estrutura do Projeto

📌 Pré-requisitos

📦 Instalação

📝 Arquivo de Referência (.txt)

▶️ Execução

📊 Relatório Gerado

🧠 Tecnologias Utilizadas

⚠️ Observações

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

📝 Arquivo de Referência (`.txt`)

Packages