Skip to content

Extractor all#38

Open
henrySilverIX wants to merge 8 commits intodevelopfrom
extractor-all
Open

Extractor all#38
henrySilverIX wants to merge 8 commits intodevelopfrom
extractor-all

Conversation

@henrySilverIX
Copy link
Contributor

Adição e teste para extração de informações de PDF

Tipo de Pull Request:

[x] Nova Funcionalidade (Feature)

Referência da Task

Jira/Ticket: CDB-74

Descrição das Alterações - Changelog

  • Utilizei o Embeddings para extração de informações dos PDF
  • A partir disso, filtrei informações relevantes do fornecedor e o PN
  • Para o fornecedor, eu extrai o nome, endereço e telefone
  • Ainda falta extrair o código ERP

Instruções de Teste

Passos para testar:

  1. Os arquivos estão presentes no caminho app/libs/extract_pdf/extract_new/
  2. A partir dessa pasta rode o seguinte comando para ver a extração dos PNS
poetry run python -m app.libs.extract_pdf.extract_new.extractor_pn
  1. E para ver a extração das informações do fornecedor, rode o seguinte comando:
poetry run python -m app.libs.extract_pdf.extract_new.extractor_supplier

Resultado esperado:

  • Como resultado, você verá no terminal os PNs e informações do fornecedor. Esse foi o resultado dos PNs extraídos do PDF chamado INVOICE TECSYS.PDF:
=== PART NUMBERS EXTRAÍDOS ===
- 55-12-3797-8800
- 74406042010
- MGRM-WLF-3C-BLK-120
- 614004134726
- 691313510002
- 691351500002
- MA0603CG150J500
- 597-2311-407F
- E30911001D6D
- 597-2401-407F
- E204201727D
- IMX233-OLINUXINO-MAXI
- I.MX233

E para as informações do fornecedor do PDF chamado exemplo_pdf_entrada.pdf, os resultados extraídos foram esses:

=== SUPPLIER INFO EXTRAÍDO DO PDF ===

supplier_name: Company: AVNET ELECTRONIC MARKETING
supplier_address: Adress: 60, S. MCKEMY Zip Code: 00.000-000
supplier_email: None
supplier_phone: 408 8353

Reviewers Recomendados

  1. @Leonardo-dSouza
  2. @YgorPereira
  3. @matheuspires7

Observações

  • Ainda não está completo pois falta colocar a extração do ERP

@YgorPereira
Copy link
Contributor

ta dando erro ao rodar dizendo que não a lib langchain community, e quando o rodo o comando para instalar, diz q ja esta instalado

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants