Merge pull request #3 from flycatch/dev

jithinvv4 · web-flow · commit 268e4c0b9f8e · 2025-02-10T12:41:59.000+05:30
[ Dev ] : extract text from scanned pdf
diff --git a/Dockerfile b/Dockerfile
@@ -4,6 +4,13 @@ FROM python:3.10-slim
 # Set the working directory in the container
 WORKDIR /app
 
+# Install system dependencies
+RUN apt-get update && apt-get install -y \
+    poppler-utils \
+    tesseract-ocr \
+    libtesseract-dev \
+    && rm -rf /var/lib/apt/lists/*
+
 # Copy the current directory contents into the container at /app
 COPY . /app
 
diff --git a/app/pdf_processor.py b/app/pdf_processor.py
@@ -1,18 +1,27 @@
-import fitz
+import fitz  # PyMuPDF
 import re
 import os
+import pytesseract
+from pdf2image import convert_from_path
+from PIL import Image
+
 
 def extract_text_from_pdf(file_path, pattern):
     try:
         pdf_file = fitz.open(file_path)
         trans_numbers = []
         page_numbers = []
-        # Create regex dynamically based on the pattern
-        regex = rf'{re.escape(pattern)}\s+(\d+)'
 
-        for number, page in enumerate(pdf_file):
-            data = page.get_text("text")
-            matches = re.findall(regex, data)
+        # Convert each PDF page to an image
+        images = convert_from_path(file_path, dpi=300)  # High DPI for better OCR
+
+        for number, image in enumerate(images):
+            # Convert image to text using Tesseract OCR
+            text = pytesseract.image_to_string(image)
+
+            # Search for pattern in extracted text
+            regex = rf'{re.escape(pattern)}\s+(\d+)'
+            matches = re.findall(regex, text)
 
             if matches:
                 trans_numbers.append(matches[0])
diff --git a/requirements.txt b/requirements.txt
@@ -1,2 +1,5 @@
 Flask==3.1.0
+pdf2image==1.17.0
+pillow==11.1.0
 PyMuPDF==1.25.2
+pytesseract==0.3.13