hotfix: OCR 처리 최적화

dohy-eon · dohy-eon · commit 470db47062ea · 2025-12-05T15:56:47.000+09:00
diff --git a/src/main/java/com/bigpicture/moonrabbit/domain/fine/service/FineTuningService.java b/src/main/java/com/bigpicture/moonrabbit/domain/fine/service/FineTuningService.java
@@ -1,7 +1,6 @@
 package com.bigpicture.moonrabbit.domain.fine.service;
 
 import lombok.extern.slf4j.Slf4j;
-import org.springframework.core.io.ByteArrayResource;
 import org.springframework.core.io.FileSystemResource;
 import org.springframework.http.MediaType;
 import org.springframework.stereotype.Service;
@@ -12,7 +11,6 @@
 import org.springframework.web.reactive.function.client.WebClientResponseException;
 
 import java.io.File;
-import java.nio.file.Files;
 import java.util.Map;
 
 @Service
@@ -52,17 +50,8 @@ public String startFineTuningWithBaseModel(String jsonlPath, String baseModel) {
             // Step 1: Upload JSONL file
             MultiValueMap<String, Object> multipartBody = new LinkedMultiValueMap<>();
 
-            // [수정된 로직 시작: ByteArrayResource를 사용하여 filename 명시]
-            // 1. 파일 내용을 byte 배열로 읽기 (IOException 발생 가능)
-            byte[] fileContent = Files.readAllBytes(jsonlFile.toPath());
-
-            // 2. ByteArrayResource를 생성하고, getFilename()을 오버라이드하여 파일 이름(.jsonl)을 강제 주입
-            ByteArrayResource resource = new ByteArrayResource(fileContent) {
-                @Override
-                public String getFilename() {
-                    return jsonlFile.getName(); // "fine_dataset_....jsonl" 파일명 사용
-                }
-            };
+            // FileSystemResource를 사용하여 스트리밍 방식으로 전송 (메모리 효율성 향상)
+            FileSystemResource resource = new FileSystemResource(jsonlFile);
 
             multipartBody.add("file", resource);
             multipartBody.add("purpose", "fine-tune");
diff --git a/src/main/java/com/bigpicture/moonrabbit/domain/ocr/service/OcrPdfProcessor.java b/src/main/java/com/bigpicture/moonrabbit/domain/ocr/service/OcrPdfProcessor.java
@@ -55,12 +55,16 @@ public String extractTextFromPdf(File pdfFile) {
             for (int page = 0; page < totalPages; page++) {
                 long pageStart = System.currentTimeMillis();
 
-                BufferedImage image = renderer.renderImageWithDPI(page, 300);
+                BufferedImage image = renderer.renderImageWithDPI(page, 150); // DPI 300 → 150으로 최적화 (필요시 72로 변경 가능)
                 Tesseract t = borrowTesseract();
                 try {
                     String text = t.doOCR(image);
                     result.append("\n--- Page ").append(page + 1).append(" ---\n").append(text);
                 } finally {
+                    // 명시적 메모리 해제
+                    if (image != null) {
+                        image.flush();
+                    }
                     returnTesseract(t);
                 }
 
@@ -85,7 +89,7 @@ public String extractPageText(File pdfFile, int pageIndex) throws Exception {
         long start = System.currentTimeMillis();
         try (PDDocument document = PDDocument.load(pdfFile)) {
             PDFRenderer renderer = new PDFRenderer(document);
-            BufferedImage image = renderer.renderImageWithDPI(pageIndex, 300);
+            BufferedImage image = renderer.renderImageWithDPI(pageIndex, 150); // DPI 300 → 150으로 최적화 (필요시 72로 변경 가능)
 
             Tesseract t = borrowTesseract();
             try {
@@ -94,6 +98,10 @@ public String extractPageText(File pdfFile, int pageIndex) throws Exception {
                 System.out.println("[DEBUG] Single page OCR completed (" + (end - start) + "ms)");
                 return text;
             } finally {
+                // 명시적 메모리 해제
+                if (image != null) {
+                    image.flush();
+                }
                 returnTesseract(t);
             }
         }