Fixed bug where importing data with missing page data caused a crash

Balearica · Balearica · commit 8b0bc85f6a39 · 2026-03-21T10:59:08.000-07:00
diff --git a/js/import/import.js b/js/import/import.js
@@ -23,7 +23,7 @@ import { calcSuppFontInfo } from '../fontSupp.js';
 import { gs } from '../generalWorkerMain.js';
 import { imageUtils, ImageWrapper } from '../objects/imageObjects.js';
 import { addCircularRefsDataTables, LayoutDataTablePage, LayoutPage } from '../objects/layoutObjects.js';
-import { addCircularRefsOcr, updateOcrFormat } from '../objects/ocrObjects.js';
+import { OcrPage, addCircularRefsOcr, updateOcrFormat } from '../objects/ocrObjects.js';
 import { PageMetrics } from '../objects/pageMetricsObjects.js';
 import { checkCharWarn, convertOCR } from '../recognizeConvert.js';
 import { importImageFileToBase64 } from '../utils/imageUtils.js';
@@ -199,10 +199,11 @@ const restoreSessionFromFile = async (scribeFile) => {
   ocrAll.active = ocrAll[oemName];
 
   for (let i = 0; i < ocrAll[oemName].length; i++) {
-    inputData.xmlMode[i] = true;
-    if (ocrAll[oemName][i].dims.height && ocrAll[oemName][i].dims.width) {
-      pageMetricsAll[i] = new PageMetrics(ocrAll[oemName][i].dims);
+    if (!ocrAll[oemName][i]) {
+      ocrAll[oemName][i] = new OcrPage(i, { height: 1920, width: 1080 });
     }
+    inputData.xmlMode[i] = true;
+    pageMetricsAll[i] = new PageMetrics(ocrAll[oemName][i].dims);
     pageMetricsAll[i].angle = ocrAll[oemName][i].angle;
   }
 };
diff --git a/js/objects/ocrObjects.js b/js/objects/ocrObjects.js
@@ -868,6 +868,7 @@ export const removeCircularRefsOcr = (pages, options = {}) => {
   const { includeText = false } = options;
   const pagesClone = structuredClone(pages);
   pagesClone.forEach((page) => {
+    if (!page) return;
     // Add page-level text if requested (must be done before modifying lines)
     if (includeText) {
       // @ts-ignore
@@ -937,6 +938,7 @@ export const removeCircularRefsOcr = (pages, options = {}) => {
  */
 export const addCircularRefsOcr = (pages) => {
   pages.forEach((page) => {
+    if (!page) return;
     // Remove text property if present (added during export with includeText option)
     // @ts-ignore
     delete page.text;
@@ -1019,6 +1021,7 @@ export const addCircularRefsOcr = (pages) => {
  */
 export const updateOcrFormat = (pages) => {
   pages.forEach((page) => {
+    if (!page) return;
     page.lines.forEach((line) => {
       if (!line.debug) {
         line.debug = new LineDebugInfo();
diff --git a/js/recognizeConvert.js b/js/recognizeConvert.js
@@ -13,6 +13,7 @@ import { calcCharMetricsFromPages } from './fontStatistics.js';
 import { gs } from './generalWorkerMain.js';
 import { ImageWrapper } from './objects/imageObjects.js';
 import { LayoutDataTablePage, LayoutPage } from './objects/layoutObjects.js';
+import { OcrPage } from './objects/ocrObjects.js';
 import { PageMetrics } from './objects/pageMetricsObjects.js';
 import { clearObjectProperties } from './utils/miscUtils.js';
 
@@ -659,6 +660,7 @@ async function recognizeCustomModel(options) {
       const nativeN = await ImageCache.getNative(n);
       if (!nativeN) {
         opt.warningHandler(`No image found for page ${n}, skipping.`);
+        ocrAll[engineName][n] = new OcrPage(n, pageMetricsAll[n].dims);
         return;
       }
 
@@ -715,6 +717,7 @@ async function recognizeCustomModel(options) {
         const errMsg = result.error ? result.error.message : 'Unknown error';
         failedPages.push(n);
         opt.warningHandler(`Recognition failed for page ${n}: ${errMsg}`);
+        ocrAll[engineName][n] = new OcrPage(n, pageMetricsAll[n].dims);
         consecutiveFailures++;
         lastErrorMessage = errMsg;
         if (consecutiveFailures >= maxConsecutiveFailures) {
diff --git a/tests/module/exportMarkdown.spec.js b/tests/module/exportMarkdown.spec.js
@@ -79,8 +79,7 @@ describe('Check markdown table export.', function () {
   this.timeout(10000);
 
   it('Should export tables as markdown pipe tables', async () => {
-    await scribe.importFiles([`${ASSETS_PATH_KARMA}/border_patrol_tables.pdf`,
-      `${ASSETS_PATH_KARMA}/border_patrol_tables.abbyy.xml`]);
+    await scribe.importFiles([`${ASSETS_PATH_KARMA}/border_patrol_tables.abbyy.xml`]);
 
     const exportedMd = await scribe.exportData('md', { pageArr: [2] });
 
diff --git a/tests/module/importAbbyy.spec.js b/tests/module/importAbbyy.spec.js
@@ -191,8 +191,7 @@ describe('Check Abbyy XML table import.', function () {
   this.timeout(20000);
 
   it('Should import Abbyy XML with PDF document', async () => {
-    await scribe.importFiles([`${ASSETS_PATH_KARMA}/border_patrol_tables.pdf`,
-      `${ASSETS_PATH_KARMA}/border_patrol_tables.abbyy.xml`]);
+    await scribe.importFiles([`${ASSETS_PATH_KARMA}/border_patrol_tables.abbyy.xml`]);
 
     assert.isTrue(scribe.data.ocr.active[0].lines.length > 0);
   }).timeout(20000);
diff --git a/tests/module/importAwsTextract.spec.js b/tests/module/importAwsTextract.spec.js
@@ -110,6 +110,44 @@ describe('Check AWS Textract JSON import correctly handles angle brackets.', fun
   });
 }).timeout(120000);
 
+describe('Check scribe JSON import handles null OCR pages (blank pages).', function () {
+  this.timeout(10000);
+
+  it('Should import scribe JSON that has null entries in the OCR array without crashing', async () => {
+    // Import a known-good scribe file, export it, then inject null pages to simulate blank pages.
+    await scribe.importFiles([`${ASSETS_PATH_KARMA}/E.D.Mich._2_12-cv-13821-AC-DRG_1_0.pdf`]);
+
+    scribe.opt.compressScribe = false;
+    const scribeStr = await scribe.exportData('scribe');
+    const scribeObj = JSON.parse(scribeStr);
+
+    // Inject null at the beginning and end to simulate blank/cover pages.
+    scribeObj.ocr.unshift(null);
+    scribeObj.ocr.push(null);
+
+    const modified = JSON.stringify(scribeObj);
+    const encoder = new TextEncoder();
+    const buffer = encoder.encode(modified).buffer;
+
+    await scribe.terminate();
+    await scribe.importFiles({ scribeFiles: [buffer] });
+
+    // Page 0 was null in the input, so it should be an empty placeholder page with default dims.
+    assert.strictEqual(scribe.data.ocr.active[0].lines.length, 0);
+    assert.strictEqual(scribe.data.ocr.active[0].dims.width, 1080);
+    assert.strictEqual(scribe.data.ocr.active[0].dims.height, 1920);
+    // Page 1 should be the original first page with real OCR data.
+    assert.isTrue(scribe.data.ocr.active[1].lines.length > 0);
+    assert.strictEqual(scribe.data.ocr.active[1].lines[0].words[0].text, 'UNITED');
+  }).timeout(10000);
+
+  after(async () => {
+    scribe.opt.compressScribe = true;
+    await scribe.clear();
+    await scribe.terminate();
+  });
+}).timeout(120000);
+
 describe('Check AWS Textract properly splits unicode superscript footnotes.', function () {
   this.timeout(10000);