Skip to content

[TSR] VLM 활용을 위한 Table 이미지 저장 및 메타데이터 설계 #130

@yspaik

Description

@yspaik

프로젝트

중부발전, 가스공사, 한국해양 BMT

대상 페이지

BMT 최종 벡터 DB(ID: 1571)

상세 설명

복잡 Table 에 대해 “검색은 청크 기반 / 답변은 표 이미지 기반” 지원을 위한 Table 이미지 + 메타데이터 구조 도입

배경

현재는:

  • VLM이 추출한 마크다운 테이블로 기존 청크 내 표 영역을 대체.
  • 전수 조사 후 이슈가 있는 표는 HWPX 표 파싱 결과로 다시 대체하는 임시 방편을 사용.
  • 마크다운 테이블은 필수적으로 헤더 컬럼이 있어야 하고, 다양한 표 양식을 모두 수용하기 어려움.
  • 복잡한 병합/레이아웃을 가진 표는 “텍스트 형태로 완전하게 정규화”하는 데 모델적/구조적 한계 존재.

이에 따라,

  • “검색은 청크 기반 / 답변은 표 이미지 기반”
    전략을 UI/파이프라인 차원에서 지원할 필요성이 제기됨.

요구사항

  • Table 을 텍스트로만 보지 않고, 이미지(시각적 표) 로도 함께 보관할 수 있는 구조 도입.
  • 추후 VLM 혹은 별도 Table-VLM 이 해당 이미지와 함께 사용될 수 있도록 메타데이터 설계.
    Facade/전처리기 옵션에서:
  • “표를 이미지로 저장할지 여부”
  • “이미지 기반 표 답변 전략을 사용할지 여부”
    를 선택할 수 있도록 확장.

문서 파싱 과정에서:

  • Table bounding box를 추출 (Doc Parser 레이아웃 분석 결과 활용).
  • 해당 영역을 잘라 별도 이미지(PNG/JPEG 등)로 저장.
    저장된 이미지에 대해:
  • 문서 ID, 페이지 번호, 테이블 인덱스, bounding box 좌표 등 메타데이터를 함께 기록할때 table 을 picture 와 동일하게 대응

검색 시:
여전히 텍스트 청크 기반으로 검색 수행.

답변 생성 시:
해당 청크가 “표 관련 질의”로 판단되면, 연결된 table_image_url 을 사용해

  • VLM 호출 시 이미지 입력으로 함께 전달할 수 있는 구조 지원.

Facade 옵션화
프로젝트별로:

  • “표를 텍스트로만 쓸 것인지”,
  • “텍스트 + 이미지 하이브리드로 쓸 것인지”
    선택 가능하도록 설계.

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request
No fields configured for Feature.

Projects

No projects

Relationships

None yet

Development

No branches or pull requests

Issue actions