[Enrichment] Image description 기능 고도화

### 프로젝트

_No response_

### 대상 페이지

-

### 상세 설명

## Background
- Docling 자체 image description 기능이 존재하지만 VLM input에는 이미지와 프롬프트만 들어감.
- 이로 인해 문서에서 앞뒤 문맥을 모르는 상태로 image description을 뽑음.
- BMT와 테스트페이지 오픈 시에 Genos 엔지니어 및 AI 엔지니어 분들이 프롬프트와 VLM 모델만 수정해서는 결과 성능을 올리기 어렵다는 목소리가 있었음.
- 문맥파악을 위해서는 가장 좋은 방법은 이미지 앞 뒤 text를 같이 넣어주는 것이 필요하다고 얘기됨.

## Todo
- Docling의 image description관련 내부 패키지 코드 혹은 facade의 enrichment 코드에서 이미지와 함께 앞 뒤 텍스트에 대한 내용을 같이 넣어주는 방법이 존재함.
- **미래에 docling rebase가능성도 존재하기에 docling image description 기능을 사용하기 보다는 facade에서 enrichment option을 하나 추가하는 게 더 좋을 것이라 생각함.**
- 문맥을 위해 텍스트를 어떻게 얼마나 프롬프트에 입력하냐에 대한 실험 및 구체화 필요

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Enrichment] Image description 기능 고도화 #96

프로젝트

대상 페이지

상세 설명

Background

Todo

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[Enrichment] Image description 기능 고도화 #96

Description

프로젝트

대상 페이지

상세 설명

Background

Todo

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions