### 프로젝트 _No response_ ### 대상 페이지 - ### 상세 설명 ## Background - Docling 자체 image description 기능이 존재하지만 VLM input에는 이미지와 프롬프트만 들어감. - 이로 인해 문서에서 앞뒤 문맥을 모르는 상태로 image description을 뽑음. - BMT와 테스트페이지 오픈 시에 Genos 엔지니어 및 AI 엔지니어 분들이 프롬프트와 VLM 모델만 수정해서는 결과 성능을 올리기 어렵다는 목소리가 있었음. - 문맥파악을 위해서는 가장 좋은 방법은 이미지 앞 뒤 text를 같이 넣어주는 것이 필요하다고 얘기됨. ## Todo - Docling의 image description관련 내부 패키지 코드 혹은 facade의 enrichment 코드에서 이미지와 함께 앞 뒤 텍스트에 대한 내용을 같이 넣어주는 방법이 존재함. - **미래에 docling rebase가능성도 존재하기에 docling image description 기능을 사용하기 보다는 facade에서 enrichment option을 하나 추가하는 게 더 좋을 것이라 생각함.** - 문맥을 위해 텍스트를 어떻게 얼마나 프롬프트에 입력하냐에 대한 실험 및 구체화 필요
프로젝트
No response
대상 페이지
상세 설명
Background
Todo