Skip to content

Latest commit

 

History

History
13 lines (10 loc) · 450 Bytes

File metadata and controls

13 lines (10 loc) · 450 Bytes

古籍汉字切分算法研究

将古籍扫描图片上的汉字切分出来的算法研究

具体分为

  • 已知对应文字稿的切分
  • 未知对应文字稿的切分
  • 图片和文字稿已知,但图片和文字稿的对应关系未知三种情况。

测试数据集

有两个测试数据集

  • guji_examples 《高丽大藏经》第1册 100页 图文对应情况较好。
  • guji_B14_P218-P229 《高丽大藏经》 第14册 11页