13 lines (10 loc) · 450 Bytes

古籍汉字切分算法研究

将古籍扫描图片上的汉字切分出来的算法研究

具体分为

已知对应文字稿的切分
未知对应文字稿的切分
图片和文字稿已知，但图片和文字稿的对应关系未知三种情况。

测试数据集

有两个测试数据集

guji_examples 《高丽大藏经》第1册 100页图文对应情况较好。
guji_B14_P218-P229 《高丽大藏经》第14册 11页