-
选择并且合并样本图片,生成合并tif
将需要训练的样本合并成一个文件,用于训练
-
生成Box File文件
根据合并的样本文件进行初步识别,生存对应的box文件
它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
-
文字校正
手动对 box File 文件的的识别结果进行调整
-
定义字体特征文件
该文件的作用是当字体被识别时,提供字体风格(style)信息
在目标文件夹内生成一个名为font_properties的文本文件,内容为
【语法】:fontname italic bold fixed serif fraktur
fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用
- 聚类
该命令输出tr文件,它包含了每个字符的特征
tesseract num.font.exp0.tif num.font.exp0 nobatch box.train
Tesseract需要知道能够输出的字符
利用unicharset_extractor工具,可以从box文件得到unicharset文件
unicharset_extractor num.font.exp0.box
输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
normproto(规范化的敏感原型)
cntraining num.font.exp0.tr
- 组合
将生成的所有文件(shapetable[形状聚类创建主形状表]、normproto、inttemp、pffmtable等)加上lang.前缀
- 使用训练后的字体
选择并且合并样本图片,生成合并tif
将需要训练的样本合并成一个文件,用于训练
生成Box File文件
根据合并的样本文件进行初步识别,生存对应的box文件
它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。
文字校正
手动对 box File 文件的的识别结果进行调整
定义字体特征文件
该文件的作用是当字体被识别时,提供字体风格(style)信息
在目标文件夹内生成一个名为font_properties的文本文件,内容为
【语法】:fontname italic bold fixed serif fraktur
fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用
该命令输出tr文件,它包含了每个字符的特征
Tesseract需要知道能够输出的字符
利用unicharset_extractor工具,可以从box文件得到unicharset文件
输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件
normproto(规范化的敏感原型)
将生成的所有文件(shapetable[形状聚类创建主形状表]、normproto、inttemp、pffmtable等)加上lang.前缀