Skip to content

tesseract图像识别训练 #15

@DanceSmile

Description

@DanceSmile
  1. 选择并且合并样本图片,生成合并tif
    将需要训练的样本合并成一个文件,用于训练

  2. 生成Box File文件
    根据合并的样本文件进行初步识别,生存对应的box文件
    它是一个文本文件,列出了训练图像中的字符,按顺序,一个字符一行,包含字符边界框的坐标。

tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
  1. 文字校正
    手动对 box File 文件的的识别结果进行调整

  2. 定义字体特征文件
    该文件的作用是当字体被识别时,提供字体风格(style)信息
    在目标文件夹内生成一个名为font_properties的文本文件,内容为

font 0 0 0 0 0 

【语法】:fontname italic bold fixed serif fraktur

fontname为字体名称,italic为斜体,bold为黑体字,fixed为默认字体,serif为衬线字体,fraktur德文黑字体,1和0代表有和无,精细区分时可使用

  1. 聚类

该命令输出tr文件,它包含了每个字符的特征

tesseract num.font.exp0.tif num.font.exp0 nobatch box.train 

Tesseract需要知道能够输出的字符
利用unicharset_extractor工具,可以从box文件得到unicharset文件

unicharset_extractor  num.font.exp0.box 

输出inttemp(形状原型)unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable(每个字符的期望特征数)三个文件

mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 

normproto(规范化的敏感原型)

cntraining num.font.exp0.tr 
  1. 组合
    将生成的所有文件(shapetable[形状聚类创建主形状表]、normproto、inttemp、pffmtable等)加上lang.前缀
combine_tessdata num. 
  1. 使用训练后的字体

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions