tesseract图像识别训练

1. 选择并且合并样本图片，生成合并tif
将需要训练的样本合并成一个文件，用于训练

2. 生成Box File文件
根据合并的样本文件进行初步识别，生存对应的box文件
它是一个文本文件，列出了训练图像中的字符，按顺序，一个字符一行，包含字符边界框的坐标。
```
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
```
3. 文字校正
手动对 box File 文件的的识别结果进行调整

4. 定义字体特征文件
该文件的作用是当字体被识别时，提供字体风格（style）信息
在目标文件夹内生成一个名为font_properties的文本文件，内容为
```
font 0 0 0 0 0 
```
【语法】：fontname italic bold fixed serif fraktur  

fontname为字体名称，italic为斜体，bold为黑体字，fixed为默认字体，serif为衬线字体，fraktur德文黑字体，1和0代表有和无，精细区分时可使用

5. 聚类

该命令输出tr文件，它包含了每个字符的特征
```
tesseract num.font.exp0.tif num.font.exp0 nobatch box.train 
``` 
Tesseract需要知道能够输出的字符
利用unicharset_extractor工具，可以从box文件得到unicharset文件
```
unicharset_extractor  num.font.exp0.box 
```
输出inttemp（形状原型）unicharset(能够输出的字符) shapetable(形状聚类创建主形状表) 和pffmtable（每个字符的期望特征数）三个文件
```
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 
```
normproto（规范化的敏感原型）
```
cntraining num.font.exp0.tr 
```

6. 组合
将生成的所有文件（shapetable[形状聚类创建主形状表]、normproto、inttemp、pffmtable等）加上lang.前缀

```
combine_tessdata num. 
```

7. 使用训练后的字体

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tesseract图像识别训练 #15

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

tesseract图像识别训练 #15

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions