成功!记Tesseract一次完整成功的训练过程

时间：2020-10-12 20:13:36 阅读：200 评论：0 收藏：0 [点我收藏+]

目标达成：

　　1.楷体中文常用3500字

　　2.Times New Roman 英文+数字

　　之前训练的困难点是准备的图片不符合要求，对于其训练的过程和特点不甚理解，在准备字体图片上止步不前。偶然的kexue上网，ytb上的jTessBoxEditor.jar使用，可以通过tiff/box Generator这个选项生成符合预期的tiff文件，顺带着还会生成box文件，大大降低了难度。

技术分享图片

　　选项中可以调整汉字的大小（tiff图片中文字大小）、字体，generate成功会生成三个文件，font+box+tif。

　　接下来的操作都差不多，命令行，或者这个java工具的Trainer选项应该都能完成目标，暂时没有用过Trainer选项实现。

　　存在的疑惑在于，--psm参数在训练时的影响到底有多大，tran文件最后到底是什么格式生成，后期还需继续研究。

接下来的目标：

　　阅读源码，理解每一步训练操作形成数据交互的过程。

　　理论上应该一个字符对应一条记录或者多条记录，后期的重点在于解析这每一条记录的形成过程。

原文：https://www.cnblogs.com/mracezhang/p/13803964.html

踩

(0)

评论一句话评论（0）

分享档案

更多>