首页 > 其他 > 详细

成功!记Tesseract一次完整成功的训练过程

时间:2020-10-12 20:13:36      阅读:193      评论:0      收藏:0      [点我收藏+]

目标达成:

  1.楷体中文常用3500字

  2.Times New Roman 英文+数字

  之前训练的困难点是准备的图片不符合要求,对于其训练的过程和特点不甚理解,在准备字体图片上止步不前。偶然的kexue上网,ytb上的jTessBoxEditor.jar使用,可以通过tiff/box Generator这个选项生成符合预期的tiff文件,顺带着还会生成box文件,大大降低了难度。

技术分享图片

 

  选项中可以调整汉字的大小(tiff图片中文字大小)、字体,generate成功会生成三个文件,font+box+tif。

  接下来的操作都差不多,命令行,或者这个java工具的Trainer选项应该都能完成目标,暂时没有用过Trainer选项实现。

  存在的疑惑在于,--psm参数在训练时的影响到底有多大,tran文件最后到底是什么格式生成,后期还需继续研究。

接下来的目标:

  阅读源码,理解每一步训练操作形成数据交互的过程。

  理论上应该一个字符对应一条记录或者多条记录,后期的重点在于解析这每一条记录的形成过程。

 

成功!记Tesseract一次完整成功的训练过程

原文:https://www.cnblogs.com/mracezhang/p/13803964.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!