首页 > 其他 > 详细

pytesseract相关

时间:2021-04-02 21:55:08      阅读:27      评论:0      收藏:0      [点我收藏+]

 

1.tesseract-ocr是什么:

tesseract-ocr,简称tesseract,windows下载地址https://github.com/UB-Mannheim/tesseract/wiki

是google开发的一款基于ocr识别的开源工具

可以单独运行:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

也可以作为其他语言的类库被调用(即本文重点pytesseract)

tesseract由C++语言编写,目前最新的的内部实现增添了lstm神经网络

默认安装语言是英文,如果有额外的语言需求可从https://github.com/tesseract-ocr/tessdata下载指定语言包(例如chi_tra.traineddata

然后把对应语言包放到tesseract安装目录例如D:/tesseract-OCR/的子文件夹tessdata中即可获得对应的语言支持(如本例为繁体中文)

2.pytesseract:

pytesseract是python的第三方脚本库,内部实现实际上是tesseract

安装方法为pip/conda install pytesseract

使用方法:import pytesseract

注意:首先确保tesseract在环境变量中:

pytesseract.pytesseract.tesseract_cmd = r‘<full_path_to_your_tesseract_executable>‘
例如我的tesseract安装目录在D:/tesseract-OCR/
就要事先运行
tesseract_cmd = r‘D:/tesseract-OCR/‘

pytesseract主要方法如下:

1)image_to_string(Image):将图像识别为字符串

2)get_languages(Image):列出可用语言

3)image_to_boxes(Image):获得边界框的估计值

4)image_to_data(Image):获取详细数据,包括框,置信度,行号和页码

5)image_to_osd(Image):获取有关方向和脚本检测的信息

6)image_to_pdf_or_hocr(Image):将图片转换成pdf / hocr(通过指定extension)

更多详细用法可参阅https://pypi.org/project/pytesseract/

3.pytesseract源码分析

4.如何通过图像预处理优化pytesseract

https://tesseract-ocr.github.io/tessdoc/ImproveQuality

https://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy

 

pytesseract相关

原文:https://www.cnblogs.com/J14nWe1/p/14372683.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!