首页 > 其他 > 详细

OCR 文字识别

时间:2021-04-12 12:15:21      阅读:30      评论:0      收藏:0      [点我收藏+]

安装OCR 开源库 Tesseract

  • Tesseract 相比百度等在线库,最大优势是可以在本地运行
  • 在这个页面下载最新的binary ,习惯用最新的安装包,
    tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
    技术分享图片
  • 双击安装 并勾选需要的语言支持包,主要是一些训练好的类似eng.traineddata的文件
  • 如果再安装过程中报错,不用管它,点OK即可,因为网络连接问题会导致语言包安装不到位
  • 可以在如下页面下载语言包

https://github.com/tesseract-ocr/tessdata/ -->
https://codeload.github.com/tesseract-ocr/tessdata/zip/refs/heads/master

  • 将语言包中的.traineddata放入tesseract安装目录的tessdata目录下
    技术分享图片

测试Tesseract

  • 显示版本

"C:\Program Files\Tesseract-OCR\tesseract.exe" -v
tesseract v5.0.0-alpha.20201127
leptonica-1.78.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.3.2 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5
Found libcurl/7.59.0 OpenSSL/1.0.2o (WinSSL) zlib/1.2.11 WinIDN libssh2/1.7.0 nghttp2/1.31.0

  • 显示已经支持的语言

"C:\Program Files\Tesseract-OCR\tesseract.exe" --list-langs
List of available languages (2):
eng
osd

命令行参数参考

https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc

测试一张简单图

  • 原图: 图上右键存图 保存为03.png
    技术分享图片
  • 结果
    技术分享图片

"C:\Program Files\Tesseract-OCR\tesseract.exe" 03.png 03 --dpi 300
Tesseract Open Source OCR Engine v5.0.0-alpha.20201127 with Leptonica

OCR 文字识别

原文:https://www.cnblogs.com/boyang987/p/14646945.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!