首页 > 系统服务 > 详细

linux 下 pdf 转换成txt

时间:2016-09-01 16:34:25      阅读:267      评论:0      收藏:0      [点我收藏+]

pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转;如果是扫描的,就比较麻烦需要用到OCR技术(文字识别)。


在linux下:

依赖包  poppler-utils  tesseract tesseract-ocr-chi-sim 

情况一:pdftotxt 命令 可以转换非扫描版,免费又方便,只是格式、字体都没了

情况二:pdftoppm + tesseracr 可以实现扫面版的转换


情况一操作 pdftotxt  name.pdf   new.txt

情况二操作 第一步:pdftoppm name.pdf new   会生成new-1.ppm new-2.ppm 每页一个;

第二步: tesseracr new-1.ppm  result    会生成result.txt;可通过写脚本逐个转换,最后合到一个txt里


我的脚本如下:

第一步:pdftoppm test.pdf b -r 450 -freetype yes   ;经过我测试 当DPI为450是识别效果较好,ppm文件也不是很大,单个在60M左右

第二步:脚本

for i in `ls b-*.ppm`  #注意路径
do
n=1
    while [ $n -eq 1 ]   #监测任务
    do
    num=`ps aux|grep tesser|wc -l`  #并发任务不超过四个,可自行修改,注意内存和CPU
        if  [ $num -le 4 ]
        then
            tesseract $i $i -l chi_sim &   #任务  -l chi_sim是指定内容是中文,会生成很多txt,最后不要忘了合并。
            n=0
        else
            sleep 3
        fi
    done
done




linux 下 pdf 转换成txt

原文:http://lejie.blog.51cto.com/3080804/1845176

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!