pdfminer获取整页文本

时间：2018-07-12 10:14:26 阅读：159 评论：0 收藏：0 [点我收藏+]

 1 #! python2
 2 # coding: utf-8
 3 
 4 import sys
 5 from cStringIO import StringIO
 6 from pdfminer import pdfinterp
 7 from pdfminer import pdfpage
 8 from pdfminer import converter
 9 from pdfminer import layout
10 
11 with file(path, ‘rb‘) as fp:
12     rsrcmgr = pdfinterp.PDFResourceManager()
13     retstr = StringIO()
14     codec = ‘utf-8‘
15     laparams = layout.LAParams()
16     device = converter.TextConverter(
17         rsrcmgr, retstr, codec=codec, laparams=laparams)
18     # Create a PDF interpreter object.
19     interpreter = pdfinterp.PDFPageInterpreter(rsrcmgr, device)
20     # Process each page contained in the document.
21     pages = pdfpage.PDFPage.get_pages(fp)
22     for page in pages:
23         interpreter.process_page(page)
24         data = retstr.getvalue()

pdfminer获取整页文本

原文：https://www.cnblogs.com/Greenseer/p/9297885.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)