pdfminer批量处理PDF文件

时间：2019-11-28 11:23:42 阅读：75 评论：0 收藏：0 [点我收藏+]

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowed
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams, LTTextLineHorizontal, LTFigure, LTRect, LTLine, LTCurve
import os


class PdfForString(object):
    def __init__(self):
        self.pdf_list = os.listdir(r‘E:\StockExchange\PDF‘)  # 获取PDF文件夹中所有pdf名称
        #  存储文档资源
        self.src = PDFResourceManager()
        #  设备对象
        self.device = PDFPageAggregator(self.src, laparams=LAParams())
        # 解释器对象
        self.inter = PDFPageInterpreter(self.src, self.device)

    # 生成pdf路径
    def for_string(self):
        for pdf in self.pdf_list:
            pdf_path = os.path.join(os.path.dirname(os.path.dirname(__file__)) + ‘/PDF‘, pdf)
            yield pdf_path

    # 解析pdf
    def pdf_analysis(self):
        for path in self.for_string():
            pd_file = open(path, ‘rb‘)
            parser = PDFParser(pd_file)  # pdf文件解析对象

            #  pdf文档对象
            document = PDFDocument()
            parser.set_document(document)
            document.set_parser(parser)
            pages = document.get_pages()
            yield pages

    # 获取PDF信息
    def get_string(self):
        for pages in self.pdf_analysis():
            for page in pages:
                self.inter.process_page(page)
                layout = self.device.get_result()
                for x in layout:
                    if isinstance(x, LTTextBoxHorizontal):
                        print(str(x.get_text()))
            # break


PdfForString().get_string()

pdfminer批量处理PDF文件

原文：https://www.cnblogs.com/wangtaobiu/p/11947133.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)