首页 > 编程语言 > 详细

Python 处理 PDF

时间:2021-06-02 19:01:17      阅读:14      评论:0      收藏:0      [点我收藏+]

 

 

from pdf2image import convert_from_path

def get_page_image(  # pdf 按页切成图片
        hash_value: str
) -> Dict[int, str]:
    pdf_path = os.path.join(config.PDF_DIR, f{hash_value}.pdf).replace(\\, /)
    img_pages = convert_from_path(pdf_path)
    res = {}
    for page, img in enumerate(img_pages):
        arr = np.array(img)
        basename = f{hash_value}_{page:03d}.jpg
        image_path = os.path.join(config.PDF_IMAGE_DIR, basename)
        img.save(image_path)
        res[page] = image_path
    return res

 

使用命令行从 PDF 中提取文本

pdfpath = os.path.join(config.PDF_DIR, paper_id + ".pdf")
xmlpath = os.path.join(config.PDF_XML_DIR, paper_id + "_{}_pdfminer.xml".format(page))
if not os.path.exists(xmlpath):
    os.system("pdf2txt.py -o {} -p {} -t xml {}".format(xmlpath, page + 1, pdfpath))

https://pdfminersix.readthedocs.io/en/latest/tutorial/commandline.html

Python 处理 PDF

原文:https://www.cnblogs.com/Mint-diary/p/14841847.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!