首页 > 编程语言 > 详细

python操作PDF------提取PDF文字内容

时间:2020-09-04 20:59:48      阅读:73      评论:0      收藏:0      [点我收藏+]
# 安装  pip install pdfplumber
import pdfplumber

# 利用pdfplumber提取文字
with pdfplumber.open(基于python的网页爬虫.pdf) as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())


# 利用pdfplumber单个提取表格
with pdfplumber.open(基于python的网页爬虫.pdf) as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_table())


# 利用pdfplumber多个提取表格
with pdfplumber.open(基于python的网页爬虫.pdf) as pdf:
    first_page = pdf.pages[0]
    for table in first_page.extract_tables():
        print(table)


# 利用pdfplumber单个提取财报  table_settings: 提取表格是的设定
with pdfplumber.open(基于python的网页爬虫.pdf) as pdf:
    first_page = pdf.pages[0]
    table = first_page.extract_tables(
        table_settings={
            vertical_strategy: text,
            horizontal_strategy: text
        }
    )
    new_table = []
    for row in table:
        new_row = []
        # 如果不是空行
        if not ‘‘.join([str(item) for item in row]) == ‘‘:
            # 合并单词
            new_row.append(‘‘.join([str(item) if item else ‘‘ for item in row[:3]]))
            new_row += row[3:]
            new_table.append(new_row)
    print(new_table)

 

python操作PDF------提取PDF文字内容

原文:https://www.cnblogs.com/nanamiyi/p/13615665.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!