ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

时间：2018-09-17 16:52:03 阅读：190 评论：0 收藏：0 [点我收藏+]

lxml 的安装（xpath）

pip3 install lxml

可能会缺少以下依赖：

sudo apt-get install -y python3-dev build-e ssential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

基本用法：

from lxml import etree

import requests

html = requests.get(finalURL).content.decode(‘utf-8‘)

dom_tree = etree.HTML(html)

links = dom_tree.xpath("//div/span[@class=‘info-col‘]/a")

Beautiful Soup的安装

pip3 install beautifulsoup4

pyquery的安装

p1p3 install pyquery

tesserocr的安装

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev

接下来再安装tesserocr和pillow 即可，这里直接使用pip 安装：
pip3 install tesserocr pillow

如果想要安装多国语言，还需要安装语言包，官方叫作tessdata

（其下载链接为：https://github.com/tesseract-ocr/tessdata ）。

利用G it 命令将其下载下来并迁移到相关目录即可，不同版本的迁移命令如下所示。
在Ubuntu 、Debian 和Deepin 系统下的迁移命令如下： ”
git clone https://github.com/tesseract-ocr/tessdata.git
sudo mv tessdata/* /usr/share/tesseract-ocr/tessdata

ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr

原文：https://www.cnblogs.com/cml-py/p/9662866.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)