python之屏幕抓取

时间：2018-09-25 15:16:12 阅读：331 评论：0 收藏：0 [点我收藏+]

Tidy 和 HTML 解析

Beautiful Soup

屏幕抓取：是通过程序下载网页并从中提取信息的过程。

简单来见：下载数据并对其进行分析

思路：可使用urllib来获取网页的HTML代码，再使用正则表达式从中提取信息。

例如：假设要从python Job Board（http://python.org/jobs）提取招聘单位的名称和网站。

通过查看该网站的源代码，可发现类似于下面的链接中找到名称和URL：

<a href="/jobs/1970/">Python Engineer</a>

如下：简单的屏幕抓取程序

from urllib.request import urlopen
import re
p = re.compile(‘<a href="(/jobs/\\d+)/">(.*?)</a>‘)
text = urlopen(‘http://python.org/jobs‘).read().decode()
for url,name in p.findall(text):
    print(‘{}({})‘.format(name,url))

待补充～

python之屏幕抓取

原文：https://www.cnblogs.com/FlameLuo/p/9699444.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)