首页 > 编程语言 > 详细

python之屏幕抓取

时间:2018-09-25 15:16:12      阅读:326      评论:0      收藏:0      [点我收藏+]

Tidy 和 HTML 解析

Beautiful Soup

 

  屏幕抓取:是通过程序下载网页并从中提取信息的过程。

  简单来见:下载数据并对其进行分析

  思路:可使用urllib来获取网页的HTML代码,再使用正则表达式从中提取信息。

  例如:假设要从python Job Board(http://python.org/jobs)提取招聘单位的名称和网站。

  通过查看该网站的源代码,可发现类似于下面的链接中找到名称和URL:

<a href="/jobs/1970/">Python Engineer</a>

  如下:简单的屏幕抓取程序

from urllib.request import urlopen
import re
p = re.compile(<a href="(/jobs/\\d+)/">(.*?)</a>)
text = urlopen(http://python.org/jobs).read().decode()
for url,name in p.findall(text):
    print({}({}).format(name,url))

待补充~

python之屏幕抓取

原文:https://www.cnblogs.com/FlameLuo/p/9699444.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!