首页 > Web开发 > 详细

scrapt中的数据提取,采用js2xml库

时间:2018-10-21 11:43:10      阅读:264      评论:0      收藏:0      [点我收藏+]

这个一个爬去美团的例子,应为数据都是在script中,小心封ip,尽量少运行。

先导入库几个库

import requests
from bs4 import BeautifulSoup
from lxml import etree
import js2xml

发送请求,获取到script里面的数据

url = "https://sz.meituan.com/meishi/"
headers = {}
response = requests.get(url, headers = headers)
content = response.text
bs = BeautifulSoup(content, "lxml")
l = bs.select("body script")[13].string  #获取到body中第十三个script里面的数据

然后在利用js2xml方法格式化之后再利用xpath来提取数据

src_text = js2xml.parse(l, encoding=utf-8, debug=False)
print(type(src_text))
src_tree = js2xml.pretty_print(src_text)
print(src_tree)
selector = etree.HTML(src_tree)
content = selector.xpath(//property[@name="poiId"]/number/@value)
name = selector.xpath(//property[@name="title"]/string/text())

就ok了

 

scrapt中的数据提取,采用js2xml库

原文:https://www.cnblogs.com/zengsf/p/9824377.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!