首页 > Web开发 > 详细

爬虫处理网站的bug---小于号未转化为实体符

时间:2019-02-13 21:51:33      阅读:228      评论:0      收藏:0      [点我收藏+]

1.发现BUG

  爬取 chinadrugtrials 详情页的公示的试验信息时候, 发现程序在某些地方跑断掉了,如下:

  技术分享图片

 

 经排查发现,原来这是网页的bug-----极少数详情页面的某些文字中的小于号,未转化为实体符,连接上后面的 ul 或者a(大写也是), 成了类似标签的东西,

导致bs4 解析时候把它当成了标签的起始尖括号,自动补全了

 

BUG简化如下:

技术分享图片

输出:

技术分享图片

 

 

2.解决思路:

  因为要用bs4结构化解析页面,不能用正则统一替换小于号(正常标签也会改变),而且情况比较少,所以可以在用 Beautifulsoup解析前,将未转化的小于号转化为实体符 < 

代码更改如下:

技术分享图片

 

3.HTML 中有用的字符实体

技术分享图片

 

 

 

爬虫处理网站的bug---小于号未转化为实体符

原文:https://www.cnblogs.com/liangmingshen/p/10371904.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!