首页 > 其他 > 详细

爬取CVPR 2018过程中遇到的坑

时间:2018-09-23 17:31:43      阅读:145      评论:0      收藏:0      [点我收藏+]

爬取 CVPR 2018 过程中遇到的坑

使用语言及模块

  • 语言: Python 3.6.6
  • 模块: re requests lxml bs4

过程

一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,
中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。
爬到一半出错了,看了一下是这篇出问题了。
好吧,那就f12看看什么情况。
技术分享图片
emmmmm....
跟之前的差不多啊...
直接复制下来匹配试试
技术分享图片
。。。都能匹配到啊。。。
技术分享图片
直到....emmmm....看看不print出来的是啥玩意...
技术分享图片
\xa0 ??? 大哥你谁啊,怎么跑进来了呢???

\xa0

\xa0是什么?
技术分享图片

最后

最后修改了一下正则...
嗯..解决了

爬取CVPR 2018过程中遇到的坑

原文:https://www.cnblogs.com/darkexisted/p/9692894.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!