首页 > 其他 > 详细

爬虫遇到的坑🕳

时间:2020-01-26 19:05:52      阅读:101      评论:0      收藏:0      [点我收藏+]

爬取猫眼电影排行,无法正常显示中文,出现乱码

         发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过编码->解码,

import requests
url=https://www.baidu.com/
html=requests.get(url).text.encode(iso-8859-1).decode(utf-8) 
print(html)

          可以解决乱码问题。但是不能指定headers,否则还是会出现乱码

      • 爬取猫眼电影时必须指定headers,否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
    • 发现
      • 爬虫时:有时出现乱码,有时正常显示中文。
      • 不使用爬虫,人工复制链接打开网站时时:(与爬虫时的两种情况对应,也出现两种情况)先弹出验证界面之后才显示猫眼电影网站;直接显示猫眼电影排行网站
    •  最终解决方法:出现乱码时,人工复制链接打开网站,此时出现了验证界面,完成验证界面,此时显示出了要爬取的网站。之后,运行.py文件,不再出现乱码。
    • 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性,以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确,但却不能正常匹配

 

爬虫遇到的坑🕳

原文:https://www.cnblogs.com/fran-py-/p/12234588.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!