首页 > 其他 > 详细

爬虫遇到的坑🕳

时间：2020-01-26 19:05:52 阅读：107 评论：0 收藏：0 [点我收藏+]

爬取猫眼电影排行，无法正常显示中文，出现乱码

response.text响应总是乱码　
- 找了许多种方法，python爬虫解决gbk乱码问题、python爬虫的中文乱码问题？ - 知乎

　　　　　发现，在爬取百度[https://www.baidu.com/]时出现乱码，通过编码->解码，

import requests
url=‘https://www.baidu.com/‘
html=requests.get(url).text.encode(‘iso-8859-1‘).decode(‘utf-8‘) 
print(html)

　　　　　可以解决乱码问题。但是：不能指定headers，否则还是会出现乱码

- - 爬取猫眼电影时必须指定headers，否则会出现403报错。上述方法不能解决爬取时出现乱码的问题。
- 发现：
  - 爬虫时：有时出现乱码，有时正常显示中文。
  - 不使用爬虫，人工复制链接打开网站时时：（与爬虫时的两种情况对应，也出现两种情况）先弹出验证界面之后才显示猫眼电影网站；直接显示猫眼电影排行网站
- 最终解决方法：出现乱码时，人工复制链接打开网站，此时出现了验证界面，完成验证界面，此时显示出了要爬取的网站。之后，运行.py文件，不再出现乱码。
- 上述以百度为例的乱码报错问题可能具有某种程度上的普遍性，以猫眼电影排行为例的乱码报错问题应该是个例问题。

正则表达式正确，但却不能正常匹配

爬虫遇到的坑🕳

原文：https://www.cnblogs.com/fran-py-/p/12234588.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

最新文章

更多>

教程昨日排行

更多>

友情链接

汇智网 PHP教程插件网

关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com

© 2014 bubuko.com 版权所有

打开技术之扣，分享程序人生！