Webmagic爬取网页内容时的“空格”变为“？”的问题

时间：2020-03-13 14:08:57 阅读：70 评论：0 收藏：0 [点我收藏+]

一、问题如下

　　1、要爬取的新闻信息里出现“&ensp;”、“ ”等网页里的空白字符，爬取之后存入数据库时就变为“？”字样。

　　技术分享图片

二、分析过程

　　1、使用Webmagic爬取内容后，出现了？的字样，尝试使用replace("？","")的方式将？替换为空字符串，但是调试之后并没有解决问题。

　　2、因此，内容中的？并不是平时的问号，而是由于编码问题导致的乱码。

　　问题所在：编码乱码

三、问题解决

　　1、对字符串进行处理

news_content=new String(news_content.getBytes(),"GBK").replace(‘?‘, ‘ ‘).replace(‘ ‘, ‘ ‘);

　　其中，replace(‘ ‘, ‘ ‘)这部分，前面的引号里是全角空格。

原文：https://www.cnblogs.com/guobin-/p/12485804.html

踩

(0)

评论一句话评论（0）

分享档案

更多>