[ASP.NET]强大的网页处理类NSoup

时间：2014-04-04 23:01:05 阅读：976 评论：0 收藏：0 [点我收藏+]

我们如果在项目中碰到要处理HTML，如果是.NET程序员的话，强烈推荐使用NSoup，不然的话截取字符串是在是太痛苦了。NSoup是一个开源框架，是JSoup的.NET移植版本，使用方法基本一致！NSoup点击下载

获取网页的html代码

处理网页html

[csharp]view plaincopyprint?
<span style="font-family: Arial, Helvetica, sans-serif;">NSoup.Nodes.Document doc = NSoup.NSoupClient.Connect("http://blog.csdn.net/dingxiaowie2013").Get();</span>  

或者是自定义html，生成html页面

[csharp]view plaincopyprint?
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(HtmlString);  

但是很遗憾NSoup默认的是UTF-8，处理中文会有乱码（对于编码是UTF-8自然会正常，但是有些是GB2312的就可能有乱码）

解决NSoup解析HTML乱码的办法

1.下载网页源代码再处理

[csharp]view plaincopyprint?
//下载网页源代码
WebClient webClient = new WebClient();  
string htmlString = Encoding.GetEncoding("utf-8").GetString(webClient.DownloadData("http://www.baidu.com"));  
NSoup.Nodes.Document doc = NSoup.NSoupClient.Parse(htmlString);  

2.获得网页的流

[csharp]view plaincopyprint?
//获得网页流
WebRequest webRequest = WebRequest.Create("http://blog.csdn.net/dingxiaowei2013");  
NSoup.Nodes.Document doc1 = NSoup.NSoupClient.Parse(webRequest.GetResponse().GetResponseStream(), "utf-8");  

效果图

会发现跟百度的源码是一样的

本文出自 “丁小未的专栏” 博客，请务必保留此出处http://dingxiaowei.blog.51cto.com/4561335/1390551

[ASP.NET]强大的网页处理类NSoup,布布扣,bubuko.com

[ASP.NET]强大的网页处理类NSoup

原文：http://dingxiaowei.blog.51cto.com/4561335/1390551

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)