数据采集

时间：2016-08-23 20:21:07 阅读：197 评论：0 收藏：0 [点我收藏+]

关于数据采集个人觉得主要分为两部分

1：获取网页HTML

在获取网页信息的时候要注意访问的方式应该尽量去模仿浏览器让网站认为我们是用的浏览器登录否则会有很大可能被视为“非法访问”

如 request.Referer 表头 request.UserAgent 等去模仿浏览器

2：对HTML进行处理（自己用的是 HtmlAgilityPack 在NuGet 中搜索就可以）

HtmlAgilityPack 主要分一下几部：

HtmlAgilityPack.HtmlDocument htmlDoc

通过htmlDoc 加载上面获取的HTML htmlDoc.LoadHtml（）

htmlDoc 里面的一些方法可以供获取一个 HtmlNode 的对象

例：

HtmlNode sex = htmlDoc.GetElementbyId("zidingyi2");

HtmlNode 的InnerText InnerHTML 分别可以获取 id为zidingyi2 的文本内容和HTML 代码

一般都得到了HtmlNode 对象后就基本已经完成了随后就是对你获取的InnerText\ InnerHTML 进行操作就可以了

原文：http://www.cnblogs.com/Allen-chau/p/5800530.html

踩

(0)

评论一句话评论（0）

分享档案

更多>