首页 > 其他 > 详细

数据采集

时间:2016-08-23 20:21:07      阅读:196      评论:0      收藏:0      [点我收藏+]

关于数据采集  个人觉得主要分为两部分

1:获取网页HTML

在获取网页信息的时候 要注意访问的方式  应该尽量去模仿浏览器  让网站认为我们是用的浏览器登录  否则会有很大可能被视为“非法访问”

如 request.Referer 表头  request.UserAgent 等去模仿浏览器

2:对HTML进行处理(自己用的是 HtmlAgilityPack  在NuGet  中搜索就可以)

 

HtmlAgilityPack  主要分一下几部:

HtmlAgilityPack.HtmlDocument  htmlDoc

通过htmlDoc 加载 上面获取的HTML  htmlDoc.LoadHtml()

htmlDoc     里面的一些方法 可以供获取一个 HtmlNode 的对象 

例:

 HtmlNode sex = htmlDoc.GetElementbyId("zidingyi2");

HtmlNode  的InnerText InnerHTML  分别可以获取 id为zidingyi2 的文本内容和HTML 代码

一般都得到了HtmlNode 对象  后就基本已经完成了  随后就是对你获取的InnerText\ InnerHTML 进行操作就可以了

   

 

数据采集

原文:http://www.cnblogs.com/Allen-chau/p/5800530.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!