首页 > 其他 > 详细

学习使用Et采集的过程和分析

时间:2014-10-29 01:34:38      阅读:324      评论:0      收藏:0      [点我收藏+]

bubuko.com,布布扣

ET采集主要逻辑是做好这三个步骤,然后开始工作

采集配置

基本设置一般不用修改

列表设置:列表网址,可能有些人不知道什么是列表网址,就是你所要采集网址放在一个页面就是列表网址,比如我们常说的栏目,一个论坛的版块:

bubuko.com,布布扣

列表页肯定不是一页,一般是有规律的,就需要设置成自动列表,具体规则参考ET

列表区域选择:一个网页大的去了,为了快速找到你想要采集的页面,需要制定区域,

bubuko.com,布布扣

bubuko.com,布布扣

一定要找唯一属性的,一般是找id 之类的,中间是你区域内容

列表分析规则:对列表进行分析,用标记替换找到我们需要的文章标题,文章网址,文章缩略图,常见的是包含a标签的,必须有单独标记

bubuko.com,布布扣

文章网址合成:根据列表分析得到的网址,合成你所要采集的页面的网址

 

学习使用Et采集的过程和分析

原文:http://www.cnblogs.com/geek12/p/4058298.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!