首页 > Web开发 > 详细

php爬虫原型

时间:2018-06-06 10:35:53      阅读:168      评论:0      收藏:0      [点我收藏+]
/* @desc:爬虫原型 @author [Lee] <[<complet@163.com>]> @param url 初始url @param callback 处理业务的回调函数 @param 挖掘url的深度 默认3 */ function crawl($url,$callback,$depth = 3){ if($depth > 0){ $depth--; $http = new http($url); $content = $http->get()->exec(); // 业务处理开始 call_user_func($callback,$content); // 业务处理结束 $preg = ‘/<[a|A].*?href=[\‘\"]{0,1}([^>\‘\"\ ]*).*?>/‘; $bool = preg_match_all($preg,$content,$res); $urls = array(); if($bool){ $urls = $res[1]; } $info = parse_url($url); $scheme = $info["scheme"]?:‘http‘; $user = $info["user"]; $pass = $info["pass"]; $host = $info["host"]; $port = $info["port"]; $path = $info["path"]; $url = $scheme . ‘://‘; if ($user && $pass) { $url .= $user . ":" . $pass . "@"; } $url .= $host; if ($port) { $url .= ":" . $port; } $url .= $path; if (is_array($urls)) { foreach ($urls as $u) { if (preg_match(‘/^http/‘, $u)) { $returl = $u; } else { $real = $url . ‘/‘ . $u; $returl = $real; } crawl($returl,$callback,$depth); } } } }

php爬虫原型

原文:http://blog.51cto.com/12173069/2125359

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!