首页 > Web开发 > 详细

php+curl解决爬虫绝对路径及相对路径的问题。

时间:2020-12-01 18:07:47      阅读:33      评论:0      收藏:0      [点我收藏+]

打算做个模板爬虫,爬啊爬。

 

爬虫爬过来的代码不显示调用图片,css,js的绝对路径,引用到本地格式就错乱了。

为了解决这个问题,特地请教大师并优化代码,代码如下。

 

<?php

$rpp = ‘<sdf src="bbbs/sdd" <link rel="stylesheet" type="text/css" href="/public/ui/v2/static/css/basic.css?1594346753">‘; //源代码,有加斜杠的,有没加斜杠的
$furl = "http://www.baidu.com"; /暂定为目标url


function relative_to_absolute($content, $feed_url) {
    preg_match(‘/(http|https|ftp):\/\//‘, $feed_url, $protocol);
    $server_url = preg_replace("/(http|https|ftp|news):\/\//", "", $feed_url);
    $server_url = preg_replace("/\/.*/", "", $server_url);

    if ($server_url == ‘‘) {
        return $content;
    }

    if (isset($protocol[0])) {
        $new_content = preg_replace(‘/href="/‘, ‘href="‘.$protocol[0].$server_url.‘/‘, $content);
        $new_content = preg_replace(‘/href="\//‘, ‘href="‘.$protocol[0].$server_url.‘/‘, $new_content);
        $new_content = preg_replace(‘/src="/‘, ‘src="‘.$protocol[0].$server_url.‘/‘, $new_content);
        $new_content = preg_replace(‘/src="\//‘, ‘src="‘.$protocol[0].$server_url.‘/‘, $new_content);
    } else {
        $new_content = $content;
    }
    return $new_content;
}

print_r(relative_to_absolute($rpp,$furl));

?>

  输出结果如下

<sdf src="http://www.baidu.com/bbbs/sdd" <link rel="stylesheet" type="text/css" href="http://www.baidu.com//public/ui/v2/static/css/basic.css?1594346753">

  希望能解决你的问题。

php+curl解决爬虫绝对路径及相对路径的问题。

原文:https://www.cnblogs.com/bdua/p/14069047.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!