首页 > Web开发 > 详细

网页内容抓取

时间:2015-11-16 19:01:19      阅读:268      评论:0      收藏:0      [点我收藏+]

Hi  ALL:

Index.php:

//查询文本框:
<div class="input-group">
  <input type="text" class="form-control" placeholder="Enter your url here..." id="urlinput">
  <span class="input-group-addon disabled" id="btn-submit" onclick="vali();">View</span>
</div>

//点击View触发的function
 <script type="text/javascript">
    function vali () {
       var urlinput = document.getElementById(‘urlinput‘).value;
       if((urlinput.substr(0,5) == ‘http:‘) || (urlinput.substr(0,5) == ‘https‘))  {
       }else{
          urlinput = ‘http://‘ + urlinput;
        };
        var frame_url = document.getElementById(‘frameCont‘);
        frame_url.setAttribute(‘src‘, ‘webfonts/real.php?url=‘+urlinput);
        frame_url.setAttribute(‘scrolling‘, ‘yes‘);
        }
</script>

//frame显示的区域
<div class="frame-wrap">
  <iframe src="webfonts/dummy.php" width="320" height="480" frameborder="0" id="frameCont" scrolling="no"></iframe>
</div>

 

webfonts/real.php(由于有的website不允许frame,所以我们以游客身份访问website):

<?php
    $url = $_REQUEST[‘url‘]; //接收index.php传递过来的url
?>
<!DOCTYPE html>
<html>
<head>
    <title></title>
    <base href="<?php echo $url ;?>" /> //由于有的website的图片是相对路径,所以要给他们定义一个website的绝对路径。
</head>
<body>
</body>
</html>
<?php
    function getFileContents($url, $data = ‘‘) // 模拟提交数据函数
    {
        $curl = curl_init(); // 启动一个CURL会话
        curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址
        curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查
        @curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在
        curl_setopt($curl, CURLOPT_USERAGENT, isset($_SERVER[‘HTTP_USER_AGENT‘]) ? $_SERVER[‘HTTP_USER_AGENT‘] : ‘Mozilla/5.0 (Windows NT 6.1; WOW64)‘); // 模拟用户使用的浏览器
        curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转
        curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer
        if (!empty($data))
        {
            curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求
            curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包
        }
        curl_setopt($curl, CURLOPT_TIMEOUT, 300); // 设置超时限制防止死循环
        curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
        $tmpInfo = curl_exec($curl); // 执行操作
        if (curl_errno($curl))
        {
            $tmpInfo = FALSE;
        }
        curl_close($curl); // 关闭CURL会话
        return $tmpInfo; // 返回数据
    }
    echo getFileContents($url);
?>

  

 

网页内容抓取

原文:http://www.cnblogs.com/mvpchenjian/p/4969638.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!